Estatísticas e Big Data

2

Combinando informações de vários estudos para estimar a média e a variação de dados normalmente distribuídos - abordagens Bayesianas vs meta-analíticas

Revi um conjunto de artigos, cada um relatando a média e o DP observados de uma medida de em sua respectiva amostra de tamanho conhecido, . Quero fazer o melhor palpite possível sobre a provável distribuição da mesma medida em um novo estudo que estou projetando e quanta incerteza existe …

21 bayesian normal-distribution meta-analysis

1

Convertendo (normalizando) valores de probabilidade muito pequenos em probabilidade

Estou escrevendo um algoritmo no qual, dado um modelo, calculo as probabilidades para uma lista de conjuntos de dados e, em seguida, preciso normalizar (com probabilidade) cada uma das probabilidades. Então, algo como [0,00043, 0,00004, 0,00321] pode ser convertido em [0,2, 0,03, 0,77]. Meu problema é que as probabilidades de …

21 probability normalization likelihood c++ arithmetic

2

soma das variáveis aleatórias qui-quadrado não centrais

Preciso encontrar a distribuição da variável aleatória Y=∑i = 1n(XEu)2Y=∑Eu=1n(XEu)2Y=\sum_{i=1}^{n}(X_i)^2 onde XEu∼ N( μEu, σ2Eu)XEu∼N(μEu,σEu2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i) e todos os XEuXEuX_i s são independentes. Eu sei que é possível a primeira a encontrar o produto de todas as funções de geração de momento para a XEuXEuX_i s, e depois transformar de volta …

21 distributions chi-squared random-variable saddlepoint-approximation

3

Como e quando usar o ajuste Bonferroni

Tenho duas perguntas sobre quando usar um ajuste Bonferroni: É apropriado usar um ajuste Bonferroni em todos os casos de testes múltiplos? Se alguém realiza um teste em um conjunto de dados, divide-o em níveis mais refinados (por exemplo, divide os dados por sexo) e realiza os mesmos testes, como …

21 multiple-comparisons bonferroni type-i-and-ii-errors

5

Floresta aleatória vs regressão

Eu executei um modelo de regressão OLS no conjunto de dados com 5 variáveis independentes. As variáveis independentes e a variável dependente são contínuas e estão relacionadas linearmente. OR Square é de cerca de 99,3%. Mas quando eu executo o mesmo usando floresta aleatória em R, meu resultado é '% …

21 r regression random-forest

1

Detectando outliers em dados de contagem

Eu tenho o que eu ingenuamente pensei ser um problema bastante direto que envolve a detecção de valores extremos para muitos conjuntos diferentes de dados de contagem. Especificamente, quero determinar se um ou mais valores em uma série de dados de contagem são maiores ou menores que o esperado em …

21 outliers count-data fitting

3

Ter um conjugado anterior: Propriedade profunda ou acidente matemático?

Algumas distribuições têm anteriores conjugados e outras não. Essa distinção é apenas um acidente? Ou seja, você faz as contas e funciona de uma maneira ou de outra, mas na verdade não diz nada de importante sobre a distribuição, exceto o fato em si? Ou a presença ou ausência de …

21 bayesian mathematical-statistics conjugate-prior

4

Imputação múltipla e seleção de modelo

A imputação múltipla é bastante direta quando você tem um modelo linear a priori que deseja estimar. No entanto, as coisas parecem um pouco mais complicadas quando você realmente deseja fazer uma seleção de modelo (por exemplo, encontre o "melhor" conjunto de variáveis preditoras a partir de um conjunto maior …

21 multiple-regression multiple-imputation

1

Quais são algumas melhorias bem conhecidas sobre os algoritmos MCMC de livros didáticos que as pessoas usam para inferência bayesiana?

Quando estou codificando uma simulação de Monte Carlo para algum problema, e o modelo é bastante simples, utilizo uma amostra básica de Gibbs do livro didático. Quando não é possível usar a amostra de Gibbs, codifico o livro Metropolis-Hastings que aprendi anos atrás. O único pensamento que dou é escolher …

21 bayesian mcmc gibbs metropolis-hastings

5

Fontes para aprender estatística (não apenas em execução) / matemática através de R

Estou interessado em exemplos de fontes (código R, pacotes R, livros, capítulos de livros, artigos, links etc.) para aprender conceitos estatísticos e matemáticos através do R (também pode ser em outras línguas, mas R é o meu sabor favorito). O desafio é que o aprendizado do material depende da programação, …

21 r references mathematical-statistics

5

Como controlar o custo da classificação incorreta em florestas aleatórias?

É possível controlar o custo da classificação incorreta no pacote R randomForest ? No meu próprio trabalho, os falsos negativos (por exemplo, falta de erro de uma pessoa ter uma doença) são muito mais caros do que os falsos positivos. O pacote rpart permite que o usuário controle os custos …

21 r classification random-forest loss-functions metric

3

O que acontece quando você aplica o SVD a um problema de filtragem colaborativa? Qual é a diferença entre os dois?

Na filtragem colaborativa, temos valores que não são preenchidos. Suponha que um usuário não assistiu a um filme, então precisamos colocar um 'na' nele. Se eu for usar um SVD dessa matriz, preciso inserir um número - digamos 0. Agora, se eu fatorar a matriz, tenho um método para encontrar …

21 machine-learning svd recommender-system

4

Por que a solução menos quadrada fornece resultados ruins neste caso?

Há uma imagem na página 204, capítulo 4 de "reconhecimento de padrões e aprendizado de máquina", de Bishop, onde não entendo por que a solução Menos Quadrada fornece resultados ruins aqui: O parágrafo anterior era sobre o fato de que as soluções de mínimos quadrados carecem de robustez para os …

21 classification least-squares

2

Como testar a igualdade de variações com dados circulares

Estou interessado em comparar a quantidade de variabilidade em 8 amostras diferentes (cada uma de uma população diferente). Estou ciente de que isso pode ser feito por vários métodos com dados de razão: teste de igualdade de variância do teste F, teste de Levene etc. No entanto, meus dados são …

21 variance matlab f-test circular-statistics

3

Comparação e contraste, valores de p, níveis de significância e erro do tipo I

Eu queria saber se alguém poderia dar um resumo conciso sobre as definições e usos dos valores-p, nível de significância e erro tipo I. Entendo que os valores de p são definidos como "a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que realmente observamos", …

21 hypothesis-testing probability statistical-significance p-value error