Estatísticas e Big Data

2

Componentes de baixa variação no PCA, eles são realmente apenas ruído? Existe alguma maneira de testar isso?

Estou tentando decidir se um componente de um PCA deve ser mantido ou não. Há um zilhão de critérios com base na magnitude do valor próprio, descrito e comparado, por exemplo, aqui ou aqui . No entanto, na minha aplicação, eu sei que o valor próprio pequeno (est) será pequeno …

18 pca

1

RBF Gaussiano vs. Kernel Gaussiano

Qual é a diferença entre fazer regressão linear com uma função de base radial gaussiana (RBF) e fazer regressão linear com um núcleo gaussiano?

18 regression normal-distribution kernel-trick

1

Como o MANOVA está relacionado ao LDA?

Em vários lugares, vi uma afirmação de que MANOVA é como ANOVA mais análise discriminante linear (LDA), mas sempre foi feita de uma maneira que acenava com as mãos. Eu gostaria de saber o que exatamente isso significa. Encontrei vários livros que descrevem todos os detalhes dos cálculos do MANOVA, …

18 anova discriminant-analysis manova

1

Internet grátis ou recursos para download para cálculos de tamanho de amostra

Hoje eu notei essa questão , e eu pensei que seria útil se tivéssemos um segmento que recursos listados que as pessoas poderiam convenientemente acesso para análise de energia / cálculos do tamanho da amostra, talvez análogo a este tópico: Recursos para aprender R .

18 power-analysis

1

Erros padrão em cluster vs. modelagem multinível?

Percorri vários livros (Raudenbush & Bryk, Snijders & Bosker, Gelman & Hill, etc.) e vários artigos (Gelman, Jusko, Primo & Jacobsmeier, etc.), e ainda não entendi direito as principais diferenças entre o uso de erros padrão em cluster versam a modelagem multinível. Eu entendo as partes que têm a ver …

18 mixed-model multilevel-analysis clustered-standard-errors

3

Qual é a relação entre a probabilidade do perfil e os intervalos de confiança?

Para fazer esse gráfico, gerei amostras aleatórias de tamanho diferente de uma distribuição normal com média = 0 e sd = 1. Os intervalos de confiança foram então calculados usando pontos de corte alfa variando de 0,001 a 0,999 (linha vermelha) com a função t.test (), a probabilidade do perfil …

18 r confidence-interval profile-likelihood

1

Como lidar com um SVM com atributos categóricos

Eu tenho um espaço de 35 dimensões (atributos). Meu problema analítico é de classificação simples. Das 35 dimensões, mais de 25 são categóricas e cada atributo leva mais de 50 tipos de valores. Nesse cenário, a introdução de uma variável dummy também não funcionará para mim. Como posso executar um …

18 categorical-data svm

3

teste t em dados altamente assimétricos

Eu tenho um conjunto de dados com dezenas de milhares de observações de dados de custos médicos. Esses dados são altamente inclinados para a direita e possuem muitos zeros. Parece assim para dois grupos de pessoas (neste caso, duas faixas etárias com> 3000 obs cada): Min. 1st Qu. Median Mean …

18 t-test skewness permutation-test

2

Impacto dos limites da lixeira baseada em dados em um teste de ajuste de qualidade qui-quadrado?

Deixando de lado a questão óbvia da baixa potência do qui-quadrado nesse tipo de circunstância, imagine fazer um teste de qui-quadrado para alguma densidade com parâmetros não especificados, agrupando os dados. Para concretude, digamos uma distribuição exponencial com média desconhecida e um tamanho de amostra de digamos 100. Para obter …

18 chi-squared goodness-of-fit binning

4

Regressão linear com restrição de inclinação

Eu quero executar uma regressão linear muito simples em R. A fórmula é tão simples quanto . No entanto, eu gostaria que a inclinação ( ) estivesse dentro de um intervalo, digamos, entre 1,4 e 1,6.y=ax+by=ax+by = ax + baaa Como isso pode ser feito?

18 r regression constrained-regression

4

Como alguém poderia desenvolver uma regra de parada em uma análise de poder de duas proporções independentes?

Sou desenvolvedor de software que trabalha em sistemas de teste A / B. Não tenho um histórico sólido de estatísticas, mas venho adquirindo conhecimento nos últimos meses. Um cenário de teste típico envolve a comparação de dois URLs em um site. Um visitante visita LANDING_URLe é encaminhado aleatoriamente para um …

18 power-analysis ab-test sequential-analysis optimal-stopping

1

Teorema do limite central e lei de grandes números

Tenho uma pergunta muito iniciante sobre o Teorema do Limite Central (CLT): Estou ciente de que o CLT afirma que uma média de variáveis aleatórias iid é aproximadamente normal distribuída (para , onde é o índice dos summands) ou a variável aleatória padronizada teria uma distribuição normal padrão.n → ∞n→∞n …

18 probability normal-distribution convergence central-limit-theorem law-of-large-numbers

2

Por que a matriz de informações de Fisher é semidefinida positiva?

Seja θ∈Rnθ∈Rn\theta \in R^{n} . A Matriz de Informações de Fisher é definida como: I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Como posso provar que a Matriz de informações de Fisher é semidefinida positiva?

18 inference linear-algebra fisher-information

3

Matriz de variância-covariância em lmer

Eu sei que uma das vantagens dos modelos mistos é que eles permitem especificar a matriz de variância-covariância para os dados (simetria composta, auto-regressiva, não estruturada etc.). No entanto, a lmerfunção em R não permite uma especificação fácil dessa matriz. Alguém sabe qual estrutura lmerusa por padrão e por que …

18 r mixed-model lme4-nlme covariance-matrix

2

Grande desacordo na estimativa de declive quando os grupos são tratados aleatoriamente versus fixados em um modelo misto

Entendo que usamos modelos de efeitos aleatórios (ou efeitos mistos) quando acreditamos que alguns parâmetros do modelo variam aleatoriamente em algum fator de agrupamento. Desejo ajustar um modelo em que a resposta tenha sido normalizada e centralizada (não perfeitamente, mas bastante próxima) em um fator de agrupamento, mas uma variável …

18 mixed-model random-effects-model fixed-effects-model lme4-nlme intraclass-correlation