Estatísticas e Big Data

1

A Wikipedia e a vinheta do pacote sanduíche R fornecem boas informações sobre as suposições que suportam erros padrão do coeficiente de OLS e os antecedentes matemáticos dos estimadores sanduíche. Ainda não estou claro como o problema da heterocedasticidade dos resíduos é tratado, provavelmente porque eu não entendo completamente a …

20 multiple-regression residuals heteroscedasticity robust-standard-error

3

Teste de separabilidade linear

Existe uma maneira de testar a separabilidade linear de um conjunto de dados de duas classes em altas dimensões? Meus vetores de recursos têm 40 anos. Eu sei que sempre posso executar experimentos de regressão logística e determinar a taxa de hitrato versus falso alarme para concluir se as duas …

20 machine-learning classification

3

Conexão entre a métrica de Fisher e a entropia relativa

Alguém pode provar a seguinte conexão entre a métrica de informações de Fisher e a entropia relativa (ou divergência de KL) de maneira rigorosa e puramente matemática? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) onde a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) …

20 mathematical-statistics kullback-leibler fisher-information

2

Podemos ver a forma da curva normal em algum lugar da natureza?

Não quero saber se alguns fenômenos da natureza têm distribuição normal, mas se em algum lugar podemos ver a forma da curva normal, como podemos ver, por exemplo, na caixa de Galton. Veja esta figura da Wikipedia. Observe que muitas formas ou curvas matemáticas são vistas diretamente na natureza, por …

20 distributions normality-assumption

5

Motivação do algoritmo de maximização de expectativa

Esta pergunta foi migrada do Mathematics Stack Exchange porque pode ser respondida em Validação cruzada. Migrou há 6 anos . Na abordagem do algoritmo EM, usamos a desigualdade de Jensen para chegar alogp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz e defina porθ(k+1)θ(k+1)\theta^{(k+1)}θ( k + …

20 mixture expectation-maximization

1

As variáveis aleatórias estão correlacionadas se, e somente se, suas fileiras estão correlacionadas?

Suponha que X, YX,YX,Y são variáveis aleatórias contínuas com segundos momentos finitos. A versão populacional do coeficiente de correlação de Spearman pode ser definida como o coeficiente produto-momento de Pearson ρ das integrais de probabilidade transforma e , onde são os de e , ou seja,ρsρsρ_sFX( X)FX(X)F_X(X)FY(Y)FY(Y)F_Y(Y)FX, FYFX,FYF_X,F_YXXXYYY ρs( X, …

20 correlation pearson-r spearman-rho

1

libsvm “atingindo o número máximo de iterações” aviso e validação cruzada

Estou usando libsvm no modo C-SVC com um kernel polinomial de grau 2 e sou obrigado a treinar vários SVMs. Cada conjunto de treinamento possui 10 recursos e 5000 vetores. Durante o treinamento, recebo este aviso para a maioria dos SVMs que treino: WARNING: reaching max number of iterations optimization …

20 machine-learning cross-validation svm regularization libsvm

2

Algoritmo EM implementado manualmente

Eu quero implementar o algoritmo EM manualmente e depois compará-lo com os resultados normalmixEMdo mixtoolspacote. Claro, eu ficaria feliz se os dois tivessem os mesmos resultados. A referência principal é Geoffrey McLachlan (2000), Modelos de Mistura Finita . Eu tenho uma densidade de mistura de dois gaussianos, de forma geral, …

20 r expectation-maximization gaussian-mixture

4

Como uma distribuição de Poisson funciona ao modelar dados contínuos e resulta em perda de informações?

Uma colega de trabalho está analisando alguns dados biológicos para sua dissertação com alguma heteroscedasticidade desagradável (figura abaixo). Ela está analisando com um modelo misto, mas ainda está tendo problemas com os resíduos. A transformação de log das variáveis de resposta limpa as coisas e, com base no feedback dessa …

20 mixed-model poisson-distribution biostatistics

1

Por que a poda não é necessária para árvores florestais aleatórias?

Breiman diz que as árvores são cultivadas sem poda. Por quê? Quero dizer que deve haver uma sólida razão pela qual as árvores da floresta aleatória não são podadas. Por outro lado, é considerado muito importante podar uma única árvore de decisão para evitar o excesso de ajuste. Existe alguma …

20 machine-learning

4

Transformação para aumentar a curtose e a distorção do RV normal

Estou trabalhando em um algoritmo que se baseia no fato de que as observações são normalmente distribuídas e eu gostaria de testar a robustez do algoritmo para essa suposição empiricamente.YYY Para fazer isso, eu estava procurando uma sequência de transformações que progressivamente iria perturbar a normalidade da . Por exemplo, …

20 data-transformation normality-assumption skewness kurtosis

2

Quão robusto é o coeficiente de correlação de Pearson com violações da normalidade?

Os dados para certos tipos de variáveis tendem a não ser normais quando medidos em populações específicas (por exemplo, níveis de depressão em uma população de pessoas com Transtorno Depressivo Maior). Dado que Pearson assume normalidade, quão robusta é a estatística do teste em condições de não normalidade? Eu tenho …

20 correlation

3

Quais testes eu uso para confirmar que os resíduos são normalmente distribuídos?

Eu tenho alguns dados que parecem traçar um gráfico de resíduos versus tempo quase normal, mas quero ter certeza. Como posso testar a normalidade dos resíduos de erro?

20 hypothesis-testing normal-distribution assumptions

2

Como posso agrupar meios posteriores e intervalos confiáveis após imputação múltipla?

Eu usei várias imputações para obter vários conjuntos de dados concluídos. Eu usei métodos bayesianos em cada um dos conjuntos de dados concluídos para obter distribuições posteriores para um parâmetro (um efeito aleatório). Como posso combinar / agrupar os resultados para este parâmetro? Mais contexto: Meu modelo é hierárquico no …

20 bayesian mixed-model missing-data

3

Como interpretar os coeficientes de regressão quando a resposta foi transformada pela 4ª raiz?

Estou usando a quarta 1/4transformação de energia root ( ) na minha variável de resposta, como resultado da heterocedasticidade. Mas agora não tenho certeza de como interpretar meus coeficientes de regressão. Suponho que precisaria levar os coeficientes para a quarta potência quando eu retrocedesse (veja abaixo a saída de regressão). …

20 regression data-transformation