Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados


4
Não transitividade da correlação: correlações entre sexo e tamanho do cérebro e entre tamanho do cérebro e QI, mas sem correlação entre gênero e QI
Encontrei uma explicação a seguir em um blog e gostaria de obter mais informações sobre a não transitividade da correlação: Temos os seguintes fatos indiscutíveis: Em média, há uma diferença no volume cerebral entre homens e mulheres Existe uma correlação entre QI e tamanho do cérebro; a correlação é de …


3
GLM binomial negativo vs. transformação de log para dados de contagem: maior taxa de erro do tipo I
Alguns de vocês podem ter lido este belo artigo: O'Hara RB, Kotze DJ (2010) Não transforme dados de contagem de transformações. Métodos em Ecologia e Evolução 1: 118–122. Klick . No meu campo de pesquisa (ecotoxicologia), estamos lidando com experimentos mal replicados e os GLMs não são amplamente utilizados. Então, …

3
Por que as estatísticas bayesianas não são mais populares para controle estatístico de processos?
Meu entendimento do debate bayesiano x frequentista é que as estatísticas freqüentistas: é (ou afirma ser) objetivo ou pelo menos imparcial pesquisadores tão diferentes, usando suposições diferentes ainda podem obter resultados quantitativamente comparáveis enquanto estatísticas bayesianas afirma fazer previsões "melhores" (ou seja, menor perda esperada), porque pode usar conhecimento prévio …



4
Treinando um modelo Markov oculto, várias instâncias de treinamento
Eu implementei um HMM discreto de acordo com este tutorial http://cs229.stanford.edu/section/cs229-hmm.pdf Este tutorial e outros sempre falam em treinar um HMM, dada uma sequência de observação. O que acontece quando tenho várias sequências de treinamento? Devo executá-los seqüencialmente, treinando o modelo após o outro? Outra opção é concatenar as sequências …

2
Por que otimizar uma mistura de gaussiana diretamente computacionalmente difícil?
Considere a probabilidade de log de uma mistura de gaussianos: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Fiquei me perguntando por que era computacionalmente difícil maximizar essa equação diretamente? Eu estava procurando por uma clara intuição sólida sobre por que deveria ser óbvio que é difícil ou talvez …

3
Como calcular os erros padrão dos coeficientes de uma regressão logística
Estou usando o scikit-learn do Python para treinar e testar uma regressão logística. O scikit-learn retorna os coeficientes da regressão das variáveis ​​independentes, mas não fornece os erros padrão dos coeficientes. Eu preciso desses erros padrão para calcular uma estatística de Wald para cada coeficiente e, por sua vez, comparar …





9
Uma galeria de gráficos, diagramas e tipos de plotagem
O que você recomendaria como uma galeria abrangente de técnicas de apresentação de dados? Uma fonte que pode ser usada para se referir enquanto você pensa em melhores maneiras de apresentar seus dados? Identifiquei os seguintes, mas ficarei feliz em poder adicionar o seu: Galerias online: http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.