Estatísticas e Big Data

2

Interpretação de betas quando existem múltiplas variáveis categóricas

Entendo o conceito de que é a média para quando a variável categórica é igual a 0 (ou é o grupo de referência), dando a interpretação final de que o coeficiente de regressão é a diferença na média das duas categorias. Mesmo com> 2 categorias, eu assumiria que cada explica …

18 multiple-regression categorical-data interpretation regression-coefficients contrast

4

Não transitividade da correlação: correlações entre sexo e tamanho do cérebro e entre tamanho do cérebro e QI, mas sem correlação entre gênero e QI

Encontrei uma explicação a seguir em um blog e gostaria de obter mais informações sobre a não transitividade da correlação: Temos os seguintes fatos indiscutíveis: Em média, há uma diferença no volume cerebral entre homens e mulheres Existe uma correlação entre QI e tamanho do cérebro; a correlação é de …

18 correlation categorical-data mean descriptive-statistics neuroscience

3

É errado referir-se aos resultados como sendo "altamente significativos"?

Por que os estatísticos nos desencorajam a nos referir aos resultados como " altamente significativos" quando o valor- está bem abaixo do nível α convencional de 0,05 ?pppαα\alpha0.050.050.05 É realmente errado confiar em um resultado com 99,9% de chance de não ser um erro do tipo I ( ) a …

18 hypothesis-testing statistical-significance p-value terminology

3

GLM binomial negativo vs. transformação de log para dados de contagem: maior taxa de erro do tipo I

Alguns de vocês podem ter lido este belo artigo: O'Hara RB, Kotze DJ (2010) Não transforme dados de contagem de transformações. Métodos em Ecologia e Evolução 1: 118–122. Klick . No meu campo de pesquisa (ecotoxicologia), estamos lidando com experimentos mal replicados e os GLMs não são amplamente utilizados. Então, …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

3

Por que as estatísticas bayesianas não são mais populares para controle estatístico de processos?

Meu entendimento do debate bayesiano x frequentista é que as estatísticas freqüentistas: é (ou afirma ser) objetivo ou pelo menos imparcial pesquisadores tão diferentes, usando suposições diferentes ainda podem obter resultados quantitativamente comparáveis enquanto estatísticas bayesianas afirma fazer previsões "melhores" (ou seja, menor perda esperada), porque pode usar conhecimento prévio …

18 bayesian quality-control

1

Como branquear os dados usando a análise de componentes principais?

Eu quero transformar meus dados XX\mathbf X modo que as variações sejam uma e as covariâncias sejam zero (ou seja, eu quero branquear os dados). Além disso, os meios devem ser zero. Sei que chegarei lá fazendo a padronização Z e a transformação PCA, mas em que ordem devo fazê-las? …

18 pca linear-algebra

1

Quadrado de distribuição normal com variação específica

Qual é a distribuição do quadrado de uma variável aleatória com distribuição normal X2X2X^2 com X∼ N( 0 , σ2/ 4)X∼N(0,σ2/4)X\sim N(0,\sigma^2/4) ? Eu sei que χ2( 1 ) = Z2χ2(1)=Z2\chi^2(1)=Z^2 é um argumento válido para ao quadrado uma distribuição normal padrão , mas e o caso de variação não …

18 distributions normal-distribution

4

Treinando um modelo Markov oculto, várias instâncias de treinamento

Eu implementei um HMM discreto de acordo com este tutorial http://cs229.stanford.edu/section/cs229-hmm.pdf Este tutorial e outros sempre falam em treinar um HMM, dada uma sequência de observação. O que acontece quando tenho várias sequências de treinamento? Devo executá-los seqüencialmente, treinando o modelo após o outro? Outra opção é concatenar as sequências …

18 hidden-markov-model

2

Por que otimizar uma mistura de gaussiana diretamente computacionalmente difícil?

Considere a probabilidade de log de uma mistura de gaussianos: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} Fiquei me perguntando por que era computacionalmente difícil maximizar essa equação diretamente? Eu estava procurando por uma clara intuição sólida sobre por que deveria ser óbvio que é difícil ou talvez …

18 machine-learning gaussian-mixture expectation-maximization

3

Como calcular os erros padrão dos coeficientes de uma regressão logística

Estou usando o scikit-learn do Python para treinar e testar uma regressão logística. O scikit-learn retorna os coeficientes da regressão das variáveis independentes, mas não fornece os erros padrão dos coeficientes. Eu preciso desses erros padrão para calcular uma estatística de Wald para cada coeficiente e, por sua vez, comparar …

18 logistic python standard-error regression-coefficients scikit-learn

9

Pedido de referência: Modelos lineares generalizados

Estou procurando um livro de nível introdutório ao intermediário sobre modelos lineares generalizados. Idealmente, além da teoria por trás dos modelos, eu gostaria que incluísse aplicativos e exemplos em R ou outra linguagem de programação - ouvi dizer que o SAS também é uma escolha popular. Pretendo estudá-lo sozinho e, …

18 self-study generalized-linear-model references

1

Algoritmos de cluster que operam em matrizes de dados esparsas [fechado]

Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico de Validação cruzada. Fechado há 5 anos . Estou tentando compilar uma lista de algoritmos de clustering que são: Implementado em R Opere …

18 r clustering sparse

1

O que exatamente é chamado de "componente principal" no PCA?

Suponhamos que é o vector que maximiza a variância da projecção dos dados com matriz de design .uuuXXX Agora, vi materiais que se referem a como o (primeiro) componente principal dos dados, que também é o vetor próprio com o maior valor próprio.uuu No entanto, também vi que o principal …

18 pca terminology definition

4

Como calcular o número de recursos com base na resolução da imagem?

Acabamos de abordar a Hipótese não linear de redes neurais de Andrew Ng, e tivemos uma pergunta de múltipla escolha para determinar o número de recursos para uma imagem da resolução 100x100 das intensidades de escala de escala . E a resposta foi 50 milhões, x10 755510710710^7 No entanto, anteriormente, …

18 feature-selection image-processing

9

Uma galeria de gráficos, diagramas e tipos de plotagem

O que você recomendaria como uma galeria abrangente de técnicas de apresentação de dados? Uma fonte que pode ser usada para se referir enquanto você pensa em melhores maneiras de apresentar seus dados? Identifiquei os seguintes, mas ficarei feliz em poder adicionar o seu: Galerias online: http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 …

18 data-visualization