Estatísticas e Big Data

1

Por que o quase-Poisson no GLM não é tratado como um caso especial de binômio negativo?

Estou tentando ajustar modelos lineares generalizados a alguns conjuntos de dados de contagem que podem ou não estar superdispersos. As duas distribuições canônicas que se aplicam aqui são o Poisson e o Binomial Negativo (Negbin), com EV e variânciaμμ\mu Va rP= μVarP=μVar_P = \mu Va rNB= μ + μ2θVarNB=μ+μ2θVar_{NB} = …

21 r generalized-linear-model negative-binomial poisson-regression quasi-likelihood

1

Existe alguma diferença entre e ?

O coeficiente de correlação geralmente é escrito com maiúsculo, mas às vezes não. Gostaria de saber se realmente existe uma diferença entre e ? pode significar algo além de um coeficiente de correlação?r 2 R 2 rRRRr2r2r^2R2R2R^2rrr

21 correlation terminology r-squared

4

Por que os dados mistos são um problema para os algoritmos de cluster baseado em euclidianos?

A maioria dos algoritmos clássicos de agrupamento e redução de dimensionalidade (agrupamento hierárquico, análise de componentes principais, médias médias, mapas auto-organizados ...) são projetados especificamente para dados numéricos, e seus dados de entrada são vistos como pontos em um espaço euclidiano. É claro que isso é um problema, pois muitas …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

3

Correlações estranhas nos resultados SVD de dados aleatórios; eles têm uma explicação matemática ou é um bug do LAPACK?

Observo um comportamento muito estranho no resultado SVD de dados aleatórios, que posso reproduzir tanto no Matlab quanto no R. Parece um problema numérico na biblioteca LAPACK; é isso? Eu desenho n=1000n=1000n=1000 amostras do Gaussiano k=2k=2k=2 dimensional com média zero e covariância de identidade: X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I) …

21 pca svd linear-algebra numerics

4

Como testar se minha distribuição é multimodal?

Quando plogo um histograma dos meus dados, ele tem dois picos: Isso significa uma potencial distribuição multimodal? Eu executei o dip.testem R ( library(diptest)) e a saída é: D = 0.0275, p-value = 0.7913 Posso concluir que meus dados têm uma distribuição multimodal? DADOS 10346 13698 13894 19854 28066 26620 …

21 r hypothesis-testing distributions self-study histogram

4

Como calculo intervalos de confiança para uma distribuição não normal?

Eu tenho 383 amostras que têm um viés pesado para alguns valores comuns, como eu calcularia o IC95% para a média? O IC que calculei parece muito distante, o que suponho é que meus dados não parecem uma curva quando eu faço um histograma. Então, acho que preciso usar algo …

21 confidence-interval mean

3

Significado de 'número de parâmetros' em AIC

Ao calcular o AIC, A IC= 2 k - 2 l n LAIC=2k−2lnLAIC = 2k - 2 ln L k significa 'número de parâmetros'. Mas o que conta como parâmetro? Então, por exemplo, no modelo y= a x + by=ax+by = ax + b A e b são sempre contados …

21 aic

2

Na regressão linear simples, de onde vem a fórmula para a variação dos resíduos?

De acordo com um texto que estou usando, a fórmula para a variação do residual é dada por:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Eu acho isso difícil de acreditar desde o residual é a diferença entre o valor observado e o valor equipada; se alguém calculasse a variação da diferença, …

21 regression variance residuals

4

Qual a diferença entre padronização e estudianização?

Será que na padronização a variação é conhecida, enquanto na estudantilização não é conhecida e, portanto, estimada? Obrigado.

21 standardization

2

Como descrever ou visualizar um modelo de regressão linear múltipla

Estou tentando ajustar um modelo de regressão linear múltipla aos meus dados com alguns parâmetros de entrada, digamos 3. F( X )F( X )= A x1+ B x2+ Cx3+ dou= ( A B C )T( x1 x2 x3) + d(Eu)ii)(Eu)F(x)=UMAx1+Bx2+Cx3+douii)F(x)=(UMA B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + …

21 regression data-visualization multiple-regression communication

2

O que significa o erro padrão de uma estimativa de máxima verossimilhança?

Eu sou um matemático que estuda estatística e está lutando especialmente com o idioma. No livro que estou usando, há o seguinte problema: Uma variável aleatória é fornecida como distribuída com . (Obviamente, você pode fazer qualquer distribuição, dependendo de um parâmetro, para fins desta pergunta.) Em seguida , é …

21 maximum-likelihood

2

Se o agrupamento k-means é uma forma de modelagem de mistura gaussiana, ele pode ser usado quando os dados não são normais?

Estou lendo Bishop no algoritmo EM para GMM e a relação entre GMM e k-means. Neste livro, diz que k-means é uma versão de atribuição difícil do GMM. Gostaria de saber se isso implica que, se os dados que estou tentando agrupar não forem gaussianos, não posso usar o k-means …

21 clustering data-mining k-means gaussian-mixture

1

Duas maneiras de usar o bootstrap para estimar o intervalo de confiança dos coeficientes na regressão

Estou aplicando um modelo linear aos meus dados: yEu= β0 0+ β1xEu+ ϵEu,ϵEu∼ N( 0 , σ2) .yEu=β0 0+β1xEu+ϵEu,ϵEu∼N(0 0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). Gostaria de estimar o intervalo de confiança (IC) dos coeficientes ( , ) usando o método de autoinicialização. Existem duas maneiras de aplicar o método de …

21 regression bootstrap

1

Que função poderia ser um kernel?

No contexto do aprendizado de máquina e reconhecimento de padrões, existe um conceito chamado Kernel Trick . Enfrentando problemas em que me pedem para determinar se uma função pode ser uma função do kernel ou não, o que exatamente deve ser feito? Devo primeiro verificar se eles têm a forma …

21 machine-learning kernel-trick

3

Como calcular a qualidade do ajuste na glm (R)

Esta pergunta foi migrada do Stack Overflow porque pode ser respondida em Validação cruzada. Migrou há 6 anos . Eu tenho o seguinte resultado da execução da função glm. Como posso interpretar os seguintes valores: Desvio nulo Desvio residual AIC Eles têm algo a ver com a bondade do ajuste? …

21 r regression generalized-linear-model