Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

1
Por que o quase-Poisson no GLM não é tratado como um caso especial de binômio negativo?
Estou tentando ajustar modelos lineares generalizados a alguns conjuntos de dados de contagem que podem ou não estar superdispersos. As duas distribuições canônicas que se aplicam aqui são o Poisson e o Binomial Negativo (Negbin), com EV e variânciaμμ\mu Va rP= μVarP=μVar_P = \mu Va rNB= μ + μ2θVarNB=μ+μ2θVar_{NB} = …


4
Por que os dados mistos são um problema para os algoritmos de cluster baseado em euclidianos?
A maioria dos algoritmos clássicos de agrupamento e redução de dimensionalidade (agrupamento hierárquico, análise de componentes principais, médias médias, mapas auto-organizados ...) são projetados especificamente para dados numéricos, e seus dados de entrada são vistos como pontos em um espaço euclidiano. É claro que isso é um problema, pois muitas …

3
Correlações estranhas nos resultados SVD de dados aleatórios; eles têm uma explicação matemática ou é um bug do LAPACK?
Observo um comportamento muito estranho no resultado SVD de dados aleatórios, que posso reproduzir tanto no Matlab quanto no R. Parece um problema numérico na biblioteca LAPACK; é isso? Eu desenho n=1000n=1000n=1000 amostras do Gaussiano k=2k=2k=2 dimensional com média zero e covariância de identidade: X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I) …



3
Significado de 'número de parâmetros' em AIC
Ao calcular o AIC, A IC= 2 k - 2 l n LAIC=2k−2lnLAIC = 2k - 2 ln L k significa 'número de parâmetros'. Mas o que conta como parâmetro? Então, por exemplo, no modelo y= a x + by=ax+by = ax + b A e b são sempre contados …
21 aic 

2
Na regressão linear simples, de onde vem a fórmula para a variação dos resíduos?
De acordo com um texto que estou usando, a fórmula para a variação do residual é dada por:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) Eu acho isso difícil de acreditar desde o residual é a diferença entre o valor observado e o valor equipada; se alguém calculasse a variação da diferença, …





1
Duas maneiras de usar o bootstrap para estimar o intervalo de confiança dos coeficientes na regressão
Estou aplicando um modelo linear aos meus dados: yEu= β0 0+ β1xEu+ ϵEu,ϵEu∼ N( 0 , σ2) .yEu=β0 0+β1xEu+ϵEu,ϵEu∼N(0 0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). Gostaria de estimar o intervalo de confiança (IC) dos coeficientes ( , ) usando o método de autoinicialização. Existem duas maneiras de aplicar o método de …

1
Que função poderia ser um kernel?
No contexto do aprendizado de máquina e reconhecimento de padrões, existe um conceito chamado Kernel Trick . Enfrentando problemas em que me pedem para determinar se uma função pode ser uma função do kernel ou não, o que exatamente deve ser feito? Devo primeiro verificar se eles têm a forma …


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.