Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

3
O que significa "tudo o resto" significa na regressão múltipla?
Quando fazemos várias regressões e dizemos que estamos olhando para a mudança média na variável para uma mudança na variável , mantendo todas as outras variáveis ​​constantes, em quais valores estamos mantendo as outras variáveis ​​constantes? A média deles? Zero? Qualquer valor?xyyyxxx Estou inclinado a pensar que tem algum valor; …


3
Benefícios do uso de gráficos QQ sobre histogramas
Nesse comentário , Nick Cox escreveu: A divisão em classes é um método antigo. Embora os histogramas possam ser úteis, o moderno software estatístico facilita e aconselha a adequação das distribuições aos dados brutos. Binning simplesmente joga fora os detalhes que são cruciais para determinar quais distribuições são plausíveis. O …


2
Por que PCA de dados por meio de SVD dos dados?
Esta pergunta é sobre uma maneira eficiente de calcular os componentes principais. Muitos textos sobre PCA linear advogam o uso da decomposição de valor singular dos dados casewise . Ou seja, se temos dados XX\bf X e queremos substituir as variáveis ​​(suas colunas ) por componentes principais, fazemos SVD: X=USV′X=USV′\bf …

3
Por que o algoritmo de maximização de expectativa é usado?
Pelo pouco que sei, o algoritmo EM pode ser usado para encontrar a máxima probabilidade ao zerar as derivadas parciais em relação aos parâmetros da probabilidade, fornecendo um conjunto de equações que não podem ser resolvidas analiticamente. Mas é necessário o algoritmo EM, em vez de usar alguma técnica numérica, …




2
Regressão para um modelo de forma ?
Eu tenho um conjunto de dados que é estatísticas de um fórum de discussão na web. Eu estou olhando para a distribuição do número de respostas que um tópico deve ter. Em particular, criei um conjunto de dados com uma lista de contagens de respostas de tópicos e, em seguida, …


1
Existe uma razão para preferir uma medida específica de multicolinearidade?
Ao trabalhar com muitas variáveis ​​de entrada, geralmente nos preocupamos com a multicolinearidade . Existem várias medidas de multicolinearidade que são usadas para detectar, pensar e / ou comunicar a multicolinearidade. Algumas recomendações comuns são: O múltiplo para uma variável específica R2jRj2R^2_j A tolerância, , para uma variável específica 1−R2j1−Rj21-R^2_j …



2
Correção de viés na variância ponderada
Para variação não ponderada , existe a variação da amostra corrigida por viés, quando a média foi estimada a partir dos mesmos dados: Var(X):=1Var ( X) : = 1n∑Eu( xEu- μ )2Var(X): =1n∑Eu(xEu-μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var ( X) : = 1n - 1∑Eu( xEu- E[ X] )2Var(X): =1n-1∑Eu(xEu-E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 Estou …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.