Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados



2
O que a entropia nos diz?
Estou lendo sobre entropia e estou tendo dificuldades para conceituar o que isso significa no caso contínuo. A página wiki declara o seguinte: A distribuição de probabilidade dos eventos, juntamente com a quantidade de informações de cada evento, forma uma variável aleatória cujo valor esperado é a quantidade média de …
32 entropy 



5
Diretrizes da AIC na seleção de modelos
Normalmente, uso o BIC, pois entendo que ele valoriza a parcimônia mais fortemente do que o AIC. No entanto, eu decidi usar uma abordagem mais abrangente agora e gostaria de usar a AIC também. Eu sei que Raftery (1995) apresentou boas diretrizes para diferenças de BIC: 0-2 é fraco, 2-4 …

1
Comparando dois modelos usando a função anova () em R
A partir da documentação para anova(): Quando dada uma sequência de objetos, 'anova' testa os modelos um contra o outro na ordem especificada ... O que significa testar os modelos um contra o outro? E por que o pedido importa? Aqui está um exemplo do tutorial GenABEL : > modelAdd …
32 r  anova 


3
É possível alterar uma hipótese para corresponder aos dados observados (também conhecidos como expedição de pesca) e evitar um aumento nos erros do tipo I?
É sabido que os pesquisadores devem gastar tempo observando e explorando dados e pesquisas existentes antes de formar uma hipótese e, em seguida, coletar dados para testar essa hipótese (referindo-se ao teste de significância de hipótese nula). Muitos livros estatísticos básicos alertam que as hipóteses devem ser formadas a priori …

3
Regressão logística do kernel vs SVM
Como é de conhecimento de todos, o SVM pode usar o método kernel para projetar pontos de dados em espaços mais altos, para que os pontos possam ser separados por um espaço linear. Mas também podemos usar a regressão logística para escolher esse limite no espaço do kernel, então quais …
32 svm 

3
Por que a inversão de uma matriz de covariância produz correlações parciais entre variáveis ​​aleatórias?
Ouvi dizer que correlações parciais entre variáveis ​​aleatórias podem ser encontradas invertendo a matriz de covariância e obtendo células apropriadas dessa matriz de precisão resultante (esse fato é mencionado em http://en.wikipedia.org/wiki/Partial_correlation , mas sem uma prova) . Por que esse é o caso?


3
É possível encontrar o desvio padrão combinado?
Suponha que eu tenha 2 conjuntos: Conjunto A : número de itens n=10n=10n= 10 , μ=2.4μ=2.4\mu = 2.4 , σ=0.8σ=0.8\sigma = 0.8 Conjunto B : número de itens n=5n=5n= 5 , μ=2μ=2\mu = 2 , σ=1.2σ=1.2\sigma = 1.2 Posso encontrar a média combinada ( μμ\mu ) facilmente, mas como devo …

2
Existe uma versão de amostra da desigualdade unilateral de Chebyshev?
Estou interessado na seguinte versão unilateral de Cantelli da desigualdade de Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Basicamente, se você conhece a média e a variação da população, pode calcular o limite superior da probabilidade de observar um determinado valor. …

1
Por que R retornaria NA como um coeficiente lm ()?
Estou ajustando um lm()modelo a um conjunto de dados que inclui indicadores para o trimestre financeiro (Q1, Q2, Q3, tornando Q4 um padrão). Usando lm(Y~., data = data), recebo a NAcomo coeficiente para o terceiro trimestre e um aviso de que uma variável foi excluída por causa de singularidades. Preciso …
32 r  regression 

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.