Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

3
Como as correlações gama Goodman-Kruskal e Kendall tau ou Spearman rho se comparam?
No meu trabalho, estamos comparando classificações previstas versus classificações verdadeiras para alguns conjuntos de dados. Até recentemente, usamos o Kendall-Tau sozinho. Um grupo que trabalha em um projeto semelhante sugeriu que tentássemos usar a gama Goodman-Kruskal e que eles preferissem. Eu queria saber quais eram as diferenças entre os diferentes …

3
Visualizando um milhão, edição PCA
É possível visualizar a saída da Análise de componentes principais de maneiras que fornecem mais informações do que apenas tabelas de resumo? É possível fazer isso quando o número de observações é grande, digamos ~ 1e4? E é possível fazer isso em R [outros ambientes são bem-vindos]?

2
Como traçar o limite de decisão de um classificador de vizinhos k-mais próximos a partir de Elements of Statistical Learning?
Quero gerar o gráfico descrito no livro ElemStatLearn "Os elementos do aprendizado estatístico: mineração de dados, inferência e previsão. Segunda edição" de Trevor Hastie e Robert Tibshirani e Jerome Friedman. O enredo é: Gostaria de saber como posso produzir esse gráfico exato R, principalmente os gráficos e cálculos da grade …

3
Por que a seleção de variáveis ​​é necessária?
Procedimentos comuns de seleção de variáveis ​​baseadas em dados (por exemplo, avançar, retroceder, passo a passo, todos os subconjuntos) tendem a gerar modelos com propriedades indesejáveis, incluindo: Coeficientes desviados de zero. Erros padrão muito pequenos e intervalos de confiança muito estreitos. Teste estatísticas e valores-p que não possuem o significado …


3
Acomodando visualizações entrincheiradas de valores-p
Às vezes, nos relatórios, incluí um aviso sobre os valores-p e outras estatísticas inferenciais que forneci. Digo que, como a amostra não foi aleatória, essas estatísticas não se aplicariam estritamente. Minha redação específica geralmente é dada em uma nota de rodapé: "Embora, estritamente falando, as estatísticas inferenciais sejam aplicáveis ​​apenas …




6
Alguém pode oferecer um exemplo de distribuição unimodal que tem uma assimetria zero, mas que não é simétrica?
Em maio de 2010, o usuário da Wikipedia Mcorazao acrescentou uma frase ao artigo de assimetria que "Um valor zero indica que os valores estão distribuídos de maneira relativamente uniforme nos dois lados da média, tipicamente mas não necessariamente implicando uma distribuição simétrica". No entanto, a página wiki não possui …



1
Várias comparações em um modelo de efeitos mistos
Estou tentando analisar alguns dados usando um modelo de efeito misto. Os dados que eu coletei representam o peso de alguns animais jovens de diferentes genótipos ao longo do tempo. Estou usando a abordagem proposta aqui: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ Em particular, estou usando a solução 2 Então eu tenho algo como require(nlme) …


2
Quando a regressão logística é resolvida de forma fechada?
Tome x∈{0,1}dx∈{0,1}dx \in \{0,1\}^d e y∈{0,1}y∈{0,1}y \in \{0,1\} e suponha que modelar a tarefa de prever y dado x meio de regressão logística. Quando os coeficientes de regressão logística podem ser escritos de forma fechada? Um exemplo é quando usamos um modelo saturado. Isto é, definir P(y|x)∝exp(∑iwifi(xi))P(y|x)∝exp⁡(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.