Estatísticas e Big Data

3

Como as correlações gama Goodman-Kruskal e Kendall tau ou Spearman rho se comparam?

No meu trabalho, estamos comparando classificações previstas versus classificações verdadeiras para alguns conjuntos de dados. Até recentemente, usamos o Kendall-Tau sozinho. Um grupo que trabalha em um projeto semelhante sugeriu que tentássemos usar a gama Goodman-Kruskal e que eles preferissem. Eu queria saber quais eram as diferenças entre os diferentes …

31 spearman-rho kendall-tau goodman-kruskal-gamma

3

Visualizando um milhão, edição PCA

É possível visualizar a saída da Análise de componentes principais de maneiras que fornecem mais informações do que apenas tabelas de resumo? É possível fazer isso quando o número de observações é grande, digamos ~ 1e4? E é possível fazer isso em R [outros ambientes são bem-vindos]?

31 r data-visualization pca biplot

2

Como traçar o limite de decisão de um classificador de vizinhos k-mais próximos a partir de Elements of Statistical Learning?

Quero gerar o gráfico descrito no livro ElemStatLearn "Os elementos do aprendizado estatístico: mineração de dados, inferência e previsão. Segunda edição" de Trevor Hastie e Robert Tibshirani e Jerome Friedman. O enredo é: Gostaria de saber como posso produzir esse gráfico exato R, principalmente os gráficos e cálculos da grade …

31 r data-visualization k-nearest-neighbour

3

Por que a seleção de variáveis é necessária?

Procedimentos comuns de seleção de variáveis baseadas em dados (por exemplo, avançar, retroceder, passo a passo, todos os subconjuntos) tendem a gerar modelos com propriedades indesejáveis, incluindo: Coeficientes desviados de zero. Erros padrão muito pequenos e intervalos de confiança muito estreitos. Teste estatísticas e valores-p que não possuem o significado …

31 modeling feature-selection

1

Existem lições estatísticas do episódio "Código da Bíblia"

Embora essa pergunta seja um pouco subjetiva, espero que seja qualificada como uma boa pergunta subjetiva, de acordo com as diretrizes do FAQ . É baseado em uma pergunta que Olle Häggström me fez há um ano e, embora eu tenha algumas idéias sobre isso, não tenho uma resposta definitiva …

31 hypothesis-testing data-mining

3

Acomodando visualizações entrincheiradas de valores-p

Às vezes, nos relatórios, incluí um aviso sobre os valores-p e outras estatísticas inferenciais que forneci. Digo que, como a amostra não foi aleatória, essas estatísticas não se aplicariam estritamente. Minha redação específica geralmente é dada em uma nota de rodapé: "Embora, estritamente falando, as estatísticas inferenciais sejam aplicáveis apenas …

31 inference p-value

3

Relação entre intervalo de confiança e teste da hipótese estatística para o teste t

É sabido que os intervalos de confiança e a hipótese estatística de teste estão fortemente relacionados. Minhas perguntas estão focadas na comparação de médias para dois grupos com base em uma variável numérica. Vamos supor que essa hipótese seja testada usando o teste t. Por outro lado, pode-se calcular intervalos …

31 hypothesis-testing confidence-interval

6

Como aumentar a reprodutibilidade a longo prazo da pesquisa (particularmente usando R e Sweave)

Contexto: Em resposta a uma pergunta anterior sobre pesquisa reproduzível, Jake escreveu Um problema que descobrimos ao criar nosso arquivo JASA foi que as versões e padrões dos pacotes CRAN foram alterados. Portanto, nesse arquivo, também incluímos as versões dos pacotes que usamos. O sistema baseado em vinheta provavelmente será …

31 r reproducible-research project-management

1

Para quais distribuições as parametrizações no BUGS e R são diferentes?

Eu encontrei algumas distribuições para as quais BUGS e R têm diferentes parametrizações: Normal, log-Normal e Weibull. Para cada uma delas, entendo que o segundo parâmetro usado por R precisa ser transformado inversamente (1 / parâmetro) antes de ser usado no BUGS (ou JAGS no meu caso). Alguém sabe de …

31 r distributions bugs jags parameterization

6

Alguém pode oferecer um exemplo de distribuição unimodal que tem uma assimetria zero, mas que não é simétrica?

Em maio de 2010, o usuário da Wikipedia Mcorazao acrescentou uma frase ao artigo de assimetria que "Um valor zero indica que os valores estão distribuídos de maneira relativamente uniforme nos dois lados da média, tipicamente mas não necessariamente implicando uma distribuição simétrica". No entanto, a página wiki não possui …

31 distributions expected-value skewness

8

Ferramentas de código aberto para visualizar dados multidimensionais?

Além do gnuplot e do ggobi , que ferramentas de código aberto as pessoas estão usando para visualizar dados multidimensionais? O Gnuplot é mais ou menos um pacote básico de plotagem. O Ggobi pode fazer várias coisas bacanas, como: animar dados ao longo de uma dimensão ou entre coleções discretas …

31 data-visualization open-source

3

Coeficientes de regressão que invertem o sinal após incluir outros preditores

Imagine Você executa uma regressão linear com quatro preditores numéricos (IV1, ..., IV4) Quando apenas IV1 é incluído como preditor, o beta padronizado é +.20 Quando você também inclui IV2 a IV4, o sinal do coeficiente de regressão padronizado de IV1 muda para -.25(isto é, tornou-se negativo). Isso gera algumas …

31 regression predictor

1

Várias comparações em um modelo de efeitos mistos

Estou tentando analisar alguns dados usando um modelo de efeito misto. Os dados que eu coletei representam o peso de alguns animais jovens de diferentes genótipos ao longo do tempo. Estou usando a abordagem proposta aqui: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ Em particular, estou usando a solução 2 Então eu tenho algo como require(nlme) …

31 r anova mixed-model multiple-comparisons repeated-measures

8

O que é um desvio padrão?

O que é um desvio padrão, como é calculado e qual é o seu uso nas estatísticas?

31 standard-deviation

2

Quando a regressão logística é resolvida de forma fechada?

Tome x∈{0,1}dx∈{0,1}dx \in \{0,1\}^d e y∈{0,1}y∈{0,1}y \in \{0,1\} e suponha que modelar a tarefa de prever y dado x meio de regressão logística. Quando os coeficientes de regressão logística podem ser escritos de forma fechada? Um exemplo é quando usamos um modelo saturado. Isto é, definir P(y|x)∝exp(∑iwifi(xi))P(y|x)∝exp⁡(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i …

31 logistic generalized-linear-model