Estatísticas e Big Data

2

Consequências da modelagem de um processo não estacionário usando o ARMA?

Entendo que devemos usar o ARIMA para modelar uma série temporal não estacionária. Além disso, tudo o que li diz que o ARMA deve ser usado apenas para séries temporais estacionárias. O que estou tentando entender é: o que acontece na prática ao classificar incorretamente um modelo e assumir d …

23 r time-series arima stationarity

5

Agora que rejeitei a hipótese nula, o que vem a seguir?

Eu tenho uma e outra vez rejeitado ou não rejeitou a hipótese nula. Na falha em rejeitar o caso, você conclui que não há evidências suficientes para rejeição e "segue em frente" (ou seja, reúne mais dados, encerra o experimento etc.) Mas quando você "rejeita" a hipótese nula, fornecendo alguma …

23 hypothesis-testing

1

Invertendo a Transformada de Fourier para uma distribuição Fisher

A função característica da distribuição de Fisher é: C ( t ) = Γ ( α + 1F(1,α)F(1,α)\mathcal{F}(1,\alpha) ondeUé afunção hipergeométrica confluente. Estou tentando resolver a transformada inversa de FourierF-1t,xdan-convoluçãopara recuperar a densidade de uma variávelx, ou seja: F-1t,x(C(t)n) com o objetivo de obter a distribuição da soma denvariáveis aleatórias …

23 probability random-variable f-distribution saddlepoint-approximation

1

As estatísticas de validação cruzada (CV) e de validação cruzada generalizada (GCV)

Encontrei definições possivelmente conflitantes para a estatística de validação cruzada (CV) e para a estatística de validação cruzada generalizada (GCV) associada a um modelo linear (com um vetor de erro normal e homoscedástico \ símbolo de negrito \ varepsilon ).Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon Por um lado, Golub, Heath & …

23 cross-validation

1

A análise de poder a priori é essencialmente inútil?

Eu participei de uma reunião da Sociedade de Personalidade e Psicologia Social na semana passada, onde vi uma palestra de Uri Simonsohn com a premissa de que o uso de uma análise de poder a priori para determinar o tamanho da amostra era essencialmente inútil, porque seus resultados são muito …

23 hypothesis-testing power-analysis effect-size power methodology

2

CHAID vs CRT (ou CARRINHO)

Estou executando uma classificação de árvore de decisão usando o SPSS em um conjunto de dados com cerca de 20 preditores (categóricos com poucas categorias). CHAID (Detecção Automática de Interação Qui-Quadrado) e CRT / CART (Árvores de Classificação e Regressão) estão me dando árvores diferentes. Alguém pode explicar os méritos …

23 spss cart

2

Estabilidade de tópicos em modelos de tópicos

Estou trabalhando em um projeto no qual desejo extrair algumas informações sobre o conteúdo de uma série de ensaios abertos. Nesse projeto em particular, 148 pessoas escreveram ensaios sobre uma organização hipotética de estudantes como parte de um experimento maior. Embora no meu campo (psicologia social), a maneira típica de …

23 machine-learning model-selection small-sample topic-models dirichlet-process

3

Estudante t como mistura de gaussiana

Usando a distribuição t do aluno com graus de liberdade, o parâmetro de localização le os parâmetros de escala s têm densidadek > 0k>0k > 0eullsss Γ ( k + 12)Γ ( k2k πs2----√){ 1 + k- 1( x - ls) }- ( k + 1 ) / 2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k …

23 distributions mixture

2

Como lidar com a diferença entre a distribuição do conjunto de teste e o conjunto de treinamento?

Penso que uma suposição básica de aprendizado de máquina ou estimativa de parâmetros é que os dados invisíveis vêm da mesma distribuição que o conjunto de treinamento. No entanto, em alguns casos práticos, a distribuição do conjunto de testes será quase diferente do conjunto de treinamento. Digamos um problema de …

23 machine-learning classification skewness unbalanced-classes multi-class

2

Cálculo do tamanho da amostra para modelos mistos

Gostaria de saber se existem métodos para calcular o tamanho da amostra em modelos mistos? Estou usando lmerno R para ajustar os modelos (tenho inclinações e interceptações aleatórias).

23 r mixed-model lme4-nlme power-analysis

4

O que há de errado com (algumas) pseudo-randomização

Me deparei com um estudo em que pacientes, com mais de 50 anos, eram pseudo-randomizados por ano de nascimento. Se o ano de nascimento fosse um número par, cuidados usuais, se um número ímpar, intervenção. É mais fácil de implementar, mais difícil de subverter (é fácil verificar qual tratamento um …

23 experiment-design clinical-trials random-allocation

2

Média de rebatidas bayesianas antes

Eu queria fazer uma pergunta inspirada em uma excelente resposta à pergunta sobre a intuição para a distribuição beta. Eu queria entender melhor a derivação da distribuição anterior da média de rebatidas. Parece que David está fazendo o backup dos parâmetros da média e do intervalo. Supondo que a média …

23 bayesian prior

2

Gráfico de dispersão com sobreposição de contorno / calor

Bloqueado . Esta pergunta e suas respostas estão bloqueadas porque a questão está fora do tópico, mas tem um significado histórico. No momento, não está aceitando novas respostas ou interações. Eu vi esse gráfico no suplemento de um artigo recente e adoraria reproduzi-lo usando R. É um gráfico de dispersão, …

23 r data-visualization scatterplot

4

Existe uma implementação de floresta aleatória que funcione bem com dados muito esparsos?

Existe uma implementação de floresta aleatória R que funciona bem com dados muito esparsos? Eu tenho milhares ou milhões de variáveis de entrada booleanas, mas apenas centenas ou mais serão VERDADEIRAS para qualquer exemplo. Sou relativamente novo no R e notei que há um pacote 'Matrix' para lidar com dados …

23 r random-forest sparse

4

Como calcular a distribuição cumulativa em R?

Bloqueado . Esta pergunta e suas respostas estão bloqueadas porque a questão está fora do tópico, mas tem um significado histórico. No momento, não está aceitando novas respostas ou interações. Preciso calcular a função de distribuição cumulativa de uma amostra de dados. Existe algo semelhante ao hist () em R …

23 r distributions cdf