Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados



2
Por que a prova de Wilks de 1938 não funciona para modelos mal especificados?
No famoso artigo de 1938 (" A distribuição de grandes amostras da razão de verossimilhança para testar hipóteses compostas ", Annals of Mathematics Statistics, 9: 60-62), Samuel Wilks derivou a distribuição assintótica de 2×LLR2×LLR2 \times LLR (razão de verossimilhança logarítmica ) para hipóteses aninhadas, supondo que a hipótese maior seja …

2
Qual é a função de perda do SVM de margem rígida?
max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b))12∥w∥2+C∑imax(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) No entanto, para o SVM de margem rígida, toda a função objetivo é apenas 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 Isso significa que o SVM de margem rígida apenas minimiza um regularizador sem nenhuma função de perda? Isso parece muito estranho. Bem, se 12∥w∥212‖w‖2\frac{1}{2}\|w\|^2 é a função de …

2
Definição do tempo de autocorrelação (para tamanho efetivo da amostra)
Encontrei duas definições na literatura para o tempo de autocorrelação de uma série temporal fracamente estacionária: τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk|τa=1+2∑k=1∞ρkversusτb=1+2∑k=1∞|ρk| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| onde ρk=Cov[Xt,Xt+h]Var[Xt]ρk=Cov[Xt,Xt+h]Var[Xt]\rho_k = \frac{\text{Cov}[X_t,X_{t+h}]}{\text{Var}[X_t]} é a autocorrelação no atrasokkk. Uma aplicação do tempo de autocorrelação é encontrar o "tamanho efetivo da amostra": …

3
Interpretação estatística da distribuição máxima de entropia
Eu usei o princípio da entropia máxima para justificar o uso de várias distribuições em várias configurações; no entanto, ainda não consegui formular uma interpretação estatística, em oposição à teórica da informação, da entropia máxima. Em outras palavras, o que maximizar a entropia implica nas propriedades estatísticas da distribuição? Alguém …




1
Kolmogorov-Smirnov com dados discretos: Qual é o uso adequado de dgof :: ks.test em R?
Perguntas para iniciantes: Quero testar se dois conjuntos de dados distintos são da mesma distribuição. Um teste de Kolmogorov-Smirnov foi sugerido para mim. Conover ( Practical Nonparametric Statistics , 3d) parece dizer que o Teste de Kolmogorov-Smirnov pode ser usado para esse fim, mas seu comportamento é "conservador" com distribuições …


3
Interpretação dos números AIC e BIC
Estou procurando exemplos de como interpretar as estimativas AIC (critério de informação de Akaike) e BIC (critério de informação bayesiano). As diferenças negativas entre os BICs podem ser interpretadas como as chances posteriores de um modelo em relação ao outro? Como posso colocar isso em palavras? Por exemplo, o BIC …

4
Imputação de valores ausentes para PCA
Eu usei a prcomp()função para executar um PCA (análise de componentes principais) em R. No entanto, há um erro nessa função, de modo que o na.actionparâmetro não funciona. Eu pedi ajuda no stackoverflow ; dois usuários ofereceram duas maneiras diferentes de lidar com NAvalores. No entanto, o problema com as …

1
Definir nós em splines cúbicos naturais em R
Eu tenho dados com muitos recursos correlatos e quero começar reduzindo os recursos com uma função básica, antes de executar um LDA. Estou tentando usar splines cúbicos naturais no splinespacote com a nsfunção Como faço para atribuir os nós? Aqui está o código R básico: library(splines) lda.pred <- lda(y ~ …
23 r  splines 

4
Bibliotecas C ++ para computação estatística
Eu tenho um algoritmo MCMC específico que gostaria de portar para C / C ++. Grande parte da computação dispendiosa já está em C via Cython, mas quero que todo o amostrador seja escrito em uma linguagem compilada, para que eu possa escrever wrappers para Python / R / Matlab …
23 mcmc  software  c++  computing 

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.