Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

2
Modelos mistos são úteis como modelos preditivos?
Estou um pouco confuso sobre as vantagens de modelos mistos em relação à modelagem preditiva. Como os modelos preditivos costumam prever valores de observações anteriormente desconhecidas, parece-me óbvio que a única maneira de um modelo misto ser útil é através da capacidade de fornecer previsões no nível da população (sem …


2
Regressão quantílica: função de perda
Estou tentando entender a regressão quantílica, mas uma coisa que me faz sofrer é a escolha da função de perda. ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Eu sei que o mínimo da expectativa de é igual ao -quantile, mas qual é o motivo intuitivo para começar com essa função? Não vejo a relação …

3
História da teoria prévia não informativa
Estou escrevendo um pequeno ensaio teórico para um curso de Estatística Bayesiana (em um Mestrado em Economia) sobre antecedentes não informativos e estou tentando entender quais são as etapas no desenvolvimento dessa teoria. Até agora, minha linha do tempo é composta por três etapas principais: princípio da indiferença de Laplace …

2
Quem inventou a árvore de decisão?
Estou tentando rastrear quem inventou a estrutura de dados e o algoritmo da árvore de decisão. Na entrada da Wikipedia sobre aprendizado de árvore de decisão, há uma alegação de que "ID3 e CART foram inventados de forma independente na mesma época (entre 1970 e 1980)". O ID3 foi apresentado …
24 cart  history 

2
Generalização contínua da distribuição binomial negativa
A distribuição binomial negativa (NB) é definida em números inteiros não negativos e tem função de massa de probabilidade f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.Faz sentido considerar uma distribuição contínua em reais não negativos definidos pela mesma fórmula (substituindo k∈N0k∈N0k\in \mathbb N_0 por x∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? O coeficiente binomial pode ser reescrito como …




3
Por que várias correções de hipóteses não são aplicadas a todos os experimentos desde o início dos tempos?
Sabemos que devemos aplicar correções do tipo Benjamini Hochberg para testes de múltiplas hipóteses a experimentos com base em um único conjunto de dados, a fim de controlar a taxa de falsas descobertas, caso contrário, todos os experimentos que dão um resultado positivo podem ser falsos. Mas por que não …

7
Recomendações para artigos não técnicos, mas aprofundados, em estatística
A inspiração para esta pergunta vem do conhecido artigo de Leo-Breiman, Statistical Modeling: The Two Cultures (acesso aberto disponível). O autor compara o que vê como duas abordagens díspares para analisar dados, abordando idéias-chave em estatística clássica e aprendizado de máquina. No entanto, o artigo é inteligível para um grande …
24 references 




2
O paradoxo dos dados iid (pelo menos para mim)
Na medida em que meu conhecimento agregado (e escasso) sobre estatística permite, entendi que se são suas variáveis ​​aleatórias, como o termo implica, elas são independentes e distribuídas de forma idêntica.X1,X2,...,XnX1,X2,...,XnX_1, X_2,..., X_n Minha preocupação aqui é a antiga propriedade das amostras de iid, que diz: p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), para …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.