Estatísticas e Big Data

2

Modelos mistos são úteis como modelos preditivos?

Estou um pouco confuso sobre as vantagens de modelos mistos em relação à modelagem preditiva. Como os modelos preditivos costumam prever valores de observações anteriormente desconhecidas, parece-me óbvio que a única maneira de um modelo misto ser útil é através da capacidade de fornecer previsões no nível da população (sem …

24 mixed-model predictive-models

1

Como é válido o Bayes empírico?

Acabei de ler um ótimo livro Introdução ao Empírico Bayes . Eu pensei que o livro era ótimo, mas a criação de dados anteriores parecia errada. Fui treinado para que você elabore um plano de análise, colete dados e teste a hipótese que você determinou anteriormente em seu plano de …

24 machine-learning hypothesis-testing bayesian empirical-bayes

2

Regressão quantílica: função de perda

Estou tentando entender a regressão quantílica, mas uma coisa que me faz sofrer é a escolha da função de perda. ρτ(u)=u(τ−1{u<0})ρτ(u)=u(τ−1{u<0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Eu sei que o mínimo da expectativa de é igual ao -quantile, mas qual é o motivo intuitivo para começar com essa função? Não vejo a relação …

24 quantiles loss-functions quantile-regression

3

História da teoria prévia não informativa

Estou escrevendo um pequeno ensaio teórico para um curso de Estatística Bayesiana (em um Mestrado em Economia) sobre antecedentes não informativos e estou tentando entender quais são as etapas no desenvolvimento dessa teoria. Até agora, minha linha do tempo é composta por três etapas principais: princípio da indiferença de Laplace …

24 bayesian references prior history

2

Quem inventou a árvore de decisão?

Estou tentando rastrear quem inventou a estrutura de dados e o algoritmo da árvore de decisão. Na entrada da Wikipedia sobre aprendizado de árvore de decisão, há uma alegação de que "ID3 e CART foram inventados de forma independente na mesma época (entre 1970 e 1980)". O ID3 foi apresentado …

24 cart history

2

Generalização contínua da distribuição binomial negativa

A distribuição binomial negativa (NB) é definida em números inteiros não negativos e tem função de massa de probabilidade f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.Faz sentido considerar uma distribuição contínua em reais não negativos definidos pela mesma fórmula (substituindo k∈N0k∈N0k\in \mathbb N_0 por x∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? O coeficiente binomial pode ser reescrito como …

24 distributions negative-binomial count-data continuous-data bioinformatics

1

Quais são as propriedades de uma distribuição meia Cauchy?

Atualmente, estou trabalhando em um problema, no qual preciso desenvolver um algoritmo de Monte Carlo em cadeia de Markov (MCMC) para um modelo de espaço de estado. Para poder resolver o problema, recebi a seguinte probabilidade de : p ( τ ) = 2I ( τ > 0) / (1+ …

24 distributions bayesian prior state-space-models cauchy

3

Qual é a razão pela qual o Adam Optimizer é considerado robusto ao valor de seus hiper parâmetros?

Eu estava lendo sobre o otimizador de Adam para o Deep Learning e me deparei com a seguinte frase no novo livro Deep Learning de Bengio, Goodfellow e Courville: Adam é geralmente considerado como sendo bastante robusto para a escolha de hiper parâmetros, embora a taxa de aprendizado às vezes …

24 neural-networks deep-learning optimization hyperparameter adam

3

O que se pode concluir sobre os dados quando a média aritmética está muito próxima da média geométrica?

Existe algo significativo sobre uma média geométrica e aritmética que caem muito próximas umas das outras, digamos ~ 0,1%? Que conjecturas podem ser feitas sobre esse conjunto de dados? Eu tenho trabalhado na análise de um conjunto de dados e percebo que, ironicamente, os valores são muito, muito próximos. Não …

24 descriptive-statistics mean geometric-mean

3

Por que várias correções de hipóteses não são aplicadas a todos os experimentos desde o início dos tempos?

Sabemos que devemos aplicar correções do tipo Benjamini Hochberg para testes de múltiplas hipóteses a experimentos com base em um único conjunto de dados, a fim de controlar a taxa de falsas descobertas, caso contrário, todos os experimentos que dão um resultado positivo podem ser falsos. Mas por que não …

24 hypothesis-testing multiple-comparisons bonferroni false-discovery-rate

7

Recomendações para artigos não técnicos, mas aprofundados, em estatística

A inspiração para esta pergunta vem do conhecido artigo de Leo-Breiman, Statistical Modeling: The Two Cultures (acesso aberto disponível). O autor compara o que vê como duas abordagens díspares para analisar dados, abordando idéias-chave em estatística clássica e aprendizado de máquina. No entanto, o artigo é inteligível para um grande …

24 references

4

ANOVA vs regressão linear múltipla? Por que a ANOVA é tão comumente usada em estudos experimentais?

ANOVA vs regressão linear múltipla? Entendo que ambos os métodos parecem usar o mesmo modelo estatístico. No entanto, em que circunstâncias devo usar qual método? Quais são as vantagens e desvantagens desses métodos quando comparados? Por que a ANOVA é tão comumente usada em estudos experimentais e quase nunca encontro …

24 anova multiple-regression least-squares

1

Cálculo da probabilidade marginal de amostras MCMC

Esta é uma pergunta recorrente (veja este post , este post e este post ), mas eu tenho uma opinião diferente. Suponha que eu tenha várias amostras de um amostrador genérico do MCMC. Para cada amostra , eu sei o valor da probabilidade do log e do log anterior . …

24 machine-learning bayesian sampling mcmc likelihood

2

Palavras-chave para classificação de texto: Por que não usar apenas frequências de palavras em vez de TFIDF?

Uma abordagem comum à classificação de texto é treinar um classificador a partir de um 'saco de palavras'. O usuário leva o texto para ser classificado e conta as frequências das palavras em cada objeto, seguido por algum tipo de corte para manter a matriz resultante de um tamanho gerenciável. …

24 machine-learning classification text-mining

2

O paradoxo dos dados iid (pelo menos para mim)

Na medida em que meu conhecimento agregado (e escasso) sobre estatística permite, entendi que se são suas variáveis aleatórias, como o termo implica, elas são independentes e distribuídas de forma idêntica.X1,X2,...,XnX1,X2,...,XnX_1, X_2,..., X_n Minha preocupação aqui é a antiga propriedade das amostras de iid, que diz: p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(Xn|Xi1,Xi2,...,Xik)=p(Xn),p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), para …

24 sampling conditional-probability independence