Estatísticas e Big Data prior

2

Por que a Laplace está produzindo soluções esparsas antes?

Eu estava examinando a literatura sobre regularização e frequentemente vejo parágrafos que vinculam a regulatização de L2 ao prior gaussiano e L1 com Laplace centrado em zero. Sei como esses anteriores são, mas não entendo como isso se traduz, por exemplo, em pesos no modelo linear. Em L1, se eu …

22 regression bayesian prior regularization laplace-distribution

3

Como um prévio inadequado pode levar a uma distribuição posterior adequada?

Sabemos que, no caso de uma distribuição prévia adequada, P(θ∣X)=P(X∣θ)P(θ)P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝P(X∣θ)P(θ)∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta) . A justificativa usual para esta etapa é que a distribuição marginal de , é constante em relação a e, portanto, pode ser ignorada ao derivar a distribuição posterior.XXXP(X)P(X)P(X)θθ\theta …

22 distributions bayesian prior posterior

6

Posterior muito diferente do anterior e da probabilidade

Se o anterior e a probabilidade são muito diferentes um do outro, às vezes ocorre uma situação em que o posterior é semelhante a nenhum deles. Veja, por exemplo, esta imagem, que usa distribuições normais. Embora isso seja matematicamente correto, não parece estar de acordo com minha intuição - se …

21 bayesian prior posterior likelihood

4

Distribuições anteriores pouco informativas para parâmetros de escala

Eu tenho usado distribuições normais de log como distribuições anteriores para parâmetros de escala (para distribuições normais, t distribuições etc.) quando tenho uma idéia aproximada sobre qual deve ser a escala, mas quero errar ao dizer que não sei muito sobre isso. Eu o uso porque esse uso faz sentido …

21 distributions bayesian modeling prior maximum-entropy

2

Interpretação natural para hiperparâmetros LDA

Alguém pode explicar qual é a interpretação natural para os hiperparâmetros LDA? ALPHAe BETAsão parâmetros de distribuições Dirichlet para distribuições de tópicos (por documento) e (por tópico) palavras, respectivamente. No entanto, alguém pode explicar o que significa escolher valores maiores desses hiperparâmetros versus valores menores? Isso significa colocar alguma crença …

21 interpretation prior topic-models hyperparameter

2

Por que um anterior à variância é considerado fraco?

fundo Um dos pontos fracos mais comumente usados antes da variância é a gama inversa com os parâmetros (Gelman 2006) .α = 0,001 , β= 0,001α=0.001,β=0.001\alpha =0.001, \beta=0.001 No entanto, essa distribuição possui um IC de 90% de aproximadamente .[ 3 × 1019, ∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, …

21 bayesian multilevel-analysis prior

2

Quais são / são os antecedentes implícitos nas estatísticas freqüentistas?

Eu ouvi a noção de que Jaynes afirma que os freqüentadores operam com um "prévio implícito". O que são ou são esses antecedentes implícitos? Isso significa que os modelos freqüentadores são todos casos especiais de modelos bayesianos à espera de serem encontrados?

19 bayesian prior posterior frequentist

2

Qual é o problema com os priores empíricos?

Às vezes, na literatura, esbarro na observação de que a escolha de anteriores que dependem dos dados em si (por exemplo, Zellners g-prior) pode ser criticada do ponto de vista teórico. Onde exatamente está o problema se o prior não for escolhido independentemente dos dados?

18 bayesian prior hierarchical-bayesian

4

Como o arcabouço bayesiano é melhor na interpretação quando geralmente usamos priores não informativos ou subjetivos?

Costuma-se argumentar que a estrutura bayesiana tem uma grande vantagem na interpretação (sobre frequentista), porque calcula a probabilidade de um parâmetro dado os dados - vez de como no exemplo quadro freqüentista. Por enquanto, tudo bem.p ( x | θ )p ( θ | x )p(θ|x)p(\theta|x)p ( x | θ …

18 bayesian interpretation prior likelihood posterior

1

Existe uma interpretação bayesiana de regressão linear com regularização simultânea de L1 e L2 (também conhecida como rede elástica)?

É sabido que a regressão linear com uma penalidade de é equivalente a encontrar a estimativa de MAP dada uma Gaussiana antes dos coeficientes. Da mesma forma, usar uma penalidade de é equivalente a usar uma distribuição de Laplace como a anterior.eu2eu2l^2eu1eu1l^1 Não é incomum usar alguma combinação ponderada de …

17 regression bayesian regularization prior elastic-net

2

Qual é a relação por trás de Jeffreys Priors e uma transformação estabilizadora de variações?

Eu estava lendo sobre o Jeffreys prior na wikipedia: Jeffreys Prior e vi que, após cada exemplo, ele descreve como uma transformação estabilizadora de variância transforma o Jeffreys anterior em um uniforme uniforme. Como exemplo, para o caso Bernoulli, ele afirma que, para uma moeda com cabeça com probabilidade , …

17 bayesian prior jeffreys-prior

2

Qual a relação entre o tamanho da amostra e a influência do anterior no posterior?

Se tivermos um tamanho pequeno de amostra, a distribuição anterior influenciará muito a distribuição posterior?

17 bayesian sample-size prior

2

Frequentismo e Priores

Robby McKilliam diz em um comentário a este post: Deve-se ressaltar que, do ponto de vista dos freqüentadores, não há razão para que você não possa incorporar o conhecimento prévio ao modelo. Nesse sentido, a visão frequentista é mais simples, você só tem um modelo e alguns dados. Não há …

17 bayesian prior regularization frequentist

4

Como as estatísticas bayesianas lidam com a ausência de priores?

Essa questão foi inspirada em duas interações recentes que eu tive, uma aqui no CV , a outra na economics.se. Lá, eu havia postado uma resposta no conhecido "Paradoxo do Envelope" (lembre-se, não como a "resposta correta", mas como a resposta decorrente de suposições específicas sobre a estrutura da situação). …

16 bayesian mathematical-statistics prior theory philosophical

2

Que distribuições anteriores poderiam / deveriam ser usadas para a variação em um modelo bayesisan hierárquico quando a variação média é de interesse?

Em seu artigo amplamente citado, distribuições anteriores para parâmetros de variância em modelos hierárquicos (916 citação até agora no Google Scholar) Gelman propõe que boas distribuições prévias não informativas para a variação em um modelo bayesiano hierárquico são a distribuição uniforme e a distribuição de meia tonelada. Se eu entendi …

16 bayesian variance prior jags hierarchical-bayesian

Perguntas com a marcação «prior»