Muitas pessoas (fora dos especialistas) que pensam que são freqüentistas são de fato bayesianas. Isso torna o debate um pouco inútil. Eu acho que o bayesianismo venceu, mas ainda existem muitos bayesianos que se acham freqüentadores. Algumas pessoas pensam que não usam produtos anteriores e, portanto, pensam que são freqüentistas. Essa é uma lógica perigosa. Não se trata tanto de antecedentes (antecedentes uniformes ou não uniformes), a diferença real é mais sutil.
(Não estou formalmente no departamento de estatística; minha formação é em matemática e ciência da computação. Estou escrevendo por causa de dificuldades que tive tentando discutir esse 'debate' com outros não-estatísticos e até com alguns iniciantes na carreira. estatísticos.)
O MLE é na verdade um método bayesiano. Algumas pessoas dirão "Sou freqüentador porque uso o MLE para estimar meus parâmetros". Eu já vi isso na literatura revisada por pares. Isso é um absurdo e baseia-se nesse mito (não dito, mas implícito) de que um freqüentador é alguém que usa um uniforme anterior em vez de um anterior não uniforme.
Considere desenhar um número único de uma distribuição normal com média conhecida, e variação desconhecida. Chame essa variação .μ=0θ
X≡N(μ=0,σ2=θ)
Agora considere a função de probabilidade. Essa função possui dois parâmetros, e e retorna a probabilidade, dada , de .xθθx
f(x,θ)=Pσ2=θ(X=x)=12πθ√e−x22θ
Você pode imaginar plotar isso em um mapa de calor, com no eixo x e no eixo y, e usando a cor (ou eixo z). Aqui está o enredo, com linhas de contorno e cores.xθ
Primeiro, algumas observações. Se você fixar um único valor de , poderá levar a fatia horizontal correspondente através do mapa de calor. Essa fatia fornece o pdf para esse valor de . Obviamente, a área sob a curva nessa fatia será 1. Por outro lado, se você fixar um único valor de e depois olhar para a fatia vertical correspondente , não haverá tal garantia sobre a área sob a curva .θθx
Essa distinção entre as fatias horizontais e verticais é crucial, e descobri que essa analogia me ajudou a entender a abordagem freqüentista do viés .
Um bayesiano é alguém que diz
Para esse valor de x, quais valores de dão um valor "alto o suficiente" de ?θf(x,θ)
Como alternativa, um bayesiano pode incluir um anterior, , mas eles ainda estão falando sobreg(θ)
para esse valor de x, quais valores de dão um valor alto o suficiente de ?f ( x , θ ) g ( θ )θf(x,θ)g(θ)
Portanto, um bayesiano fixa x e examina a fatia vertical correspondente nesse gráfico de contorno (ou no gráfico de variantes que incorpora o anterior). Nesta fatia, a área sob a curva não precisa ser 1 (como eu disse anteriormente). Um intervalo bayesiano de 95% de credibilidade (IC) é o intervalo que contém 95% da área disponível. Por exemplo, se a área for 2, a área sob o IC Bayesiano deve ser 1,9.
Por outro lado, um frequentista ignorará x e primeiro considerará consertar , e perguntará:θ
Para esse , quais valores de x aparecerão com mais frequência?θ
Neste exemplo, com , uma resposta a essa pergunta freqüente é: "Para um dado , 95% do aparecerá entre e . "θ x - 3 √N(μ=0,σ2=θ)θx +3 √−3θ√+3θ√
Portanto, um frequentista está mais preocupado com as linhas horizontais correspondentes aos valores fixos de .θ
Esta não é a única maneira de construir o IC freqüentista, nem sequer é bom (estreito), mas tenha paciência comigo por um momento.
A melhor maneira de interpretar a palavra 'intervalo' não é um intervalo em uma linha 1-d, mas pensar nela como uma área no plano 2-d acima. Um 'intervalo' é um subconjunto do plano 2-d, não de qualquer linha 1-d. Se alguém propõe esse 'intervalo', precisamos testar se o 'intervalo' é válido em um nível de confiança / credibilidade de 95%.
Um frequentista verificará a validade desse 'intervalo', considerando cada fatia horizontal e analisando a área sob a curva. Como eu disse antes, a área sob essa curva será sempre uma. O requisito crucial é que a área dentro do 'intervalo' seja de pelo menos 0,95.
Um bayesiano verificará a validade observando as fatias verticais. Novamente, a área abaixo da curva será comparada à subárea que está abaixo do intervalo. Se o último for pelo menos 95% do primeiro, o 'intervalo' é um intervalo credível bayesiano válido de 95%.
Agora que sabemos como testar se um intervalo específico é 'válido', a questão é como escolhemos a melhor opção entre as opções válidas. Isso pode ser uma arte negra, mas geralmente você deseja o intervalo mais estreito. Ambas as abordagens tendem a concordar aqui - as fatias verticais são consideradas e o objetivo é tornar o intervalo o mais estreito possível dentro de cada fatia vertical.
Não tentei definir o menor intervalo de confiança freqüentista possível no exemplo acima. Veja os comentários do @cardinal abaixo para exemplos de intervalos mais estreitos. Meu objetivo não é encontrar os melhores intervalos, mas enfatizar a diferença entre as fatias horizontais e verticais na determinação da validade. Um intervalo que satisfaça as condições de um intervalo de confiança freqüentista de 95% geralmente não satisfaz as condições de um intervalo credível bayesiano de 95% e vice-versa.
Ambas as abordagens desejam intervalos estreitos, ou seja, ao considerar uma fatia vertical, queremos que o intervalo (1-d) dessa fatia seja o mais estreito possível. A diferença está na maneira como os 95% são aplicados - um freqüentador analisará apenas os intervalos propostos em que 95% da área de cada fatia horizontal está abaixo do intervalo, enquanto um bayesiano insistirá em que cada fatia vertical seja tal que 95% de sua área seja sob o intervalo.
Muitos não estatísticos não entendem isso e se concentram apenas nas fatias verticais; isso os torna bayesianos, mesmo que pensem o contrário.