A lógica básica da construção de um intervalo de confiança

Considere um modelo com um parâmetro de interesse, , e seu estimador de pontos, . Para simplificar, suponha (em vários casos, isso pode ser justificado assintoticamente). Existem duas maneiras de construir um intervalo que passa a ser o menor intervalo de confiança possível . $\theta$ $\hat\theta$ $\hat\theta\sim N(\theta,\sigma^2/n)$ $(1-\alpha)$

Para qualquer valor verdadeiro , quero o menor intervalo possível que tenha probabilidade de capturar . Eu seleciono a região de maior densidade na distribuição de dada , , de modo que a probabilidade cumulativa para essa região seja . Defino o estimador de intervalo de modo que, para cada estimativa de ponto na região, a estimativa de intervalo correspondente cubra . Como a distribuição de é a mesma para qualquer valor verdadeiro $\theta$ $(\hat\theta_{lower},\hat\theta_{upper})$ $(1-\alpha)$ $\theta$ $\hat\theta$ $\theta$ $f(\hat\theta;\theta)$ $(1-\alpha)$ $\hat\theta$ $\theta$
$\hat\theta$ $\theta$ exceto por uma mudança de local, o mecanismo (a regra) para construir o intervalo é independente do que é real . Portanto, cobrirá qualquer verdadeiro com probabilidade . $\theta$ $\theta$ $(1-\alpha)$
Dada uma estimativa pontual , estou considerando sob qual valor verdadeiro é provável que ele tenha sido gerado. Conhecendo a distribuição de para qualquer dado verdadeiro $\hat\theta$ $\theta$ $\hat\theta$ $\theta$ , $f(\hat\theta;\theta)$ , Eu seleciono aqueles $\theta$ s que produzem os mais altos valores de densidade. Limito a seleção a incluir apenas ~~valores $\theta$ que têm probabilidade cumulativa $\geq\alpha$ para valores pelo menos tão extremos quanto $\theta$ ; em outras palavras, o~~ valores $\theta$ para o qual o correspondente $p$ -valor associado a $\hat\theta$ é pelo menos $\alpha$ .

A primeira abordagem se concentra diretamente em garantir que, seja qual for o verdadeiro $\theta$ , está incluído no $(1-\alpha)$ parcela de instâncias de amostragem. A segunda abordagem procura o melhor candidato $\theta$ s que fazem a realização $\hat\theta$ provável, ao descartar $\theta$ s sob os quais $\hat\theta$ é improvável. A linha entre os dois (provável vs. improvável) é traçada de maneira arbitrária da perspectiva do objetivo original, mas passa a ser a linha correta.

As duas regras para construir um intervalo fornecem a mesma resposta neste exemplo simplificado.
Qual (se algum dos dois) é a motivação correta para, ou a maneira correta de pensar, a construção de um intervalo de confiança?
(Talvez remover a suposição distributiva para $\hat\theta$ acima invalidaria uma das abordagens, deixando claro que geralmente é inapropriada e apenas fornece a resposta correta neste exemplo por coincidência?)

confidence-interval likelihood credible-interval

— Richard Hardy
fonte

Qual é a sua motivação (se houver) aqui? Parece uma diferença muito sutil para a grande maioria dos casos.

— Xiaomi

@ Xiaomi, obrigado pelo seu interesse! O resultado das duas abordagens é o mesmo, mas a maneira de chegar a ela é aparentemente muito diferente (pelo menos essa é a minha percepção). Pergunto-me de que maneira devemos proceder para permanecermos fiéis à lógica (e provavelmente ao histórico) da estimativa do intervalo de confiança. Talvez uma das maneiras apenas ocasionalmente desse a resposta certa. Estou bastante preocupado, mesmo que a diferença possa parecer sutil para alguns. Você saberia a resposta?

— Richard Hardy

Após a resposta de Martijn Weterings, estou começando a pensar que a segunda abordagem pode ser um caso especial de construção de um intervalo credível (com um plano anterior em

θ

$\theta$ )

— Richard Hardy

Pergunta relacionada sobre a diferença entre o intervalo de confiança e o intervalo de credibilidade com stats.stackexchange.com/questions/355109/… simples anterior (eles não são os mesmos e, principalmente, digno de nota é que um intervalo de confiança não muda com a alteração de variáveis, enquanto intervalo de credibilidade, onde o anterior precisa ser alterado, se você quiser mantê-lo "plano", não permanece o mesmo)

— Sextus Empiricus

A última frase do parágrafo que explica o segundo método "Limito a seleção a incluir apenas ... os valores $\theta$ para o qual o valor p correspondente associado a $\theta$ é pelo menos $\alpha$ " é realmente o mesmo que o primeiro método.

— Sextus Empiricus

Exemplo com 100 ensaios de Bernoulli

A construção de intervalos de confiança pode ser colocada em um gráfico de $\theta$ versus $\hat{\theta}$ como aqui:

Podemos rejeitar uma hipótese nula com intervalos de confiança produzidos por amostragem, em vez da hipótese nula?

Na minha resposta a essa pergunta, uso o seguinte gráfico:

Observe que esta imagem é um clássico e uma adaptação de O uso da confiança ou limites fiduciais ilustrados no caso do Binomial CJ Clopper e ES Pearson Biometrika vol. 26, n. 4 (dezembro de 1934), pp. 404-413

Você pode definir um $\alpha$ -% de região de confiança de duas maneiras:

na direção vertical $L(\theta) < X < U(\theta)$ a probabilidade para os dados $X$ , condicional ao fato de o parâmetro ser verdadeiramente $\theta$ , cair dentro desses limites é $\alpha$ .
na direção horizontal $L(X) < \theta < U(X)$ a probabilidade de um experimento ter o parâmetro true dentro do intervalo de confiança é $\alpha$ %

Correspondência entre duas direções

Portanto, o ponto chave é que existe uma correspondência entre os intervalos $L(X),U(X)$ e os intervalos $L(\theta),U(\theta)$ . É daí que os dois métodos vêm.

Quando você quiser $L(X)$ e $U(X)$ estar o mais próximo possível ( "o mais curto possível ( $1−\alpha$ ) nível de confiança " ), então você está tentando tornar a área de toda a região o menor possível, e isso é semelhante a obter $L(\theta)$ e $U(\theta)$ o mais perto possível. (mais ou menos, não há uma maneira única de obter o menor intervalo possível, por exemplo, você pode torná-lo mais curto para um tipo de observação $\hat\theta$ à custa de outro tipo de observação $\hat\theta$ )

Exemplo com $\boldsymbol{\hat\theta \sim \mathcal{N}(\mu=\theta, \sigma^2=1+\theta^2/3)}$

Para ilustrar a diferença entre o primeiro e segundo método que ajustar o exemplo um pouco de tal modo que temos um caso em que os dois métodos de fazer divergir.

Deixe o $\sigma$ não seja constante, mas sim tenha alguma relação com $\mu= \theta$

\hat{θ} \sim N (μ = θ, σ^{2} = 1 1 + θ^{2} / 3)

${\hat\theta \sim \mathcal{N}(\mu=\theta, \sigma^2=1+\theta^2/3)}$

então a função densidade de probabilidade para $\hat \theta$ , condicional em $\theta$ é

f (\hat{θ}, θ) = \frac{1 1}{\sqrt{2 π (1 1 + θ^{2} / 3)}} e x p [\frac{- (θ - \hat{θ})^{2}}{2 (1 1 + θ^{2} / 3)}]

$f(\hat\theta, \theta ) = \frac{1}{\sqrt{2 \pi (1+\theta^2/3)}} exp \left[ \frac{-(\theta-\hat\theta)^2}{2(1+\theta^2/3)} \right]$

Imagine esta função de densidade de probabilidade $f(\hat \theta , \theta)$ plotado em função de $\theta$ e $\hat \theta$ .

Legenda: A linha vermelha é o limite superior do intervalo de confiança e a linha verde é o limite inferior do intervalo de confiança. O intervalo de confiança é desenhado para $\pm 1 \sigma$ (aproximadamente 68,3%). As linhas pretas grossas são o pdf (2 vezes) e a função de probabilidade que se cruzam nos pontos $(\theta,\hat\theta)=(-3,-1)$ e $(\theta,\hat\theta)=(0,-1)$ .

PDF Na direção da esquerda para a direita (constante $\theta$ ) temos o pdf para a observação $\hat \theta$ dado $\theta$ . Você vê dois deles projetados (no plano $\theta = 7$ ) Observe que o $p$ limites de valores ( $p<1-\alpha$ escolhido como a região de maior densidade) estão na mesma altura para um único pdf, mas não na mesma altura para diferentes PDFs (por altura, o valor de $f(\hat\theta,\theta)$ )

Função de probabilidade Na direção de cima para baixo (constante $\hat \theta$ ) temos a função de probabilidade para $\theta$ dada a observação $\hat\theta$ . Você vê um desses projetado à direita.

Nesse caso específico, quando você seleciona a massa de 68% com a maior densidade para constantes $\theta$ então você não obtém o mesmo que selecionar a massa de 68% com a maior probabilidade de constante $\hat \theta$ .

Para outras porcentagens do intervalo de confiança, você terá um ou ambos os limites em $\pm \infty$ e também o intervalo pode consistir em duas partes separadas. Portanto, obviamente não é aí que está a maior densidade da função de probabilidade (método 2). Este é um exemplo bastante artificial (embora seja simples e agradável como resulta nesses muitos detalhes), mas também para casos mais comuns, você obtém facilmente que os dois métodos não coincidem (veja o exemplo aqui em que o intervalo de confiança e o intervalo credível com um flat anterior são comparados para o parâmetro rate de uma distribuição exponencial).

Quando os dois métodos são os mesmos?

Essa horizontal versus vertical está dando o mesmo resultado, quando os limites $U$ e $L$ , que limitavam os intervalos no gráfico $\theta$ vs $\hat \theta$ são iso-linhas para $f(\hat \theta ; \theta)$ . Se os limites estiverem em toda parte na mesma altura que em nenhuma das duas direções, você poderá fazer uma melhoria.

(contrastando com isso: no exemplo com $\hat \theta \sim \mathcal{N}(\theta,1+\theta^2/3)$ os limites do intervalo de confiança não terão o mesmo valor $f(\hat \theta, \theta)$ para diferentes $\theta$ , porque a massa de probabilidade se torna mais espalhada, portanto, menor densidade, para maior $\vert \theta \vert$ . Isso faz com que $\theta_{low}$ e $\theta_{high}$ não terá o mesmo valor $f(\hat \theta ; \theta)$ , pelo menos para alguns $\hat \theta$ , Isso contradiz o método 2, que busca selecionar as densidades mais altas $f(\hat \theta ; \theta)$ para um dado $\hat \theta$ . Na imagem acima, tentei enfatizar isso plotando as duas funções pdf relacionadas aos limites do intervalo de confiança no valor $\hat \theta= -1$ ; você pode ver que eles têm valores diferentes do pdf nesses limites.)

Na verdade, o segundo método não parece totalmente correto (é mais uma espécie de variação de um intervalo de probabilidade ou um intervalo credível do que um intervalo de confiança) e quando você seleciona $\alpha$ % de densidade na direção horizontal (limite $\alpha$ % da massa da função de probabilidade), então você pode depender das probabilidades anteriores .

No exemplo com a distribuição normal, não há problema e os dois métodos estão alinhados. Para uma ilustração, veja também esta resposta de Christoph Hanck . Lá, os limites são iso-linhas. Quando você muda o $\theta$ a função $f(\hat\theta,\theta)$ só faz uma mudança e não muda 'forma'.

Probabilidade fiducial

O intervalo de confiança, quando os limites são criados na direção vertical, são independentes das probabilidades anteriores. Este não é o caso do segundo método.

Essa diferença entre o primeiro e o segundo método pode ser um bom exemplo da diferença sutil entre probabilidade fiducial e intervalos de confiança.

— Sextus Empiricus
fonte

Bons pontos. Eu estava suspeitando algumas probabilidades anteriores pode ser estar tentando esgueirar-se na segunda abordagem ...

— Richard Hardy

Vou tentar ver se consigo alguma melhor representação visual. Quando você planejaria o

f (\hat{θ}; θ)

$f(\hat \theta; \theta)$ como superfície, você obtém alguma forma de cume, mas no caso dos ensaios de Bernouilli, essa forma é menor e mais alta nas bordas. No caso da distribuição normal, é mais simétrica.

— Sextus Empiricus

Isso (uma nova representação visual) pode ajudar muito! Além disso, você poderia elaborar sobre Imagine a função de densidade de probabilidade $f(\hat \theta ; \theta)$ para $\hat \theta$ condicional em $\theta$ plotado em 2D $\theta$ versus $\hat \theta$ ? Você poderia reformular de alguma forma? Estou tendo problemas para entender isso e, consequentemente, o que se entende por horizontal versus vertical no restante; talvez você possa dar nomes como "o

θ

$\theta$ direção "para horizontal e" o

\hat{θ}

$\hat\theta$ direction "para vertical (ou não, o que estiver correto).

— Richard Hardy

Eu gostaria de adicionar uma foto disso. É semelhante à imagem atual. Nós normalmente vemos

f (\hat{θ}; θ)

$f(\hat \theta ; \theta)$ como uma função com

θ

$\theta$ fixo, mas poderíamos transformá-lo em uma função

f (\hat{θ}, θ)

$f(\hat \theta, \theta)$ com

θ

$\theta$ não fixo. Então, quando fazemos um intervalo de confiança, criamos limites

L (θ)

$L(\theta)$ e

U (θ)

$U(\theta)$ esse limite, na vertical (

\hat{θ}

$\hat \theta$ ) direção,

α

$\alpha$ % da massa. Desde que fazemos isso para cada

θ

$\theta$ teremos na imagem 2D limites que contêm

α

$\alpha$ % da massa. Poderíamos imaginar fazendo o mesmo na outra direção (mas será diferente).

— Sextus Empiricus

@whuber a imagem é bem antiga, usei a imagem daqui jstor.org/stable/2331986 O uso da confiança ou limites fiduciais ilustrados no caso do Binomial CJ Clopper e ES Pearson Biometrika Vol. 26, n. 4 (dezembro de 1934), pp. 404-413 (e eu concordo que a idéia de escolher uma área para que você obtenha 95% da massa não seja correta, apenas uma dessas regiões resultará em confiança intervalos, o problema pode estar na afirmação da pergunta "Eu quero o menor intervalo possível", que é ambíguo. Não existe uma maneira única de conseguir isso.)

— Sextus Empiricus

A lógica básica da construção de um intervalo de confiança

Exemplo com 100 ensaios de Bernoulli

Correspondência entre duas direções

Exemplo com θ^∼ N( μ = θ ,σ2= 1 +θ2/ 3)θ^∼N(μ=θ,σ2=1 1+θ2/3)\boldsymbol{\hat\theta \sim \mathcal{N}(\mu=\theta, \sigma^2=1+\theta^2/3)}

Quando os dois métodos são os mesmos?

Probabilidade fiducial

Exemplo com $\boldsymbol{\hat\theta \sim \mathcal{N}(\mu=\theta, \sigma^2=1+\theta^2/3)}$