Existe uma maneira útil de definir o "melhor" intervalo de confiança?

A definição padrão de (digamos) um intervalo de confiança de 95% (IC) simplesmente requer que a probabilidade de que ele contenha o parâmetro true seja de 95%. Obviamente, isso não é único. A linguagem que eu vi sugere que, entre os muitos IC válidos, geralmente faz sentido encontrar algo como o mais curto, simétrico ou conhecido precisamente mesmo quando alguns parâmetros de distribuição são desconhecidos etc. Em outras palavras, parece não haver hierarquia óbvia do que o IC é "melhor" do que outros.

No entanto, pensei que uma definição equivalente de IC é que ela consiste em todos os valores, de modo que a hipótese nula de que o parâmetro true seja igual a esse valor não seria rejeitada no nível de significância apropriado depois de ver a amostra realizada. Isso sugere que, desde que escolhamos um teste que gostamos, podemos construir automaticamente o IC. E há uma preferência padrão entre testes com base no conceito de UMP (ou UMP entre testes imparciais).

Existe algum benefício em definir o IC como o correspondente ao teste UMP ou algo parecido?

hypothesis-testing confidence-interval

— max
fonte

(+1) Há duas dificuldades com sua proposta. A primeira é que os testes UMP geralmente não existem. A segunda é que uma maneira proveitosa de avaliar os intervalos de confiança é em termos de uma função de perda relacionada. Isso permite uma variedade flexível, mas ampla de soluções.

— whuber

A definição de um intervalo de confiança não é o que você reivindica, como discutido em vários locais deste site, por exemplo, aqui: stats.stackexchange.com/questions/13655/… e aqui: stats.stackexchange.com/a/6431/5829

— Jake Westfall

Qual é o propósito da CI para você? O que você está tentando fazer com isso?

— Aksakal

@ Aksakal, na verdade, acabei de perceber que estou muito confuso sobre o conceito e queria entendê-lo melhor. Não é específico para nenhum aplicativo.

— máximo

@JakeWestfall Encontrei uma discussão interessante, mas nenhuma definição clara em nenhum desses links. Você pode me indicar uma definição específica? Não afirmei que minha definição estava correta, mas foi tudo o que encontrei após uma breve pesquisa nos livros de estatística. De fato, a mesma definição é oferecida no artigo Morey mencionado na resposta de Alex

— max

Respostas:

Um pouco longo para um comentário. Confira a discussão sobre as UMPs neste artigo "A falácia de confiar em intervalos de confiança" de Morey et al. Em particular, existem alguns exemplos em que:

"Ainda mais estranhamente, os intervalos do procedimento UMP aumentam inicialmente em largura com a incerteza nos dados, mas quando a largura da probabilidade é maior que 5 metros, a largura do intervalo UMP é inversamente relacionada à incerteza nos dados, como o intervalo não paramétrico. Os procedimentos de distribuição de amostras e UMP compartilham a distinção dúbia de que seus ICs não podem ser usados para retroceder às observações. Apesar de ser o procedimento "mais poderoso", o procedimento de UMP descarta claramente informações importantes ".

— Alex R.
fonte

E a outra direção? Dado um bom intervalo de confiança, o teste de hipótese nula correspondente é geralmente bom?

— máx

Rejeição é apenas parte da inferência, não fique preso lá. Você está tomando uma decisão. Digamos que você precise decidir se deve ir a um mecânico quando a luz do "mecanismo de verificação" acender ou se esquecer disso.

$\alpha=0.01$

Não é assim que as decisões devem ser tomadas e como o significado econômico deve ser levado em consideração. Você deve calcular o custo de ir com nulo vs. rejeitá-lo e selecionar a hipo alternativa.

Omiti completamente a hipótese alternativa no exemplo acima, porque é assim que todo mundo faz: eles acham que a hipo alternativa é apenas algum tipo de formalidade como a reverência. Na vida real, a alternativa é tão importante quanto o nulo, porque é assim que você calcula o custo de não escolher o nulo. Somente quando você contabiliza os custos de nulo e alternativo, você deve tomar a decisão de ir ou não a um mecânico. O valor de p e os intervalos de confiança por si só não têm significado nesse sentido, apenas em conjunção com os custos que se tornam significativos

— Aksakal
fonte

Não quero dizer que a rejeição é o fim da história. Fiquei realmente surpreso quando percebi que todas as definições de IC encontradas permitiam IC não exclusivo. Com todas as outras advertências sobre o uso do IC, esperava pelo menos não ter que lidar com o fato de que a escolha de qualquer IC em particular é arbitrária.

— máximo