Por que continuar ensinando e usando o teste de hipóteses (quando os intervalos de confiança estão disponíveis)?

56

Por que continuar ensinando e usando o teste de hipóteses (com todos os seus conceitos difíceis e que estão entre os pecados mais estatísticos) para problemas em que existe um estimador de intervalo (confiança, autoinicialização, credibilidade ou qualquer outra coisa)? Qual é a melhor explicação (se houver) a ser dada aos alunos? Apenas tradição? As vistas serão muito bem-vindas.

hypothesis-testing confidence-interval teaching

— Washington S. Silva
fonte

Duplicado?

— Csgillespie

4

Essas citações são muito apropriadas. Todos os modelos estão errados, mas alguns são úteis.

— mpiktas

60

Esta é minha opinião pessoal, por isso não tenho certeza se ela se qualifica adequadamente como resposta.

Por que devemos ensinar testes de hipóteses?

Uma grande razão, em suma, é que, com toda a probabilidade, no tempo que você leva para ler esta frase, centenas, senão milhares (ou milhões) de testes de hipóteses foram conduzidos dentro de um raio de 10 pés de onde você está sentado.

Seu telefone celular está definitivamente usando um teste de razão de verossimilhança para decidir se está ou não ao alcance de uma estação base. O hardware WiFi do seu laptop está fazendo o mesmo na comunicação com o seu roteador.

O micro-ondas usado para reaquecer automaticamente a pizza de dois dias usou um teste de hipótese para decidir quando sua pizza estava quente o suficiente.

O sistema de controle de tração do seu carro entrou em ação quando você deu muita gasolina em uma estrada gelada ou o sistema de aviso de pressão dos pneus informa que o pneu do lado traseiro do passageiro estava anormalmente baixo e os faróis acenderam automaticamente por volta de 5: 19:00 como o anoitecer estava chegando.

O seu iPad está renderizando esta página no formato paisagem com base nas leituras do acelerômetro (barulhento).

A empresa do seu cartão de crédito desligou o cartão quando "você" comprou uma TV de tela plana na Best Buy no Texas e um anel de diamante de US $ 2.000 na Zales em um shopping do estado de Washington poucas horas depois de comprar o almoço, o gás e o filme perto de sua casa nos subúrbios de Pittsburgh.

As centenas de milhares de bits que foram enviados para renderizar esta página da Web em seu navegador, passaram individualmente por um teste de hipótese para determinar se eram provavelmente 0 ou 1 (além de uma incrível correção de erros).

Olhe para a direita um pouquinho nesses tópicos "relacionados".

Todas essas coisas "aconteceram" devido a testes de hipóteses . Para muitas dessas coisas, alguma estimativa de intervalo de algum parâmetro pode ser calculada. Mas, especialmente para processos industriais automatizados, o uso e a compreensão dos testes de hipóteses são cruciais.

Em um nível estatístico mais teórico, o importante conceito de poder estatístico surge naturalmente da estrutura da teoria da decisão / teste de hipóteses. Além disso, acredito que "até" um matemático puro pode apreciar a beleza e a simplicidade do lema Neyman – Pearson e sua prova.

Isso não quer dizer que o teste de hipóteses seja ensinado ou entendido bem. Em geral, não é. E, embora eu concorde que, particularmente nas ciências médicas, os relatórios de estimativas de intervalos, juntamente com tamanhos de efeito e noções de significado prático versus estatístico, são quase universalmente preferíveis a qualquer teste formal de hipótese, isso não significa que o teste de hipóteses e os conceitos não são importantes e interessantes por si só.

— cardeal
fonte

2

Obrigado pela interessante lista de exemplos. Dado o objetivo da pergunta: Para contribuir com o debate sobre a revisão de nossos cursos de estatística, tentaremos obter mais detalhes sobre a implementação de testes em dispositivos modernos, pode ser uma grande motivação para nossos estudantes de engenharia.

— Washington S. Silva

3

A maioria dos seus exemplos não precisa realmente de uma análise clássica de hipóteses (implicando um nível de confiança fixo), mas de um procedimento de decisão.

— b Kjetil HALVORSEN

11

Caro @kjetil: Um voto negativo parece um pouco duro aqui, para ser honesto. De fato, a pergunta não pergunta nada específico sobre o teste clássico de hipóteses, e minha resposta também não faz essa suposição! (O teste de hipóteses é interpretado de maneira ampla aqui, e por boas razões.) #

— 19714 cardeal

11

Preciso comprar um microondas com reaquecimento automático.

— jmbejara

2

Esta é uma resposta muito eloqüente, mas eu ficaria muito grato se você explicasse um pouco mais sobre por que todas essas coisas são "testes de hipóteses". Entendo que todos os seus exemplos são sobre decisões binárias automatizadas. Imagino que na maioria dos casos algum valor seja medido e depois comparado a um ponto de corte para decidir se está acima ou abaixo dele (e, portanto, chegar à decisão). Isso já se qualifica como um "teste de hipótese" para você, ou você quis dizer outra coisa? Eu acho que quando o OP perguntou por que o teste de hipóteses ainda está sendo ensinado, eles não se referiram ao limiar simples.

— Ameba diz Reinstate Monica

29

Eu ensino testes de hipóteses por várias razões. Uma é histórica: eles terão que entender um grande conjunto de pesquisas anteriores que leem e entender o ponto de vista do teste de hipóteses. Um segundo é que, mesmo nos tempos modernos, ele ainda é usado por alguns pesquisadores, geralmente implicitamente, na realização de outros tipos de análises estatísticas.

Mas quando eu ensino, eu ensino na estrutura da construção de modelos, que essas suposições e estimativas fazem parte da construção de modelos. Dessa forma, é relativamente fácil mudar para comparar modelos mais complexos e teoricamente interessantes. A pesquisa mais frequentemente coloca teorias umas contra as outras, em vez de uma teoria contra nada.

Os pecados do teste de hipóteses não são inerentes à matemática e ao uso adequado desses cálculos. Onde eles se encontram principalmente é o excesso de confiança e má interpretação. Se a grande maioria dos pesquisadores ingênuos usasse exclusivamente estimativa de intervalo sem o reconhecimento de nenhuma das relações com essas coisas que chamamos de hipóteses, poderíamos chamar isso de pecado.

— John
fonte

+1, obrigado. Bem discutido. Mas nos cursos introdutórios, não há seleção de modelo, no sentido estrito. Você poderia citar outros contextos apropriados para a introdução do teste de hipóteses? É aceitável relatar o resultado de um teste sem uma estimativa de poder?

— Washington S. Silva

2

Não ter seleção de modelo em cursos introdutórios não é uma necessidade. Se você está pensando em mudar de curso, considere isso como um bom lugar para começar.

— John

20

$P$ $P$ $P$ $P$

— Frank Harrell
fonte

2

Em alguns campos, eu não diria que "o único lugar ..." e "incluir ANOVA ..." significam que você apenas cobriu uma quantidade enorme da caixa de ferramentas estatísticas.

— Fomite

4

Eu acho que há muito a ser dito sobre essa posição. Dado que muitos pesquisadores querem saber sobre padrões em seus dados, sempre me perguntei se poderíamos deixar de lado razoavelmente muitas estatísticas e simplesmente usar parcelas dos dados. (Claro, isso pressupõe parcelas seria feito com habilidade e perspicácia, e testes de hipóteses não seria tão ruim se poderíamos dizer que sobre eles.)

— gung - Reintegrar Monica

11

Nit-pickingly, eu discordo da citação "ausência de evidência não é evidência de ausência". A ausência de evidência para um efeito não é prova de que não existe efeito, mas certamente constitui evidência contra esse efeito existente. A questão é mais sobre quanta evidência contra o efeito um resultado não significativo tem. Acho que o problema com grandes valores de p é que, no caso de distribuição normal, grandes valores de p são evidências da hipótese, pois são uma função monotônica da qualidade do ajuste. E porque a distribuição normal é tão comum, as pessoas vêem isso e extrapolar

— probabilityislogic

5

P

$P$

11

Eu acho que depende de qual teste de hipótese você está falando. Diz-se que o teste de hipóteses "clássico" (Neyman-Pearson) é defeituoso porque não condiciona adequadamente o que realmente aconteceu quando você fez o teste . Em vez disso, foi projetado para funcionar "independentemente" do que você realmente viu a longo prazo. Mas deixar de condicionar pode levar a resultados enganosos no caso individual. Isso ocorre simplesmente porque o procedimento "não se importa" com o caso individual, a longo prazo.

O teste de hipóteses pode ser incluído no arcabouço teórico da decisão, que eu acho que é uma maneira muito melhor de entendê-lo. Você pode reafirmar o problema como duas decisões:

$H_0$
$H_\mathrm{A}$

A estrutura de decisão é muito mais fácil de entender, porque separa claramente os conceitos de "o que você fará?" e "qual é a verdade?" (através de suas informações anteriores).

Você pode até aplicar a "teoria da decisão" (DT) à sua pergunta. Mas, para interromper o teste de hipóteses, o DT diz que você deve ter uma decisão alternativa à sua disposição. Portanto, a pergunta é: se o teste de hipóteses for abandonado, o que deve acontecer? Não consigo pensar em uma resposta para esta pergunta. Só consigo pensar em formas alternativas de realizar testes de hipóteses.

(NOTA: no contexto do teste de hipóteses, os dados, a distribuição de amostras, a distribuição prévia e a função de perda são todas informações anteriores, pois são obtidas antes da tomada de decisão.)

— probabilityislogic
fonte

Meu objetivo com a questão era coletar opiniões de especialistas para enriquecer o debate sobre a revisão dos cursos de estatística que está em andamento no instituto em que trabalho no Brasil. O objetivo está sendo alcançado, com opiniões bem colocadas em @cardinal, @Andrew Robinson, @probabilityislogic e @JMS. Claramente, o teste de hipóteses (via NP, DT ou Byes) deve ser muito bem ensinado, mas os desafios para criar cursos conforme apropriado, dada a universalidade do ensino de estatística, são igualmente ou mais complexos que a própria técnica. Obrigado pela sua contribuição.

— Washington S. Silva

11

Adoro a teoria da decisão, se for feita com rigor usando métodos bayesianos que incorporam funções razoáveis de perda / utilidade. Se tais funções não estiverem disponíveis, eu tendem a favorecer a estimativa de intervalo.

— precisa

@FrankHarrell - Eu concordo, mas ainda classificaria a estimativa de intervalo como um tipo de "teoria da decisão", em que a função de utilidade geralmente é baseada no conteúdo da informação (ou seja, conclusões que usam mais informações que temos são melhores) - e isso é otimizado pela própria distribuição posterior, e possivelmente um posterior preditivo se a previsão for de interesse. A estimativa de intervalo fornece um resumo conveniente do posterior. E intervalos de confiança bons (por exemplo, com base em MLE) fornecem uma aproximação muito boa para isso quando a informação fora dos dados em mãos é escassa

— probabilityislogic

geralmente você usa a estimativa de intervalo quando não tem uma decisão específica em mente (que provavelmente é a principal razão pela qual você não teria uma função de perda razoável) e, portanto, precisa atender a muitos cenários diferentes.

— probabilityislogic

9

Se eu fosse um freqüentista incondicional, lembraria que os intervalos de confiança são regularmente testes de hipóteses invertidos, ou seja, quando o intervalo de 95% é simplesmente outra maneira de descrever todos os pontos que um teste envolvendo seus dados não rejeitaria no .05 nível. Nessas situações, a preferência por uma sobre a outra é mais uma questão de exposição do que de método.

Agora, a exposição é importante, é claro, mas acho que esse seria um argumento muito bom. É interessante e esclarecedor explicar as duas abordagens como reformulações da mesma inferência de diferentes pontos de vista. (O fato de que nem todos os estimadores de intervalo são testes invertidos é um fato deselegante, mas não particularmente desagradável, em termos pedagógicos).

Implicações muito mais sérias surgem da decisão de condicionar as observações, como apontado acima. No entanto, mesmo em retirada, o Frequentist sempre pôde observar que há muitas situações (talvez não a maioria) em que o condicionamento das observações seria imprudente ou pouco iluminado. Para aqueles, a configuração de HT / CI é (não 'é') exatamente o que se deseja e deve ser ensinada como tal.

— conjugado
fonte

Falando formalmente, qualquer teste de hipótese com alfa ligado à taxa de erro do tipo I pode ser transformado em um intervalo de confiança com o parâmetro de cobertura (1-alfa) e vice-versa, não? Eu não acho que você precise ser um freqüentador hardcore para acreditar que isso é implicado pelas definições. :-)

— Keith Winstein,

3

@ Keith Nenhum argumento sobre as definições, mas você precisa ser um freqüentista para considerá-las mais do que interessantes e talvez úteis pedaços de matemática. Ou seja, se você acha que as propriedades teóricas da amostragem são vitais para a inferência estatística, você (ou deveria) se interessa igualmente por intervalos de confiança e testes de hipóteses, pois, como concordamos, eles têm essa simetria. A minha foi uma resposta ao contraste dos questionadores entre ICs 'bons' e TCs 'ruins'. Ao juntá-los, quis reorientar os contrastes trazidos em outras respostas.

— conjugateprior

7

Ao ensinar o teste de hipóteses de Neyman Pearson a estudantes de estatística, muitas vezes tentei localizá-lo em seu cenário original: o de tomar decisões. A infraestrutura dos erros do tipo 1 e do tipo 2 faz sentido, assim como a ideia de que você pode aceitar a hipótese nula.

Temos que tomar uma decisão, achamos que o resultado da nossa decisão pode ser melhorado com o conhecimento de um parâmetro, temos apenas uma estimativa desse parâmetro. Ainda temos que tomar uma decisão. Então, qual é a melhor decisão a ser tomada no contexto de ter uma estimativa do parâmetro?

Parece-me que, em seu cenário original (tomar decisões diante da incerteza), o teste de hipóteses de PN faz todo o sentido. Veja, por exemplo, N&P 1933, particularmente p. 291

Neyman e Pearson. Sobre o problema dos testes mais eficientes de hipóteses estatísticas. Transações Filosóficas da Sociedade Real de Londres. Série A, contendo artigos de caráter matemático ou físico (1933) vol. 231 pp. 289-337

— Andrew Robinson
fonte

4

O teste de hipóteses é uma maneira útil de formular muitas perguntas: o efeito de um tratamento é zero ou diferente de zero? A capacidade entre declarações como essas e um modelo ou procedimento estatístico (incluindo a construção de um estimador de intervalo) é importante para os profissionais, eu acho.

Também é importante mencionar que um intervalo de confiança (no sentido tradicional) não é inerentemente menos "propenso ao pecado" do que o teste de hipóteses - quantos estudantes de estatísticas de introdução conhecem a definição real de um intervalo de confiança?

Talvez o problema não seja o teste de hipóteses ou a estimativa de intervalos, pois são as versões clássicas do mesmo; a formulação bayesiana evita isso muito bem.

— JMS
fonte

2

@JMS, "quantos estudantes de estatísticas de introdução conhecem a definição real de um intervalo de confiança?" Ou, graduados em doutorado em estatística, para esse assunto.

— cardeal

Bastante! Aliás, não quis dizer nada para estudantes ou profissionais de qualquer área. Mas é um pouco louco esperar a ginástica mental de alguém que não se inscreveu em trabalhos avançados em estatística.

— JMS

2

Quantas pessoas podem dizer a definição real de ICs? E quantas pessoas os usam de maneira consistente com essa definição? É muito difícil não pensar "é provável que o parâmetro esteja no referido intervalo" - mesmo que você saiba que não é o que é um IC.

— probabilityislogic

E sobre a prática habitual de não reportar-se usar

— Washington S. Silva

11

O que tentei expressar é que os testes de hipóteses não acompanhados de estimativas de poder são muito questionáveis e que as estimativas de intervalo não possuem essa fonte adicional de complicações.

— Washington S. Silva

2

O motivo é a tomada de decisão. Na maioria das decisões, você faz ou não. Você pode continuar observando os intervalos o dia inteiro; no final, há um momento em que você decide fazer ou não.

O teste de hipóteses se encaixa perfeitamente nessa realidade simples de SIM / NÃO.

— Aksakal
fonte