Estatísticas sem teste de hipóteses

Em suas postagens no blog, Andrew Gelman diz que não é fã de testes de hipóteses bayesianas (veja aqui: http://andrewgelman.com/2009/02/26/why_i_dont_like/ ) e, se não estou me lembrando, acho que ele também diz que o teste de hipóteses freqüentista também tem deficiências.

Minha pergunta é: você pode fazer estatísticas sem teste de hipóteses, mesmo para (desculpe pela repetição) testes de hipóteses e tomar decisões? A solução é confiar apenas na estimativa e tomar decisões com base nas probabilidades estimadas? Em caso afirmativo, você pode apontar onde aprender sobre isso?

hypothesis-testing bayesian frequentist

— David
fonte

Você pode tentar fazer simulações de bootstrap, mas acho que não será uma estatística matemática completa.

— Alexey Burnakov

Eu sou talvez menos agora mais sobre o espectro de Gelman, mas eu tenho que dizer que o teste de hipóteses é muito raramente uma boa maneira de responder a maioria das perguntas é usado para o endereço (ficamos tão muitas perguntas formuladas como problemas de estimação, que termina com "qual teste devo usar?" ... me deixa tão triste que as pessoas nem percebem que não fizeram remotamente uma pergunta "semelhante a um teste"; muitos trabalhos são parecidos). Freqüentemente, as perguntas reais são cavilhas quadradas incansavelmente marteladas no buraco arredondado de um teste de hipótese até que você não perceba mais que elas não tinham a mesma forma de quando você começou.

— Glen_b -Reinstala Monica

@Glen_b Tentei apresentar resultados (que às vezes eram atraentes e outras não) com apenas estimativas e gráficos. É bastante comum que ele seja combatido com "Mas como sabemos que é [significativo / significativo / verificável]?" Para o qual nunca é adequado dizer: "Olhe para este boxplot. É." Por outro lado, se você apresentar

p < 0.05

$p<0.05$ ninguém nunca pergunta ao contrário "Como sabemos que o efeito é relevante?" Eu acho que é um paradoxo que está sendo conduzido em grande parte por não estatísticos.

— Adamo

Eu entendo a dificuldade; a atitude é definitivamente parte da dificuldade de conseguir que as pessoas evitem pelo menos os testes quando não têm uma pergunta à qual um teste responderia. Pode-se proceder a erros padrão (em amostras grandes) e / ou intervalos para demonstrar que algum efeito estimado não é simplesmente resultado de variação aleatória. Isso me faz pensar se as pessoas que dizem essas coisas realmente pensam que seus pontos nulos serão realmente verdadeiros (se eles acreditam em testes, provavelmente deveriam estar fazendo testes de equivalência).

— Glen_b -Reinstala Monica

Acrescentarei dois pontos: acredita-se que o teste de hipóteses é uma parte importante da estatística, pois ocupa uma quantidade desproporcional de ensino de estatística. É ridiculamente contra-intuitivo, e as reações filosóficas que o justificam levam os sobreviventes a acreditar que são críticos para qualquer análise de dados. Segundo, qualquer estrutura teórica de decisão levará a falsos positivos e falsos negativos: tudo o que podemos fazer é maximizar a potência e quantificar as taxas de erro do tipo I.

— AdamO 4/06

Respostas:

Permitam-me tomar a liberdade de reformular a pergunta como "Quais são os argumentos que Andrew Gelman apresenta contra o teste de hipóteses?"

No artigo vinculado no post, os autores contestam o uso de um procedimento mecânico para a seleção de modelos ou, como eles o expressam:

[Raftery] promete o impossível: A seleção de um modelo que seja adequado para propósitos específicos, sem considerar esses propósitos.

Testes de hipótese freqüentistas ou bayesianos são dois exemplos de tais procedimentos mecânicos. O método específico que eles criticam é a seleção de modelos pelo BIC, que está relacionada ao teste de hipóteses bayesianas. Eles listam dois casos principais em que esses procedimentos podem falhar mal:

"Muitos dados": digamos que você tenha um modelo de regressão $y_i = \beta'x_i + \epsilon_i$ digamos, 100 regressores padrão normalmente distribuídos. Digamos que a primeira entrada de $\beta$ é $1$ e todas as outras entradas são iguais a $10^{-10}$ . Dados dados suficientes, um teste de hipótese daria que todas as estimativas de $\beta$ são "significativos". Isso significa que devemos incluir $x_2,x_3,\ldots x_{100}$ no modelo? Se estivéssemos interessados em descobrir algumas relações entre característica e resultado, não estaríamos melhor considerando um modelo com apenas $x_1$ ?
"Dados insuficientes": por outro lado, se os tamanhos das amostras forem muito pequenos, é improvável que encontremos relacionamentos "significativos". Isso significa que o melhor modelo a ser usado é o que não inclui regressores?

Não há respostas gerais para essas perguntas, pois elas dependem do objetivo do modelador em uma determinada situação. Freqüentemente, podemos tentar selecionar modelos com base em critérios que estejam mais intimamente relacionados à nossa função objetivo, por exemplo, amostra de validação cruzada quando nosso objetivo é previsão. Em muitas situações, no entanto, os procedimentos baseados em dados precisam ser complementados por opiniões de especialistas (ou usando a abordagem bayesiana com priores cuidadosamente escolhidos que Gelman parece preferir).

— Matthias Schmidtblaicher
fonte

Na verdade, no que diz respeito ao ponto 1, grande parte do aprendizado de máquina está interessado neste problema: você pode criar um forte indicador de muitos indicadores fracos? Eu acho que há alguma promessa legítima aqui. Por exemplo, os estudos da GWAS aprimoraram os possíveis contribuintes genéticos do diabetes para algo entre 20 e 100 SNPs. Nenhum deles é notavelmente prognóstico como foi descoberto anteriormente em outras doenças hereditárias (digamos os genes BRCA e sua relação quase determinística com o câncer de mama). Essa descoberta desencoraja abordagens usuais da terapia genética para prevenção.

— Adamo

Este é um bom argumento. A disponibilidade de um procedimento geral e automático que crie previsões fortes reduziria muito mais o papel do analista e talvez o eliminasse em muitos contextos.

— Matthias Schmidtblaicher

A abordagem teórica da decisão de Neyman-Pearson para o teste de hipóteses (rejeitar / aceitar) está intimamente alinhada com a falsificação de Popper . Este método não é inválido, apenas não atendeu à crescente ganância humana pelo consumo de conhecimento, produtos e ganho profissional.

A validade da abordagem de Popper à ciência baseia-se fortemente em 1. Hipóteses pré-especificadas 2. Apenas realizando pesquisas com poder adequado e 3. Consumindo os resultados de estudos positivos / negativos com igual zelo. Nós (no meio acadêmico, empresarial, governamental, mídia etc.) ao longo do século passado não fizemos nada disso.

Fisher propôs uma maneira de fazer "estatísticas sem testes de hipóteses". Ele nunca sugeriu que seu valor p fosse comparado a um ponto de corte de 0,05. Ele disse para relatar o valor-p e relatar o poder do estudo.

Outra alternativa sugerida por muitos é apenas relatar os intervalos de confiança (ICs). O pensamento é que forçar alguém a avaliar os resultados de um estudo com base em uma quantidade física, em vez de uma quantidade sem unidade (como um valor-p), os encorajaria a considerar aspectos mais sutis, como tamanho do efeito, interpretabilidade e generalização. No entanto, mesmo isso não deu certo: a tendência crescente é inspecionar se o IC ultrapassa 0 (ou 1 para escalas de razão) e declarar o resultado estatisticamente significativo, se não. Tim Lash chama esse teste de hipótese de backdoor.

Existem argumentos sinuosos e intermináveis sobre uma nova era de testes de hipóteses. Ninguém não abordou a ganância de que falei anteriormente. Tenho a impressão de que não precisamos mudar a maneira como fazemos estatísticas, precisamos mudar a maneira como fazemos ciência .

— AdamO
fonte