Quando usar o framework Fisher e Neyman-Pearson?


73

Ultimamente, tenho lido muito sobre as diferenças entre o método de teste de hipóteses de Fisher e a escola de pensamento Neyman-Pearson.

Minha pergunta é, ignorando objeções filosóficas por um momento; quando devemos usar a abordagem de Fisher da modelagem estatística e quando devemos usar o método de Neyman-Pearson de níveis de significância etc. Existe uma maneira prática de decidir qual ponto de vista apoiar em qualquer problema prático?


Onde você leu sobre isso? Por favor, cite suas fontes.
Xmjx

Respostas:


83

|x¯-100|

Fisher pensou que o valor-p poderia ser interpretado como uma medida contínua de evidência contra a hipótese nula . Não existe um valor fixo específico no qual os resultados se tornem "significativos". A maneira como costumo transmitir isso às pessoas é salientar que, para todos os efeitos, p = 0,049 ep = 0,051 constituem uma quantidade idêntica de evidência contra a hipótese nula (cf. resposta de @ Henrik aqui ) .

Por outro lado, Neyman e Pearson pensaram que você poderia usar o valor-p como parte de um processo formal de tomada de decisão . No final de sua investigação, você deve rejeitar a hipótese nula ou deixar de rejeitar a hipótese nula. Além disso, a hipótese nula pode ser verdadeira ou não. Portanto, existem quatro possibilidades teóricas (embora em qualquer situação, haja apenas duas): você pode tomar uma decisão correta (deixar de rejeitar uma hipótese verdadeira - ou rejeitar uma hipótese falsa - nula) ou fazer um tipo Erro I ou tipo II (rejeitando um nulo verdadeiro ou falhando em rejeitar uma hipótese nula falsa, respectivamente). (Observe que o valor p não é o mesmo que a taxa de erro do tipo I, que discuto aquiαp<α

As abordagens de Fisherian e Neyman-Pearson não são as mesmas . O argumento central da estrutura de Neyman-Pearson é que, no final do seu estudo, você precisa tomar uma decisão e se afastar. Alegadamente, um pesquisador abordou Fisher com resultados "não significativos", perguntando o que ele deveria fazer e Fisher disse: "vá buscar mais dados".


Pessoalmente, acho a lógica elegante da abordagem Neyman-Pearson muito atraente. Mas não acho que seja sempre apropriado. Na minha opinião, pelo menos duas condições devem ser atendidas antes que a estrutura de Neyman-Pearson seja considerada:

  1. Deve haver alguma hipótese alternativa específica ( magnitude do efeito ) com a qual você se preocupa por algum motivo. (Eu não ligo para o tamanho do efeito, qual é o seu motivo, se é bem fundamentado ou coerente etc., apenas que você tenha um.)
  2. Deve haver alguma razão para suspeitar que o efeito será "significativo", se a hipótese alternativa for verdadeira. (Na prática, isso normalmente significa que você realizou uma análise de energia e possui dados suficientes.)

Quando essas condições não são atendidas, o valor-p ainda pode ser interpretado de acordo com as idéias de Fisher. Além disso, parece-me provável que na maioria das vezes essas condições não sejam atendidas. Aqui estão alguns exemplos fáceis que vêm à mente, onde os testes são executados, mas as condições acima não são atendidas:

  • a ANOVA omnibus para um modelo de regressão múltipla (é possível descobrir como todos os parâmetros hipotéticos de inclinação diferente de zero se reúnem para criar um parâmetro de não centralidade para a distribuição F , mas não é remotamente intuitivo e duvido que alguém faz isso)
  • W
  • o valor de um teste de homogeneidade de variância (por exemplo, teste de Levene ; mesmos comentários acima)
  • quaisquer outros testes para verificar suposições etc.
  • testes t de covariáveis ​​que não sejam a variável explicativa de interesse principal no estudo
  • pesquisa inicial / exploratória (por exemplo, estudos-piloto)

Embora esse seja um tópico antigo, a resposta é muito apreciada. +1
Stijn

+1 Ótima resposta! Estou impressionado com a sua capacidade de explicar esses conceitos de maneira concisa.
COOLSerdash

11
Esta é uma resposta realmente maravilhoso, @gung
Patrick S. Forscher

5
O AFAIK Neyman-Pearson não utilizou os valores de p de Fisher e, portanto, o critério "p <alfa". O que você chama de "Neyman-Pearson" é na verdade "teste de significância de hipóteses nulas" (um híbrido de Fisher e NP), não uma teoria pura da decisão de Neyman-Pearson.
19415 Frank

"se o valor de referência fosse o parâmetro verdadeiro da população." Para ser mais preciso, é "se a distribuição de probabilidade é aquela especificada na hipótese nula". A hipótese nula não apenas especifica estatísticas resumidas, como uma média, especifica uma distribuição de probabilidade inteira. Freqüentemente, a família de distribuição é considerada implícita (por exemplo, distribuição normal); nesse momento, a especificação dos parâmetros especifica a distribuição.
Acumulação 15/07

18

A praticidade está nos olhos de quem vê, mas;

  • O teste de significância de Fisher pode ser interpretado como uma maneira de decidir se os dados sugerem ou não algum `sinal 'interessante. Rejeitamos a hipótese nula (que pode ser um erro do tipo I) ou não dizemos nada. Por exemplo, em muitas aplicações modernas de ics, essa interpretação se encaixa; não queremos cometer muitos erros do tipo I, queremos extrair os sinais mais emocionantes, embora possamos perder alguns.

  • A hipótese de Neyman-Pearson faz sentido quando existem duas alternativas desunidas (por exemplo, o Bóson de Higgs existe ou não) entre as quais decidimos. Além do risco de um erro do tipo I, também podemos cometer um erro do tipo II - quando há um sinal real, mas dizemos que não existe, tomando uma decisão 'nula'. O argumento de NP era que, sem cometer muitas taxas de erro do tipo I, queremos minimizar o risco de erros do tipo II.

Freqüentemente, nenhum dos sistemas parecerá perfeito - por exemplo, você pode apenas querer uma estimativa pontual e a medida correspondente de incerteza. Além disso, pode não interessar qual versão você usa, porque informa o valor de p e deixa a interpretação do teste para o leitor. Mas, para escolher entre as abordagens acima, identifique se (ou não) erros do Tipo II são relevantes para o seu aplicativo.


5

O ponto principal é que você não pode ignorar as diferenças filosóficas. Um procedimento matemático em estatística não se destaca apenas como algo que você aplica sem algumas hipóteses, suposições, teoria ... filosofia.

Dito isto, se você insistir em seguir filosofias freqüentistas, pode haver alguns tipos muito específicos de problemas em que Neyman-Pearson realmente precisa ser considerado. Todos eles se enquadravam na classe de testes repetidos, como controle de qualidade ou ressonância magnética. Definir um alfa específico antecipadamente e considerar toda a estrutura de Tipo I, Tipo II e potência torna-se mais importante nesse cenário.


Não insisto em aderir a estatísticas freqüentistas, mas estava me perguntando se há situações em que a adoção de um ponto de vista de Fisher ou Neyman-Pearson pode ser natural. Eu sei que há uma distinção filosófica, mas talvez haja também um lado prático a ser considerado?
Stijn

3
OK, bem, basicamente, exatamente o que eu disse ... Neyman-Pearson realmente se preocupou com situações em que você faz muitos e muitos testes, sem qualquer embasamento teórico real para cada um. O ponto de vista de Fisher realmente não aborda esse problema.
John John

1

Meu entendimento é: valor-p é nos dizer em que acreditar (verificar uma teoria com dados suficientes) enquanto a abordagem de Neyman-Pearson é nos dizer o que fazer (tomar as melhores decisões possíveis, mesmo com dados limitados). Portanto, parece-me que o valor p (pequeno) é mais rigoroso, enquanto a abordagem de Neyman-Pearson é mais pragmática; É provavelmente por isso que o valor-p é usado mais para responder a perguntas científicas, enquanto Neyman e Pearson são usados ​​mais para tomar decisões estatísticas / práticas.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.