Existe uma certa escola de pensamento segundo a qual a abordagem mais difundida dos testes estatísticos é um "híbrido" entre duas abordagens: a de Fisher e a de Neyman-Pearson; essas duas abordagens, afirma a alegação, são "incompatíveis" e, portanto, o "híbrido" resultante é uma "confusão incoerente". Fornecerei uma bibliografia e algumas citações abaixo, mas, por enquanto, basta dizer que há muito escrito sobre isso no artigo da wikipedia sobre Teste de hipótese estatística . Aqui no CV, esse ponto foi repetidamente apresentado por @Michael Lew (veja aqui e aqui ).
Minha pergunta é: por que as abordagens F e NP são consideradas incompatíveis e por que o híbrido é afirmado incoerente? Observe que li pelo menos seis artigos anti-híbridos (veja abaixo), mas ainda não entendi o problema ou o argumento. Note também que não estou sugerindo debater se F ou NP é uma abordagem melhor; nem estou me oferecendo para discutir estruturas freqüentistas x bayesianas. Em vez disso, a pergunta é: aceitando que F e NP são abordagens válidas e significativas, o que há de tão ruim em seu híbrido?
Aqui está como eu entendo a situação. A abordagem de Fisher é calcular o valor e tomá-lo como evidência contra a hipótese nula. Quanto menor ep , mais convincentes serão as evidências. O pesquisador deve combinar essa evidência com seu conhecimento prévio, decidir se é convincente o suficiente e proceder de acordo. (Observe que as opiniões de Fisher mudaram ao longo dos anos, mas é para isso que ele parece ter convergido.) Por outro lado, a abordagem de Neyman-Pearson é escolher α antecipadamente e depois verificar se p ≤ α; se assim for, chame-o de significativo e rejeite a hipótese nula (aqui omito grande parte da história do PE que não tem relevância para a discussão atual). Veja também uma excelente resposta de @gung em Quando usar o framework Fisher e Neyman-Pearson?
A abordagem híbrida é calcular o valor , relatá-lo (assumindo implicitamente que quanto menor, melhor) e também chamar os resultados de significativos se p ≤ α (geralmente α = 0,05 ) e, caso contrário, não significativo. Isso deveria ser incoerente. Como pode ser inválido fazer duas coisas válidas simultaneamente, me bate.
Como particularmente incoerente os anti-hybridists visualizar a prática difundida de relatórios -Valores como p < 0,05 , p < 0,01 , ou p < 0,001 (ou mesmo p « 0,0001 ), onde sempre a desigualdade mais forte é escolhido. O argumento parece ser que (a) a força da evidência não pode ser avaliada adequadamente, pois p exato não é relatado e (b) as pessoas tendem a interpretar o número do lado direito da desigualdade como α e vê-lo como taxa de erro do tipo I e isso está errado. Não vejo um grande problema aqui. Primeiro, relatando p exatoé certamente uma melhor prática, mas ninguém realmente se importa se é, por exemplo 0,02 ou 0,03 , de modo arredondamento-lo em uma escala logarítmica não é tããão ruim (e indo abaixo ~ 0,0001 não faz sentido qualquer maneira, consulte Como deve ser relatado pequenos valores de p ? ). Em segundo lugar, se o consenso é chamar tudo abaixo de 0,05 significativa, em seguida, a taxa de erro será α = 0,05 e p ≠ α , como @gung explica em Interpretação do valor p no teste da hipótese. Embora esse seja um problema potencialmente confuso, não me parece mais confuso do que outros problemas nos testes estatísticos (fora do híbrido). Além disso, todo leitor pode ter seu próprio favorito em mente ao ler um artigo híbrido, e sua própria taxa de erro como conseqüência. Então, qual é o grande problema?
Uma das razões pelas quais quero fazer esta pergunta é porque literalmente dói ver quanto do artigo da Wikipedia sobre testes de hipótese estatística é dedicado ao híbrido de lambasting. Seguindo Halpin & Stam, alega que um certo Lindquist é o culpado (há até uma grande varredura de seu livro com "erros" destacados em amarelo) e, é claro, o artigo da wiki sobre o próprio Lindquist começa com a mesma acusação. Mas então, talvez esteja faltando alguma coisa.
Referências
Gigerenzer, 1993, O superego, o ego e o id no raciocínio estatístico - introduziram o termo "híbrido" e o chamaram de "confusão incoerente".
- Veja também exposições mais recentes de Gigerenzer et al .: eg Mindless statistics (2004) e The Null Ritual. O que você sempre quis saber sobre testes de significância, mas tinha medo de perguntar (2004).
Cohen, 1994, The Earth Is Round ( ) - um artigo muito popular com quase 3 mil citações, principalmente sobre questões diferentes, mas citando favoravelmente Gigerenzer
Goodman, 1999, Para estatísticas médicas baseadas em evidências. 1: Falácia do valor P
Hubbard e Bayarri, 2003, Confusão sobre medidas de evidência ( 's) versus erros ( α ' s) em testes estatísticos clássicos - um dos trabalhos mais eloquentes que argumentam contra o "híbrido"
Halpin & Stam, 2006, Inferência Indutiva ou Comportamento Indutivo: Abordagens de Fisher e Neyman-Pearson ao Teste Estatístico em Pesquisa Psicológica (1940-1960) [livre após o registro] - culpa o livro de Lindquist em 1940 por introduzir a abordagem "híbrida"
@ Michael Lew, 2006, Má prática estatística em farmacologia (e outras disciplinas biomédicas básicas): você provavelmente não conhece P - uma boa revisão e visão geral
citações
Gigerenzer: O que se tornou institucionalizado como estatística inferencial em psicologia não é estatística dos pescadores. É uma mistura incoerente de algumas das idéias de Fisher, por um lado, e algumas das idéias de Neyman e ES Pearson, por outro. Refiro-me a essa mistura como a "lógica híbrida" da inferência estatística.
Goodman: A abordagem do teste de hipótese [Neyman-Pearson] ofereceu aos cientistas uma barganha faustiana - uma maneira aparentemente automática de limitar o número de conclusões equivocadas a longo prazo, mas apenas abandonando a capacidade de medir evidências [a la Fisher] e avaliar verdade de um único experimento.
Hubbard & Bayarri: O teste estatístico clássico é um híbrido anônimo das abordagens concorrentes e freqüentemente contraditórias [...]. Em particular, existe uma falha generalizada em apreciar a incompatibilidade do valor evidencial de Fisher com a taxa de erro do tipo I, α , da ortodoxia estatística de Neyman-Pearson. [...] Como um excelente exemplo da perplexidade resultante dessa mistura, [...] considere o fato amplamente desvalorizado de que o valor p do primeiro é incompatívelcom o teste de hipótese de Neyman-Pearson no qual ele foi incorporado. [...] Por exemplo, Gibbons e Pratt declararam [...] erroneamente: "Relatar um valor P, exato ou dentro de um intervalo, permite que cada indivíduo escolha seu próprio nível de significância como a probabilidade máxima tolerável. de um erro do tipo I. "
Halpin & Stam: O texto de Lindquist em 1940 foi uma fonte original da hibridização das abordagens de Fisher e Neyman-Pearson. [...] ao invés de aderir a qualquer interpretação particular dos testes estatísticos, os psicólogos permaneceram ambivalentes sobre as dificuldades conceituais implicadas pela controvérsia de Fisher e Neyman-Pearson e, de fato, desconhecem as dificuldades conceituais.
Lew: O que temos é uma abordagem híbrida que não controla taxas de erro nem permite avaliar a força das evidências.