Os pressupostos do modelo de teste são considerados p-hacking / fishing?


7

"P-hacking", "fishing" e "garden of bifurcação", como explicado aqui e aqui, descrevem um estilo exploratório de análise de dados, semelhante a uma pesquisa que produz estimativas tendenciosas.

O teste de premissas do modelo (por exemplo, normalidade, homocedasticidade em regressão) usa testes estatísticos no mesmo conjunto de dados usado para ajustar o modelo considerado um problema de "p-hacking" ou "jardim de caminhos de bifurcação"?

Os resultados desses testes certamente afetam o modelo que o pesquisador finalmente escolhe.



4
testar suposições não faz nada. Mas as pessoas raramente testam , o resultado do teste influencia o que elas fazem a seguir ... e é o "o que elas fazem a seguir" que é o problema. É quando o resultado do teste muda o que você faria que existe um "garfo". É importante ter certeza de que você está perguntando a coisa certa.
Glen_b -Reinstar Monica

2
@Glen_b ponto excelente - por exemplo, se você testar os dados quanto à normalidade e escolher qual teste usar, dependendo se o nulo foi aceito ou não, você está essencialmente usando um teste composto de propriedades desconhecidas (erros do tipo I e II) .
DeltaIV 22/07

@ Glen_b, é exatamente sobre isso que estou pensando. Não tenho certeza se a escolha de um modelo com base nos resultados de testes de suposições influenciaria um estimador (estou tentando pensar em um exemplo disso), mas isso definitivamente afetaria os erros padrão.
Great38

@ Scortchi, esse é um ótimo exemplo do que me preocupa. No entanto, testar premissas ou pelo menos avaliá-las com base nos dados usados ​​para ajustar o modelo parece ser uma prática padrão. Foi assim que fui ensinado em todas as minhas aulas.
Great38

Respostas:


2

Não é exatamente a mesma coisa, no sentido de que a prática de testar se as suposições foram violadas pretendia originalmente garantir uma análise apropriada, mas, como se vê, tem algumas das mesmas consequências (veja, por exemplo, esta pergunta ) . Mas é de uma forma mais branda do que as variantes mais extremas de hackers p que são especificamente direcionadas para obter o valor de p para o efeito de interesse abaixo de 0,05. Isto é, a menos que você comece a combinar várias práticas problemáticas (por exemplo, verificação de normalidade, verificação de homocedasticidade, verificação de covariáveis ​​que "deveriam" estar no modelo, verificação de linearidade de covariáveis, verificação de interações etc.). Não tenho certeza se alguém analisou o quanto isso invalida a análise final.

Obviamente, a outra questão é que testar a normalidade normalmente não é significativo (veja, por exemplo, esta discussão ). Para amostras pequenas, você não recebe desvios maciços que violam realmente suas suposições, enquanto para amostras grandes, por exemplo, o teste t se torna bastante robusto, mas o teste de normalidade começará a detectar pequenos desvios que não importam. É muito melhor (sempre que possível) especificar um modelo apropriado com base em dados anteriores ou no conhecimento do assunto. Quando isso não for possível, talvez seja melhor usar métodos mais robustos para violações de premissas distributivas ou que não tenham nenhum / menos.


3

Não creio que verificar as suposições de qualquer modelo seja qualificado como p-hacking / fishing. No primeiro artigo, o autor está falando sobre analistas que estão repetidamente realizando análises em um conjunto de dados e relatando apenas o melhor resultado. Em outras palavras, eles estão propositalmente retratando uma imagem tendenciosa do que está acontecendo nos dados.

Testar as premissas de regressão ou qualquer modelo é obrigatório. O que não é obrigatório é repetir a amostragem repetida dos dados para determinar o melhor resultado possível. Supondo que os pesquisadores tenham uma amostra grande o suficiente para extrair, às vezes eles recolhem amostras repetidas vezes ... realizam testes de hipóteses repetidas vezes ... até atingirem o resultado desejado. Daí p-hacking. Eles estão hackeando o valor-p procurando o resultado desejado e não desistem até encontrá-lo (pescar). Portanto, mesmo que de 100 testes de hipótese eles atinjam apenas 1 com um resultado significativo, eles reportarão o valor p pertencente a esse teste específico e omitirão todos os outros.

Isso faz sentido? Ao verificar as suposições do modelo, você garante que o modelo seja apropriado para os dados que você possui. Com p-hacking / fishing, você procura incessantemente os dados / manipula o estudo para alcançar o resultado desejado.

Quanto ao objetivo de comparação múltipla, se você continuar executando um modelo na lama sem parar tentando encontrar uma maneira de invalidá-lo (ou validá-lo), eventualmente encontrará um caminho. Isso é pescar. Se você deseja validar um modelo, encontrará uma maneira. Se você deseja invalidá-lo, encontrará uma maneira. A chave é ter uma mente aberta e descobrir a verdade - não apenas ver o que você deseja ver.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.