Quando a abordagem de "obter mais dados" de Fisher faz sentido?

26

Alegadamente, um pesquisador abordou Fisher com resultados "não significativos", perguntando o que ele deveria fazer e Fisher disse: "vá buscar mais dados".

De uma perspectiva de Neyman-Pearson, este é flagrante -hacking, mas há um caso de uso onde ir buscar mais dados-de Fisher abordagem faz sentido? $p$

— nalzok
fonte

10

Fisher (repetidamente) enfatizou a importância da replicação de experimentos e espero que essa seja sua intenção aqui (supondo que a conversa tenha acontecido). Certamente Fisher estaria ciente de que você não pode verificar o significado e, em seguida, expandir sua amostra inicial se não o obtivesse.

— Glen_b -Reinstate Monica

@ Glen_b Já ouvi a frase "replicação de experimentos" antes, mas não entendi direito. Você pode elaborar? Digamos, dez repetições de uma experiência cujo tamanho da amostra é 10 melhor do que uma única experiência cujo tamanho da amostra é 100?

— nalzok 15/07

Em um estudo exploratório, obter mais dados pode ser aceitável. No estudo confirmatório, não há posição para obter mais dados.

— user158565 15/07

5

Uma das minhas opiniões controversas sobre a prática estatística é que, embora seja importante considerar a questão dos falsos positivos, não devemos colocar taxas de erro do tipo 1 em um pedestal tão alto que nos recusamos a aprender com os dados para preservar um tipo 1 taxa de erro.

— Cliff AB

29

O paradigma freqüentista é uma fusão dos pontos de vista de Fisher e Neyman-Pearson. Somente ao usar uma abordagem e outra interpretação surgem problemas.

Parece estranho para qualquer um que a coleta de mais dados seja problemática, pois mais dados são mais evidências. De fato, o problema não está na coleta de mais dados, mas no uso do valor- $p$ para decidir fazê-lo, quando também é a medida de interesse. Coletando mais dados com base no $p$ -valor só é $p$ -hacking se calcular um novo $p$ -valor.

Se você não possui evidências suficientes para concluir satisfatoriamente a questão da pesquisa, procure todos os dados. No entanto, admita que você já passou do estágio NHST de sua pesquisa e concentre-se em quantificar o efeito do interesse.

Uma observação interessante é que os bayesianos não sofrem com esse dilema. Considere o seguinte como um exemplo:

Se um freqüentador conclui que não há diferença significativa e depois muda para um teste de equivalência, certamente a taxa de falsos positivos aumentou;
Um bayesiano pode expressar o maior intervalo de densidade e região de equivalência prática de uma diferença simultaneamente e dormir da mesma maneira à noite.

— Frans Rodenburg
fonte

Então, basicamente, diga que quero testar se a média da população A é igual à da população B. Inicialmente, obtenho alguns dados, conduzo um teste para

: "os meios são iguais" e não o rejeito. Nesse caso, não devo realizar outro teste para

: "as médias NÃO são iguais". Tudo o que posso fazer é estimar os intervalos confidenciais dos meios, está correto? E se não houver sobreposição entre os dois intervalos?

H_{0}

$H_0$

H_{0}

$H_0$

— nalzok 15/07

6

"É apenas pirataria se você calcular um novo valor-p". Isso realmente não depende inteiramente do método usado para calcular o valor-p? Ignorar a análise sequencial e a decisão de coletar mais dados resultará em um valor p impreciso. No entanto, se você incorporar a regra de decisão para coletar mais dados no cálculo do valor-p, produzirá um valor-p válido.

— jsk 15/07

4

@jsk Acho que os valores p subsequentemente calculados são de alguma forma inválidos, e mais que você está usando um padrão arbitrário e não orientado por dados para julgar quando seu experimento está "correto" e sua pesquisa nesse projeto é " feito". Decidir que todos os valores p não significativos estão errados e coletar dados até obter um que seja significativo e depois parar porque você obteve o resultado "certo" é o oposto da ciência experimental.

— Upper_Case-Stop Harming Monica

11

@Upper_Case Eu estava comentando uma seção muito pequena do post em relação ao p-hacking, e foi por isso que incluí essa seção entre aspas. Você está lendo demais em minha declaração. Meu argumento é que QUALQUER regra de decisão usada para decidir coletar mais dados deve ser incorporada ao cálculo do valor-p. Desde que você incorpore as decisões tomadas no cálculo do valor-p, você ainda poderá realizar um NHST válido, se desejar. Isso não significa, de forma alguma, que estou defendendo uma regra de parada que diga: "colete mais dados até encontrar um resultado significativo".

— jsk 15/07

@jsk Ah, eu entendo melhor o seu ponto agora. Obrigado pelo esclarecimento.

— Upper_Case-Stop Harming Monica

10

Dado um tamanho de amostra grande o suficiente, um teste sempre mostrará resultados significativos, a menos que o tamanho real do efeito seja exatamente zero, conforme discutido aqui . Na prática, o tamanho real do efeito não é zero, portanto, a coleta de mais dados poderá detectar as diferenças mais minúsculas.

A resposta faceta (IMO) de Fisher foi em resposta a uma pergunta relativamente trivial que, em sua premissa, está confluindo "diferença significativa" com "diferença praticamente relevante".

Seria o equivalente a um pesquisador entrar no meu consultório e perguntar: "Eu pesei esse peso de chumbo rotulado '25 gramas 'e medi 25,0 gramas. Acredito que seja um rótulo incorreto, o que devo fazer?" Para o qual eu poderia responder: "Obtenha uma escala mais precisa".

Acredito que a abordagem de obter mais dados é apropriada se o teste inicial estiver com uma potência insuficiente para detectar a magnitude da diferença que é praticamente relevante.

— Minador
fonte

O ponto é que você precisa incorporar a decisão de obter mais dados no cálculo do valor-p.

— jsk 15/07

@jsk, mesmo se você alterar o valor-p, ainda poderá coletar mais dados para encontrar um resultado significativo (embora você precise de ainda mais dados).

— Minador

11

Eu poderia ter sido mais claro. Não sei o que exatamente você quer dizer com "você ainda pode reunir mais dados para encontrar um resultado significativo". Entendo que, porque a hipótese nula geralmente nunca é realmente verdadeira, a coleta de mais dados acabará por levar a um resultado significativo. Eu só queria chamar a atenção para o fato de que, ao calcular o valor-p, você precisa incorporar a decisão de coletar mais dados no cálculo do valor-p. Isso significa que as regras de decisão (sobre a coleta de mais dados) precisam ser pré-especificadas antes da coleta de dados original.

— jsk 15/07

@jsk, mesmo com um método muito conservador de ajustar o valor p (por exemplo, Bonferroni correto, aplicável em análises post-hoc), existe um tamanho de amostra adicional grande o suficiente para superar a correção. O ponto é: se você me fornecer um método de ajuste do valor p (especificado antes da coleta de dados original ou não), a verdadeira diferença entre as distribuições populacionais dos grupos de interesse e resultados preliminares insignificantes; e posso fornecer um tamanho de amostra grande o suficiente para obter resultados significativos. Portanto, mais dados são SEMPRE uma resposta.

— Underminer

7

Obrigado. Há algumas coisas a serem lembradas aqui:

A citação pode ser apócrifa.
É bastante razoável obter mais / melhores dados, ou dados de uma fonte diferente (escala mais precisa, cf., resposta de Underminer ; situação ou controles diferentes; etc.), para um segundo estudo (cf., comentário de @ Glen_b ) . Ou seja, você não analisaria os dados adicionais em conjunto com os dados originais: digamos que você teve N = 10 com um resultado não significativo, você pode reunir outros dados N = 20 e analisá-los sozinhos (sem testar os 30 juntos ) Se a citação não é apócrifa, poderia ter sido o que Fisher tinha em mente.
A filosofia da ciência de Fisher era essencialmente popperiana . Ou seja, o nulo não era necessariamente algo para rejeitar superficialmente, a fim de confirmar sua teoria, mas idealmente poderia ser sua própria teoria, de modo que a rejeição significa que sua teoria do animal de estimação está errada e você precisa voltar à prancheta. Nesse caso, a inflação do erro tipo I não beneficiaria o pesquisador. (Por outro lado, essa interpretação é contrária a Fisher dando esse conselho, a menos que ele estivesse sendo um brigão, o que não seria fora do comum.)
De qualquer forma, vale ressaltar que a razão pela qual incluí esse comentário é que ilustra algo fundamental sobre a diferença na natureza das duas abordagens.

— - Reinstate Monica
fonte

11

p

$p$

A propósito, seria ótimo se você pudesse elaborar "a diferença na natureza das duas abordagens". O método de Fisher parece mais ... subjetivo, pois eu sinto que ele realmente não se importa com a taxa de erro, mas eu posso estar perdendo alguma coisa.

— nalzok 15/07

11

@nalzok, a diferença é discutida no tópico original: a abordagem Neyman-Pearson assume que o estudo é um evento discreto, você faz isso e vai embora; A abordagem de Fisher assume que o problema está sob investigação contínua. Re: # 2, se você analisar os dados isoladamente, não serão hackers (a menos que você execute vários estudos e publique apenas o que mostrou o que deseja). Re: # 3, não, o nulo não é aceito, você precisa continuar encontrando maneiras melhores de testar sua teoria.

— gung - Restabelecer Monica

11

p

$p$

p

$p$

11

(+1) Às vezes acho que focamos na árvore e sentimos falta da floresta. De maneira bem franca, quando temos um problema difícil, mais dados geralmente são melhores que menos dados. Na maioria dos casos, mais dados não são muito melhores. Como sugere o perspicaz artigo de Meng em 2018 " Paraísos e paradoxos estatísticos no big data (I) ", obter dados melhores (por exemplo, uma amostra bem selecionada) é muito mais benéfico do que dados maiores quando tentamos estimar uma quantidade desconhecida. Mas mais dados geralmente ajudam!

— usεr11852 diz Reinstate Monic

6

O que chamamos de P-hacking é a aplicação de um teste de significância várias vezes e o relatório apenas dos resultados de significância. Se isso é bom ou ruim, é dependente da situação.

Para explicar, vamos pensar nos efeitos verdadeiros em termos bayesianos, em vez de hipóteses nulas e alternativas. Enquanto acreditamos que nossos efeitos de interesse provêm de uma distribuição contínua, sabemos que a hipótese nula é falsa. No entanto, no caso de um teste bilateral, não sabemos se é positivo ou negativo. Sob essa luz, podemos pensar nos valores de p para testes bilaterais como uma medida de quão forte é a evidência de que nossa estimativa tem a direção correta (ou seja, efeito positivo ou negativo).

$p < \alpha$

Agora, considere o que acontece quando você volta para obter mais dados. Cada vez que você obtém mais dados, sua probabilidade de obter a direção correta condicional com base em dados suficientes aumenta apenas. Portanto, nesse cenário, devemos perceber que, ao obter mais dados, embora de fato aumentemos a probabilidade de um erro do tipo I, também estamos reduzindo a probabilidade de concluir erroneamente a direção errada.

Veja isso em contraste com o abuso mais típico de hackers P; testamos centenas de tamanhos de efeitos com boa probabilidade de serem muito pequenos e relatamos apenas os significativos. Observe que, neste caso, se todos os efeitos forem pequenos, temos uma chance de quase 50% de errar na direção ao declararmos significado.

Obviamente, os valores de p produzidos a partir dessa duplicação de dados ainda devem vir com um grão de sal. Embora, em geral, você não deva ter problemas com pessoas que coletam mais dados para ter mais certeza sobre o tamanho de um efeito, isso pode ser abusado de outras maneiras. Por exemplo, um PI inteligente pode perceber que, em vez de coletar todos os 100 pontos de dados de uma só vez, eles poderiam economizar muito dinheiro e aumentar o poder coletando 50 pontos de dados, analisando os dados e, em seguida, coletando os próximos 50, se não for significativo . Nesse cenário, eles aumentam a probabilidade de obter a direção do efeito incorreta, dependendo da declaração de significância, uma vez que têm mais probabilidade de errar a direção do efeito com 50 pontos de dados do que com 100 pontos de dados.

E, finalmente, considere as implicações de não obter mais dados quando tivermos um resultado insignificante. Isso implicaria nunca coletar mais informações sobre o tema, o que realmente não impulsionará a ciência, não é? Um estudo com pouca capacidade mataria um campo inteiro.

— Cliff AB
fonte

11

(+1) Esse é um ponto de vista interessante, mas você pode elaborar a diferença entre a metodologia de Fisher e a do PI inteligente? Ambos coletam mais dados porque o teste inicial é insignificante, ao que parece.

— nalzok 16/07

Além disso, não tenho certeza do que você quer dizer com "embora, de fato, aumentemos a probabilidade de um erro do tipo I, também estamos reduzindo a probabilidade de concluir por engano a direção errada". Qual é a hipótese nula aqui? Na IMO, se você estiver fazendo um teste unilateral, "concluir a direção errada" é "um erro do tipo I" e, para testes bilaterais, você não deve concluir a direção.

— nalzok 16/07

Corrija-me se estiver errado, mas acho que você sugere continuar coletando mais dados até que um teste nos dois lados seja significativo e, nesse caso, a taxa de erro do tipo I seria 100%.

— nalzok 16/07

11

A principal diferença entre o que Fisher recomenda e o IP inteligente / ingênuo é que Fisher faz a chamada do estudo que está sendo concluído. Suas opções são coletar mais dados ou decidir que ele nunca saberá a direção do efeito. Por outro lado, o PI decide dominar seu estudo inicial antes mesmo de ver os dados.

— Cliff AB

11

@nalzok: com certeza vou tentar dar uma olhada fora do horário de trabalho :)

— Cliff AB

1

Se a alternativa tiver uma pequena probabilidade a priori , um experimento que não rejeitar o nulo diminuirá ainda mais, tornando qualquer pesquisa adicional ainda menos econômica. Por exemplo, suponha que a probabilidade a priori seja 0,01. Então sua entropia é 0,08 bits. Se a probabilidade for reduzida para 0,001, sua entropia será agora 0,01. Portanto, continuar coletando dados geralmente não é rentável. Uma razão pela qual seria rentável seria que o conhecimento é tão importante que vale a pena reduzir os restantes 0,01 bits de entropia.

Outra razão seria se a probabilidade a priori fosse realmente alta. Se sua probabilidade a priori for superior a 50%, a falha em rejeitar o nulo aumentará sua entropia, tornando mais econômico a continuação da coleta de dados. Um exemplo seria quando você está quase certo de que há um efeito, mas não sabe em que direção.

Por exemplo, se você é um agente de contrainteligência e tem certeza de que um departamento tem uma toupeira e a reduziu a dois suspeitos, e está fazendo uma análise estatística para decidir qual, um resultado estatisticamente insignificante justificaria a coleta mais dados.

— Acumulação
fonte

Por que não rejeitar o nulo diminui sua probabilidade? Embora a ausência de evidência não seja evidência de ausência, não consigo entender por que é evidência contra a ausência.

— nalzok 16/07

@nalzok eu escrevi "Se a alternativa tiver uma pequena probabilidade a priori, um experimento que não rejeitar o nulo diminuirá ainda mais" Enquanto "null" é o substantivo mais próximo de "it", o nulo não é uma quantidade e portanto, não pode diminuir e não é um antecedente válido para "it". Além disso, "mais" indica que "isso" se refere a algo já pequeno. Esses fatos apontam para o antecedente de "ele" ser a "pequena probabilidade a priori" da alternativa.

— Acumulação 16/07