O problema das expedições de pesca é o seguinte: se você testar hipóteses suficientes, uma delas será confirmada com um baixo valor de p. Deixe-me dar um exemplo concreto.
Imagine que você está fazendo um estudo epidemiológico. Você encontrou 1000 pacientes que sofrem de uma condição rara. Você quer saber o que eles têm em comum. Então você começa a testar - deseja ver se uma característica específica está super-representada nesta amostra. Inicialmente, você testa sexo, raça, certos antecedentes familiares pertinentes (o pai morreu de doença cardíaca antes dos 50 anos de idade ...) mas, eventualmente, como está tendo problemas para encontrar algo que "grude", você começa a adicionar todos os tipos de outros fatores que apenas pode estar relacionado à doença:
- é vegetariano
- viajou para o Canadá
- faculdade terminada
- é casado
- tem filhos
- tem gatos
- tem cachorros
- bebe pelo menos 5 copos de vinho tinto por semana
...
Agora aqui está a coisa. Se eu selecionar hipóteses "aleatórias" suficientes, torna-se provável que pelo menos uma delas resulte em um valor p menor que 0,05 - porque a própria essência do valor p é "a probabilidade de estar errado em rejeitar a hipótese nula quando houver". não tem efeito ". Em outras palavras, em média, para cada 20 hipóteses falsas que você testa, uma delas fornecerá um p <0,05 .
Isso está muito bem resumido no desenho animado XKCD http://xkcd.com/882/ :
A tragédia é que, mesmo que um autor individual não realize 20 testes de hipóteses diferentes em uma amostra para procurar significado, pode haver outros 19 autores fazendo a mesma coisa; e quem "encontra" uma correlação agora tem um artigo interessante para escrever e que provavelmente será aceito para publicação ...
Isso leva a uma infeliz tendência a descobertas irreprodutíveis. A melhor maneira de se proteger contra isso como autor individual é elevar a fasquia. Em vez de testar o fator individual, pergunte a si mesmo "se eu testar hipóteses de N, qual é a probabilidade de encontrar pelo menos um falso positivo". Quando você está realmente testando "hipóteses de pesca", pode pensar em fazer uma correção de Bonferroni para se proteger contra isso - mas as pessoas freqüentemente não o fazem.
Houve alguns artigos interessantes do Dr. Ioannides - publicados no Atlantic Monthly especificamente sobre esse assunto.
Veja também esta pergunta anterior com várias respostas perspicazes.
atualizar para responder melhor a todos os aspectos da sua pergunta:
Se você tem medo de estar "pescando", mas realmente não sabe qual hipótese formular, definitivamente pode dividir seus dados nas seções "exploração", "replicação" e "confirmação". Em princípio, isso deve limitar sua exposição aos riscos descritos anteriormente: se você tem um valor de p 0,05 nos dados de exploração e obtém um valor semelhante nos dados de replicação e confirmação, o risco de estar errado cai. Um bom exemplo de "fazer o certo" foi mostrado no British Medical Journal (uma publicação muito respeitada com um fator de impacto de 17 anos ou mais)
Exploração e confirmação de fatores associados à gravidez sem complicações em mulheres nulíparas: estudo de coorte prospectivo, Chappell et al.
Aqui está o parágrafo relevante:
Dividimos o conjunto de dados de 5628 mulheres em três partes: um conjunto de dados de exploração de dois terços das mulheres da Austrália e Nova Zelândia, escolhidas aleatoriamente (n = 2129); um conjunto de dados de replicação local do terço restante das mulheres da Austrália e Nova Zelândia (n = 1067); e um conjunto de dados de confirmação externo geograficamente distinto de 2432 mulheres européias do Reino Unido e da República da Irlanda.
Retrocedendo um pouco na literatura, há um bom artigo de Altman et al. Intitulado "Pesquisa de prognóstico e prognóstico: validação de um modelo prognóstico", que é muito mais aprofundado e sugere maneiras de garantir que você não caia em esse erro. Os "pontos principais" do artigo:
Modelos não validados não devem ser usados na prática clínica Ao validar um modelo prognóstico, a calibração e a discriminação devem ser avaliadas A validação deve ser feita com dados diferentes daqueles usados para desenvolver o modelo, preferencialmente de pacientes em outros centros Os modelos podem não ter um bom desempenho na prática devido a deficiências nos métodos de desenvolvimento ou porque a nova amostra é muito diferente da original
Observe em particular a sugestão de que a validação seja feita (parafraseando) com dados de outras fontes - ou seja, não é suficiente dividir seus dados arbitrariamente em subconjuntos, mas você deve fazer o possível para provar que "aprender" no set de um conjunto experimentos podem ser aplicados aos dados de um conjunto diferente de experimentos. Essa é uma barra mais alta, mas reduz ainda mais o risco de que um viés sistemático na sua configuração crie "resultados" que não podem ser verificados independentemente.
É um assunto muito importante - obrigado por fazer a pergunta!