Eu acho que essa é uma pergunta muito boa; chega ao cerne do contencioso "problema" de múltiplos testes que assola campos que vão da epidemiologia à econometria. Afinal, como pode nós saber se o significado que descobrimos é espúrio ou não? Quão verdadeiro é o nosso modelo multivariável?
Em termos de abordagens técnicas para compensar a probabilidade de publicar variáveis de ruído, eu concordaria sinceramente com 'whuber' que usar uma parte da sua amostra como dados de treinamento e o restante como dados de teste é uma boa idéia. Esta é uma abordagem discutida na literatura técnica; portanto, se você dedicar algum tempo, provavelmente poderá descobrir algumas boas diretrizes para quando e como usá-la.
Mas, para abordar mais diretamente a filosofia dos testes múltiplos, sugiro que você leia os artigos mencionados abaixo, alguns dos quais apóiam a posição de que o ajuste para testes múltiplos geralmente é prejudicial (custa energia), desnecessário e pode até ser uma falácia lógica . Eu, por um lado, não aceito automaticamente a alegação de que nossa capacidade de investigar um preditor em potencial é inexoravelmente reduzida pela investigação de outro. A taxa de erro tipo 1 familiar pode aumentar à medida que incluímos mais preditores em um determinado modelo, mas desde que não ultrapassemos os limites do tamanho da amostra, a probabilidade de erro tipo 1 para cada indivíduopreditor é constante; e controlar erros familiares não indica qual variável específica é ruído e qual não é. Obviamente, também existem contra-argumentos convincentes.
Assim, desde que você limite sua lista de variáveis em potencial àquelas que são plausíveis (ou seja, teriam caminhos conhecidos para o resultado), o risco de falsidade já será tratado de maneira razoável.
No entanto, eu acrescentaria que um modelo preditivo não está tão preocupado com o "valor de verdade" de seus preditores quanto um modelo causal ; pode haver muita confusão no modelo, mas, enquanto explicarmos um grande grau da variação, não ficaremos muito preocupados. Isso facilita o trabalho, pelo menos em um sentido.
Felicidades,
Brenden, Consultor em Bioestatística
PS: convém fazer uma regressão de Poisson inflada a zero para os dados que você descreve, em vez de duas regressões separadas.
- Perneger, TV O que há de errado com os ajustes da Bonferroni . BMJ 1998; 316: 1236
- Cook, RJ & Farewell, VT Considerações sobre multiplicidade no projeto e análise de ensaios clínicos . Jornal da Sociedade Estatística Real , Série A 1996; Vol. 159, n. 1: 93-110
- Rothman, KJ Não são necessários ajustes para múltiplas comparações . Epidemiology 1990; Vol. 1, No. 1: 43-46
- Marshall, JR Dragagem de dados e dignidade de nota . Epidemiology 1990; Vol. 1, nº 1: 5-7
- Gronelândia, S. & Robins, JM Ajustes empíricos-Bayes para comparações múltiplas são algumas vezes úteis . Epidemiology 1991; Vol. 2, No. 4: 244-251