Parece-me que sua pergunta geralmente trata de diferentes tipos de validação para um modelo preditivo: a validação cruzada tem um pouco mais a ver com a validade interna , ou pelo menos com o estágio inicial de modelagem, enquanto o estabelecimento de vínculos causais em uma população mais ampla está mais relacionado a validade externa. Com isso (e como uma atualização após a observação de @ Brett), quero dizer que geralmente construímos um modelo em uma amostra de trabalho, assumindo um modelo conceitual hipotético (ou seja, especificamos as relações entre preditores e o (s) resultado (s) de interesse), e tentamos obter estimativas confiáveis com uma taxa de erro de classificação mínima ou um erro de previsão mínimo. Felizmente, quanto melhor o modelo executar, melhor nos permitirá prever resultados em dados não vistos; ainda assim, o CV não diz nada sobre a "validade" ou adequação dos elos causais hipotéticos. Certamente, podemos obter resultados decentes com um modelo em que alguns efeitos de moderação e / ou mediação são negligenciados ou simplesmente desconhecidos antecipadamente.
O que quero dizer é que, seja qual for o método usado para validar seu modelo (e o método de validação certamente não é o melhor, mas ainda é amplamente usado em estudos epidemiológicos para aliviar os problemas decorrentes da construção de modelos por etapas), você trabalha com a mesma amostra (que assumimos ser representativo de uma população maior). Pelo contrário, generalizar os resultados e os elos causais inferidos dessa maneira para novas amostras ou para uma população plausivelmente relacionada é geralmente feito por estudos de replicação . Isso garante que possamos testar com segurança a capacidade preditiva de nosso modelo em uma "superpopulação", que apresenta uma gama maior de variações individuais e pode exibir outros fatores de interesse em potencial.
Seu modelo pode fornecer previsões válidas para sua amostra de trabalho e inclui todos os possíveis fatores de confusão em que você pode pensar; no entanto, é possível que ele não funcione tão bem com novos dados, apenas porque outros fatores aparecem no caminho causal intermediário que não foram identificados ao criar o modelo inicial. Isso pode acontecer se alguns dos preditores e os elos causais inferidos a partir deles dependerem do centro de estudo específico em que os pacientes foram recrutados, por exemplo.
Na epidemiologia genética, muitos estudos de associação em todo o genoma falham em se replicar apenas porque estamos tentando modelar doenças complexas com uma visão simplificada sobre relações causais entre marcadores de DNA e o fenótipo observado, embora seja muito provável que o gene-gene (epistasia), doenças gênicas (pleiotropia), ambiente genético e subestrutura populacional entram em cena, mas veja, por exemplo , Validando, aumentando e refinando os sinais de associação em todo o genoma(Ioannidis et al., Nature Reviews Genetics, 2009 10). Portanto, podemos construir um modelo de desempenho para explicar as variações cruzadas observadas entre um conjunto de marcadores genéticos (com tamanho de efeito muito baixo e esparso) e um padrão multivariado de fenótipos observados (por exemplo, volume de matéria branca / cinza ou atividades localizadas no cérebro, como observado por meio da ressonância magnética, respostas à avaliação neuropsicológica ou inventário de personalidade), mas não terá o desempenho esperado em uma amostra independente.
Quanto a uma referência geral sobre esse tópico, é possível recomendar o capítulo 17 e a Parte III dos Modelos de Previsão Clínica , de EW Steyerberg (Springer, 2009). Também gosto do seguinte artigo de Ioannidis:
Ioannidis, JPA, Por que a maioria dos resultados de pesquisas publicadas é falsa? PLoS Med. 2005 2 (8): e124