A validação cruzada pode ser usada para inferência causal?

37

Em todos os contextos, eu estou familiarizado com a validação cruzada, que é usada apenas com o objetivo de aumentar a precisão preditiva. A lógica da validação cruzada pode ser estendida na estimativa das relações imparciais entre variáveis?

Embora este artigo de Richard Berk demonstre o uso de uma amostra de espera para seleção de parâmetros no modelo de regressão "final" (e demonstre por que a seleção de parâmetros passo a passo não é uma boa ideia), ainda não vejo como isso garante exatamente estimativas imparciais do efeito X tem sobre Y mais do que escolher um modelo baseado na lógica e no conhecimento prévio do assunto.

Peço que as pessoas citem exemplos nos quais alguém usou uma amostra para auxiliar na inferência causal ou ensaios gerais que possam ajudar minha compreensão. Também não duvido que minha concepção de validação cruzada seja ingênua e, portanto, se assim for. Parece improvável que o uso de uma amostra estendida seja passível de inferência causal, mas não conheço nenhum trabalho que faça isso ou como eles fariam isso.

Citação do Berk Paper:

Inferência estatística após a seleção do modelo por: Richard Berk, Lawrence Brown, Linda Zhao Jornal de Quantitative Criminology, vol. 26, n ° 2. (1 de junho de 2010), pp. 217-236.

Versão em PDF aqui

Esta pergunta sobre análise exploratória de dados em pequenos estudos de amostra por chl levou a essa pergunta.

cross-validation causality

— Andy W
fonte

19

Eu acho que é útil revisar o que sabemos sobre validação cruzada. Os resultados estatísticos em torno do CV dividem-se em duas classes: eficiência e consistência.

Eficiência é o que geralmente nos preocupa ao criar modelos preditivos. A idéia é que usamos CV para determinar um modelo com garantias assintóticas em relação à função de perda. O resultado mais famoso aqui é devido a Stone 1977 e mostra que o LOO CV é assintoticamente equivalente ao AIC. Mas Brett fornece um bom exemplo em que você pode encontrar um modelo preditivo que não informa sobre o mecanismo causal.

A preocupação é com a consistência se nosso objetivo é encontrar o modelo "verdadeiro". A idéia é que usamos CV para determinar um modelo com garantias assintóticas de que, considerando que nosso espaço de modelo inclui o modelo verdadeiro, descobriremos com uma amostra grande o suficiente. O resultado mais famoso aqui é devido a Shao 1993 em relação aos modelos lineares, mas, como ele afirma em seu resumo, sua "descoberta chocante" é oposta ao resultado da LOO. Para modelos lineares, é possível obter consistência usando LKO CV contanto que como . Além dos padrões lineares, é mais difícil obter resultados estatísticos. $k/n \rightarrow 1$ $n \rightarrow \infty$

Mas suponha que você possa atender aos critérios de consistência e seu procedimento CV levar ao modelo verdadeiro: . O que aprendemos sobre o mecanismo causal? Simplesmente sabemos que há uma correlação bem definida entre e , o que não diz muito sobre afirmações causais. Da perspectiva tradicional, é necessário trazer o design experimental com o mecanismo de controle / manipulação para fazer reivindicações causais. Da perspectiva da estrutura da Judea Pearl, você pode incorporar suposições causais em um modelo estrutural e usar o cálculo baseado em probabilidade de contrafactuais para derivar algumas afirmações, mas precisará satisfazer determinadas propriedades . $Y = \beta X + e$ $Y$ $X$

Talvez você possa dizer que o CV pode ajudar na inferência causal, identificando o modelo verdadeiro (desde que você possa satisfazer os critérios de consistência!). Mas isso só leva você até agora; O CV, por si só, não está realizando nenhum dos trabalhos em nenhuma das estruturas de inferência causal.

Se você estiver mais interessado no que podemos dizer com a validação cruzada, eu recomendaria Shao 1997 sobre o amplamente citado artigo de 1993:

Uma teoria assintótica para seleção linear de modelos (Shao, 1997)

Você pode percorrer os principais resultados, mas é interessante ler a discussão a seguir. Eu pensei que os comentários de Rao & Tibshirani e Stone eram particularmente perspicazes. Mas observe que, embora discutam consistência, nunca são feitas reivindicações sobre causalidade.

— ars
fonte

Obrigado por todas as referências, especialmente as respostas Judea Pearl (vou precisar para comprar o livro com base em todas as maravilhosas informações nesses ensaios de resposta curtos.)

— Andy W

11

Os comentários para downvote são sempre bem-vindos!

— chl

18

Essa é uma pergunta realmente interessante e não ofereço citações específicas. No entanto, em geral, eu diria que NÃO, por si só, a validação cruzada não oferece nenhuma percepção da causalidade. Na ausência de um experimento planejado, a questão da causalidade é sempre incerta. Como você sugere, a validação cruzada pode e melhorará a precisão preditiva. Isso, por si só, não diz nada sobre causalidade.

Na ausência de um experimento planejado, a inferência causal exigiria um modelo que inclua todos os preditores relevantes - algo que raramente podemos garantir em um estudo observacional. Além disso, uma variável de atraso simples, por exemplo (ou qualquer coisa altamente correlacionada com qualquer resultado que estávamos tentando prever) produziria um bom modelo e um que pudesse ser validado em várias amostras. Isso não significa, no entanto, que possamos inferir causalidade. A validação cruzada garante repetibilidade nas previsões e nada mais. Causalidade é uma questão de design e lógica.

EDIT: Aqui está um exemplo para ilustrar. Eu poderia construir um modelo com boa precisão preditiva que prediz a população de uma cidade com base na quantidade de dinheiro que a cidade gasta na remoção de lixo. Eu poderia usar a validação cruzada para testar a precisão desse modelo, bem como outros métodos para melhorar a precisão da previsão e obter parâmetros mais estáveis. Agora, enquanto este modelo funciona muito bem para a previsão, a lógica causal está errada - a direção causal é invertida. Não importa o que as pessoas do Departamento de Obras Públicas possam argumentar, aumentar seu orçamento para a remoção de lixo não seria uma boa estratégia para aumentar a população da cidade (a interpretação causal).

As questões de precisão e repetibilidade de um modelo são separadas da nossa capacidade de fazer inferências causais sobre os relacionamentos que observamos. A validação cruzada nos ajuda com o primeiro e não com o último. Agora, se estivermos estimando um modelo "correto" em termos de especificação de um relacionamento casual (por exemplo, tentando determinar qual orçamento de remoção de lixo deve ser baseado na população esperada para o próximo ano), a validação cruzada pode nos ajudar a ter maior confiança em nossa estimativa desse efeito. No entanto, a validação cruzada não ajuda a escolher o modelo "correto" em relação aos relacionamentos causais. Novamente, aqui precisamos contar com o design do estudo, nossa experiência no assunto, teoria e lógica.

— Brett
fonte

11

Então você não acha que a repetibilidade em estimativas efetivas pode ser útil? Embora você não esteja sozinho em sua concepção do que é a prova de causalidade, acho que é bastante restrito. Nunca seremos capazes de provar indefinidamente uma relação causal, mesmo com um experimento, sem todas as evidências do universo. Portanto, na minha opinião, o objetivo é apresentar evidências de que qualquer relação que estimamos seja tão próxima da verdade, dadas as informações que conhecemos. Dado que você não acha que a repetibilidade na previsão de um conjunto de treinamento para uma amostra de espera possa ser uma verificação útil das inferências feitas?

— Andy W

Também aprecio seus comentários e concordo plenamente que as inferências dependem fortemente da lógica e do design da pesquisa.

— Andy W

11

Andy, editei minha postagem para endereçar seus comentários. Além disso, não pretendo sugerir que a inferência causal não possa ser feita fora do contexto de um experimento planejado. No entanto, é mais difícil e menos certo em estudos observacionais e não devemos procurar modelar procedimentos de construção para nos ajudar com esse problema. Em vez disso, devemos tentar entender melhor os problemas pelos quais estamos tentando entender os relacionamentos causais.

— Brett

Concordo com praticamente tudo o que você diz, exceto que questões de precisão e repetibilidade são essenciais para fazer inferências corretas diante da dúvida. Posso dar aos especialistas o benefício da dúvida de que eles estão construindo modelos lógicos. O que me preocupa é a repetibilidade das descobertas em muitos contextos observacionais. Embora eu concorde que a repetibilidade não necessariamente leve em conta influências confusas que são melhor tratadas em contextos experimentais.

— Andy W

(+1) Minhas desculpas. Parece que também esqueci de votar em sua resposta muito agradável. Já votou nos seus comentários úteis.

— chl

13

Parece-me que sua pergunta geralmente trata de diferentes tipos de validação para um modelo preditivo: a validação cruzada tem um pouco mais a ver com a validade interna , ou pelo menos com o estágio inicial de modelagem, enquanto o estabelecimento de vínculos causais em uma população mais ampla está mais relacionado a validade externa. Com isso (e como uma atualização após a observação de @ Brett), quero dizer que geralmente construímos um modelo em uma amostra de trabalho, assumindo um modelo conceitual hipotético (ou seja, especificamos as relações entre preditores e o (s) resultado (s) de interesse), e tentamos obter estimativas confiáveis com uma taxa de erro de classificação mínima ou um erro de previsão mínimo. Felizmente, quanto melhor o modelo executar, melhor nos permitirá prever resultados em dados não vistos; ainda assim, o CV não diz nada sobre a "validade" ou adequação dos elos causais hipotéticos. Certamente, podemos obter resultados decentes com um modelo em que alguns efeitos de moderação e / ou mediação são negligenciados ou simplesmente desconhecidos antecipadamente.

O que quero dizer é que, seja qual for o método usado para validar seu modelo (e o método de validação certamente não é o melhor, mas ainda é amplamente usado em estudos epidemiológicos para aliviar os problemas decorrentes da construção de modelos por etapas), você trabalha com a mesma amostra (que assumimos ser representativo de uma população maior). Pelo contrário, generalizar os resultados e os elos causais inferidos dessa maneira para novas amostras ou para uma população plausivelmente relacionada é geralmente feito por estudos de replicação . Isso garante que possamos testar com segurança a capacidade preditiva de nosso modelo em uma "superpopulação", que apresenta uma gama maior de variações individuais e pode exibir outros fatores de interesse em potencial.

Seu modelo pode fornecer previsões válidas para sua amostra de trabalho e inclui todos os possíveis fatores de confusão em que você pode pensar; no entanto, é possível que ele não funcione tão bem com novos dados, apenas porque outros fatores aparecem no caminho causal intermediário que não foram identificados ao criar o modelo inicial. Isso pode acontecer se alguns dos preditores e os elos causais inferidos a partir deles dependerem do centro de estudo específico em que os pacientes foram recrutados, por exemplo.

Na epidemiologia genética, muitos estudos de associação em todo o genoma falham em se replicar apenas porque estamos tentando modelar doenças complexas com uma visão simplificada sobre relações causais entre marcadores de DNA e o fenótipo observado, embora seja muito provável que o gene-gene (epistasia), doenças gênicas (pleiotropia), ambiente genético e subestrutura populacional entram em cena, mas veja, por exemplo , Validando, aumentando e refinando os sinais de associação em todo o genoma(Ioannidis et al., Nature Reviews Genetics, 2009 10). Portanto, podemos construir um modelo de desempenho para explicar as variações cruzadas observadas entre um conjunto de marcadores genéticos (com tamanho de efeito muito baixo e esparso) e um padrão multivariado de fenótipos observados (por exemplo, volume de matéria branca / cinza ou atividades localizadas no cérebro, como observado por meio da ressonância magnética, respostas à avaliação neuropsicológica ou inventário de personalidade), mas não terá o desempenho esperado em uma amostra independente.

Quanto a uma referência geral sobre esse tópico, é possível recomendar o capítulo 17 e a Parte III dos Modelos de Previsão Clínica , de EW Steyerberg (Springer, 2009). Também gosto do seguinte artigo de Ioannidis:

Ioannidis, JPA, Por que a maioria dos resultados de pesquisas publicadas é falsa? PLoS Med. 2005 2 (8): e124

— chl
fonte

11

@chl: Você pode explicar sua afirmação no primeiro parágrafo sobre validade interna vs. externa? Na tradição com a qual estou familiarizado: validade interna refere-se à capacidade de afirmar relações de causa e efeito entre as variáveis da amostra em particular; validade externa é sobre a capacidade de generalizar de uma amostra para outras pessoas, lugares e épocas. Tradicionalmente, a validação cruzada é sobre o último e, portanto, pela definição acima sobre validade externa, enquanto você afirma que é sobre validade interna. Eu entendi mal sua declaração?

— Brett

11

@Brett Eu estava pensando no CV como uma técnica estatística para evitar ajustes excessivos ou para fornecer uma medida de precisão de previsão na amostra de trabalho (portanto, não necessariamente como uma ferramenta dedicada para demonstrar a validade interna). Não fui muito claro, obrigado ou apontando isso. Concordo que isso é usado para generalizar a amostra em questão, mas acho que não tem nada a ver com inferência causal (o CV não prova nada sobre os elos causais, conforme modelado na amostra de trabalho). Partilho sua opinião sobre a validade externa, mas para demonstrar isso, precisamos de outras amostras, não?

— chl

11

Você pode esclarecer esse primeiro parágrafo. Eu acho que você está tentando dizer que o CV não faz validade interna. Isso é assunto para outros processos. Porém, se tivermos boa validade interna por outros motivos, seja qual for, o CV ajudará a estimar esse efeito com mais precisão entre pessoas, locais e horários - ou seja, melhorará a validade externa. Ainda não consigo pensar em nenhuma maneira de o CV nos ajudar a fazer afirmações causais sobre relacionamentos entre variáveis - a questão da validade interna em si - apenas para ajudar a generalizar um relacionamento causal estabelecido.

— Brett

11

@Brett Eu acho que seus comentários a esta pergunta são muito pertinentes e resumem muito bem alguns dos problemas. Duvido que ajude alguma confusão entre validade interna e externa neste momento, mas o exemplo da epidemiologia genética de chl é realmente um problema de validade interna e não externa (exceto para a heterogeneidade do conjunto de dados (ou subestrutura da população), mas a IMO é menos preocupação do que a validade interna nesses exemplos).

— Andy W

2

A definição de Brett entre validade interna e externa é precisa, mas, para nossos propósitos, ajudará a defini-la em termos diferentes. A validade externa diz respeito apenas à amostra e como essa amostra se relaciona com outras populações. A validade interna diz respeito a vários aspectos sobre os efeitos estimados e as construções usadas para estimar esses efeitos.

— Andy W

12

Essa é uma boa pergunta, mas a resposta é definitivamente não: a validação cruzada não melhorará a inferência causal. Se você tiver um mapeamento entre sintomas e doenças, a validação cruzada ajudará a garantir que seu modelo corresponda melhor à sua distribuição conjunta melhor do que se você tivesse simplesmente encaixado seu modelo em todo o conjunto de dados brutos, mas nunca poderá dizer nada sobre a direcionalidade da causalidade.

A validação cruzada é muito importante e vale a pena estudar, mas não faz nada além de impedir que você ajuste demais o ruído em seu conjunto de dados. Se você quiser entender mais, sugiro o Capítulo 7 da ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf

— John Myles White
fonte

Obrigado pela referência. Então, digamos que você não esteja preocupado com a seleção de modelos, a validação cruzada das estimativas de efeito do conjunto de dados de treinamento para o conjunto de dados de retenção pode ser útil?

— Andy W

Poderia ser, mas eu diria que você está basicamente fazendo bootstrap (ou alguma variação disso) nesse ponto.

— John Myles White

Eu concordo, e acho que há outras coisas feitas regularmente que refletem esse mesmo tipo de lógica (como testes de especificidade de subconjuntos ou variáveis dependentes não equivalentes). Eu simplesmente fiz a pergunta porque imaginei que existiam tratamentos mais formais.

— Andy W

Os comentários para downvote são sempre bem-vindos!

— chl

Este livro é o presente que continua dando!

— Hayd

6

Para responder ao follow-up @Andy postou como resposta aqui ...

Embora eu não possa dizer qual estimativa está correta e qual é falsa, a inconsistência nas estimativas de Convicção de Assalto e de Arma entre os dois modelos duvida que um deles tenha um verdadeiro efeito causal no comprimento da sentença?

Acho que o que você quer dizer é a discrepância nas estimativas de parâmetros nos dá motivos para acreditar que nenhuma delas representa o verdadeiro efeito causal. Eu concordo com isso, embora já tivéssemos muitas razões para sermos céticos de que esse modelo renderia o verdadeiro efeito causal.

Eis a minha opinião: Dados excessivos são uma fonte de estimativas de parâmetros tendenciosos, e sem nenhuma razão para acreditar que esse viés compensa outras fontes de viés na estimativa de um efeito causal específico, deve ser melhor, em média, estimar os efeitos causais sem ajustar demais os dados. A validação cruzada impede o ajuste excessivo, portanto, deve, em média, melhorar as estimativas de efeitos causais.

Mas se alguém está tentando me convencer a acreditar na estimativa de um efeito causal a partir de dados observacionais, provar que eles não ajustaram demais os dados é de baixa prioridade, a menos que eu tenha fortes razões para suspeitar que sua estratégia de modelagem provavelmente tenha excesso de ajuste.

Nas aplicações de ciências sociais com as quais trabalho, estou muito mais preocupado com questões substantivas, questões de medição e verificações de sensibilidade. Por verificações de sensibilidade, quero dizer estimar variações no modelo em que os termos são adicionados ou removidos e estimar modelos com interações que permitem que o efeito do interesse varie entre os subgrupos. Quanto essas mudanças no modelo estatístico afetam a estimativa de parâmetros que queremos interpretar causalmente? As discrepâncias neste parâmetro são estimadas entre as especificações ou subgrupos do modelo, compreensíveis em termos da história causal que você está tentando contar ou sugerem um efeito impulsionado por, por exemplo, seleção.

De fato, antes de executar essas especificações alternativas. Anote como você acha que sua estimativa de parâmetros mudará. É ótimo se sua estimativa de interesse de parâmetro não variar muito entre subgrupos ou especificações - no contexto do meu trabalho, isso é mais importante do que a validação cruzada. Mas outras questões substantivas que afetam minha interpretação ainda são mais importantes.

— Michael Bishop
fonte

Muito obrigado por pesar! Sua perspectiva certamente coloca uma motivação muito direta para a validação cruzada em modelos causais que eu nunca havia me formulado convincentemente. OMI está mesmo vendendo-se um pouco curto, usando o rótulo de excesso de montagem. Por exemplo, no conjunto exploratório inicial, posso examinar o ajuste do modelo entre equações usando uma variável independente na escala inicial versus a escala logarítmica. Decido que o modelo com escala de log se encaixa melhor e depois o uso no modelo de espera. Este não seria normalmente considerado sobre-montagem (escolha entre um ou outro), cont ...

— Andy W

mas ainda se encaixa no paradigma que você sugeriu no seu aqui, aqui está o meu parágrafo.

— Andy W

5

Agradeço a todos por suas respostas, mas a pergunta cresceu para algo que eu não pretendia, sendo principalmente um ensaio sobre a noção geral de inferência causal sem resposta correta.

Inicialmente, pretendi que a questão investigasse o público em busca de exemplos do uso da validação cruzada para inferência causal. Eu tinha assumido que tais métodos existiam, pois a noção de usar uma amostra de teste e reter uma amostra para avaliar a repetibilidade das estimativas de efeito me parecia lógica. Como John observou, o que eu estava sugerindo não é diferente do bootstrapping, e eu diria que ele se assemelha a outros métodos que usamos para validar resultados, como testes de especificidade de subconjuntos ou variáveis dependentes não equivalentes (o bootstrapping relaxa suposições paramétricas de modelos e o subconjunto os testes de maneira mais geral são usados para verificar se os resultados são lógicos em situações variadas). Nenhum desses métodos atende a nenhum dos outros padrões de prova de inferência causal, mas acredito que ainda sejam úteis para a inferência causal.

O comentário de chl está correto, pois minha afirmação sobre o uso da validação cruzada é uma verificação da validade interna para ajudar na inferência causal. Mas peço que descartemos a distinção entre validade interna e externa por enquanto, pois isso não ajuda em nada no debate. Como exemplo de estudos amplos do genoma em epidemiologia, chl consideraria um exemplo primordial de baixa validade interna, tornando fortes inferências inerentemente duvidosas. Eu acho que os estudos da associação do genoma são na verdade um exemplo do que eu pedi. Você acha que as inferências entre genes e doenças são aprimoradas pelo uso da validação cruzada (em oposição a apenas jogar todos os marcadores em um modelo e ajustar os valores de p de acordo?)

Abaixo colei uma cópia de uma tabela no artigo de Berk que citei na minha pergunta. Embora essas tabelas demonstrem a lógica falsa do uso de critérios de seleção passo a passo e inferência causal no mesmo modelo, vamos fingir que nenhum critério de seleção de modelo foi usado e os parâmetros na amostra de treinamento e de retenção foram determinados .. Isso não me parece um resultado irreal. Embora eu não possa dizer qual estimativa está correta e qual é falsa, a inconsistência nas estimativas de Convicção de Assalto e de Arma entre os dois modelos duvida que um deles tenha um verdadeiro efeito causal no comprimento da sentença? O conhecimento dessa variação não é útil? Se não perdermos nada com uma amostra de espera para testar nosso modelo, por que não podemos usar a validação cruzada para melhorar a inferência causal (ou estou perdendo o que estamos perdendo usando uma amostra de espera?) texto alternativo

— Andy W
fonte

11

Uma nota sobre por que isso foi rebaixado seria apreciada.

— Andy W

2

Vou usar o @Andy e sugerir que você deixe um comentário durante a votação: é sempre útil aprender o que está errado, se houver. Especialmente neste caso: Andy W voltou com comentários estendidos da CW que, na minha opinião, acrescentam mais suporte à pergunta original. Não há necessidade de voto negativo aqui!

— chl

11

O intervalo padrão de erro / confiança já não fornece essa indicação de variabilidade? as estimativas do seu conjunto de testes estão contidas nos intervalos de confiança padrão do seu conjunto de treinamento. Eu pensaria que pequenos erros padrão e ICs estreitos são importantes para a causalidade.

— probabilityislogic

Sim @probabilityislogic, você está correto. Acredito que quando afirmei que não era para uma situação em que você aplica CV a um conjunto de dados já disponível, mas a um conjunto de dados reunido em outro momento. Eu pensei que o CV poderia ser útil aqui para reforçar afirmações causais, mas ainda não está claro para mim se for esse o caso. Eu só vi isso sendo discutivelmente útil em termos de seleção de modelo, não validando o modelo de nenhuma maneira (por exemplo, meu modelo nesses novos dados produz um ajuste muito próximo).

— Andy W

2

@ AriB.Friedman, me lembra os sinais filosóficos de Ed Tufte , Correlação não é causalidade, mas com certeza ajuda .

— Andy W

1

Eu acho que essa é uma maneira intuitiva de pensar sobre a relação entre CV e inferência causal: (por favor, corrija se eu estiver errado)

Eu sempre penso no CV como uma maneira de avaliar o desempenho de um modelo nas previsões. No entanto, na inferência causal, estamos mais preocupados com algo equivalente à Navalha de Occam (parcimônia), portanto, o CV não ajudará.

Obrigado.

— suncoolsu
fonte

A razão pela qual fiz a pergunta é porque não precisamos pensar na validação cruzada como apenas uma maneira de avaliar a capacidade preditiva de um modelo. Não é incomum se preocupar que os resultados de um modelo (e, portanto, inferências feitas) sejam artefatos por várias razões possíveis. Portanto, queremos examinar a robustez das descobertas e achei que a validação cruzada poderia ser um contexto útil para examinar a robustez dos resultados.

— Andy W

desculpe pela má interpretação.

— suncoolsu

Não há necessidade de desculpas. Fui eu quem sugeriu algo aparentemente marginal, e a validação cruzada é aparentemente sempre usada no contexto que você sugere.

— Andy W

@suncoolsu, Quando estou pensando em inferência causal, nunca me preocupo com a navalha de Occam ou com parcimônia, você poderia me explicar a conexão?

— Michael Bishop