Estou tentando entender alguns trabalhos de Mark van der Laan. Ele é um estatístico teórico em Berkeley, trabalhando com problemas que se sobrepõem significativamente ao aprendizado de máquina. Um problema para mim (além da matemática profunda) é que ele muitas vezes acaba descrevendo abordagens familiares de aprendizado de máquina usando uma terminologia completamente diferente. Um de seus principais conceitos é "Expectativa de máxima verossimilhança direcionada".
O TMLE é usado para analisar dados observacionais censurados de um experimento não controlado de uma maneira que permita a estimativa do efeito, mesmo na presença de fatores de confusão. Suspeito fortemente que muitos dos mesmos conceitos existam sob outros nomes em outros campos, mas ainda não o entendo o suficiente para corresponder diretamente a qualquer coisa.
Uma tentativa de preencher a lacuna com a "Análise de dados computacionais" está aqui:
E uma introdução para estatísticos está aqui:
Inferência Causal Baseada em Máxima Verossimilhança Alvo: Parte I
A partir do segundo:
Neste artigo, desenvolvemos um determinado estimador de máxima verossimilhança direcionado de efeitos causais de várias intervenções no ponto do tempo. Isso envolve o uso de superaprendizado com base em perdas para obter uma estimativa inicial dos fatores desconhecidos da fórmula de computação G e, subsequentemente, aplicar uma função de flutuação ideal específica do parâmetro-alvo (submodelo paramétrico menos favorável) a cada fator estimado, estimar o (s) parâmetro (s) de flutuação com estimativa de máxima verossimilhança e repetir esta etapa de atualização do fator inicial até a convergência. Essa etapa iterativa de atualização da probabilidade máxima direcionada torna o estimador resultante do efeito causal duas vezes robusto no sentido de que é consistente se o estimador inicial for consistente, ou o estimador da função de flutuação ideal é consistente. A função de flutuação ideal é especificada corretamente se as distribuições condicionais dos nós no gráfico causal em que se intervém forem especificadas corretamente.
Na sua terminologia, "superaprendizagem" é a aprendizagem em conjunto com um esquema de ponderação não negativo teoricamente sólido. Mas o que ele quer dizer com "aplicar uma função de flutuação ótima específica do parâmetro-alvo (submodelo paramétrico menos favorável) a cada fator estimado".
Ou dividindo-o em três questões distintas, o TMLE possui paralelo no aprendizado de máquina, o que é um "submodelo paramétrico menos favorável" e o que é uma "função de flutuação" em outros campos?