Suponha que recebamos um conjunto de dados da forma e ( y , x 1 , x 2 , ⋯ , x n - 1 ) . É-nos dada a tarefa de prever y com base nos valores de x . Estimamos duas regressões em que: y
Também estimamos uma regressão que prediz valores de base em valores de ( x 1 , ⋯ , x n - 1 ) , ou seja: x n = f 3 ( x 1 , ⋯ , x n - 1 )
Suponha que agora recebemos valores de , então teríamos dois métodos diferentes para prever y :
Qual seria o melhor em geral?
Estou supondo que a primeira equação seria melhor porque utiliza informações das duas formas de pontos de dados, enquanto a segunda equação utiliza informações apenas de pontos de dados que possuem valores preditores . Meu treinamento em estatística é limitado e, portanto, gostaria de procurar alguns conselhos profissionais.
Além disso, em geral, qual é a melhor abordagem para dados com informações incompletas? Em outras palavras, como podemos extrair o máximo de informações de dados que não possuem valores em todas as dimensões?