Como os dados ausentes podem ser tratados ao usar splines ou polinômios fracionários?


12

Estou lendo Multivariable Model Building: Uma Abordagem Pragmática à Análise de Regressão Baseada em Polinômios Fracionários para Modelagem de Variáveis ​​Contínuas de Patrick Royston e Willie Sauerbrei. Até agora, estou impressionado e é uma abordagem interessante que não havia considerado antes.

Mas os autores não lidam com dados ausentes. De fato, na p. 17 eles dizem que a falta de dados "introduz muitos problemas adicionais. Não são considerados aqui".

A imputação múltipla funciona com polinômios fracionários>

O FP é, em alguns aspectos (mas não todos), uma alternativa aos splines. É mais fácil lidar com dados ausentes para regressão de spline?


Você está lidando com falta de x ou y ou ambos?
Glen_b -Reinstala Monica

2
+1 (!) Fico feliz em ver alguém fazer uma pergunta semelhante. Recentemente, postei esta pergunta: stats.stackexchange.com/questions/295977/… sobre como usar splines cúbicos restritos nos ratos de R. Eu optaria especificamente por splines, pois eles não exigem a especificação de um polinômio fracionário, enquanto os splines são flexíveis o suficiente para muitas formas funcionais. Não sei se isso responde à sua pergunta (daí esse comentário).
IWS

2
Essa é uma pergunta interessante, abrindo (como uma dimensão de uma possível resposta) a possibilidade de fazer uma crítica a essas várias técnicas de suavização / interpolação, contrastando sua capacidade de acomodar dados ausentes. (Até certo ponto, a fragilidade da falta é um "constrangimento" para um método moderno.) Observo apenas passando o ponto óbvio de que uma implementação bayesiana lhe daria sua imputação "de graça".
David C. Norris

2
@ DavidC.Norris Seu comentário me intriga! Você poderia elaborar como os métodos bayesianos acomodam a falta 'de graça' (o que eu suponho que você queira dizer é tratado pelos métodos de análise de forma apropriada, 'automaticamente' e como padrão)? (Ou aponte-me para uma referência)
IWS

2
A parte sem almoço grátis de "grátis" aqui é que você deve escrever um modelo bayesiano, o que implica pensar explicitamente sobre o processo de geração de dados ( DGP ). Depois de fazer isso, trate os valores ausentes como parâmetros [incômodos]. (Em bayesiano, "tudo é um parâmetro". Consulte também a variável latente .) O MCMC, em seguida, explora essencialmente o DGP que você especificou para 'imputar' os valores ausentes "de graça" enquanto faz o processo.
David C. Norris

Respostas:


1

f(x)f(x)=x+x.5fm()M1MmMfm(x)

Supondo que o software que você está usando possa fornecer uma estimativa de erro padrão para cada valor exclusivo de x, você pode usar a fórmula de Rubin (Imputação múltipla por não resposta em pesquisas; 1987) para calcular os erros padrão. Existem pequenas e grandes fórmulas de amostra para os graus de liberdade com imputação múltipla. A fórmula de amostra grande (também em Rubin) aceita apenas as mesmas entradas que o erro padrão, portanto também pode ser usada. O pequeno caso de amostra leva os graus de liberdade do modelo como entrada; não é óbvio para mim se esta fórmula pode ser aplicada aqui.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.