Quando usar a regressão não paramétrica?

9

Estou usando o PROC GLM no SAS para ajustar uma equação de regressão da seguinte forma

Y = b_{0 0} + b_{1 1} X_{1 1} + b_{2} X_{2} + b_{3} X_{3} + b_{4} t

$Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t$

O gráfico QQ dos vermelhos resultantes indica desvio da normalidade. Qualquer transformação de não é útil para normalizar os resíduos. $Y$

Neste ponto, posso alternar com segurança para métodos não paramétricos, como PROC LOESS.

Eu já usei o PROC LOESS e o ajuste parece melhor que o PROC GLM. Mas eu não tenho muito conhecimento em regressão não paramétrica. Não sei quando escolher a regressão não paramétrica em vez da regressão paramétrica.

alguém poderia me ajudar com isso?

Vou seguir em frente e adicionar outra pergunta. A seguir, é apresentada a descrição das minhas variáveis no modelo. Às vezes, recebo um custo previsto negativo. Isto não faz sentido. Como posso resolver esse problema?

Y = custo dos cuidados médicos X_{1 1} = número de injeções X_{2} = número de cirurgias X_{3} = número de terapias físicas t = Tempo

$Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of physical therapies}\\ t =\text{time}$

— ann
fonte

2

Pode, claro, evitar prever custos negativos modelando o log do mesmo:

l o g (Y) = b_{0} + b_{1} X_{1} + b_{2} X_{2} + b_{3} X_{3} + b_{4} t

$log(Y) = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t$

— Dirk Horsten

10

Antes de analisar os gráficos QQ de resíduos, você deve avaliar a qualidade do ajuste, plotando os resíduos contra os preditores do modelo (e possivelmente também com outras variáveis que você não utilizou). A não linearidade deve aparecer nesses gráficos. Se o efeito da variável for realmente linear, você espera que o gráfico de resíduos contra seja "horizontal", sem estrutura visível: $x$ $x$

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Ou seja, um "blob" horizontal aleatório de pontos, centralizado em torno da linha resid = 0.

Se o efeito for não linear, você espera ver alguma curvatura neste gráfico. (e, por favor, ignore os QQplots até obter as não linearidades resolvidas, usando os gráficos acima!)

Você também deve pensar em possíveis interações (modeladas geralmente pelos termos do produto), ou seja, o efeito de uma variável depende dos níveis de outra (se todas as suas três variáveis tiverem altos valores ao mesmo tempo, talvez isso mostre algumas dificuldades particularmente difíceis). paciente? Em caso afirmativo, podem ser necessárias interações).

Se você optar por algum modelo não linear, depois de tentar interações e transformações (você tentou log(Cost)?) Você tentou algumas transformações em caixa-cox? Como você tem regressão múltipla, acho que não loessé isso que você precisa, você deve procurar gam(modelos aditivos generalizados, o SAS deve ter isso, em R está no pacote mgcv).

— kjetil b halvorsen
fonte

11

Obrigado pela informação valiosa. Eu tentei o log (custo) com a regressão linear, mas não ajudou muito. Vou adicionar os efeitos da interação e observar o que acontece. Também experimentarei transformações novamente. Manterei todos informados com meus desenvolvimentos e descobertas.

— ann

6

Um LOESS sempre dará um ajuste melhor que a regressão, a menos que os dados realmente estejam ao longo de uma linha reta. LOESS é uma aproximação linear local projetada para passar perto dos dados. Esses métodos são basicamente exploratórios. E embora seja perigoso extrapolar um modelo linear além dos limites do ajuste, a extrapolação seria imprudente no caso do LOESS.

Se o seu modelo fornecer custos negativos, é um bom sinal de que uma regressão linear não é apropriada para as variáveis que você possui. Você diz que tentou transformações. Você anotou o log de custo com seus preditores?

Na natureza das coisas, é improvável que exista uma relação simples entre custo e as variáveis mencionadas. Às vezes, o objetivo de uma regressão linear é simplesmente demonstrar que existe algum tipo de correlação e, talvez, selecionar um conjunto sensível de preditores.

— Placidia
fonte

11

Faz muito sentido quando você mencionou que os custos negativos indicam que a regressão linear pode não ser apropriada. Vou continuar minha análise e adicionar algumas interações. Obrigado.

— ann

3

Bravo por fazer análises residuais. Coloca você à frente do analista típico. (Sua descrição do modelo é deficiente em não descrever a estrutura do erro.) Você deve considerar as transformações dos Xs e também as transformações dos Ys. Percebo que o SAS está por trás do R na modelagem com ajustes de spline, mas entendo que as versões recentes ofereceram essa capacidade. Considere adicionar ajustes de spline cúbicos restritos para os termos X. Como referência, o texto de Frank Harrell "Estratégias de modelagem de regressão" é difícil de superar. Possui argumentos estatísticos sólidos para essa abordagem. É uma abordagem paramétrica que permite a descoberta de estrutura nos dados que, de outra forma, seriam perdidos.

— DWin
fonte

Y

$Y$

X

$X$

l o g (Y) = b_{0} + b_{1} l o g (X_{1}) + b_{2} l o g (X_{2})

$log(Y) = b_0 + b_1log(X_1) + b_2log(X_2)$

X_{1}

$X_1$

X_{2}

$X_2$

— Dirk Horsten

Seu comentário parece bastante tangencial à minha resposta (e à pergunta desde que o particionamento de injeções pelo braço nunca foi mencionado) Espero que você não pense que as funções de spline sejam equivalentes às transformações de log. A transformação de log do Y cria um modelo em que o modelo é multiplicativo nos preditores quando transformado de volta à escala de custo. Essa é uma mudança bastante grande e uma cujos problemas você não descreveu adequadamente para o questionador.

— Dwin

2

Acho que o kjetil deu algumas boas sugestões. Eu acrescentaria que os resíduos não normais não significam que você precise pular da regressão linear ou não linear para a regressão não paramétrica. Indo para a regressão não paramétrica, você desiste da estrutura de uma forma funcional. Há uma alternativa de regressão robusta à regressão OLS à qual você poderia ir primeiro. Modelos lineares generalizados e modelos aditivos generalizados, se forem necessários os próximos passos. LOESS deve, a meu ver, ser seu último recurso. Eu acho que concordo com a kjetil nisso.

— Michael R. Chernick
fonte