Retrotransformação dos coeficientes de regressão

Estou fazendo uma regressão linear com uma variável dependente transformada. A transformação a seguir foi feita para que a suposição de normalidade dos resíduos se mantivesse. A variável dependente não transformada foi inclinada negativamente e a transformação a seguir tornou-a quase normal:

Y = \sqrt{50 - Y_{o r i g}}

$Y=\sqrt{50-Y_{orig}}$

onde é a variável dependente na escala original. $Y_{orig}$

Eu acho que faz sentido usar alguma transformação nos coeficientes para voltar à escala original. Usando a seguinte equação de regressão, $\beta$

Y = \sqrt{50 - Y_{o r i g}} = α + β \cdot X

$Y=\sqrt{50-Y_{orig}}=\alpha+\beta \cdot X$

e fixando , temos $X=0$

α = \sqrt{50 - Y_{o r i g}} = \sqrt{50 - α_{o r i g}}

$\alpha=\sqrt{50-Y_{orig}}=\sqrt{50-\alpha_{orig}}$

E finalmente,

α_{o r i g} = 50 - α^{2}

$\alpha_{orig}=50-\alpha^2$

Usando a mesma lógica, descobri

β_{o r i g} = α (α - 2 β) + β^{2} + α_{o r i g} - 50

$\beta_{orig}=\alpha\space(\alpha-2\beta)+\beta^2+\alpha_{orig}-50$

Agora, as coisas funcionam muito bem para um modelo com 1 ou 2 preditores; os coeficientes transformados de volta se assemelham aos originais, só que agora posso confiar nos erros padrão. O problema ocorre ao incluir um termo de interação, como

Y = α + X_{1} β_{X_{1}} + X_{2} β_{X_{2}} + X_{1} X_{2} β_{X_{1} X_{2}}

$Y=\alpha+X_1\beta_{X_1}+X_2\beta_{X_2}+X_1X_2\beta_{X_1X_2}$

Então, as transformações anteriores dos $\beta$ s não são tão próximas das da escala original, e não sei por que isso acontece. Também não tenho certeza se a fórmula encontrada para a transformação reversa de um coeficiente beta é utilizável como é para o terceiro $\beta$ (para o termo de interação). Antes de entrar em álgebra louca, pensei em pedir conselhos ...

regression data-transformation

— Dominic Comtois
fonte

Como você define e ?

α_{o r i g}

$\alpha_{orig}$

β_{o r i g}

$\beta_{orig}$

— mark999

À medida que o valor de alfa e beta nas escalas originais

— Dominic Comtois

Mas o que isso significa?

— mark999

Eu arriscaria algo como: as estimativas que receberíamos eram os dados originais adequados para a regressão linear.

— Dominic Comtois

Para mim, isso parece um conceito sem sentido. Eu concordo com a resposta de Gung.

— mark999

Respostas:

Um problema é que você escreveu

Y = α + β \cdot X

$Y=α+β⋅X$

Esse é um modelo determinístico simples (isto é, não aleatório). Nesse caso, você pode transformar os coeficientes na escala original, pois é apenas uma questão de álgebra simples. Mas, na regressão usual, você só tem ; você deixou o termo do erro fora do seu modelo. Se a transformação de volta para for não linear, você pode ter um problema, já que , em geral. Eu acho que isso pode ter a ver com a discrepância que você está vendo. $E(Y|X)=α+β⋅X$ $Y$ $Y_{orig}$ $E\big(f(X)\big)≠f\big(E(X)\big)$

Editar: observe que, se a transformação for linear, você poderá voltar a transformar para obter estimativas dos coeficientes na escala original, pois a expectativa é linear.

— Macro
fonte

+1 para explicar por que não podemos transformar os betas de volta.

— gung - Restabelece Monica

Saúdo seus esforços aqui, mas você está latindo na árvore errada. Você não volta a transformar betas. Seu modelo é válido no mundo dos dados transformados. Se você quiser fazer uma previsão, por exemplo, você transforma novamente , mas é isso. Obviamente, você também pode obter um intervalo de previsão calculando os valores limite alto e baixo e depois transformá-los também, mas em nenhum caso você transforma novamente os betas. $\hat{y}_i$

— - Reinstate Monica
fonte

O que considerar do fato de que os coeficientes transformados de volta se aproximam muito dos obtidos ao modelar a variável não transformada? Isso não permite alguma inferência na escala original?

— Dominic Comtois

Eu não sei exatamente. Pode depender de várias coisas. Meu primeiro palpite é que você está tendo sorte com seu primeiro par de betas, mas sua sorte acaba. Eu tenho que concordar com @ / mark999 que "as estimativas que obteríamos eram os dados originais adequados para a regressão linear" na verdade não fazem nenhum sentido; Eu gostaria que isso acontecesse e isso parece meio que à primeira vista, mas infelizmente não. E não licencia nenhuma dedução na escala original.

— gung - Restabelece Monica

@gung para transformações não lineares (por exemplo, box cox): eu posso transformar valores ajustados e intervalos de previsão, mas não consigo transformar betas nem intervalos de coeficiente para os betas. Existe alguma limitação adicional que eu deveria estar ciente? Aliás, este é um tópico muito interessante. Onde posso entender melhor?

— Mugen

@Mugen, é difícil dizer o que mais você deve estar ciente. Talvez você deva ter em mente que a transformação dorsal do y-hat fornece a mediana condicional, enquanto que o y-hat não transformado nas costas (mancha) é a média condicional. Fora isso, esse material deve ser abordado em um bom livro de regressão.

— gung - Restabelece Monica

@mugen, de nada. Sinta-se à vontade para fazer mais perguntas através dos mecanismos normais (clicar ASK QUESTION); haverá mais recursos para responder, você receberá a atenção de mais CVers e as informações estarão mais acessíveis para a posteridade.

— gung - Restabelece Monica