A regressão de x em y é claramente melhor do que y em x neste caso?


10

Um instrumento usado para medir os níveis de glicose no sangue de uma pessoa é monitorado em uma amostra aleatória de 10 pessoas. Os níveis também são medidos usando um procedimento laboratorial muito preciso. A medida do instrumento é denotada por x. A medida do procedimento de laboratório é denotada por y.

Pessoalmente, acho que y em x é mais correto, porque a intenção é usar as leituras do instrumento para prever as leituras do laboratório. E y em x minimiza os erros de tais previsões.

Mas a resposta fornecida foi x em y.


2
Bem-vindo ao site, @Neo. Se essa pergunta foi motivada por um exercício de aula / livro, adicione a [self-study]tag.
gung - Restabelece Monica

Respostas:


6

Muitos trabalhos de laboratório, especialmente as experiências de teste por instrumentos, aplicam tal regressão x em y.

Eles argumentam que, a partir da coleta de dados no experimento, as condições y são controladas e obtêm x da leitura do instrumento (introduzindo algum erro). Este é o modelo físico original do experimento, portanto o erro x ~ y + é mais adequado.

Para minimizar o erro do experimento, às vezes, y sendo controlado na mesma condição, x é medido por várias vezes (ou experimento repetido). Este procedimento pode ajudá-lo a entender a lógica por trás deles e a encontrar o erro x ~ y + mais claramente.


+1 Penso realmente na resposta até agora, provavelmente esta é melhor para a postagem original. Essa questão foi quase certamente motivada pela compreensão do instrumento, em vez de calibrar um proxy. Se você tiver apenas uma medida de X para cada Y, tenho certeza (com o comentário do whuber) de que o Y-on-X é uma abordagem correta. Múltiplos X's destroem isso, mas X-on-Y ainda está correto (mas não pode ser usado para prever Y).
Korone

Você tem um problema, @Corone: se ambos X vs Y e Y vs X estão corretas, todos nós sabemos que você começa distintamente diferentes linhas de embutidos sempre que é inferior a 1 . Qual dessas duas linhas você escolheria e com que base? A resolução correta desse dilema é que - como Vincent explica - há uma assimetria em nossa concepção de erro de medição: o instrumento é medido com erro considerável; presume-se que o laboratório não tenha nenhum erro apreciável. Os procedimentos comuns de regressão assumem que X não tem erro e todo o erro está em Y, de modo que o resolve. R21
whuber

@ whuber ambos estão corretos, mas respondem a problemas diferentes. Com várias medidas X, o Y-on-X não está mais correto para o problema que deveria responder. Meus comentários estão ficando bobo sem que isso irá editar a minha resposta em vez
Korone

6

Y on XX on Y

YXY on XX

X on YYX

X on YY

X on Y


YX

@whuber Erros nas variáveis ​​não são apropriados para previsão. Erros em variáveis ​​são úteis se você deseja entender a magnitude de um relacionamento, mas possui erros de medição em X e Y. Para previsão, o X é "conhecido sem erro", desde que seja coletado da mesma maneira em seu conjunto de treinamento e conjunto de previsão.
Korone

@ Corone Você está certo de que erros nas variáveis ​​não são bons para a previsão, mas não é isso que está sendo recomendado, tanto quanto eu sei. De fato, é exatamente por isso que é preciso regredir o instrumento contra o laboratório (que usa apenas o OLS) e não o contrário. Por favor, consulte a referência de Draper & Smith que cito em outro comentário a este tópico. Estou confiando na seção 1.7 da segunda edição.
whuber

@ Corone, você está certo sobre a previsão / erros nas variáveis, mas não é bem o que eu queria dizer. Vou tentar pensar em uma maneira melhor de expressá-lo.
gung - Restabelece Monica

4

Previsão e previsão

Sim, você está correto. Quando você vê isso como um problema de previsão, uma regressão Y-X fornece um modelo tal que, dada uma medida do instrumento, você pode fazer uma estimativa imparcial da medida exata do laboratório, sem executar o procedimento de laboratório. .

E[Y|X]

Isso pode parecer contra-intuitivo, porque a estrutura de erro não é a "real". Supondo que o método de laboratório seja um método padrão livre de erros, então "sabemos" que o verdadeiro modelo de geração de dados é

Xi=βYi+ϵi

YiϵiE[ϵ]=0

E[Yi|Xi]

Yi=Xiϵβ

Xi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

E[ϵi|Xi]ϵX

Explicitamente, sem perda de generalidade, podemos deixar

ϵi=γXi+ηi

E[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

ηββσ

YI=αXi+ηi

β

Análise de Instrumentos

A pessoa que fez essa pergunta claramente não queria a resposta acima, pois diz que o X-Y-Y é o método correto, então por que eles queriam isso? Provavelmente eles estavam considerando a tarefa de entender o instrumento. Conforme discutido na resposta de Vincent, se você quiser saber sobre o comportamento do instrumento, o X-on-Y é o caminho a seguir.

Voltando à primeira equação acima:

Xi=βYi+ϵi

E[Xi|Yi]=YiXβ

Encolhimento

YE[Y|X]γE[Y|X]Y. Isso leva a conceitos como bayes de regressão à média e empíricos.

Exemplo em R Uma maneira de entender o que está acontecendo aqui é fazer alguns dados e experimentar os métodos. O código abaixo compara X-Y com Y-X sobre previsão e calibração e você pode ver rapidamente que X-Y não é bom para o modelo de previsão, mas é o procedimento correto para calibração.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

As duas linhas de regressão são plotadas sobre os dados

insira a descrição da imagem aqui

E o erro da soma dos quadrados para Y é medido para os dois ajustes em uma nova amostra.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Alternativamente, uma amostra pode ser gerada em um Y fixo (neste caso 4) e, em seguida, na média das estimativas feitas. Agora você pode ver que o preditor Y-on-X não está bem calibrado com um valor esperado muito menor que Y. O preditor X-Y-Y está bem calibrado com um valor esperado próximo a Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

A distribuição das duas previsões pode ser vista em um gráfico de densidade.

insira a descrição da imagem aqui


YXX

3
Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2

11
β

2
Y pode ser uma variável aleatória em uma população de pessoas, mas para qualquer pessoa é um parâmetro a ser estimado. Regressar Y em X reduz todas as estimativas de Y em relação à média do grupo, o que reduz o erro médio quadrático sobre as pessoas, mas cria vieses sistemáticos que podem ser inaceitáveis ​​por razões éticas ou legais. Regressar X em Y fornece informações que podem ser usadas para construir um intervalo de confiança imparcial para o Y de cada pessoa, mas esses intervalos tendem a ser amplos, como a área azul no gráfico, enquanto o intervalo de previsão da regressão de Y em X é mais estreito, mas tendencioso , como o vermelho.
precisa saber é o seguinte

11
@RayKoopman, que é uma maneira maravilhosa de colocá-lo! Sim - Y sobre X é sobre como obter o melhor previsão em média, mais lotes de diferentes Ys, enquanto a calibração é sobre ser justo e imparcial para um Y. indivíduo
Korone

2

Depende de suas suposições sobre a variação de X e a variação de Y para os Mínimos Quadrados Ordinários. Se Y tem a única fonte de variação e X tem variação zero, use X para estimar Y. Se as premissas são inversas (X tem a única variação e Y tem variação zero), use Y para estimar X.

Se presumir que X e Y têm variação, pode ser necessário considerar o total de mínimos quadrados .

Uma boa descrição do TLS foi escrita neste link . O documento é voltado para o comércio, mas a seção 3 faz um bom trabalho ao descrever o TLS.

Edit 1 (09/10/2013) =========================================== ======

Originalmente, assumi que isso era algum tipo de problema de lição de casa, então não fui muito específico sobre "a resposta" à pergunta do OP. Mas, depois de ler outras respostas, parece que tudo bem ficar um pouco mais detalhado.

Citando parte da pergunta do PO:

".... Os níveis também são medidos usando um procedimento laboratorial muito preciso ...."

A declaração acima diz que existem duas medições, uma do instrumento e outra do procedimento de laboratório. A declaração também implica que a variação para o procedimento de laboratório é baixa em comparação com a variação para o instrumento.

Outra citação da pergunta do OP é:

".... A medida do procedimento laboratorial é indicada por y ....."

Portanto, pelas duas afirmações acima, Y tem a menor variação. Portanto, a técnica menos propensa a erros é usar Y para estimar X. A "resposta fornecida" estava correta.


11
XY

Não, a escolha da regressão não deve ser feita com base em onde está a variação - deve ser feita com base na pergunta que você está tentando responder. Se você usar o TLS para criar um modelo de previsão para Y dado X , estará errado. TLS e semelhantes erros nas variáveis modelos são todos sobre a compreensão da verdadeira relação entre subjacentes variáveis / processos - não se trata de previsão
Korone

11
@Corone Embora você esteja certo de que os objetivos de alguém guiam a escolha dos procedimentos estatísticos, o procedimento também deve ser apropriado para o modelo de probabilidade ("onde a variação é"). Se seu objetivo é prever a leitura do laboratório a partir da leitura do instrumento de alta variância, escolha definitivamente um procedimento apropriado para isso: mas esse procedimento não é uma previsão usando o ajuste dos mínimos quadrados comuns e suas estimativas de variância.
whuber

11
@ Corone - Concordo que a técnica de regressão deve se basear na pergunta que você está tentando responder, no entanto, a técnica selecionada contém suposições sobre a variação das variáveis. Se as suposições de variação da seleção não corresponderem ao seu conceito para o modelo, você selecionou a técnica errada. É por isso que listei as 3 possibilidades (variação zero de X para estimar Y; variação zero de Y para estimar X; ou variação X e Y diferente de zero).
bill_080
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.