Que tipo de regressão usar, considerando uma variável com limite superior?


9

Não sei ao certo qual método usar para modelar o relacionamento entre duas variáveis ​​( e ) no experimento descrito a seguir:yxy

  • Existem 3 variáveis: , e . x yxaimxy
  • O valor de é definido ao operar o experimento. No entanto, e nem sempre são iguais. x x a i mxaimxxaim
  • O coeficiente de correlação de Pearson entre xaim e é de cerca de 0,9.x
  • O coeficiente de correlação de Pearson entrex e é muito menor: cerca de 0,5.y
  • y tem um valor máximo possível ( ) que não pode ser excedido.ymax
  • Cada ponto de dados é obtido após definir e ler xxaimx e .y

Embora o coeficiente de correlação de Pearson entre e y não é grande, parece que y tende a aumentar com a x .xyyx

Depois de fazer regressões lineares simples de e x = g ( y ) (e converter o último de volta como g - 1 , de modo a ser exibido no mesmo gráfico que f, por exemplo), ambas as inclinações são positivas, mas a inclinação de g - 1 é maior que a de f .y=f(x)x=g(y)g1fg1f

Faz sentido dizer ou x m a x = g ( y m a x ) ? ( x m a x seria alcançado anteriormente no segundo caso.)xmax=f1(ymax)xmax=g(ymax)xmax

Considerando que é limitado por y m a x , o que pode ser dito sobre o possível valor máximo de x que poderia ser alcançado?yymaxx

Tanto quanto eu entendo, faz sentido fazer uma regressão linear da forma quando x é a variável independente e y é a variável dependente. No entanto, neste contexto, não tenho certeza se faz sentido considerar que x é independente e y é dependente.y=f(x)xyxy

Uma regressão total de mínimos quadrados seria mais apropriada? Existem outros métodos para determinar quais valores de podem ser alcançados (e com que probabilidade)?xmax

(Se isso importa, e y parecem não seguir uma distribuição normal, pois foram feitas mais tentativas para tentar atingir valores mais altos de x .)xyx


O que você fará com esse relacionamento, se o encontrar? Você testará as hipóteses ou apenas está interessado em saber como fica? Se houver muitos pontos de dados, considere modelos não lineares.
Mvctas # 7/11

@mpiktas, no final das contas, gostaria de saber qual x_max é uma meta razoável que eu poderia tentar atingir regularmente (não apenas uma vez), considerando que atingir ou ultrapassar y_max torna o experimento nulo (implicando efetivamente x = x_min para essa tentativa).
Bruno

A regressão total de mínimos quadrados (ou erros nas variáveis) é indicada quando a variação de se torna considerável em comparação com a de y . A correlação de 90% com o objetivo x sugere que a variação de x pode ser suficientemente pequena para que você possa tratá-la com segurança como uma variável independente. Isso é algo que você pode verificar pós-regressão, comparando o RMSE de resíduos de x visam vs. x para os RMSEs de resíduos de y versus x visam . Se y max é um problema depende; se você ver um ponto de corte superior no gráfico de dispersão com x miraxyxaimxxaimxyxaimymaxxaim, é uma consideração importante.
whuber

Respostas:


4

Eu quero dizer os pontos de @ King. É muito intuitivo suspeitar que regressar a x ('regressão direta') e x a y ('regressão reversa') deve ser o mesmo. No entanto , isso não é verdade matematicamente, nem no que diz respeito à forma como a regressão está relacionada à situação que você está analisando. Se você plotar y no eixo vertical de um gráfico e x no eixo horizontal, poderá ver o que está acontecendo. A regressão direta encontra a linha que minimiza as distâncias verticais entre os pontos de dados e a linha, enquanto a regressão reversa minimiza as distâncias horizontais. A linha que minimiza uma só minimizará a outra seyxxyyx . Você precisa decidir o que deseja explicar e o que deseja usar para explicá-lo. A resposta a essa pergunta dá-lhe qual variável é y e x, pelas mesmas razões. rxy=1.0yxe especifica seu modelo. Além disso, (novamente seguindo @King), eu discordo de tentar dizer xmax=f1(ymax)

Em relação à questão de uma variável delimitada, normalmente é concebível que o valor "real" possa ser maior, mas você não pode mensurá-lo. Por exemplo, um termômetro externo para fora da minha janela chega a 120, mas pode ser 140 fora em alguns lugares, e você teria apenas 120 como medida. Assim, a variável teria um limite superior, mas o que você realmente queria pensar não. Se esse é o caso, existem modelos de tobit para essas situações.

Outra abordagem seria usar algo mais robusto, como loess, que pode ser perfeitamente adequado às suas necessidades.


Desculpas pelo atraso, eu não tinha notado sua resposta. Vou precisar ler sobre o modelo Tobit.
244 Bruno

Sem problemas. Para mais informações sobre a natureza da regressão (vs. regressão reversa), veja aqui . Para obter ajuda com a aplicação de regressão de tobit usando vários softwares, tente aqui .
gung - Restabelece Monica

3

Em primeiro lugar, não acho que faça sentido dizer aqui, isso é como sugerir que é uma função individual, embora x m a xxmax=f1(ymax)xmax seja explicado por outras pessoas não observadas variáveis.

Em segundo lugar, depende realmente do contexto para o qual tratar como uma variável independente ou dependente. Pela minha experiência, a menos que a teoria sugira fortemente uma maneira; de qualquer maneira está ok. De seus comentários em 7 de outubro, parece que é o dependente enquanto yxy é o independente.

Se possível, observe os resíduos e veja se consegue extrair algo dele. Pode haver outra variável que você esqueceu; ou pode ajudar a transformar suas variáveis.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.