Regressão linear quando Y é limitado e discreto

13

A pergunta é direta: é apropriado usar a regressão linear quando Y é limitado e discreto (por exemplo, a pontuação do teste 1 ~ 100, algum ranking predefinido 1 ~ 17)? Nesse caso, "não é bom" usar regressão linear ou é totalmente errado usá-lo?

— Mestre Shi
fonte

9

Quando uma resposta ou resultado é delimitado, várias questões surgem na adaptação de um modelo, incluindo o seguinte: $Y$

Qualquer modelo que possa prever valores para a resposta fora desses limites é, em princípio, duvidoso. Portanto, um modelo linear pode ser problemático, pois não há limites em para os preditores e coeficientes sempre que os próprios são ilimitados em uma ou ambas as direções. No entanto, o relacionamento pode ser fraco o suficiente para que isso não ocorra e / ou as previsões podem permanecer dentro dos limites acima do intervalo observado ou plausível dos preditores. Em um extremo, se a resposta é média ruído, dificilmente importa qual modelo se encaixa. $\hat Y = Xb$ $X$ $b$ $X$ $+$
Como a resposta não pode exceder seus limites, um relacionamento não linear geralmente é mais plausível, com respostas previstas que se aproximam dos limites assintoticamente. Curvas ou superfícies sigmóides, como as previstas pelos modelos logit ou probit, são atraentes nesse aspecto e agora não são difíceis de ajustar. Uma resposta como alfabetização (ou fração adotando qualquer idéia nova) geralmente mostra uma curva sigmóide no tempo e de maneira plausível com quase qualquer outro preditor.
Uma resposta limitada não pode ter as propriedades de variação esperadas na regressão simples ou de baunilha. Necessariamente, à medida que a resposta média se aproxima dos limites inferior e superior, a variação sempre se aproxima de zero.

Um modelo deve ser escolhido de acordo com o que funciona e o conhecimento do processo de geração subjacente. Se o cliente ou o público sabe sobre famílias de modelos específicas também pode orientar a prática.

Observe que estou deliberadamente evitando julgamentos gerais, como bom / ruim, apropriado / inadequado, certo / errado. Todos os modelos são aproximações na melhor das hipóteses e qual aproximação agrada, ou é boa o suficiente para um projeto, não é tão fácil de prever. Normalmente, sou a favor dos modelos de logit como primeira escolha para respostas limitadas, mas mesmo essa preferência se baseia em parte no hábito (por exemplo, meus modelos de probit a evitar sem motivo muito bom) e em parte em onde vou relatar resultados, geralmente para leitores que são, ou estatisticamente bem informado.

Seus exemplos de escalas discretas são para pontuações de 1 a 100 (nas atribuições que eu marcar, 0 é certamente possível!) Ou nas classificações de 1 a 17. Para escalas como essa, eu normalmente pensaria em ajustar modelos contínuos a respostas dimensionadas para [0, 1]. No entanto, existem praticantes de modelos de regressão ordinal que se encaixariam alegremente nesses modelos em escalas com um número bastante grande de valores discretos. Fico feliz se eles responderem se são assim.

— Nick Cox
fonte

7

Eu trabalho na pesquisa de serviços de saúde. Coletamos resultados relatados pelos pacientes, por exemplo, função física ou sintomas depressivos, e eles são frequentemente pontuados no formato que você mencionou: uma escala de 0 a N gerada pela soma de todas as perguntas individuais da escala.

A grande maioria da literatura que analisei apenas usou um modelo linear (ou um modelo linear hierárquico, se os dados derivam de observações repetidas). Ainda não vi ninguém usar a sugestão de @ NickCox para um modelo de logit (fracionário), embora seja um modelo perfeitamente plausível.

A teoria da resposta ao item me parece outro modelo estatístico plausível a ser aplicado. É aqui que você assume que alguma característica latente causa respostas às perguntas usando um modelo logístico ou logístico ordenado. Isso lida inerentemente com as questões de limite e possível não linearidade que Nick levantou. $\theta$

O gráfico abaixo deriva do meu próximo trabalho de dissertação. É aqui que encaixo um modelo linear (vermelho) em uma pontuação de pergunta sobre sintomas depressivos que foi convertida em escores Z e um modelo (explicativo) de TRI em azul para as mesmas perguntas. Basicamente, os coeficientes para ambos os modelos estão na mesma escala (ou seja, em desvios padrão). Na verdade, há um bom acordo no tamanho dos coeficientes. Como Nick aludiu, todos os modelos estão errados. Mas o modelo linear pode não ser muito errado de usar.

Dito isto, uma suposição fundamental de quase todos os modelos atuais de TRI é que a característica em questão é bipolar, ou seja, seu suporte é a . Provavelmente isso não se aplica aos sintomas depressivos. Modelos para traços latentes unipolares ainda estão em desenvolvimento, e o software padrão não pode ajustá-los. Muitas das características das pesquisas de serviços de saúde em que estamos interessados provavelmente são unipolares, como sintomas depressivos, outros aspectos da psicopatologia, satisfação do paciente. Portanto, o modelo de TRI também pode estar errado. $-\infty$ $\infty$

(Nota: o modelo acima era adequado ao pacote de Phil Chalmers mirtno R. Graph produzido usando ggplot2e ggthemes. O esquema de cores é baseado no esquema de cores padrão Stata.)

— Weiwen Ng
fonte

6

Só porque os modelos lineares são amplamente utilizados, não significa que eles sejam apropriados. Muitas pessoas usam modelos lineares porque é apenas isso que sabem ou se sentem confortáveis.

— QWR

1

A literatura médica é especialmente repleta de práticas precárias propagadas pelo tipo "isto é o que este campo / periódico faz", tipo ideologia. Como regra geral, eu não usaria ou deixaria de usar algo apenas por causa de sua aparência, por mais comum que seja, em pesquisas médicas.

— LSC

1

Dê uma olhada nos valores previstos e verifique se eles têm aproximadamente a mesma distribuição que os Ys originais. Se for esse o caso, a regressão linear provavelmente está correta. e você ganhará pouco melhorando seu modelo.

— mzuba
fonte

1

Uma regressão linear pode "adequadamente" descrever esses dados, mas é improvável. Muitas suposições de regressão linear tendem a ser violadas nesse tipo de dados a tal ponto que a regressão linear se torna desaconselhada. Vou escolher algumas suposições como exemplos,

Normalidade - Mesmo ignorando a discrição desses dados, esses dados tendem a exibir violações extremas da normalidade porque as distribuições são "cortadas" pelos limites.
Homocedasticidade - esse tipo de dado tende a violar a homoscedasticidade. As variações tendem a ser maiores quando a média real está no centro do intervalo, em comparação com as arestas.
Linearidade - Como o intervalo de Y é limitado, a suposição é automaticamente violada.

As violações dessas suposições são atenuadas se os dados tendem a cair ao redor do centro do intervalo, longe das bordas. Mas, na verdade, a regressão linear não é a ferramenta ideal para esse tipo de dados. Alternativas muito melhores podem ser regressão binomial ou regressão de Poisson.

— Stat_Programmer
fonte

2

É difícil ver que a regressão de Poisson é candidata a respostas duplamente limitadas.

— Nick Cox

0

Se a resposta incluir apenas algumas categorias, você poderá usar métodos de classificação ou regressão ordinal se sua variável de resposta for ordinal.

A regressão linear simples não fornecerá categorias discretas nem variáveis de resposta limitadas. O último pode ser corrigido usando um modelo de logit como na regressão logística. Para algo como uma pontuação de teste com 100 categorias de 1 a 100, você também pode simplificar sua previsão e usar uma variável de resposta limitada.

— qwr
fonte

0

use um cdf (função de distribuição cumulativa das estatísticas). se o seu modelo é y = xb + e, altere-o para y = cdf (xb + e). Você precisará redimensionar novamente os dados variáveis dependentes para ficar entre 0 e 1. Se forem números positivos, divida por eles no máximo e faça as previsões do modelo e multiplique pelo mesmo número. Em seguida, verifique o ajuste e veja se as previsões limitadas melhoram as coisas.

Você provavelmente deseja usar um algoritmo fixo para cuidar das estatísticas para você.

— dougie
fonte

1

Isso parece confundir dois fatos: (1) respostas limitadas devem ser dimensionadas entre 0 e 1 para que os modelos logit, probit e similares sejam aplicados (2) as cdfs também variam entre 0 e 1. Ao tratar uma resposta fracionária como tal, você não está está modelando seu cdf.

— Nick Cox