Usando regressão logística para uma variável dependente contínua

9

Recentemente, recebi uma revisão do meu trabalho de pesquisa e o seguinte é o comentário do revisor no meu trabalho:

os resultados obtidos em um modelo não são convincentes, especialmente a regressão linear geralmente apresenta deficiências ao lidar com valores extremos. Sugiro que os autores também tentem regressão logística e compare os resultados correspondentes com os atuais. Se observações semelhantes forem obtidas, os resultados serão mais sólidos.

O comentário do revisor está correto? A regressão logística é melhor que a regressão linear múltipla?

O problema é que minha variável dependente não é categórica, é uma variável de escala. O que eu posso fazer agora? Que outro método de regressão você recomenda para avaliar meu modelo?

A pontuação é variável dependente na tabela a seguir. Recência, frequência, posse e último escore são variáveis independentes.

insira a descrição da imagem aqui

Eu extraí essas variáveis de um site e suponho que essas variáveis independentes tenham efeito significativo na pontuação . Portanto, eu represento os seguintes modelos:

insira a descrição da imagem aqui

A propósito, o valor de R ao quadrado para este modelo linear é 0,316! O revisor também comentou sobre esse valor:

então os resultados não são convincentes, pois não há indicador sobre a qualidade dos coeficientes aprendidos. Um R ^ 2 pequeno não pode indicar um bom desempenho, pois o modelo pode estar excessivamente ajustado.

0,316 é muito baixo para R ao quadrado? Em artigos anteriores, vi muito os valores semelhantes.

insira a descrição da imagem aqui

regression logistic multiple-regression

— PSS
fonte

Esse é um ponto menor, mas entender como a pontuação é calculada pode ser útil para fornecer boas respostas. Você poderia editar sua pergunta para nos informar sobre isso?

— whuber

Eu edito minha postagem. meu conhecimento estatístico não é bom. Ficaria muito grato se você ajudar.

— PSS

1

não há nenhuma idéia sobre a execução de regressão logística em variável dependente contínua ??

— PSS

1

A pontuação é algo que deve estar entre 0 e 100? Nesse caso, você pode dividir por 100 e fazer uma regressão logística na variável resultante, que sempre seria entre 0 e 1 ... é um pouco estranho fazer as coisas dessa maneira, e não tenho certeza de quão sensata é, mas talvez seja isso que o revisor está sugerindo?

— Sam Livingstone

2

Não, escalar para 0-1 ou descartar informações valiosas e categorizar a pontuação não são boas soluções.

— Frank Harrell

7

$Y$ ormrms

— Frank Harrell
fonte

Eu instalei o R e todos os pacotes necessários. você poderia fornecer algum exemplo para a função orm? Não encontrei pesquisando. Para o meu modelo de regressão, qual deve ser o código?

— PSS

1

Y

$Y$

1

você também pode tentar modelos de probit / logit ordenados atribuindo os valores 1, 2,3 e 4 às pontuações no primeiro, ....., quarto percentil, respectivamente.

— user36853
fonte

Qual variável você está propondo a reduzir para os quatro percentis mais baixos (de 100)? O que isso faria e por quê?

— whuber

-1

Você pode dicotomizar (converter em uma variável binária) a pontuação. Se a pontuação for de 0 a 100, você poderá atribuir 0 a qualquer pontuação menor que 50 e 1 caso contrário. Eu nunca tinha ouvido falar antes que essa é uma boa maneira de lidar com discrepantes. Isso pode apenas esconder valores discrepantes, pois será impossível distinguir pontuações muito altas ou baixas. Isso não faz muito sentido para mim, mas você pode tentar.

$\beta$ $R^2$

$R^2$ $R^2$

Não vou fingir que sei muito sobre estatísticas, mas me parece, com base nos comentários dele, que esse revisor pode saber ainda menos.

— pontikos
fonte

Muito obrigado pela sua resposta. Como todas as variáveis são assimétricas, eu as tenho transformadas em log natural. Estou certo? Obrigado por esclarecer o que significa "super adaptação"! Na verdade, eu não sabia o que significa desajustar. Agora, posso responder ao revisor e editor. A propósito, qual é a sua recomendação para tornar minha avaliação mais sólida? que método de regressão você acha que é melhor?

— PSS

6

Y

$Y$

Concordo com @FrankHarrell que a escolha de um limite arbitrário para dicotomizar seus dados não faz sentido. Esse é todo o seu conjunto de dados? Se você tiver poucas observações, seus dados nunca parecerão normalmente distribuídos! Também é necessário entender o tipo de dados com os quais você está lidando. Que faixa de valores eles podem assumir, é sensato assumir que eles devem ser normalmente distribuídos? Vou examinar a sugestão de Frank de usar a regressão logística ordinal, mas meu palpite é que ele usa a ordem das pontuações em vez de seu valor na regressão.

— Pontikos

@PotentialScientist, não importa se suas distribuições estão distorcidas. Na regressão OLS (típica), apenas a distribuição dos resíduos é importante, veja aqui: e se os resíduos são normalmente distribuídos, mas você não é . Você também pode querer ler o seguinte: interpretação do log-transformed preditor , para entender o que aconteceu com o seu modelo como resultado da transformação de seus preditores.

— gung - Restabelece Monica

@PotentialScientist, como você está indo? Se você editar sua pergunta para fornecer os dados no formato CSV, posso tentar executar a função orm sugerida pelo Prof Harrell e podemos analisar a saída. Vale a pena aprender o básico de R (como ler em um arquivo e executar uma regressão).

— Pontikos 16/09

-1

É possível aplicar a regressão logística mesmo a uma variável dependente contínua. Faz sentido, se você quiser ter certeza de que o previsto scoreestá sempre dentro [0, 100](julgo pelas suas capturas de tela que está na escala de 100 pontos).

Para isso, basta dividir sua pontuação por 100 e executar a regressão logística com a [0,1]variável-alvo com base nesta , como nesta pergunta - você pode fazê-lo, por exemplo R, usando

glm(y~x, family="binomial", data=your.dataframe)

$R^2$

$R^2\approx 0.3$ $R^2$ $R^2$

— David Dale
fonte