É sempre uma boa idéia dar "crédito parcial" (resultado contínuo) ao treinar uma regressão logística?

Estou treinando uma regressão logística para prever quais corredores têm mais chances de terminar uma cansativa corrida de resistência.

Muito poucos corredores completam esta corrida, então eu tenho um desequilíbrio severo de classe e uma pequena amostra de sucessos (talvez algumas dezenas). Sinto que consegui um bom "sinal" das dezenas de corredores que quase conseguiram. (Meus dados de treinamento não têm apenas a conclusão, mas também até que ponto os que não terminaram realmente chegaram.) Então, estou me perguntando se é uma péssima ideia ou não incluir algum "crédito parcial". Eu criei algumas funções para crédito parcial, a rampa e a curva logística, que poderiam ter vários parâmetros.

A única diferença com a regressão seria que eu usaria dados de treinamento para prever o resultado modificado e contínuo em vez de um resultado binário. Comparando suas previsões em um conjunto de testes (usando a resposta binária), obtive resultados bastante inconclusivos - o crédito parcial logístico parecia melhorar marginalmente R-quadrado, AUC, P / R, mas essa foi apenas uma tentativa de um caso de uso usando um pequena amostra.

Não me importo que as previsões sejam uniformemente tendenciosas para a conclusão - o que me interessa é classificar corretamente os competidores quanto à sua probabilidade de terminar, ou talvez até estimar sua probabilidade relativa de finalização.

Entendo que a regressão logística pressupõe uma relação linear entre preditores e o log do odds ratio, e obviamente essa relação não tem uma interpretação real se eu começar a mexer nos resultados. Tenho certeza de que isso não é inteligente do ponto de vista teórico, mas pode ajudar a obter algum sinal adicional e evitar o ajuste excessivo. (Eu tenho quase tantos preditores quanto sucessos, portanto, pode ser útil usar relacionamentos com conclusão parcial como uma verificação de relacionamentos com conclusão completa).

Essa abordagem é usada na prática responsável?

De qualquer maneira, existem outros tipos de modelos por aí (talvez algo que modele explicitamente a taxa de risco, aplicada à distância em vez do tempo) que possa ser mais adequado para esse tipo de análise?

logistic binary-data continuous-data

— C8H10N4O2
fonte

Parece um trabalho para análise de sobrevivência, como análise de riscos proporcionais de Cox ou possivelmente algum modelo de sobrevivência paramétrico.

Pense sobre esse problema ao contrário, da maneira que você está explicando: quais são as variáveis preditoras associadas às distâncias anteriores para parar ?

Sair é o evento. A distância percorrida pode ser considerada equivalente ao tempo até o evento na análise de sobrevida padrão. Você tem um número de eventos igual ao número de pessoas que desistiram, portanto o seu problema com um número limitado de preditores diminuirá. Todos aqueles que desistem fornecem informações.

Um modelo Cox, se funcionar com seus dados, fornecerá um preditor linear com base em todos os valores de variáveis do preditor, classificando os competidores na ordem das distâncias previstas até a saída.

— EdM
fonte

Obrigado por isso. Parece que você está dizendo que, usando o modelo Cox, os corredores com a maior distância prevista para desistir também são os menos propensos a desistir antes da distância de chegada, devido à construção de riscos proporcionais. Isso é preciso? Além disso, como você recomenda isso, adivinhar que a ideia de crédito parcial não lhe pareceu tão bem fundamentada?

— C8H10N4O2

Isso é essencialmente correto. Vejo a incorporação da distância para desistir em um modelo de sobrevivência como uma maneira de dar "crédito parcial" de uma maneira que tenha uma justificativa teórica e prática bem estabelecida. Não resolvemos os detalhes, mas suspeito que isso realize exatamente o que você pretendia, conforme expresso em seu gráfico.

— 20916 EdM