A mudança de dados contínuos para categóricos está sempre errada?

Quando leio sobre como configurar seus dados, uma coisa que me deparo com frequência é que transformar alguns dados contínuos em dados categóricos não é uma boa ideia, pois você pode muito bem fazer a conclusão errada se os limites forem mal determinados.

No entanto, atualmente tenho alguns dados (valores de PSA para pacientes com câncer de próstata), onde acho que o consenso comum é que, se você estiver abaixo de 4, provavelmente não o possui, se estiver acima de você corre o risco e, em seguida, algo como acima de 10 e 20, você provavelmente tem. Algo parecido. Nesse caso, ainda seria incorreto categorizar meus valores contínuos de PSA em grupos, digamos 0-4, 4-10 e> 10? Ou é realmente bom, já que os limites são "bem determinados" por assim dizer.

categorical-data continuous-data

— Denver Dang
fonte

Depende (como sempre). Por exemplo, se você estiver estudando como os médicos tomarão decisões, e eles tomarão decisões com base nessas categorias, convém usar as mesmas categorias. Se você estiver estudando as consequências biológicas associadas ao PSA elevado, provavelmente não deseja categorizar o PSA. Portanto, não há resposta definitiva para sua ampla pergunta "está tudo bem".

— whuber

O que você está tentando fazer com os dados? Limites como esse geralmente não estão relacionados ao que você deseja descobrir, de modo que colocá-los à mão está implorando a pergunta?

— RemcoGerlich 13/03/19

Estou configurando os dados para um modelo de regressão logística. Portanto, a questão principal é realmente usar apenas os dados contínuos ou ter dados discretos.

— Denver Dang

Não está claro para mim o que são dados 'contínuos'. Não é algo que existe na realidade. Não existe uma medida / estatística com precisão infinita.

— JimmyJames 13/03/19

@ BillHorvath Sim, eu não sou médico, então não tenho muita certeza de como isso foi determinado. Se você der uma olhada na página da Wiki, ela indica um lugar: "Níveis de PSA entre 4 e 10 ng / mL (nanogramas por mililitro) são considerados suspeitos e deve-se considerar a confirmação do PSA anormal com um teste repetido. " e depois outro local: "Baixo risco: PSA <10, escore de Gleason ≤ 6, E estágio clínico ≤ T2a Risco intermediário: PSA 10-20, escore de Gleason 7, OU estágio clínico T2b / c Alto risco: PSA> 20 , Pontuação de Gleason ≥ 8, OU estágio clínico ≥ T3 "

— Denver Dang

Respostas:

Existe uma descontinuidade acentuada nos seus limites?

Por exemplo, suponha que você tenha dois pacientes A e B com os valores 3,9 e 4,1 e outros dois pacientes C e D com os valores 6,7 e 6,9. A diferença na probabilidade de câncer entre A e B é muito maior que a diferença correspondente entre C e D?

Se sim, então discretizar faz sentido.

Caso contrário, seus limites podem fazer sentido para entender seus dados, mas eles não são "bem determinados" em um sentido estatisticamente significativo. Não discretize. Em vez disso, use as pontuações de seu teste "como estão" e, se você suspeitar de algum tipo de não linearidade, use splines .

Isso é muito recomendado.

— Stephan Kolassa
fonte

Esse link na parte inferior está cheio de ótimos pontos. Os futuros leitores desta resposta devem conferir.

— 22619 eric_kernfeld

Eu acho que discretizar não faz sentido, a menos que haja um grande salto no resultado no intervalo proposto E se o resultado for relativamente homogêneo dentro desses grupos. Caso contrário, existem maneiras melhores de abordar um "salto" na função @Stephan Kolassa

— LSC

Eu acho que a resposta padrão é que é sempre ruim porque você perde informações no processo. É difícil acreditar que exista um caso em que você ganharia algo ao pegar dados de intervalos naturais e torná-los categóricos.

— user54285
fonte

A situação apropriada seria onde houvesse uma verdadeira descontinuidade na relação desse x em particular com o DV e que, dentro das "categorias", o resultado é relativamente homogêneo.

— LSC