- Ao dicotomizar variáveis, quais informações são perdidas no processo?
- Como uma dicotomização ajuda nas análises?
Respostas:
Que informação é perdida: Depende da variável. Geralmente, ao dicotomizar, você está afirmando que há uma linha reta de efeito entre uma variável e outra. Por exemplo, considere uma medida contínua de exposição a um poluente em um estudo sobre câncer. Se você dicotomizar para "Alto" e "Baixo", afirma que esses são os únicos dois valores importantes. Existe um risco de câncer alto, e há um baixo. Mas e se o risco aumentar constantemente por um tempo, depois se achatar e aumentar novamente antes de finalmente atingir valores altos? Tudo isso está perdido.
O que você ganha: é mais fácil. Variáveis dicotômicas geralmente são muito mais fáceis de lidar estatisticamente. Há razões para fazê-lo - se uma variável contínua cai em dois agrupamentos claros de qualquer maneira , mas eu tendem a evitar dicotomizando a menos que seu uma forma natural da variável em primeiro lugar. Geralmente, também é útil se o seu campo estiver dicotomizando as coisas de qualquer maneira para ter uma forma dicotomizada de uma variável. Por exemplo, muitos consideram que a contagem de células CD4 inferior a 400 é um limiar crítico para o HIV. Como tal, muitas vezes eu tenho uma variável 0/1 para Acima / Abaixo de 400, embora retenha a variável de contagem contínua de CD4 também. Isso ajuda a acompanhar seu estudo com outras pessoas.
Discordo um pouco de Peter. Embora dividir uma variável contínua em categorias geralmente seja muito mais sensível do que uma dicotomização grosseira, sou contra a categorização quantil. Tais categorizações são muito difíceis de dar interpretações significativas. Penso que o seu primeiro passo deve ser verificar se existe uma categorização biologicamente ou clinicamente bem suportada que se possa usar, e somente quando essas opções estiverem esgotadas você deve usar quantis.
A dicotimização adiciona pensamento mágico à análise de dados. Isso raramente é uma boa ideia.
Aqui está um artigo de Royston, Altman e Sauerbrei sobre algumas razões pelas quais é uma má ideia.
Meus próprios pensamentos: se você dicotomizar uma variável dependente, digamos, peso ao nascer com 2,5 kg (isso é feito o tempo todo), você estará tratando bebês nascidos com 2,49 kg, assim como aqueles nascidos com 1,5 kg e bebês nascidos com 2,51 kg, assim como aqueles que são 3,5 kg. Isto não faz sentido.
Uma alternativa melhor é frequentemente a regressão quantílica. Eu escrevi sobre isso para o NESUG recentemente. Esse papel está aqui
Uma exceção ao acima é quando as categorias são substancialmente motivadas; por exemplo, se você estiver trabalhando com comportamento de dirigir, será sensato categorizar com base na idade legal para dirigir.
Gostei e apoio as respostas de @ Epigrad e @ Peter. Eu só queria acrescentar que a variável de intervalo de bin em uma binária torna a variável métrica (potencialmente) apenas uma ordinal. Com a variável binária, é inadequado calcular média ou variância (apesar de algumas pessoas o fazerem) e, como já observei em outros lugares , algumas análises multivariadas se tornam teórica ou logicamente inaplicáveis. Por exemplo, acho que não é correto usar cluster hierárquico de Centroid / Ward ou análise fatorial com variáveis binárias.
Clientes de investigação geralmente nos forçam a dicotomizar variáveis na saída, porque pensar em termos de poucas classes em vez de uma característica contínua é mais simples, a informação parece menos nebulosa e (falsamente) mais volumosa.
Existem, no entanto, casos em que a dicotomização pode ser justificada. Por exemplo, onde há forte bimodalidade ou quando a análise (por exemplo, MAMBAC ou outra) mostra a presença de 2 classes latentes.