Qual é a justificativa para a discretização não supervisionada de variáveis ​​contínuas?


8

Várias fontes sugerem que existem muitas consequências negativas da discretização (categorização) de variáveis ​​contínuas antes da análise estatística (amostra de referências [1] - [4] abaixo).

Por outro lado, [5] sugere que algumas técnicas de aprendizado de máquina são conhecidas por produzir melhores resultados quando variáveis ​​contínuas são discretizadas (também observando que os métodos supervisionados de discretização têm melhor desempenho).

Estou curioso para saber se existem benefícios ou justificativas amplamente aceitos para essa prática, do ponto de vista estatístico?

Em particular, haveria justificativa para discretizar variáveis ​​contínuas em uma análise GLM?



[1] Royston P, Altman DG, Sauerbrei W. Dicotomizando preditores contínuos em regressão múltipla: uma má idéia. Stat Med 2006; 25: 127-41

[2] Brunner J, Austin PC. Inflação da taxa de erro Tipo I em regressão múltipla quando variáveis ​​independentes são medidas com erro. The Canadian Journal of Statistics 2009; 37 (1): 33-46

[3] Irwin JR, McClelland GH. Consequências negativas da dicotomização de variáveis ​​preditoras contínuas. Jornal de Pesquisa de Marketing 2003; 40: 366-371.

[4] Harrell Jr FE. Problemas causados ​​pela categorização de variáveis ​​contínuas. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Acesso em 6.9.2004

[5] Kotsiantis, S .; Kanellopoulos, D. "Técnicas de Discretização: Uma pesquisa recente". GESTS Transações internacionais em ciência da computação e engenharia 32 (1): 47–58.


2
Discretizá-los em comparação a fazer o que mais? Se a alternativa é considerada como sendo linear a relação entre preditor e resposta, não é de surpreender que a discretização possa às vezes dar um melhor ajuste. Veja aqui .
Scortchi - Restabelecer Monica

Pode estar relacionado a diferentes critérios para o que é "melhor".
Glen_b -Reinstala Monica

Respostas:


8

O objetivo dos modelos estatísticos é modelar (aproximar) uma realidade subjacente desconhecida. Quando você discretiza algo que é naturalmente contínuo, está dizendo que todas as respostas para um intervalo de variáveis ​​preditivas são exatamente as mesmas, e então há um salto repentino para o próximo intervalo. Você realmente acredita que o mundo natural funciona tendo uma grande diferença na resposta entre os valores-x de 9,999 e 10,001, enquanto não há diferença entre 9,001 e 9,999 (assumindo que um dos intervalos seja 9-10)? Não consigo pensar em nenhum processo natural que consideraria plausivelmente trabalhar dessa maneira.

Agora, existem muitos processos naturais que agem de maneira não linear; a mudança de 8 para 9 no preditor pode fazer uma mudança muito diferente na resposta do que uma mudança de 10 para 11. E, portanto, um preditor discreto pode se encaixar melhor do que um relacionamento linear, mas isso é porque é permitido mais graus de liberdade. Porém, existem outras maneiras de permitir graus adicionais de liberdade, como polinômios ou splines, e essas opções nos permitem penalizar para obter um certo nível de suavidade e manter algo que seja uma melhor aproximação do processo natural subjacente.


1

Edit: Por causa da tendência de outras respostas que estou vendo, um pequeno aviso: minha resposta é motivada por uma perspectiva de aprendizado de máquina e não por modelagem estatística.

  • Alguns modelos, como o Naive Bayes, não funcionam com recursos contínuos. Discretizar os recursos pode ajudar a usá-los com desempenho (muito) melhor. Geralmente, os modelos que não se baseiam no caráter "numérico" do recurso (as árvores de decisão vêm à mente) não são afetados demais desde que a discretização não seja brutal. Alguns outros modelos, no entanto, terão um desempenho muito baixo se a discritização for muito importante. Por exemplo, os GLMs não terão absolutamente nenhum benefício com o processo.

  • Em alguns casos, quando o tempo de memória / processamento se torna um fator limitante, a discretização de recursos permite agregar um conjunto de dados, reduzindo seu tamanho e seu consumo de tempo de memória / computação.

Portanto, o ponto principal é que, se você não estiver limitado computacionalmente e se seu modelo não exigir absolutamente recursos discretos, não execute a discretização de recursos. Caso contrário, por todos os meios considere-o.


6
Um método que não use a natureza numérica da variável deve ser evitado de qualquer forma.
Frank Harrell

1
Isso é totalmente falso. Árvores de decisão, florestas aleatórias e DT com gradiente aumentado são excelentes algoritmos e não levam em consideração a natureza numérica das variáveis, exceto a ordem delas. Naive Bayes muitas vezes pode ser uma ferramenta mais que suficiente para tarefas básicas de classificação.
Youloush

7
Existem vários mal-entendidos. Primeiro, você assume que a discretização usa pelo menos a natureza ordinal dos preditores contínuos; isso não. Em seguida, você confunde pré-bin (um desastre) com bin durante o algoritmo preditivo (um pequeno desastre). Você assume que a classificação leva a decisões ótimas em oposição à previsão. Você supõe que a categorização das entradas é o caminho a percorrer, ao contrário da categorização das saídas (risco previsto, em seguida, aplique a função de perda para obter a melhor decisão). Por fim, você sugere que não há problema em tornar verdadeiros relacionamentos tranquilos verdadeiros.
Frank Harrell

3
Como o erro de previsão é uma regra de pontuação de precisão inadequada, essa afirmação diz muito sobre o ML. E não conheço muitos estatísticos que realmente buscam uma realidade subjacente. Estamos satisfeitos em desenvolver várias aproximações ou substitutos da realidade, além de simplesmente deixar os dados falarem por si mesmos.
Frank Harrell

1
PS Os relacionamentos suaves existem como uma verdade subjacente em quase todos os conjuntos de dados que não contêm tempo como o único preditor. Obviamente, os pontos de dados são discretos. Isso não tem absolutamente nada a ver com você escolher uma abordagem de modelagem suave ou não.
Frank Harrell
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.