Qual é a diferença entre regressão ordinal e classificação?

10

Tanto na regressão ordinal quanto na classificação, você está aprendendo com variáveis dependentes ordenadas, então minha pergunta é:

Qual é a diferença na formulação (se houver) entre o problema da regressão ordinal e o problema de aprender a classificar?

regression ordinal-data ranking

— Fabian Pedregosa
fonte

1

"Classificação" por Everitt (pelo menos, uma edição anterior) significa apenas "o processo de classificar um conjunto de variáveis em ordem crescente ou decrescente". Então, o que você quer dizer com ranking?

— Peter Flom

2

Quero dizer classificação no contexto de aprendizagem de máquina: en.wikipedia.org/wiki/Learning_to_rank

— Fabian Pedregosa

13

3 anos depois, respondo à minha própria pergunta.

Para mim, a principal diferença está em qual é a saída dos modelos nos diferentes problemas. Na regressão ordinal, a tarefa é prever um rótulo para uma determinada amostra; portanto, a saída de uma previsão é um rótulo (como é o caso, por exemplo, na classificação multiclasse). Por outro lado, no problema de aprender a classificar, a saída é uma ordem de uma sequência de amostras. Ou seja, a saída de um modelo de classificação pode ser vista como uma permutação que faz com que as amostras tenham etiquetas o mais ordenadas possível. Portanto, diferentemente do modelo de regressão ordinal, o algoritmo de classificação não é capaz de prever um rótulo de classe. Por esse motivo, a entrada de um modelo de classificação não precisa especificar rótulos de classe, mas apenas uma ordem parcial entre as amostras (consulte, por exemplo, [0] para uma aplicação disso). Nesse sentido, a classificação é um problema mais fácil que a regressão ordinal:

Isso é melhor explicado com um exemplo. Suponha que possuamos os seguintes pares de (amostra, rótulo): . Dada essa entrada, um modelo de classificação preverá uma ordem dessa sequência de amostras. Por exemplo, para algoritmos de classificação, as permutações e são previsões com pontuação perfeita desde que o os rótulos das duas seqüências e são ordenados. Por outro lado, uma regressão ordinal preveria um rótulo para cada uma das amostras e, nesse caso, a previsão (1, 2, 2) daria uma pontuação perfeita, mas não (1, 2, 3) ou (1, 3, 2). $\{(x_1, 1), (x_2, 2), (x_3, 2)\}$ $(1, 2, 3) \to (1, 2, 3)$ $(1, 2, 3) \to (1, 3, 2)$ $\{(x_1, 1), (x_2, 2), (x_3, 2)\}$ $\{(x_1, 1), (x_3, 2), (x_2, 2)\}$

[0] Otimizando mecanismos de pesquisa usando dados de clique Thorsten Joachims

— Fabian Pedregosa
fonte

2

Você pode recomendar alguns algoritmos de classificação? Estou enfrentando um problema de classificação, mas ainda não sei quais algoritmos podem lidar com isso. Obrigado.

— Catbuilts

-2

É uma ótima pergunta! Em geral, a diferença entre estatística e aprendizado de máquina ou a abordagem de outros campos às "nossas" perguntas pode ser difícil de entender, porque existe um zoológico de termos associado a cada campo.

Assim, por exemplo, quando as pessoas descobriram que as redes neurais backprop estavam "apenas" fazendo algum tipo de regressão não-linear, isso foi como uma descoberta importante entre os pesquisadores .

Eu acho que é o mesmo tipo de coisa: existem muitas técnicas que as pessoas inventaram para atacar o mesmo problema. A logística ordinal é uma delas.

— isomorfismos
fonte