Qual é a diferença entre Multiclass e Multilabel Problem


52

Qual é a diferença entre um problema de várias classes e um problema de várias etiquetas?


Ambas as tarefas podem ser realizadas com o pacote de software Vowpal Wabbit (linha de comando, ligações python estão disponíveis).
Vladislavs Dovgalecs

Aprendi esse conceito e construí meu entendimento com este post . Eles explicaram a classificação de vários rótulos de uma maneira muito elegante.
user235077 23/01

Respostas:


45

Suspeito que a diferença seja que, em problemas com várias classes, as classes são mutuamente exclusivas, enquanto que, para problemas com vários rótulos, cada rótulo representa uma tarefa de classificação diferente, mas as tarefas são de alguma forma relacionadas (portanto, há um benefício em combatê-las juntas e não separadamente ) Por exemplo, no famoso conjunto de dados de caranguejos leptograspus, existem exemplos de machos e fêmeas de duas formas coloridas de caranguejo. Você pode abordar isso como um problema de várias classes com quatro classes (masculino-azul, feminino-azul, masculino-laranja, feminino-laranja) ou como um problema com vários rótulos, em que um rótulo seria masculino / feminino e o outro azul /laranja. Essencialmente, em problemas com vários rótulos, um padrão pode pertencer a mais de uma classe.


@Dirkran Obrigado pela sua explicação. Você sabe de qualquer outra fonte onde eu posso obter multilabel conjunto de dados que não seja csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html e mulan.sourceforge.net/datasets.html
Learner

@ Aluno desculpe, não é algo em que trabalhei muito. Você pode querer dar uma olhada no aprendizado de múltiplas tarefas, que tem algumas semelhanças com o aprendizado de vários rótulos. Talvez alguns dos conjuntos de dados usados ​​para isso também possam ser úteis como referências para o aprendizado de vários rótulos.
Dikran Marsupial

26

Classificação multiclasse significa uma tarefa de classificação com mais de duas classes; por exemplo, classifique um conjunto de imagens de frutas que podem ser laranjas, maçãs ou peras. A classificação multiclasse pressupõe que cada amostra seja atribuída a um e apenas um rótulo: uma fruta pode ser uma maçã ou uma pêra, mas não as duas ao mesmo tempo.

A classificação de vários rótulos atribui a cada amostra um conjunto de rótulos de destino. Isso pode ser considerado como prevendo propriedades de um ponto de dados que não são mutuamente exclusivos, como tópicos relevantes para um documento. Um texto pode ser sobre religião, política, finanças ou educação ao mesmo tempo ou nenhuma delas.

Retirado de http://scikit-learn.org/stable/modules/multiclass.html


18

Para complementar as outras respostas, aqui estão algumas figuras. Uma linha = a saída esperada para uma amostra.

Multiclasse

Uma coluna = uma classe (codificação one-hot)

insira a descrição da imagem aqui

Multilabel

Uma coluna = uma classe

insira a descrição da imagem aqui


Você viu isso:

  • no caso de vários rótulos, uma amostra pode ser atribuída a mais de uma classe.
  • no caso multiclasse, existem mais de 2 classes no total.

Como uma observação lateral, nada impede que você tenha um problema de classificação com várias saídas e classes múltiplas , por exemplo:

insira a descrição da imagem aqui


7

Um problema de várias classes possui a atribuição de instâncias a uma coleção finita e mutuamente exclusiva de classes. Como no exemplo já dado de caranguejos (de @Dikran): macho-azul, fêmea-azul, macho-laranja, fêmea-laranja. Cada um deles é exclusivo dos outros e, juntos, são abrangentes.

Uma forma de problema com vários rótulos é dividi-los em dois rótulos, sexo e cor; onde o sexo pode ser masculino ou feminino e a cor pode ser azul ou laranja. Mas observe que este é um caso especial do problema de rótulos múltiplos, pois todas as instâncias terão todos os rótulos (ou seja, todo caranguejo tem sexo e cor).

Problemas com vários rótulos também incluem outros casos que permitem atribuir um número variável de rótulos a cada instância. Por exemplo, um artigo em um jornal ou serviço de notícias pode ser atribuído às categorias NOTÍCIAS, POLÍTICA, ESPORTES, MEDICINA, etc. Uma história sobre um evento esportivo importante receberia uma atribuição do rótulo SPORTS; enquanto outro, envolvendo tensões políticas que são reveladas por um evento esportivo específico, pode receber os rótulos ESPORTES e POLÍTICA. Onde estou, nos EUA, os resultados do Superbowl são rotulados SPORTS e NEWS, devido ao impacto social do evento.

Observe que essa forma de rotulagem, com números variáveis ​​de etiquetas, pode ser reformulada em uma forma semelhante ao exemplo dos caranguejos; exceto que todos os rótulos são tratados como LABEL-X ou não-LABEL-X. Mas nem todos os métodos exigem essa reformulação.


2

E mais uma diferença reside no fato de que o problema com vários rótulos exige que o modelo aprenda a correlação entre as diferentes classes, mas nos problemas com várias classes diferentes classes são independentes umas das outras.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.