Qual é a diferença entre um problema de várias classes e um problema de várias etiquetas?
Qual é a diferença entre um problema de várias classes e um problema de várias etiquetas?
Respostas:
Suspeito que a diferença seja que, em problemas com várias classes, as classes são mutuamente exclusivas, enquanto que, para problemas com vários rótulos, cada rótulo representa uma tarefa de classificação diferente, mas as tarefas são de alguma forma relacionadas (portanto, há um benefício em combatê-las juntas e não separadamente ) Por exemplo, no famoso conjunto de dados de caranguejos leptograspus, existem exemplos de machos e fêmeas de duas formas coloridas de caranguejo. Você pode abordar isso como um problema de várias classes com quatro classes (masculino-azul, feminino-azul, masculino-laranja, feminino-laranja) ou como um problema com vários rótulos, em que um rótulo seria masculino / feminino e o outro azul /laranja. Essencialmente, em problemas com vários rótulos, um padrão pode pertencer a mais de uma classe.
Classificação multiclasse significa uma tarefa de classificação com mais de duas classes; por exemplo, classifique um conjunto de imagens de frutas que podem ser laranjas, maçãs ou peras. A classificação multiclasse pressupõe que cada amostra seja atribuída a um e apenas um rótulo: uma fruta pode ser uma maçã ou uma pêra, mas não as duas ao mesmo tempo.
A classificação de vários rótulos atribui a cada amostra um conjunto de rótulos de destino. Isso pode ser considerado como prevendo propriedades de um ponto de dados que não são mutuamente exclusivos, como tópicos relevantes para um documento. Um texto pode ser sobre religião, política, finanças ou educação ao mesmo tempo ou nenhuma delas.
Retirado de http://scikit-learn.org/stable/modules/multiclass.html
Para complementar as outras respostas, aqui estão algumas figuras. Uma linha = a saída esperada para uma amostra.
Uma coluna = uma classe (codificação one-hot)
Uma coluna = uma classe
Você viu isso:
Como uma observação lateral, nada impede que você tenha um problema de classificação com várias saídas e classes múltiplas , por exemplo:
Um problema de várias classes possui a atribuição de instâncias a uma coleção finita e mutuamente exclusiva de classes. Como no exemplo já dado de caranguejos (de @Dikran): macho-azul, fêmea-azul, macho-laranja, fêmea-laranja. Cada um deles é exclusivo dos outros e, juntos, são abrangentes.
Uma forma de problema com vários rótulos é dividi-los em dois rótulos, sexo e cor; onde o sexo pode ser masculino ou feminino e a cor pode ser azul ou laranja. Mas observe que este é um caso especial do problema de rótulos múltiplos, pois todas as instâncias terão todos os rótulos (ou seja, todo caranguejo tem sexo e cor).
Problemas com vários rótulos também incluem outros casos que permitem atribuir um número variável de rótulos a cada instância. Por exemplo, um artigo em um jornal ou serviço de notícias pode ser atribuído às categorias NOTÍCIAS, POLÍTICA, ESPORTES, MEDICINA, etc. Uma história sobre um evento esportivo importante receberia uma atribuição do rótulo SPORTS; enquanto outro, envolvendo tensões políticas que são reveladas por um evento esportivo específico, pode receber os rótulos ESPORTES e POLÍTICA. Onde estou, nos EUA, os resultados do Superbowl são rotulados SPORTS e NEWS, devido ao impacto social do evento.
Observe que essa forma de rotulagem, com números variáveis de etiquetas, pode ser reformulada em uma forma semelhante ao exemplo dos caranguejos; exceto que todos os rótulos são tratados como LABEL-X ou não-LABEL-X. Mas nem todos os métodos exigem essa reformulação.
E mais uma diferença reside no fato de que o problema com vários rótulos exige que o modelo aprenda a correlação entre as diferentes classes, mas nos problemas com várias classes diferentes classes são independentes umas das outras.