Existe uma diferença entre "classificação" e "rotulagem"?


7

Até recentemente, eu pensava que "rotular" e "classificação" são sinônimos. Mas quando iniciei outra pergunta sobre terminologia em visão computacional , pensei: existe uma diferença entre "rotular" e "classificação"?

Eu pensei que a "classe" é o conceito que você deseja detectar e "rotular" é o que você atribui aos dados. Portanto, "classe" é um conceito que leva aos dados e "rótulo" é apenas o nome. Portanto, "rotular" seria o mesmo que "classificação", pois ambos desejam fazer uma declaração sobre a classe subjacente que leva aos dados.

Artigos

Uma pesquisa rápida via Google Scholar revelou que alguns artigos usam os dois termos do título:

  • Markus Eich, Malgorzata Dabrowska e Frank Kirchner: "Rotulagem semântica: classificação de entidades 3D com base em descritores de recursos espaciais"
  • Chunlin Li, Dmitry B. Goldgof e Lawrence 0. Hall: "Classificação baseada no conhecimento e rotulagem de tecidos de imagens de RM do cérebro humano"
  • Ray Blanchard: "A classificação e rotulagem de disforias não-homossexuais de gênero" - outra área de pesquisa, mas provavelmente é a mesma diferença entre as duas palavras?

Então, acho que há uma diferença entre "rotulagem" e "classificação". Qual é a diferença?

N-Gram do Google

insira a descrição da imagem aqui

classificação parece ser um termo muito interno.


Respostas:


2

Discordo totalmente de @Derek Janni. Tenha cuidado com a notação, no entanto, você não deve se perder na terminologia. Os documentos que você mencionou usaram o termo "rotulagem" literalmente, mas na comunidade Machine Learning / Data Mining, a rotulagem é o processo de preparação de dados para o aprendizado supervisionado (classificação)! Não tem nada a ver com a tarefa ML!

Esses documentos usaram o termo para mostrar que, após o aprendizado supervisionado, eles podem reconhecer rótulos diferentes de objetos diferentes, de modo que usaram o termo rotulagem, mas você provavelmente não consegue encontrar em nenhuma literatura que eles usem esses dois termos como sinônimos.


1

Da maneira que eu vejo: 'Classificação' (no contexto de aprendizado de máquina) é um tipo de problema no qual você atribui um 'rótulo' a um objeto. Formalmente, 'Classificação' é um tipo de problema, enquanto rotular é uma função de um objeto para um conjunto de rótulos (talvez infinito).

Da mesma forma, a regressão é um tipo de problema em que você, novamente, atribui um rótulo a um objeto somente desta vez, o rótulo é um número real.

Tanto na classificação quanto na regressão, você está tentando encontrar a 'melhor' função de rotulagem em relação a alguma função de métrica / perda.


1

Depois de ler muito mais artigos e conversar com muitas pessoas sobre tópicos de aprendizado de máquina, é assim que eu definiria as palavras:

Uma classe como um conceito abstrato que existe. Cada classe tem propriedades e pode ter muitos rótulos diferentes. Por exemplo, o gato da classe possui as propriedades "pés" (com o valor 4), a propriedade "Gênero" com o valor "Felis". Há muitas maneiras pelas quais os membros da classe podem se parecer. Também muitos rótulos: gato, Katze, Felis silvestris, 🐱, 🐈.

Um rótulo é apenas um adesivo que você coloca no conceito. Um nome. Precisamos de uma palavra para poder falar sobre o conceito.

Uso rotulagem para o processo manual de definir quais partes do conjunto de dados pertencem a qual classe. E uso classificação para o processo do classificador automático que decide qual parte dos dados pertence a qual classe. Normalmente, a rotulagem é feita por um ser humano e prossegue a classificação que é feita pela máquina.


0

Resposta curta:

Não, não há diferença entre rotulagem e classificação.

Classe - um conjunto ou categoria de coisas que possuem alguma propriedade ou atributo em comum e diferenciadas de outras por tipo, tipo ou qualidade. Veja 'categoria'.

Rótulo - palavra ou frase indicando que o que se segue pertence a uma categoria ou classe específica.

Classificar algo é rotulá-lo, eles são necessariamente a mesma coisa. O termo rotulagem provavelmente evoluiu porque "label" permite que você evite dizer "classe", que tem outras conotações em Ciência da Computação.

O rótulo é muito mais simples e, em todos os casos, a classificação é apenas o ato de colocar rótulos nos objetos (ou aprender a fazê-lo corretamente).

A discrepância que você vê no uso de rotulagem / classificação vem do simples fato de um título como:

"Classificação semântica: classificação de entidades 3D com base em descritores de recursos espaciais" ou "Classificação baseada no conhecimento e classificação de tecidos de imagens de RM do cérebro humano"

Parece realmente estranho.

Como a maioria dos títulos de artigos acadêmicos, essas são apenas descrições excessivamente complexas do que está no artigo e explicam exatamente o que está acontecendo sem parecer redundante.

TL; DR - Não se preocupe com a terminologia!


Seu argumento de que isso soaria estranho é estranho. Certamente, eu preferiria escrever "Classificação semântica de entidades 3D com base em descritores de recursos espaciais" em vez de "Classificação semântica: Classificação de entidades 3D com base em descritores de recursos espaciais". Escrever um artigo geralmente é muito trabalhoso. Estou certo de que as pessoas gastam bastante trabalho no título. Mas acho que eu deveria simplesmente tentar conseguir que um autor de um desses artigos respondesse à minha pergunta.
Martin Thoma 28/11

Meu argumento era que geralmente é considerado estranho repetir a mesma palavra várias vezes em um título / frase - daí o uso da palavra "rotular" em vez de repetir "classificação". Realmente um ponto menor, eu acho. Talvez os autores tenham usado "Rotulagem" como uma viagem do mecanismo de pesquisa para aparecer para consultas sobre esse tópico, apesar de a classificação ser a mesma coisa. Pessoalmente, gosto do título que eles decidiram dar com os melhores :) Além disso, a prova está no pudim, presumo que você tenha lido os jornais e notado que o que eles estão fazendo é a classificação em sua essência.
Derek Janni

0

Os rótulos surgem em conjunto com a classificação quando o objeto não pertence a uma única classe, mas a um conjunto mais amplo, daí o termo "aprendizado de múltiplas etiquetas" ou "classificação de múltiplas etiquetas". Como eles se referem a classes discretas, eles podem ser usados ​​como sinônimos, mas eu recomendaria o uso da terminologia tradicional ( classificação quando uma única classe deve ser atribuída) para evitar confusão.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.