".. abordagem do problema de classificação através de regressão .." por "regressão" Assumirei que você quer dizer regressão linear e compararei essa abordagem com a abordagem de "classificação" de ajustar um modelo de regressão logística.
Antes de fazer isso, é importante esclarecer a distinção entre modelos de regressão e classificação. Os modelos de regressão preveem uma variável contínua, como quantidade de chuva ou intensidade da luz solar. Eles também podem prever probabilidades, como a probabilidade de uma imagem conter um gato. Um modelo de regressão de previsão de probabilidade pode ser usado como parte de um classificador impondo uma regra de decisão - por exemplo, se a probabilidade for 50% ou mais, decida que é um gato.
A regressão logística prediz probabilidades e, portanto, é um algoritmo de regressão. No entanto, é comumente descrito como um método de classificação na literatura de aprendizado de máquina, porque pode ser (e geralmente é) usado para fazer classificadores. Também existem algoritmos de classificação "verdadeiros", como o SVM, que apenas prevêem um resultado e não fornecem uma probabilidade. Não discutiremos esse tipo de algoritmo aqui.
Regressão linear versus regressão logística em problemas de classificação
Como Andrew Ng explica , com regressão linear você ajusta um polinômio através dos dados - digamos, como no exemplo abaixo, estamos ajustando uma linha reta no conjunto de amostras {tamanho do tumor, tipo de tumor} :
Acima, os tumores malignos obtêm e os não-malignos obtêm , e a linha verde é a nossa hipótese . Para fazer previsões, podemos dizer que, para qualquer tamanho de tumor , se for maior que , predizemos tumor maligno; caso contrário, predizemos benigno.10h(x)xh(x)0.5
Parece que dessa maneira poderíamos prever corretamente cada amostra de conjunto de treinamento, mas agora vamos mudar um pouco a tarefa.
Intuitivamente, está claro que todos os tumores maiores que um determinado limiar são malignos. Então, vamos adicionar outra amostra com um tamanho enorme de tumor e executar a regressão linear novamente:
Agora nosso não funciona mais. Para continuar fazendo previsões corretas, precisamos alterá-lo para ou algo assim - mas não é assim que o algoritmo deve funcionar.h(x)>0.5→malignanth(x)>0.2
Não podemos mudar a hipótese cada vez que uma nova amostra chega. Em vez disso, devemos aprender com os dados do conjunto de treinamento e, em seguida (usando a hipótese que aprendemos), fazer previsões corretas para os dados que não vimos antes.
Espero que isso explique por que a regressão linear não é a melhor opção para problemas de classificação! Além disso, você pode querer assistir ao VI. Regressão logística. Vídeo de classificação em ml-class.org, que explica a ideia em mais detalhes.
EDITAR
O probabilityislogic perguntou o que um bom classificador faria. Neste exemplo em particular, você provavelmente usaria regressão logística que pode aprender uma hipótese como esta (apenas estou inventando isso):
Observe que a regressão linear e a regressão logística fornecem uma linha reta (ou um polinômio de ordem superior), mas essas linhas têm um significado diferente:
- h(x) para a regressão linear interpola ou extrapola a saída e prevê o valor de que não vimos. É simplesmente como conectar um novo e obter um número bruto, e é mais adequado para tarefas como prever, por exemplo, preço do carro com base em {tamanho do carro, idade do carro} etc.xx
- h(x) para regressão logística indica a probabilidade de que pertence à classe "positiva". É por isso que é chamado algoritmo de regressão - estima uma quantidade contínua, a probabilidade. No entanto, se você definir um limite para a probabilidade, como , obterá um classificador e, em muitos casos, é isso que é feito com a saída de um modelo de regressão logística. Isso equivale a colocar uma linha no gráfico: todos os pontos acima da linha do classificador pertencem a uma classe, enquanto os pontos abaixo pertencem à outra classe.xh(x)>0.5
Portanto, a conclusão é que, no cenário de classificação, usamos um raciocínio completamente diferente e um algoritmo completamente diferente do que no cenário de regressão.