Vladimir Vapnik (co-inventor da Support Vector Machine e principal teórico da aprendizagem computacional) defende sempre a tentativa de resolver o problema diretamente, em vez de resolver um problema mais geral e depois descartar algumas das informações fornecidas pela solução. Eu geralmente estou de acordo com isso, então eu sugeriria uma abordagem de classificação para o problema como atualmente. A razão para isso é que, se estamos interessados apenas em classificar um projeto como lucrativo ou não, então estamos realmente interessados apenas na região onde a lucratividade é em torno de zero. Se formarmos um modelo de classificação, é aí que concentraremos nossos recursos de modelagem. Se adotarmos uma abordagem de regressão, podemos estar desperdiçando recursos de modelagem para fazer pequenas melhorias no desempenho de projetos que serão muito lucrativos ou não rentáveis, potencialmente à custa de melhorar o desempenho de projetos limítrofes.
Agora, a razão pela qual eu disse "como está atualmente" é que muito poucos problemas realmente envolvem classificação binária simples e difícil (o reconhecimento óptico de caracteres provavelmente seria um). Geralmente, tipos diferentes de classificação incorreta têm custos diferentes, ou as frequências da classe operacional podem ser desconhecidas ou variáveis etc. Nesses casos, é melhor ter um classificador probabilístico, como regressão logística, em vez de um SVM. Parece-me que, para uma aplicação financeira, faremos melhor se soubermos a probabilidade de o projeto ser lucrativo e quão lucrativo ou não é provável. Podemos estar dispostos a financiar um projeto com poucas chances de ser lucrativo, mas extremamente lucrativo, caso seja bem-sucedido, mas não um projeto quase garantido para ser bem-sucedido, mas que tenha uma margem de lucro tão pequena que seríamos melhor apenas colocar o dinheiro em uma conta poupança.
Então, Frank e Omri374 estão certos! (+1; o)
EDIT: Para esclarecer por que a regressão nem sempre pode ser uma boa abordagem para resolver um problema de classificação, aqui está um exemplo. Digamos que temos três projetos, com lucratividade e, para cada projeto, temos uma variável explicativa que esperamos ser indicativa de lucratividade, . Se uma abordagem de regressão (com deslocamento), obtemos coeficientes de regressão e (desde que eu tenha feito as somas corretamente!). O modelo prevê os projetos como gerando lucros , e → x =(1,2,10)p0=-800,8288β1=184,8836 y 1≈-$616 y 2≈-$ 431 y 3≈$1048 → t =2y⃗ = ( - $ 1000 , + $ 1 , + $ 1000 )x⃗ = ( 1 , 2 , 10 )β0 0= - 800,8288β1= 184,8836y^1≈ - $ 616y^2≈ - $ 431y^3≈ $ 1048. Observe que o segundo projeto está incorretamente previsto como não lucrativo. Se, por outro lado, temos uma abordagem de classificação e regressão em vez de , temos de regressão coeficientes e , que pontua os três projetos da seguinte maneira: , e . Portanto, uma abordagem de classificação classifica corretamente o projeto 1 como não lucrativo e os outros dois como lucrativos.β 0 = - 0,2603 β 1 = 0,1370 t 1 = - 0,1233 t 2 = 0,0137 t 3 = 1,1096t⃗ = 2 ∗ ( y> = 0 ) - 1β0 0= - 0,2603β1= 0,1370t^1= - 0,1233t^2= 0,0137t^3= 1,1096
A razão pela qual isso acontece é que uma abordagem de regressão tenta igualmente difícil minimizar a soma dos erros ao quadrado para cada um dos pontos de dados. Nesse caso, um SSE mais baixo é obtido permitindo que o projeto dois caia no lado incorreto do limite de decisão, a fim de obter erros mais baixos nos outros dois pontos.
Portanto, Frank está correto ao dizer que uma abordagem de regressão provavelmente é uma boa abordagem na prática, mas se a classificação é realmente o objetivo final, há situações em que ela pode ter um desempenho ruim e uma abordagem de classificação terá um desempenho melhor.