Se a estatística é sobre maximizar a probabilidade, o aprendizado de máquina é sobre como minimizar as perdas. Como você não sabe a perda em que incorrerá em dados futuros, você minimiza uma aproximação, ou seja, perda empírica.
Por exemplo, se você tiver uma tarefa de previsão e for avaliado pelo número de classificações incorretas, poderá treinar parâmetros para que o modelo resultante produz o menor número de classificações incorretas nos dados de treinamento. "Número de erros de classificação" (ou seja, perda de 0-1) é uma função de perda difícil de se trabalhar, porque não é diferenciável; portanto, você a aproxima com um "substituto" suave. Por exemplo, a perda de log é um limite superior à perda de 0-1; portanto, você pode minimizá-la, e isso será o mesmo que maximizar a probabilidade condicional dos dados. Com o modelo paramétrico, essa abordagem se torna equivalente à regressão logística.
Em uma tarefa de modelagem estruturada e na aproximação de perda de log de perda de 0-1, você obtém algo diferente da probabilidade condicional máxima; em vez disso, você maximiza o produto de probabilidades marginais (condicionais).
Para obter uma melhor aproximação da perda, as pessoas perceberam que o modelo de treinamento para minimizar a perda e usá-la como uma estimativa de perda futura é uma estimativa excessivamente otimista. Portanto, para uma minimização mais precisa (verdadeira perda futura), eles adicionam um termo de correção de viés à perda empírica e minimizam isso, conhecido como minimização de risco estruturada.
Na prática, descobrir o termo correto de correção de viés pode ser muito difícil, então você adiciona uma expressão "no espírito" do termo de correção de viés, por exemplo, soma dos quadrados dos parâmetros. No final, quase todas as abordagens de classificação supervisionada do aprendizado de máquina paramétrico acabam treinando o modelo para minimizar os seguintes
∑iL(m(xi,w),yi)+P(w)
onde é seu modelo parametrizado pelo vetor w , i é tomado sobre todos os pontos de dados { x i , y i } , L é uma aproximação computacionalmente agradável de sua perda real e P ( w ) é um termo de correção / regularização de polarizaçãomwi{xi,yi}LP(w)
Por exemplo, se seu , y ∈ { - 1 , 1 } , uma abordagem típica seria deixar m ( x ) = assinar ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , w )x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) e escolha q por validação cruzadaP(w)=q×(w⋅w)q