Suponha que substituamos a função de perda da regressão logística (que normalmente é de probabilidade logarítmica) pelo MSE. Ou seja, ainda o log odds ratio seja uma função linear dos parâmetros, mas minimize a soma das diferenças quadráticas entre a probabilidade estimada e o resultado (codificado como 0/1):
e minimize vez de ∑ [ y i log p i + ( 1 - y i ) log ( 1 - p i ) ] .
Obviamente, entendo por que a probabilidade do log faz sentido sob algumas suposições. Mas no aprendizado de máquina, onde geralmente não são feitas suposições, qual é o motivo intuitivo pelo qual o MSE é completamente irracional? (Ou há situações em que o MSE pode fazer sentido?).