Eu tive perguntas semelhantes ao ler artigos de outros arquivos. E fez muitas perguntas relacionadas a isso, como esta na comunidade de Mineração de Dados Educacionais:
Por que usar perda quadrada em probabilidades em vez de perda logística?
Aqui apresentarei muitas opiniões pessoais.
Sinto que a função de perda não importa muito em muitos casos de uso prático. Algum pesquisador pode saber mais sobre a perda ao quadrado e construir um sistema, ainda funciona e resolve problemas do mundo real. Os pesquisadores podem nunca conhecer a perda logística ou a perda de dobradiça, e querem tentar. Além disso, eles podem não estar interessados em encontrar o modelo matemático ideal, mas querem resolver problemas reais que ninguém tentou resolver antes.
Este é outro exemplo: se você verificar esta resposta à minha pergunta, todas elas são semelhantes. Quais são os impactos da escolha de diferentes funções de perda na classificação para aproximar a perda de 0-1
Mais informações: uma pesquisa de aprendizado de máquina pode gastar muito tempo com o modelo escolhido e como otimizar o modelo. Isso ocorre porque um pesquisador de aprendizado de máquina pode não ter a capacidade de coletar mais dados / obter mais medidas. E o trabalho de um pesquisador de aprendizado de máquina está melhorando a matemática, não resolvendo melhor um problema específico do mundo real.
Por outro lado, no mundo real, se os dados são melhores, superam tudo. Portanto, escolher rede neural ou floresta aleatória pode não importar muito. Todos esses modelos são semelhantes aos de uma pessoa que deseja usar o aprendizado de máquina como uma ferramenta para resolver problemas do mundo real. Uma pessoa que não esteja interessada em desenvolver ferramentas ou matemática pode gastar mais tempo usando conhecimentos específicos de domínio para melhorar o sistema.
Como eu mencionei no comentário. E se alguém é desleixado com a matemática, ele / ela ainda será capaz de construir algo que funcione.