Acho que você basicamente acertou a cabeça na pergunta, mas vou ver se consigo adicionar alguma coisa. Vou responder isso de uma maneira indireta ...
O campo Estatísticas robustas examina a questão do que fazer quando a suposição gaussiana falha (no sentido de que existem discrepâncias):
geralmente se assume que os erros de dados são normalmente distribuídos, pelo menos aproximadamente, ou que o teorema do limite central pode ser utilizado para produzir estimativas normalmente distribuídas. Infelizmente, quando existem dados discrepantes, os métodos clássicos geralmente apresentam desempenho muito ruim
Estes também foram aplicados no ML, por exemplo em Mika el al. (2001) Uma Abordagem de Programação Matemática para o Algoritmo de Fisher de Kernel , eles descrevem como a Perda Robusta de Huber pode ser usada com o KDFA (junto com outras funções de perda). Obviamente, isso é uma perda de classificação, mas o KFDA está intimamente relacionado à Relevance Vector Machine (consulte a seção 4 do documento Mika).
Como está implícito na pergunta, existe uma conexão estreita entre funções de perda e modelos de erro bayesiano (veja aqui para uma discussão).
No entanto, costuma acontecer que, assim que você começa a incorporar funções de perda "descoladas", a otimização se torna difícil (observe que isso também acontece no mundo bayesiano). Portanto, em muitos casos, as pessoas recorrem a funções de perda padrão fáceis de otimizar e, em vez disso, fazem pré-processamento extra para garantir que os dados estejam em conformidade com o modelo.
O outro ponto que você menciona é que o CLT se aplica apenas a amostras que são IID. Isso é verdade, mas as suposições (e as análises que acompanham) da maioria dos algoritmos são as mesmas. Quando você começa a analisar dados que não pertencem ao IDI, as coisas ficam muito mais complicadas. Um exemplo é se houver dependência temporal; nesse caso, normalmente a abordagem é assumir que a dependência abrange apenas uma determinada janela e, portanto, as amostras podem ser consideradas aproximadamente o IDI fora desta janela (veja, por exemplo, este brilhante e resistente PAC Chromatic de papel -Bayes Bounds para dados não-IID: aplicações para classificação e processos estacionários de β-mistura ), após o qual a análise normal pode ser aplicada.
Então, sim, isso se resume em parte à conveniência, e em parte porque, no mundo real, a maioria dos erros parece (aproximadamente) gaussiana. É claro que sempre se deve ter cuidado ao analisar um novo problema para garantir que as suposições não sejam violadas.