Diferença entre regressão linear no aprendizado de máquina e no modelo estatístico

Eu entendi que a principal diferença entre aprendizado de máquina e modelo estatístico é que, mais tarde, "assume" certo tipo de distribuição de dados e com base nesse paradigma de modelo diferente, bem como nos resultados estatísticos que obtemos (por exemplo, valores p, estatísticas F , t-stat, etc.). Mas, no caso de aprendizado de máquina, não nos preocupamos com a distribuição de dados e estamos mais interessados em previsão.

Quando eu estava examinando o documento Mllib, descobri que, para regressão linear, estamos especificando uma distribuição. Mas o Mllib é um pacote de aprendizado de máquina. Então, eu tenho as seguintes perguntas:

1) O meu entendimento entre ML e método estatístico está errado?

2) O spark está usando modelagem estatística para regressão linear e GLMs?

Obrigado!

Nota: Há muitas publicações maravilhosas sobre a diferença entre o aprendizado de máquina e o método estatístico. Mas isso está mais relacionado ao MLLIB.

machine-learning spark-mllib

— Beta
fonte

Infelizmente, a dicotomia que você descreve é inválida. Os modelos ML (quase sempre) definem uma distribuição de resposta. Por exemplo, a biblioteca de máquinas de aumento de gradiente extremamente popular XGBoost define objetivos de aprendizagem específicos (por exemplo, linear, logístico, Poisson, Cox etc.).
A implementação de regressão linear e GLMs no MLlib do Spark é definitivamente baseada na teoria estatística padrão para modelos lineares. Por exemplo, citando diretamente pyspark/mllib/regression.pydos LinearRegressionWithSGDcomentários de: Train a linear regression model using Stochastic Gradient Descent (SGD). This solves the least squares regression formulation f(weights) = 1/(2n) ||A weights - y||^2 which is the mean squared error.ie, este é um algoritmo de regressão linear padrão para resposta gaussiana. A implementação de um algoritmo específico pode ser otimizada, de modo que funcione para grandes datasests (veja, por exemplo, este excelente tópico em " Por que usar descida gradiente para regressão linear, quando uma solução matemática em formato fechado está disponível? "), Mas a teoria por trás um algoritmo é exatamente o mesmo.

— usεr11852
fonte

Eu concordo com o usuário11852. Gostaria de acrescentar que também é necessária uma distribuição de respostas em uma abordagem de ML, porque, dependendo disso, você escolhe uma função de perda / custo.

— Fabiob # 29/18

Apenas curioso. Se os métodos de ML também seguem a distribuição, por que eles não fornecem valores de p, estatís de t, etc? Além do fato de os praticantes de ML estarem mais interessados em predizer do que em detalhar a significância estatística do modelo. Obrigado!

— Beta

@Beta: Praticamente você respondeu sua pergunta paralela. Os profissionais geralmente se concentram na previsão e não precisam / querem isolar o efeito de uma variável especial como um tratamento / intervenção. Também na maioria dos casos, o tamanho da amostra é considerado grande, de modo que (provavelmente de maneira equivocada) esperamos que tudo seja de (algum) significado real.

— usεr11852