A regressão linear é obsoleta? [fechadas]


12

Atualmente, estou em uma aula de regressão linear, mas não posso deixar de pensar que o que estou aprendendo não é mais relevante nas estatísticas modernas ou no aprendizado de máquina. Por que se gasta tanto tempo deduzindo-se na regressão linear simples ou múltipla quando tantos conjuntos de dados interessantes atualmente violam muitas das suposições irrealistas da regressão linear? Por que não ensinar inferência sobre ferramentas modernas e mais flexíveis, como regressão usando máquinas de vetores de suporte ou processo Gaussiano? Embora seja mais complicado do que encontrar um hiperplano em um espaço, isso não daria aos alunos uma experiência muito melhor para resolver os problemas modernos?


10
As chaves de fenda tornam os martelos obsoletos? Ou cada um executa uma tarefa diferente?
Sycorax diz Restabelecer Monica

6
Eu tenho uma ferramenta múltipla que funciona como uma faca, uma serra, duas chaves de fenda diferentes, um alicate e provavelmente algumas outras coisas, mas quando eu preciso de alguma dessas ferramentas, é a última coisa que eu procuraria. Só é útil em uma pitada, nunca é a "melhor ferramenta para o trabalho".
Darren

7
Muitas, muitas situações enfrentadas por pessoas reais envolvem conjuntos de dados muito pequenos com alto ruído; em muitos casos, modelos mais complexos não são viáveis, enquanto pelo menos uma boa fração do tempo um modelo linear simples é pelo menos sustentável. Embora grandes conjuntos de dados (e seus problemas associados) continuem a crescer como uma proporção da análise total de dados em andamento, conjuntos de dados muito pequenos e as análises relativamente simples nas quais eles se baseiam nunca desaparecem. Além disso, as ferramentas mais sofisticadas são criadas diretamente sobre as mais simples, não apenas histórica, mas conceitualmente.
Glen_b -Reinstate Monica

6
Além das muitas situações em que a regressão linear é de uso prático contínuo, também é importante ressaltar que é fundamental o aprendizado de uma ampla classe de modelos aditivos mais sofisticados. A esse respeito, essa pergunta é como perguntar se o cálculo torna a aritmética obsoleta.
Jacob Socolar 27/09/17

1
@ Aksakal Por favor, elabore. E o uso na otimização bayesiana?
Mark L. Stone

Respostas:


24

É verdade que as suposições da regressão linear não são realistas. No entanto, isso é verdade para todos os modelos estatísticos. "Todos os modelos estão errados, mas alguns são úteis."

Eu acho que você tem a impressão de que não há razão para usar a regressão linear quando você pode usar um modelo mais complexo. Isso não é verdade, porque, em geral, modelos mais complexos são mais vulneráveis ​​à adaptação excessiva e usam mais recursos computacionais, o que é importante se, por exemplo, você estiver tentando fazer estatísticas em um processador incorporado ou em um servidor da web. Modelos mais simples também são mais fáceis de entender e interpretar; por outro lado, modelos complexos de aprendizado de máquina, como redes neurais, tendem a acabar como caixas-pretas, mais ou menos.

Mesmo que a regressão linear um dia se torne praticamente útil (o que parece extremamente improvável no futuro próximo), ela ainda será teoricamente importante, porque modelos mais complexos tendem a se basear na regressão linear. Por exemplo, para entender uma regressão logística regular de efeitos mistos, você precisa entender primeiro a regressão linear simples e antiga.

Isso não quer dizer que modelos mais complexos, mais novos e mais brilhantes não sejam úteis ou importantes. Muitos deles são. Mas os modelos mais simples são mais amplamente aplicáveis ​​e, portanto, mais importantes, e claramente fazem sentido apresentar primeiro se você vai apresentar uma variedade de modelos. Atualmente, existem muitas análises de dados ruins conduzidas por pessoas que se autodenominam "cientistas de dados" ou algo assim, mas nem mesmo sabem o que é fundamental, como o que realmente é um intervalo de confiança. Não seja uma estatística!


Você pode esclarecer o que você quer dizer com "modelo complexo"? OP significa a mesma coisa?
26617 Hatshepsut

1
@Hatshepsut Praticamente qualquer coisa que não seja apenas regressão linear ou um caso especial dela. O OP deu exemplos de modelos de processo SVMs e Gaussiano. Mencionei modelos mistos, regressão logística e regressão penalizada. Alguns outros exemplos são árvores de decisão, redes neurais, MARS, modelos hierárquicos bayesianos e modelos de equações estruturais. Se você está perguntando como decidimos se um modelo é mais complexo que outro, ou o que exatamente conta como modelo, essas são perguntas cruzadas validadas.
Kodiologist

"Sobreajuste"; como usar um polinômio de nona ordem para ajustar algo que acabou sendo uma soma ponderada de exponenciais. Foi tão bom que o gráfico reproduziu os erros do instrumento logo acima do nível de ruído. Ainda me pergunto se realmente o uso desse polinômio teria funcionado melhor.
Joshua

7

A regressão linear em geral não é obsoleta . Ainda existem pessoas trabalhando em pesquisas sobre métodos relacionados ao LASSO e como eles se relacionam a vários testes, por exemplo - você pode pesquisar no Google Emmanuel Candes e Malgorzata Bogdan.

Se você está perguntando sobre o algoritmo OLS em particular, a resposta por que eles ensinam isso é que o método é tão simples que possui uma solução de formulário fechado. Também é mais simples que a regressão de cume ou a versão com laço / rede elástica. Você pode construir sua intuição / provas na solução para regressão linear simples e depois enriquecer o modelo com restrições adicionais.


3

Não acho que a regressão seja antiga, pode ser considerada trivial para alguns problemas atualmente enfrentados pelos cientistas de dados, mas ainda é o ABC da análise estatística. Como você deve entender se o SVM está funcionando corretamente, se você não sabe como o modelo mais simples está funcionando? O uso de uma ferramenta tão simples ensina a analisar os dados antes de entrar em modelos complexos e malucos e entender profundamente quais ferramentas podem ser usadas em análises adicionais e quais não podem. Depois de conversar com um professor e um colega meu, ela me disse que seus alunos eram ótimos em aplicar modelos complexos, mas não conseguiam entender o que era alavancagem ou ler um qq-plot simples para entender o que havia de errado com os dados. Muitas vezes, no modelo mais simples e legível, destaca-se a beleza.


3

A resposta curta é não . Por exemplo, se você tentar o modelo linear com dados MNIST, ainda terá ~ 90% da precisão!

Uma resposta longa seria "dependendo do domínio", mas o modelo linear é amplamente usado.

  • Em certos campos, digamos, em estudos médicos, é muito caro obter um ponto de dados. E o trabalho de análise ainda é semelhante a muitos anos atrás: a regressão linear ainda desempenha um papel muito importante.

  • No aprendizado de máquina de morden, digamos, na classificação de texto, o modelo linear ainda é muito importante, embora existam outros modelos mais sofisticados. Isso ocorre porque o modelo linear é muito "estável" e terá menos como ajustar demais os dados.

Finalmente, o modelo linear é realmente o alicerce da maioria dos outros modelos. Aprender bem beneficiará você no futuro.


2

Em termos práticos, a regressão linear é útil mesmo se você também estiver usando um modelo mais complexo para o seu trabalho. A chave é que a regressão linear é fácil de entender e, portanto, fácil de usar para entender conceitualmente o que está acontecendo em modelos mais complexos.

Posso oferecer um exemplo prático de aplicação do meu trabalho real ao vivo como analista estatístico. Se você se encontra em estado selvagem, sem supervisão, com um grande conjunto de dados, e seu chefe pede que você faça algumas análises, por onde começar? Bem, se você não está familiarizado com o conjunto de dados e não tem uma boa idéia de como os vários recursos devem se relacionar, um modelo complexo como os que você sugeriu é um mau lugar para começar a investigar.

Em vez disso, o melhor lugar para começar é a simples regressão linear antiga. Faça uma análise de regressão, observe os coeficientes e faça um gráfico dos resíduos. Depois de começar a ver o que está acontecendo com os dados, você pode tomar algumas decisões sobre quais métodos avançados você tentará aplicar.

Afirmo que, se você acabou de conectar seus dados a uma caixa preta de modelo avançado como sklearn.svm (se você usa o Python), terá uma confiança muito baixa de que seus resultados serão significativos.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.