Estou gastando algum tempo aprendendo aprendizado de máquina (desculpe a recursão :) e não pude deixar de ficar intrigado com a regra geral de escolher Gradient Descent em vez de resolver equações diretas para calcular coeficientes de regressão, no caso de regressão linear multivariada.
Regra prática: se o número de recursos (coeficientes de leitura / variáveis independentes) estiver entre ou acima de um milhão, vá com Gradient Descent, caso contrário, o cálculo inverso da matriz é razoavelmente gerenciável em hardware comum e, portanto, o cálculo direto dos coeficientes deve ter um desempenho suficiente. .
Em termos computacionais, eu recebo as compensações / limitações. Mas, do ponto de vista estatístico, calculamos realmente os modelos com tantos coeficientes de todos os tempos? Se eu me lembro das minhas aulas de regressão linear multivariada na escola, fomos advertidos contra o uso de muitas variáveis independentes, pois elas podem ter um impacto muito insignificante na variável dependente ou suas distribuições não obedeceriam às suposições que fazemos sobre os dados. Mesmo se eu expandisse minha mente para pensar em "muitos IVs", ainda não teria pensado em milhões .
Questões):
- Isso realmente acontece ou é uma questão teórica?
- Qual é o sentido de analisar um milhão de IVs? Isso realmente nos dá tanto aumento no valor das informações obtidas em vez de ignorá-las?
- Ou é porque, inicialmente, não temos idéia do que é útil, então executamos a maldita regressão para ver o que é útil e a partir daí e possivelmente podamos o conjunto de IVs?
Eu ainda acredito que apenas porque podemos analisar "tudo" não significa realmente que devemos jogá-lo em um solucionador (ou faz) e algumas das minhas perguntas anteriores refletem pontos de vista semelhantes.
Ainda estou para terminar o curso e posso estar fazendo a pergunta em breve, mas simplesmente não consigo tirar esse pensamento do "Porquê" da minha cabeça e estou tentando entendê-lo da melhor maneira possível.