Sou novato em aprendizado de máquina (também algumas estatísticas), aprendendo conhecimento (algoritmos de aprendizado supervisionado / não supervisionado, métodos de otimização relevantes, regularizações, algumas filosofias (como compensação de desvios de variação)?) Por um tempo. Eu sei que sem nenhuma prática real, eu não obteria uma compreensão profunda dessas coisas de aprendizado de máquina.
Então começo com algum problema de classificação com dados reais, digamos, classificação de dígitos manuscritos (MNIST). Para minha surpresa, sem nenhum aprendizado / engenharia de recursos , a precisão chega a 0,97 usando o classificador de floresta aleatória com valores de pixels brutos como entrada. Eu também tentei outros algoritmos de aprendizado, como SVM, LR, com parâmetros sendo ajustados.
Então me perdi, seria fácil demais ou estou perdendo alguma coisa aqui? Basta pegar um algoritmo de aprendizado no kit de ferramentas e ajustar alguns parâmetros?
Se isso fosse tudo sobre aprendizado de máquina na prática, eu estaria perdendo meu interesse nesse campo. Pensei e li alguns blogs por alguns dias e cheguei a algumas conclusões:
A parte mais importante do aprendizado de máquina na prática é a engenharia de recursos , ou seja, dados os dados, descobrimos uma melhor representação dos recursos.
Qual algoritmo de aprendizado a ser usado também é importante, também o ajuste de parâmetros, mas a escolha final é mais sobre experimentação.
Não sei se entendi direito, esperando que alguém possa me corrigir e me dar algumas sugestões sobre o aprendizado de máquina na prática.