Eu tenho um curso de Aprendizado de Máquina neste semestre e o professor nos pediu para encontrar um problema do mundo real e resolvê-lo por um dos métodos de aprendizado de máquina introduzidos na classe, como:
- Árvores de decisão
- Redes neurais artificiais
- Máquinas de vetores de suporte
- Aprendizagem baseada em instâncias ( kNN , LWL )
- Redes Bayesianas
- Aprendizagem por reforço
Sou um dos fãs de stackoverflow e stackexchange e sei que os dumps de bancos de dados desses sites são fornecidos ao público porque são incríveis! Espero encontrar um bom desafio de aprendizado de máquina sobre esses bancos de dados e resolvê-lo.
Minha ideia
Uma ideia surgiu: prever tags para perguntas com base nas palavras inseridas no corpo da pergunta. Eu acho que a rede bayesiana é a ferramenta certa para aprender tags para uma pergunta, mas precisa de mais pesquisas. De qualquer forma, após a fase de aprendizado, quando o usuário terminar de inserir a pergunta, algumas tags deverão ser sugeridas a ele.
Por favor me diga :
Quero perguntar à comunidade de estatísticas como pessoas experientes sobre o ML duas perguntas:
Você acha que a sugestão de tags é pelo menos um problema com alguma chance de solução? Você tem algum conselho sobre isso? Estou um pouco preocupado porque o stackexchange ainda não implementa esse recurso.
Você tem alguma outra / melhor ideia para o projeto ML que se baseia no banco de dados stackexchange? Acho realmente difícil encontrar algo para aprender com os bancos de dados stackexchange.
Consideração sobre erros de banco de dados: gostaria de salientar que, embora os bancos de dados sejam enormes e tenham muitas instâncias, eles não são perfeitos e estão sujeitos a erros. O óbvio é a idade dos usuários que não é confiável. Mesmo as tags selecionadas para a pergunta não estão 100% corretas. De qualquer forma, devemos considerar a porcentagem de correção de dados na seleção de um problema.
Consideração sobre o problema em si: Meu projeto não deve ser sobre data-mining
ou algo assim. Deve ser apenas uma aplicação dos métodos de ML no mundo real.