Estou planejando usar o classificador SVM (scikit linear support vector machine) para classificação de texto em um corpus composto por 1 milhão de documentos rotulados. O que pretendo fazer é que, quando um usuário digitar alguma palavra-chave, o classificador primeiro a classifique em uma categoria e, em seguida, uma consulta subsequente de recuperação de informações ocorrerá nos documentos dessa categoria. Eu tenho algumas perguntas:
- Como confirmo que a classificação não levará muito tempo? Não quero que os usuários gastem tempo aguardando o término de uma classificação para obter melhores resultados.
- O uso da biblioteca scikit do Python para sites / aplicativos da web é adequado para isso?
- Alguém sabe como a amazon ou o flipkart realizam a classificação nas consultas dos usuários ou usam uma lógica completamente diferente?