Eu tenho 40000 linhas de dados de texto do domínio da saúde. Os dados possuem uma coluna para texto (2 a 5 frases) e uma coluna para sua categoria. Eu quero classificar isso em 300 categorias. Algumas categorias são independentes, enquanto outras são um pouco relacionadas. A distribuição de dados entre categorias também não é uniforme, ou seja, algumas das categorias (cerca de 40 delas) têm menos dados sobre 2-3 linhas.
Estou anexando a probabilidade de log de cada classe / categorias. (OU distribuição de classes) aqui.