Quais algoritmos de classificação tentar classificar dados de texto em 300 categorias

Eu tenho 40000 linhas de dados de texto do domínio da saúde. Os dados possuem uma coluna para texto (2 a 5 frases) e uma coluna para sua categoria. Eu quero classificar isso em 300 categorias. Algumas categorias são independentes, enquanto outras são um pouco relacionadas. A distribuição de dados entre categorias também não é uniforme, ou seja, algumas das categorias (cerca de 40 delas) têm menos dados sobre 2-3 linhas.

Estou anexando a probabilidade de log de cada classe / categorias. (OU distribuição de classes) aqui. Logaritmo de probabilidades anterior da classe (distribuição de dados da classe de log)

— Alok Nayak
fonte

Precisa de mais informação. Qual é a relação entre as categorias? As categorias são mutuamente exclusivas? Existe sobreposição categórica?

— Ryan J. Smith

Bem-vindo à ciência de dados! Atualmente, sua pergunta é de qualidade muito baixa. Você não pode esperar respostas de qualidade sem fazer perguntas bem descritas. Forneça mais informações (melhor descrição dos dados, do seu histórico, linguagens de programação, abordagens pesquisadas etc.).

— Wojciech Walczak

Em geral, um ponto de partida decente para problemas como esses é a classificação de Naive Bayes (NB) usando um modelo simples de saco de palavras. Aqui estão alguns slides que descrevem o NB aplicado ao processamento de linguagem natural . Não há nada de especial nessa abordagem, mas é muito fácil de implementar e dará a você um ponto de partida para expandir.

Depois de encontrar alguns resultados iniciais, assumindo independência entre seus recursos e seus rótulos de saída, você provavelmente terá uma noção melhor de onde o modelo é fraco. A partir desse ponto, você pode aplicar alguma engenharia de recursos (talvez TF-IDF ), bem como algum pós-processamento para lidar com amostras que são atribuídas a categorias relacionadas.

— Ryan J. Smith
fonte

Agradeço sua resposta e as referências aqui, mesmo que a pergunta seja vaga. É realmente útil para mim e, provavelmente, muito mais pessoas que estão apenas molhando os pés também. Obrigado! :)

— Brian Topping

Obrigado, comecei a trabalhar com bayes ingênuos e com a engenharia de recursos em geral. Alguma outra coisa além de bayes ingênuos que eu deveria tentar?

— Alok Nayak

Bem, você ainda não ofereceu muitos detalhes sobre os dados em si ou as especificidades do que fez, por isso é muito difícil fornecer sugestões específicas. O melhor que posso dizer é considerar a incorporação de alguma estrutura seqüencial em seu modelo e recursos através do uso de bigrams ou modelos markov / máquinas de estado finito.

— Ryan J. Smith