Note que estou fazendo tudo em R.
O problema é o seguinte:
Basicamente, eu tenho uma lista de currículos (CVs). Alguns candidatos terão experiência profissional antes e outros não. O objetivo aqui é: com base no texto em seus currículos, quero classificá-los em diferentes setores de trabalho. Sou particular naqueles casos em que os candidatos não têm nenhuma experiência / são estudantes e quero fazer uma previsão para classificar em quais setores de trabalho esse candidato provavelmente pertencerá após a graduação.
Pergunta 1: Conheço algoritmos de aprendizado de máquina. No entanto, eu nunca fiz PNL antes. Me deparei com a alocação de Dirichlet latente na internet. No entanto, não tenho certeza se essa é a melhor abordagem para resolver meu problema.
Minha idéia original: fazer disso um problema de aprendizado supervisionado . Suponha que já tenhamos uma grande quantidade de dados rotulados, o que significa que rotulamos corretamente os setores de trabalho para uma lista de candidatos. Nós treinamos o modelo usando algoritmos ML (ou seja, vizinho mais próximo ...) e alimentamos os dados não rotulados , que são candidatos que não têm experiência profissional / são estudantes, e tentamos prever a que setor de trabalho eles pertencerão.
Atualizar pergunta 2: seria uma boa idéia criar um arquivo de texto extraindo tudo em um currículo e imprimi-los no arquivo de texto, para que cada currículo seja associado a um arquivo de texto que contenha cadeias não estruturadas e, em seguida, aplicou técnicas de mineração de texto aos arquivos de texto e transformou os dados em estrutura ou até para criar uma matriz de frequência de termos usados nos arquivos de texto? Por exemplo, o arquivo de texto pode ser algo como isto:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Isto é o que eu quis dizer com 'não estruturado', ou seja, recolhendo tudo em uma única linha de string.
Esta abordagem está errada? Corrija-me se você acha que minha abordagem está errada.
Pergunta 3: A parte complicada é: como identificar e extrair as palavras-chave ? Usando o tm
pacote no R? em que algoritmo o tm
pacote se baseia? Devo usar algoritmos de PNL? Se sim, quais algoritmos devo analisar? Por favor, aponte-me para alguns bons recursos para analisar também.
Alguma idéia seria ótima.