Não tenho certeza se esta pergunta é totalmente apropriada aqui; caso contrário, exclua.
Eu sou um estudante de graduação em economia. Para um projeto que investiga questões de seguros sociais, tenho acesso a um grande número de relatórios de casos administrativos (> 200k) que lidam com avaliações de elegibilidade. Esses relatórios podem estar vinculados a informações administrativas individuais. Desejo extrair informações desses relatórios que podem ser usadas na análise quantitativa e, idealmente, mais do que simples pesquisas por palavra-chave / regex usando grep
/ awk
etc.
Quão útil é o Processamento de linguagem natural para isso? Quais são outras abordagens úteis de mineração de texto? Pelo que entendi, esse campo é amplo e, provavelmente, alguns dos relatórios precisariam ser transformados para serem usados como corpus. Vale a pena investir algum tempo para se familiarizar com a literatura e os métodos? Pode ser útil e algo semelhante já foi feito antes? Vale a pena em termos de recompensas, ou seja, posso extrair informações potencialmente úteis usando a PNL para um estudo empírico em economia?
Possivelmente, há financiamento para contratar alguém para ler e preparar alguns dos relatórios. Este é um projeto maior e existe a possibilidade de solicitar mais financiamento. Posso fornecer mais detalhes sobre o tópico, se estritamente necessário. Uma complicação potencial é que o idioma é alemão, não inglês.
Em relação às qualificações, sou formado principalmente em econometria e tenho algum conhecimento sobre estatística computacional no nível de Hastie et al. livro. Conheço Python, R, Stata e provavelmente poderia me familiarizar com o Matlab rapidamente. Dadas as bibliotecas, presumo que o Python seja a ferramenta de escolha para isso. Não há treinamento algum em métodos qualitativos, se isso for relevante, mas conheço algumas pessoas que eu poderia alcançar.
Fico feliz por qualquer contribuição sobre isso, ou seja, se isso é potencialmente útil, em caso afirmativo, por onde começar a ler e em quais ferramentas focar em particular.