Como extrair informações específicas do texto usando o Machine Learning?

7

Suponha que eu tenha um texto como o abaixo, que geralmente tem 2/3 frases e 100-200 caracteres.

Johny comprou leite de 50 dólares do walmart. Agora ele deixou apenas 20 dólares.

Eu quero extrair

Nome da pessoa: Johny

Gasto: 50 dólares

Dinheiro restante: 20 dólares.

Passado para onde: Walmart.

Passei por muito material na rede neural recorrente. Assistiu ao vídeo cs231n na RNN e entendeu a próxima previsão de personagem. Nesses casos, definimos 26 caracteres que podemos usar como classes de saída para encontrar o próximo caractere usando probabilidade. Mas aqui o problema parece completamente diferente porque não conhecemos as classes de saída. A saída depende das palavras e números no texto, que podem ser qualquer palavra ou número aleatório.

Li no Quora que a rede neural convolucional também pode extrair recursos no texto. Querendo saber se isso também pode resolver esse problema específico?

— Tahlil
fonte

2

A Linguística Computacional é um campo extremamente intenso que não indica necessariamente o quanto alguém gastou. Em vez disso, faz coisas como encontrar assuntos, verbos, objetos indiretos, etc ... depende muito de uma base sólida na estrutura das frases e nos "tipos" de palavras. Pelo que li no campo, os modelos para lingüística computacional utilizam vários modelos ao mesmo tempo para atingir o tipo de objetivo que você procura.

— Ryan Honea

8

O problema que você coloca aqui é chamado de reconhecimento de entidade nomeada (NER) ou extração de entidade nomeada.

Existem várias tecnologias (redes neurais não necessárias) que podem ser usadas para esse problema, e algumas delas são bastante maduras. Veja, por exemplo, este repositório para obter uma solução fácil de conectar, ou tente aplicar a ne_chunk_sentsfunção do NLTKmódulo em Python.

— David Dale
fonte

1

Eu acho que você poderia analisar a análise de dependência . As suas tuplas de fato podem ser extraídas das arestas no gráfico de dependência.

PS1 Se você quiser fazer algo na PNL, verifique o cs224n e não o cs231n. Recordo também que o cs224 contém uma seção sobre DL para análise de dependência.

PS2 A árvore de dependência foi retirada do Stanford Neural Network Dependency Parser

— Jakub Bartczuk
fonte