Análise automática de texto de citação em referências acadêmicas


18

Existe algum software (ou pseudocódigo) que possa digitalizar automaticamente um pedaço de texto (colado na ferramenta ou lido em .doc / .pdf) e identificar dados de citações usando formatos padrão? Os dados seriam divididos em seus campos constituintes e exportados em XML, CSV ou algum outro formato de dados estruturado. Eu olhei para o cb2Bib, mas ele só conseguiu extrair o ano das referências no estilo Harvard, o que é insuficiente.


Deseja digitalizar o próprio texto ou apenas a seção de referências?
InnaM 18/08/09

Apenas as referências - provavelmente seria um documento contendo publicações pessoais.
Alistair Bata

Não tenho certeza se é isso que você pode precisar, mas pode tentar este refhive.com
Mostafa Elmoghazi 03/04

Respostas:


4

Dê uma olhada nesta lista de analisadores de citações que podem gerar XML a partir do texto de entrada:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (no modo de manutenção em 1 de agosto de 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

Com o freecite, você pode usar um curlcomando para enviar citações da seguinte maneira (em PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

Outra opção é github.com/inspirehep/refextract . Não é baseado no ML, mas funcionou muito bem nos meus testes.
Josir 02/02

3

No momento (2017), o projeto de código aberto mais ativo que implementa isso parece ser Anystyle Parser (última versão 07-2016). Pode ser usado através de uma interface da web, API ou baixado como um RubyGem.

Eles mencionam explicitamente em seu site que a implementação é inspirada no ParsCit (última versão 2013?) E FreeCite (última confirmação 2009).

Forme também o site deles:

O AnyStyle Parser usa poderosas heurísticas de aprendizado de máquina baseadas em Campos Aleatórios Condicionais, que podem ser treinados por todos que usam nosso editor interno.

Esse é um recurso muito interessante, que torna essa a implementação mais interessante (imho). O treinamento parece ser bastante direto, conforme explicado na documentação da API . Você apenas fornece alguns resultados corrigidos manualmente e executa o Anystyle.parser.traincomando. Não sei se o ParsCit e o FreeCite também suportam isso, mas, se não, isso me parece uma grande diferença de recursos.


Com exceção do Anystyle Parser, todos são mencionados na resposta mais votada atualmente. O que realmente os faz se destacar? Quais seriam as vantagens ou desvantagens dada a pergunta original?
Seth

Ah, de fato. Vou editar e melhorar minha resposta. Thx por apontar isso.
Wouter

Parece que está morto agora.
expert

1
@Brandon: Eu publiquei um HOWTO aqui: github.com/inukshuk/wapiti-ruby/issues/3
Wouter:

1
Parece ótimo, obrigado! Como alguém que nunca tocou em rubi, será realmente muito útil.
Brandon

2

Experimente uma ferramenta como o Regex Buddy ou o Expresso .

Se você não é um programador, as Expressões regulares podem ser um pouco intimidantes, mas não são tão difíceis assim, especialmente com uma ferramenta decente como uma das opções acima.

Aqui está um exemplo de alguém que usa expressões regulares para extrair citações:

Expressão regular de análise de citações


1

Mendeley deve ser capaz de fazer isso. Ele pode importar PDFs e depois exportar os metadados para BibTeX, RIS e EndNote XML. É gratuito para download e é multiplataforma.

Edit: Eu testei isso em alguns documentos. A importação de PDF parece funcionar bem para referências formatadas corretamente. Para um documento que criei usando o LaTeX, todas as referências com o autor no formato "Smith, J." ou "J. Smith" etc. foram importados bem. Se o autor for uma empresa (uma única palavra) ou a referência estiver incompleta, isso também não funcionará. As referências extraídas podem ser facilmente editadas e exportadas para o BibTeX, etc.


2
"Esse recurso foi removido no Mendeley 0.9.7 porque estava consumindo uma quantidade razoável de recursos (lado do cliente e do servidor) sem fornecer valor suficiente. Planejamos reintroduzi-lo de uma forma melhorada no futuro." ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…
iceman

1

Eu já vi um programa Westlaw fazer isso para citações legais, mas provavelmente não é isso que você está procurando. O Reference Manager pode fazer algo assim para formatos acadêmicos, mas nunca o usei.



0

O Zotero é um plugin para o Firefox, que faz isso para o conteúdo da web. Não tenho certeza se existe uma ferramenta semelhante para documentos / pdfs


1
Sei que não é exatamente isso que o Zotero foi projetado para fazer, mas se você apontou o Firefox para um arquivo de texto ou html com os dados relevantes, o Zotero poderá reconhecer as referências e adicioná-lo à biblioteca do Zotero e exportar o arquivo biblioteca inteira no formato que você quiser (eu sei que o Zotero suporta vários formatos). Isso seria doloroso para um grande número de arquivos.
nedned

Não vejo como Zotero faz o que o OP pede. Eu instalei, mas parece não haver opção para analisar uma referência.
Rikki

Zotero analisa citações de sites especialmente codificados, não de texto comum.
Oct

0

Provavelmente isso pertence mais como um comentário ao @Abhinav, mas o zotero definitivamente apenas lida com dados estruturados, como você encontrará descrito aqui:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Um truque interessante pode ser tentar escrever um programa que use cada citação como uma consulta de pesquisa no seu banco de dados favorito e, em seguida, use algo como zotero para gerar as informações ref. Você também pode baixar informações estruturadas de serviços como citeUlike. Deixe-me saber se você acabar fazendo algo assim! (coloque no github se você precisar;).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.