Preciso obter milhares de trechos de texto de PDFs para uma planilha. Eles são curtos, raramente têm mais de 2 a 3 linhas, mas cada quebra de linha cria uma nova célula, e eu preciso consertá-la manualmente, o que custa muito tempo.
Como eu tenho muitos deles, usar a solução alternativa "colar no Word e fazer uma busca e substituição" é uma perda de tempo demais para mim. Existe uma maneira de que a quebra de linha desapareça na cópia? Talvez haja um visualizador que ofereça um modo de cópia especial para isso, ou tenha um plugin?
Os documentos são artigos científicos. A disposição do texto é bastante linear. Você pode supor que o texto que estou copiando não esteja dentro de uma tabela ou em um flutuador e não seja girado ou algo assim. (Se isso acontecer, acho que vou lidar com isso manualmente). O texto é frequentemente definido em duas colunas, mas não tenho problemas para marcar apenas o texto necessário na sua coluna. Não preciso preservar nenhuma formatação especial. Estou disposto a tentar uma solução que remova todos os caracteres não imprimíveis, por exemplo. Os textos estão em inglês; tudo bem se a solução funcionar apenas em ASCII / retira todos os ASCII não alfanuméricos do texto copiado.
Tenho uma preferência muito forte por uma solução que funcione no Linux, possivelmente algum tipo de plugin Okular. Mas se houver uma solução apenas para Windows, também quero ouvir sobre isso. Eu tenho uma licença para um Acrobat Pro um tanto recente na máquina Windows.