Estou exportando o conteúdo do MS Word para texto sem formatação para uso com os utilitários de texto e arquivo. Eu tenho uma restrição em que a linha numeração recurso tenha sido habilitado no software MS, e qualquer referência a números de linha no resultado final deve corresponder à numeração. Então digite "linhas numeradas":
( Poe, EA )
Obviamente, para o Word , esse tipo de numeração não quebra linhas na nova linha , quebra "linhas" após a margem direita (ou algo assim). Um script como docx2txt
, não explica isso por padrão, parece e quebra linhas na nova linha. Portanto, se eu usar grep -n
a numeração, as linhas não corresponderão ao recurso de números de linha de origem, conforme ilustrado acima. Não está exatamente claro na documentação como eu precisaria editar o script Perl para converter os arquivos da maneira que preciso neste caso:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Eu tentei substituir \n
para \r\n
, mas isso não parece trabalhar para mim. Por isso, comecei a exportar os documentos diretamente do Word com as seguintes configurações (salve como texto simples , na v.2013,64pc):
- Unicode (UTF-8)
- Inserir quebras de linha + linhas finais com (CR / LF)
- Permitir substituição de caracteres
E agora, de fato, quando eu uso os .txt
arquivos, há uma combinação perfeita entre os números de linha no recurso de numeração de origem e a grep -n
saída.
- Existe alguma configuração / processo específico que eu deva conhecer
docx2txt
ou um utilitário de linha de comando semelhante que me permita converter meus arquivos .docx em texto sem formatação, preservando as quebras de linha, sem recorrer ao Word como eu fiz? - Quais são as práticas recomendadas , se houver, para exportar documentos do MS Word (que podem conter caracteres acentuados) para texto sem formatação para uso com utilitários de arquivo / texto, com relação a quebras de linha e formatação; e existem implicações negativas nas configurações que escolhi para exportar, ou seja, inserir CR / LF?
Amostra
Como sugerido, forneço uma amostra. Neste arquivo rar , agrupei um arquivo .docx com parágrafos simples e seu arquivo .txt exportado usando o Word com as opções acima mencionadas. O último pode ser comparado com uma execução padrão docx2txt
no arquivo de origem.