"Ver código-fonte" - equivalente para documentos do Word?


11

Às vezes, os documentos do Word parecem mais ou menos interrompidos, geralmente quando o layout se torna bastante complexo e o documento muda de mãos e / ou versões algumas vezes. Os sintomas podem ser que nada acontece ao pressionar as teclas Backspaceou Enterem um determinado local do documento onde ele realmente deve funcionar, ou que a formatação parece se aplicar e redefinir a si mesma mais ou menos aleatoriamente. Eu acho que todos nós estivemos lá.

Muitas vezes, pode ser muito difícil saber exatamente o que está errado, pois o que acontece sob o capô do Word é bastante opaco. Você pode ter um documento que parece vazio, mas, na realidade, o estado subjacente em relação à formatação etc pode ser bastante complexo.

Nesses casos, seria útil espiar o código fonte por trás do que é mostrado na página; como você em um navegador pode fazer o View Source e, idealmente, fazer edições diretamente no código fonte, como faria ao usar o Latex.Existe um comando ou utilitário do tipo View Source para documentos do Microsoft Word?

Meu palpite é que não existe esse comando, ou eu teria ouvido falar sobre isso. Se for esse o caso, alguém tem uma boa abordagem quando se trata de controlar a "formatação oculta" irritante em um documento do Word ?

Eu suspeito que possa haver algumas diferenças nos formatos .doc e .docx; Estou interessado nos dois casos.

Respostas:


11

Se a formatação é o que você mais se interessa, o Word tem uma boa aparência para inspecionar todos os tipos de formatação aplicados ao texto e aos objetos chamados Revelar Formatação . No Word 2007 e 2010, o atalho para este painel é Shift+ F1.

insira a descrição da imagem aqui

Caso contrário, se você estiver procurando uma compreensão ainda mais profunda do formato do documento, poderá ver o XML para arquivos DOCX.

  1. Encontre o seu documento DOCX em disco.
  2. Altere a extensão do documento de .docx para .zip.
  3. Clique duas vezes no arquivo e abra-o no gerenciador de archive padrão.
  4. Navegue até a pasta "Word" no programa zip e abra o Document.xml . Esse é o código por trás do que compõe a maior parte do conteúdo do documento, embora os outros arquivos também sejam usados ​​de outras maneiras, como para estilos ou informações de fonte.

Definitivamente, você precisará de um editor XML decente apenas para visualizar os dados e, mesmo assim, é bastante complexo e, para um documento grande, será muito, muito longo.

Quando se trata do DOC, não há uma maneira fácil de "visualizar a fonte", pois é um arquivo binário composto por fluxos separados e, portanto, não há uma maneira fácil de visualizar o conteúdo.


Isso é bastante útil, eu não sabia disso. Uma pena que você não possa fazer o mesmo com arquivos .doc, pois é isso que minha empresa ainda usa. Obrigado pela explicação!
9788 Godsmith

1
@ Godsmith Você pode salvar o DOC como DOCX usando uma versão mais recente do Word e depois voltar ao DOC depois de fazer as alterações. Há perda de formato nesse processo, portanto, tenha cuidado, mas você pode descobrir que pode fazer alterações ou corrigir problemas nos tipos de DOC, fazendo isso no DOCX.
ThisClark

você também pode salvar todos os arquivos diretamente como html no MS Word. Alternativamente, você pode salvar como RTF e abra o arquivo RTF como texto
phuclv

3

Eu acho que o formato .doc é muito difícil, então não posso ajudá-lo aqui. No entanto, .docx é realmente um arquivo zip com todos os detalhes armazenados nos arquivos XML. Assim, renomeie o arquivo para .zip e dê uma olhada na fonte!


0

Quando se trata de um formato binário como * .doc, as coisas são mais complicadas. Você pode usar o mso-dumper do LibreOffice . Apenas clone a solução na sua máquina local e execute

python doc-dump.py \path\to\file.doc >output.xml

Agora, todas as coisas no arquivo binário serão convertidas para xml no formato exato descrito em Formato de arquivo binário do Word (.doc)

Há também o WordFileDump, que é mais simples, mas não tão poderoso quanto o mso-dumper

Infelizmente, esses são apenas para analisar a estrutura e não há ferramenta para remontar a saída xml para um arquivo * .doc; portanto, depois de encontrar a causa raiz, você precisará usar o Word para editá-la. Portanto, seria mais fácil converter para * .docx, examine o arquivo * .docx e depois converta novamente para * .doc, se necessário

Ou você também pode salvar o arquivo como rtf, que é um arquivo de texto "legível por humanos" em vez do xml do office. Como alternativa, salve o arquivo do word como html

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.