Ultimamente, tenho visto que o scribd torna muito difícil para os usuários (usuários gratuitos) navegar por um documento hospedado em seu site. Não há capacidade de pesquisar em um documento, muito menos poder fazer o download do mesmo.
Usando javascript, eles carregam páginas sob demanda no navegador e, portanto, o recurso "salvar como" do navegador não ajuda muito.
Para minha surpresa, vi que mesmo copiar / colar cópias de texto rabiscava a área de transferência! Para verificar o que estava errado, desativei o javascript no navegador e carreguei o mesmo documento novamente. Voila, eu vi as bobagens. E assim, parece que o javascript do scribd decodifica de alguma forma o texto sem sentido e o exibe no navegador.
Agora, minha pergunta é: mesmo depois que o javascript está ativado, e o texto é renderizado corretamente no navegador, se eu for olhar os objetos DOM correspondentes ao texto que seleciono, ainda vejo o texto sem sentido.
Então, agora estou confuso. O texto é exibido corretamente para o usuário, mas os objetos DOM ainda contêm sem sentido. Portanto, a pergunta é: que tipo de código / código JavaScript está usando o site, para poder reter a tagarelice nos objetos DOM e ainda renderizar o texto decodificado?
Existe uma maneira de acessar o texto decodificado? Minha intenção não é fazer engenharia reversa do algoritmo para decodificar, mas localizar onde o texto decodificado está sendo armazenado?
O documento de exemplo é:
Veja o que acontece quando você liga / desliga o Javascript!