Atualmente, estou usando a Beautiful Soup para analisar um arquivo HTML e chamar get_text()
, mas parece que estou ficando com muitos \ xa0 Unicode representando espaços. Existe uma maneira eficiente de remover todos eles no Python 2.7 e transformá-los em espaços? Eu acho que a pergunta mais generalizada seria, existe uma maneira de remover a formatação Unicode?
Eu tentei usar line = line.replace(u'\xa0',' ')
:, como sugerido por outro thread, mas isso mudou os \ xa0 para u, então agora tenho "u" em todo lugar. ):
EDIT: O problema parece ter sido resolvido str.replace(u'\xa0', ' ').encode('utf-8')
, mas apenas ficar .encode('utf-8')
sem replace()
parece causar caracteres ainda mais estranhos, \ xc2 por exemplo. Alguém pode explicar isso?
u''
s em vez de ''
s. :-)
u' '
substituição, não a ' '
. A cadeia original é a unicode?