Atualmente, estou usando a Beautiful Soup para analisar um arquivo HTML e chamar get_text(), mas parece que estou ficando com muitos \ xa0 Unicode representando espaços. Existe uma maneira eficiente de remover todos eles no Python 2.7 e transformá-los em espaços? Eu acho que a pergunta mais generalizada seria, existe uma maneira de remover a formatação Unicode?
Eu tentei usar line = line.replace(u'\xa0',' '):, como sugerido por outro thread, mas isso mudou os \ xa0 para u, então agora tenho "u" em todo lugar. ):
EDIT: O problema parece ter sido resolvido str.replace(u'\xa0', ' ').encode('utf-8'), mas apenas ficar .encode('utf-8')sem replace()parece causar caracteres ainda mais estranhos, \ xc2 por exemplo. Alguém pode explicar isso?
u''s em vez de ''s. :-)
u' 'substituição, não a ' '. A cadeia original é a unicode?