Os arquivos do Excel podem ser convertidos para CSV usando:
$ libreoffice --convert-to csv --headless --outdir dir file.xlsx
Tudo parece funcionar muito bem. A codificação, no entanto, é definida como algo instável. Em vez de um mdash UTF-8 (-) que eu recebo se fizer um "salvar como" manualmente do LibreOffice Calc, ele me dará um \ 227 ( ). O uso do arquivo no CSV fornece "Texto ASCII estendido não ISO, com linhas muito longas". Então, duas perguntas:
- O que diabos está acontecendo aqui?
- Como eu digo ao libreoffice para converter para UTF-8?
O arquivo específico que estou tentando converter está aqui .