Eu tenho um documento de texto que tem uma carga de texto que tem um espaço extra adicionado após cada letra!
Exemplo:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
Visualmente:
T␣h␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ m␣p␣o␣r␣t␣a␣n␣t…
Observe que há um espaço extra após cada letra, portanto, há dois espaços entre palavras consecutivas.
Existe uma maneira de obter awk
ou sed
excluir os espaços extras? (Infelizmente, este documento de texto é enorme e levaria muito tempo para ser processado manualmente.)
Compreendo que esse seja provavelmente um problema muito mais complexo a ser resolvido com apenas um script bash simples, pois também precisa haver algum tipo de reconhecimento de texto.
Como posso abordar esse problema?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'