Perguntas com a marcação «text-processing»

Manipulação ou análise de texto por programas, scripts, etc.

6
Filtrando utf8 inválido
Eu tenho um arquivo de texto em uma codificação desconhecida ou mista. Quero ver as linhas que contêm uma sequência de bytes que não é UTF-8 válida (canalizando o arquivo de texto em algum programa). Equivalentemente, quero filtrar as linhas que são válidas UTF-8. Em outras palavras, estou procurando .grep …

10
Como testar se um arquivo usa CRLF ou LF sem modificá-lo?
Preciso executar periodicamente um comando que garanta que alguns arquivos de texto sejam mantidos no modo Linux. Infelizmente, dos2unixsempre modifica o arquivo, o que atrapalha os carimbos de data e hora das pastas e arquivos e causa gravações desnecessárias. O script que escrevo está no Bash, então prefiro respostas baseadas …




8
Como converter TXT para PDF?
Eu quero converter .txtarquivos para .pdf. Estou usando isso: ls | while read ONELINE; do convert -density 400 "$ONELINE" "$(echo "$ONELINE" | sed 's/.txt/.pdf/g')"; done Mas isso produz um "erro" - se houver uma linha muito longa no arquivo de texto, ela não será quebrada. Entrada de texto PDF de …

5
Excluir última linha do arquivo
Eu uso sed para excluir rapidamente linhas com posição específica como sed '1d' sed '5d' Mas, e se eu quiser excluir a última linha do arquivo e não souber a contagem de linhas (eu sei que posso usar isso wce vários outros truques). Atualmente, usando uma solução alternativa com heade …

5
Substituir variáveis ​​de ambiente em um arquivo por seus valores reais?
Existe uma maneira fácil de substituir / avaliar variáveis ​​de ambiente em um arquivo? Como, digamos, eu tenho um arquivo config.xmlque contém: <property> <name>instanceId</name> <value>$INSTANCE_ID</value> </property> <property> <name>rootPath</name> <value>/services/$SERVICE_NAME</value> </property> ... etc Desejo substituir $INSTANCE_IDno arquivo o valor da INSTANCE_IDvariável de ambiente $SERVICE_NAMEpelo valor da SERVICE_NAMEvar env. Não vou saber …





4
Grep do final de um arquivo até o início
Eu tenho um arquivo com cerca de 30.000.000 linhas (Radius Accounting) e preciso encontrar a última correspondência de um determinado padrão. O comando: tac accounting.log | grep $pattern dá o que eu preciso, mas é muito lento porque o sistema operacional precisa primeiro ler o arquivo inteiro e depois enviar …


1
Como tornar tr ciente de caracteres não-ascii (unicode)?
Estou tentando remover alguns caracteres do arquivo (UTF-8). Estou usando trpara esse fim: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat O arquivo contém alguns caracteres estrangeiros (como "Латвийская" ou "àé"). trparece não entendê-los: trata-os como não-alfa e remove-os também. Tentei alterar algumas das minhas configurações de localidade: LC_CTYPE=C LC_COLLATE=C tr -cs …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.