it-swarm-pt.tech

Remover caracteres unicode de arquivos de texto - sed, outros métodos bash / Shell

Como removo caracteres unicode de vários arquivos de texto no terminal? Eu tentei isso, mas não funcionou:

sed 'g/\u'U+200E'//' -i *.txt

Preciso remover esses unicodes dos arquivos de texto

U+0091 - sort of weird "control" space
U+0092 - same sort of weird "control" space
A0 - non-space break
U+200E - left to right mark
41
alvas

Se você deseja remover SOMENTE caracteres específicos e possui python, pode:

CHARS=$(python -c 'print u"\u0091\u0092\u00a0\u200E".encode("utf8")')
sed 's/['"$CHARS"']//g' < /tmp/utf8_input.txt > /tmp/ascii_output.txt
42
Michał Šrajer

limpe todos os caracteres não-ascii de file.txt

$ iconv -c -f utf-8 -t ascii file.txt
$ strings file.txt
57
kev

Para codificação utf-8 do unicode, você pode usar esta expressão regular para sed:

sed 's/\xc2\x91\|\xc2\x92\|\xc2\xa0\|\xe2\x80\x8e//'
25
choroba

Use iconv:

iconv -f utf8 -t ascii//TRANSLIT < /tmp/utf8_input.txt > /tmp/ascii_output.txt

Isso traduzirá caracteres como "Š" para "S" (os mais parecidos).

12
Michał Šrajer

Converta Swift de utf-8 para ascii:

for file in *.Swift; do
    iconv -f utf-8 -t ascii "$file" > "$file".tmp
    mv -f "$file".tmp "$file"
done

A conclusão automática rápida não funciona no Xcode6-Beta

2
ma11hew28