欧卡2中文社区

 找回密码
 立即注册

QQ登录

只需一步,快速开始

需要三步,才能开始

只需两步,慢速开始

玩欧卡就用莱仕达V99方向盘欧卡2入门方向盘选莱仕达V9莱仕达折叠便携游戏方向盘支架欢迎地图Mod入驻
查看: 8478|回复: 0
收起左侧

[系统维护] sed删除文本中所有汉字

[复制链接]
知行 发表于 2015-4-9 23:36 | 显示全部楼层 |阅读模式

今天有网友问我一个问题,问题是他要在一个脚本中删除所有的中文汉字。这个问题一下子使我有点犯难,在脚本中删除一两个汉字,那我是手到擒来,匹配所有汉字倒是第一次。于是净下来仔细想了一下,汉字在计算机系统里是按照一定的编码格式表示的,就是我们常说的如:GB2312、GB18030等,那么这个问题就应该好解决了,只要符合这个编码格式的就都是汉字了。于是上网搜索汉字的编码格式。得出一下结果:
    从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开, 所有汉字编码的每个字节的第一位都是1。例如:“啊”字的编码为0xB0A1。GB2312的汉字编码规则为:第一个字节的值在0xB0到0xF7之间, 第二个字节的值在0xA0到0xFE之间。GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不 变,另外增加更多的码位。其编码规则大致为:第一个字节的值在0x81到0xFE之间,第二个字节的值在0x40到0xFE之间。由于GB13000是对 GB2312的扩展,所以也被成为GBK。
    那剩下的问题就简单了,我用sed把符合这些编码格式的用空替代不就解决了吗。
sed的命令表达式如下:
#sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file
执行一下发现有问题,原来系统的编码设置问题,更新一下:
#LANG=C sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file
C代表英文环境 ASCII 编码格式,再次运行,一切OK。
呵呵,后来有查了一下网络关于这个的文章,发现已经有了,思路和我的一样。那个帖子地址如下:
http://bbs.chinaunix.net/viewthr ... p;extra=&page=1
高人们真是无处不在啊。

http://7056824.blog.51cto.com/69854/178940

联系我们|手机版|欧卡2中国 ( 湘ICP备11020288号-1 )

GMT+8, 2024-11-25 12:26 , Processed in 0.078441 second(s), 11 queries , Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.

快速回复 返回顶部 返回列表