标签:xa0 空格 u3000 nbsp https u00A0 u0020
我们在做爬虫的时候,经常回遇到一些特殊的空格形式,如果不对这些空格进行妥善的处理,很可能会污染我们的数据。
不同的空格种类
一般我们所认识的正常空格为 0x20
这种也就是我们直接在键盘上敲击的空格。但是还有很多其他的空格形式。
\t
:水平制表符\v
:垂直制表符\f
:换页符\xa0
:不间断空白符\u0020
:半角空格(英文符号),代码中常用的\u3000
:全角空格(中文符号),中文文章中使用\u00A0
:不间断空格,主要用在office中,让一个单词在结尾处不会换行显示
:HTML 中的空格表示形式
去掉空格的两种方法
使用正则表达式去掉空格
import re
re.sub(r'\s', '', msg)
借助 unicodedata 这个库,这个库里有一个 normalize 函数,可以将其他特殊的空格转换为标准的空格。
import unicodedata as ucd
ucd.normalize('NFKC', msg).replace(' ', '')
REFERENCE
[1] python剔除空格\u3000: https://zhuanlan.zhihu.com/p/348461462
[2] 三种空格unicode(\u00A0,\u0020,\u3000)表示的区别: https://www.jianshu.com/p/4317e3749a13
[3] 网页爬虫中\xa0、\u3000等字符的解释及去除: https://blog.csdn.net/pengjunlee/article/details/104674623/
标签:xa0,空格,u3000,nbsp,https,u00A0,u0020 来源: https://blog.csdn.net/crown_0726/article/details/120643827
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。