ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

pandas Series矢量化的字符串函数——Series.str

2022-08-12 13:04:22  阅读:416  来源: 互联网

标签:False Series 矢量化 特定 str 字符串 文本


在清理文本数据时,对pandas Series(序列)可以使用map函数,所有的字符串都可以应用字符串函数或正则表达式,但是如果存在NA,就会报错。为了解决这个问题,Series有一些可以跳过NA值的字符串操作方法,这可以通过Series的str属性来访问。

s1 = pd.Series(['Mouse', 'dog', 'house and parrot', '23', np.NaN])
s1.str.contains('og', regex=False)
0    False
1     True
2    False
3    False
4      NaN
dtype: object

通过str属性来调用字符串函数,处理非NA的文本数据。常用的字符串函数:

  • Series.str.contains:文本是否包含特定的字符串
  • Series.str.get:获得特定位置处的字符
  • Series.str.index:获得特定文本在原始文本中的位置即索引,索引从0开始。
  • Series.str.endswith:文本是否以特定文本结束
  • Series.str.startswith:文本是否以特定的文本开始
  • Series.str.find:从文本中查找特定的字符串
  • Series.str.replace:替换文本
  • Series.str.split:分割文本
  • Series.str.trip:移除文本开头和结尾的空白格
  • Series.str.slice:子字符串
  • Series.str.match:是否匹配特定的正则表达式

 

参考文档:

标签:False,Series,矢量化,特定,str,字符串,文本
来源: https://www.cnblogs.com/ljhdo/p/16579252.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有