ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

从产品名称中 分离出产品类别 对长字符串的处理

2021-06-14 13:03:38  阅读:128  来源: 互联网

标签:jieba 提取 title 分类 产品名称 对长 字符串 产品类别 分词


下面一组数据在工作中很常见,数据清洗的 功能之一 就是将 复杂的长字符串 进行分离,提取有效信息。

 一、从title 中提取出 产品 主类别和次类别

 处理思路:

1.将title列,通过分词工具(jieba)将长字符串进行分离。jieba是普遍分词,对于专业领域,我们还有别的特殊分词工具

2.jieba.cut(str) 之后 用list()将结果包裹一下

3.百度一下 化妆品的常见分类,将其整理成{'品名':[一级分类,二级分类]}的字典格式备用

 

 4. 遍历表格subtitle的每一行,遍历subtitle中的每一个元素,如果元素是字典的key, 标记此行一级分类,二级分类到列表,如果元素不是字典的KEY,标记此行一级分类,二级分类为其它到列表。

 5. 将一级分类,二级分类列表作为表格的列 添加进表格。完成对长字符串 产品品类的提取

 

 二、从title中提取 产品试用性别(是否男性专用)

 

标签:jieba,提取,title,分类,产品名称,对长,字符串,产品类别,分词
来源: https://www.cnblogs.com/Teyisang/p/14882277.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有