标签:web spacy zh core text en 使用 SpaCy 分词
一、安装SpaCy
pip install spacy
二、英文分词
1. 安装en
python -m spacy download en
2. 分词
import spacy
spacy_en = spacy.load("en_core_web_sm")
def tokenize_en(text):
return [tok.text for tok in spacy_en.tokenizer(text)]
print(tokenize_en("Hello, my name is tom."))
运行结果:
['Hello', ',', 'my', 'name', 'is', 'tom', '.']
三、中文分词
1. 安装zh_core_web_sm
python -m spacy download zh_core_web_sm
2. 分词
import spacy
spacy_zh = spacy.load("zh_core_web_sm")
def tokenize_zh(text):
return [tok.text for tok in spacy_zh.tokenizer(text)]
print(tokenize_zh("你好,我的名字叫汤姆"))
运行结果:
['你好', ',', '我', '的', '名字', '叫', '汤姆']
官网上提供有三个中文模型:
zh_core_web_sm
zh_core_web_md
zh_core_web_lg
安装方式:
python -m spacy download zh_core_web_sm
python -m spacy download zh_core_web_md
python -m spacy download zh_core_web_lg
相关文章:
spacy库中文模型的安装_Zhang_Pro的博客-程序员宅基地_spacy 中文模型
标签:web,spacy,zh,core,text,en,使用,SpaCy,分词 来源: https://blog.csdn.net/weixin_43826681/article/details/117191559
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。