Corpus

python – 如何在整个Penn Treebank语料库中训练NLTK？2019-08-31 22:06:19

我最初使用NLTK的以下Penn Treebank标记： POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN')) 然而,这不符合口头文本.例如,“hello”在应该的时候不被认为是感叹词.我从这里(In NLTK pos_tag, why “hello” is classified as Noun?)读到,如果我
python – NLTK布朗语料库标签2019-08-30 11:56:48

当我打印nltk.corpus.brown.tagged_words()时,它会输出大约1161192个带有单词及其相关标签的元组. 我想区分具有不同不同标签的不同字母.一个单词可以有多个标签. Append list items by number of hyphens available我用这个帖子尝试了每个代码但是我没有得到任何超过3个标签的单词
Python – 在数百个大型gzip压缩文件中搜索项目2019-07-10 02:58:35

不幸的是,我正在处理一个非常大的语料库,它实际上已经传播到数百个.gz文件中 – 价值24千兆字节(打包). Python真的是我的母语(哈)但是我想知道我是否还没遇到过需要学习“更快”语言的问题？每个.gz文件包含一个纯文本的单个文档,大约56MB gzip压缩,大约210MB解压缩. 每一行都是n-g
TF-IDF2019-07-08 20:42:14

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。为什么要用TF-IDF？因为计算机只能识别数字，对于一个一个的单词，
python – 从NLTK的Penn Treebank Corpus样本创建字典？2019-07-02 19:56:00

我知道Treebank语料库已被标记,但与布朗语料库不同,我无法弄清楚如何获取标签词典.例如, >>> from nltk.corpus import brown >>> wordcounts = nltk.ConditionalFreqDist(brown.tagged_words()) 这不适用于Treebank语料库？解决方法:快速解决方案 >>> from nltk.corpus import tr
python – 如何从Brown语料库中访问原始文档？2019-06-22 12:42:51

对于所有其他NLTK语料库,调用corpus.raw()会从文件中生成原始文本. 例如： >>> from nltk.corpus import webtext >>> webtext.raw()[:10] 'Cookie Man' 但是,当调用brown.raw()时,您会获得标记文本. >>> from nltk.corpus import brown >>> brown.raw()[:10]
我应该使用哪个gensim语料库来加载LDA转换语料库？ – Python2019-06-20 14:46:39

如何从python的gensim加载LDA转换语料库？我尝试过的： from gensim import corpora, models import numpy.random numpy.random.seed(10) doc0 = [(0, 1), (1, 1)] doc1 = [(0,1)] doc2 = [(0, 1), (1, 1)] doc3 = [(0, 3), (1, 1)] corpus = [doc0,doc1,doc2,doc3] dictionary = c
斐波那契数列——（逆推法）2019-05-28 11:49:59

程序代码： #include<stdio.h> #define FETCH 1000 #define RATE 0.0171 int main() { double corpus[49]; int i; corpus[48]=(double)FETCH; for(i=47;i>0;i--) { corpus[i] = (corpus[i+1]+FETCH)/(1+RATE/12); printf("第%d月末本利合计：%.2f\n",i+1,co
LSI和LDA模型初试验2019-05-11 22:49:00

从文本到向量 import csv # 出于试验目的，只读取前5条评论 with open('comments.csv', 'r', newline='') as f: comments_reader = csv.reader(f, dialect='excel') corpus = [comment[1] for comment in comments_reader][1:6] for i, commen
初识gensim2019-04-19 13:51:15

介绍 Gensim是一个用于从文档中自动提取语义主题的Python库，足够智能，堪比无痛人流。Gensim可以处理原生，非结构化的数值化文本(纯文本)。Gensim里面的算法，比如Latent Semantic Analysis(潜在语义分析LSA)，Latent Dirichlet Allocation，Random Projections，通过在语料库的训练下检验词
R语言实现朴素贝叶斯算法2019-03-14 16:49:42

library(NLP)library(tm)library(wordcloud)library(RColorBrewer)library(e1071)library(gmodels)setwd('C:/Users/E0399448/Desktop/机器学习')###spam 垃圾短信 ham非垃圾短信 ###数据地址：https://github.com/stedy/Machine-Learning-with-R-datasets/commit/72e6b6cc91bc2bb0
jieba gensim 相似度实现2019-03-10 10:39:59

博客引自：https://www.cnblogs.com//DragonFire/p/9220523.html 简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是让计算机明白一句话
工具篇Flair之使用加载语料库教程2019-02-08 20:03:16

更多实时更新的个人学习笔记分享，请关注：知乎：https://www.zhihu.com/people/yuquanle/columns 微信订阅号：AI小白入门 ID: StudyForAI Flair工具使用教程之如何加载自己的语料库本教程的展示了如何加载自己的语料库，以便训练自己的模型。教程地址：https://github.com/zalan
Python下载PTB数据集的方法（附NLP常用数据集）2019-01-28 16:00:44

ptb数据集是语言模型学习中应用最广泛的数据集，常用该数据集训练RNN神经网络作为语言预测，tensorflow对于ptb数据集的读取也定义了自己的函数库用于读取，在python 1.0定义了models文件用于导入ptb库函数，然而当python升级后，导入models文件时就会出现：ModuleNotFountError错误，这时需

首页 < 1 2

ICode9

python – 如何在整个Penn Treebank语料库中训练NLTK？2019-08-31 22:06:19

python – NLTK布朗语料库标签2019-08-30 11:56:48

Python – 在数百个大型gzip压缩文件中搜索项目2019-07-10 02:58:35

TF-IDF2019-07-08 20:42:14

python – 从NLTK的Penn Treebank Corpus样本创建字典？2019-07-02 19:56:00

python – 如何从Brown语料库中访问原始文档？2019-06-22 12:42:51

我应该使用哪个gensim语料库来加载LDA转换语料库？ – Python2019-06-20 14:46:39

斐波那契数列——（逆推法）2019-05-28 11:49:59

LSI和LDA模型初试验2019-05-11 22:49:00

初识gensim2019-04-19 13:51:15

R语言实现 朴素贝叶斯算法2019-03-14 16:49:42

jieba gensim 相似度实现2019-03-10 10:39:59

工具篇Flair之使用加载语料库教程2019-02-08 20:03:16

Python下载PTB数据集的方法（附NLP常用数据集）2019-01-28 16:00:44

R语言实现朴素贝叶斯算法2019-03-14 16:49:42