ICode9

精准搜索请尝试: 精确搜索
  • python – 如何在整个Penn Treebank语料库中训练NLTK?2019-08-31 22:06:19

    我最初使用NLTK的以下Penn Treebank标记: POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN')) 然而,这不符合口头文本.例如,“hello”在应该的时候不被认为是感叹词.我从这里(In NLTK pos_tag, why “hello” is classified as Noun?)读到,如果我

  • python – NLTK布朗语料库标签2019-08-30 11:56:48

    当我打印nltk.corpus.brown.tagged_words()时,它会输出大约1161192个带有单词及其相关标签的元组. 我想区分具有不同不同标签的不同字母.一个单词可以有多个标签. Append list items by number of hyphens available我用这个帖子尝试了每个代码但是我没有得到任何超过3个标签的单词

  • Python – 在数百个大型gzip压缩文件中搜索项目2019-07-10 02:58:35

    不幸的是,我正在处理一个非常大的语料库,它实际上已经传播到数百个.gz文件中 – 价值24千兆字节(打包). Python真的是我的母语(哈)但是我想知道我是否还没遇到过需要学习“更快”语言的问题? 每个.gz文件包含一个纯文本的单个文档,大约56MB gzip压缩,大约210MB解压缩. 每一行都是n-g

  • TF-IDF2019-07-08 20:42:14

           TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。        为什么要用TF-IDF?因为计算机只能识别数字,对于一个一个的单词,

  • python – 从NLTK的Penn Treebank Corpus样本创建字典?2019-07-02 19:56:00

    我知道Treebank语料库已被标记,但与布朗语料库不同,我无法弄清楚如何获取标签词典.例如, >>> from nltk.corpus import brown >>> wordcounts = nltk.ConditionalFreqDist(brown.tagged_words()) 这不适用于Treebank语料库?解决方法:快速解决方案 >>> from nltk.corpus import tr

  • python – 如何从Brown语料库中访问原始文档?2019-06-22 12:42:51

    对于所有其他NLTK语料库,调用corpus.raw()会从文件中生成原始文本. 例如: >>> from nltk.corpus import webtext >>> webtext.raw()[:10] 'Cookie Man' 但是,当调用brown.raw()时,您会获得标记文本. >>> from nltk.corpus import brown >>> brown.raw()[:10] 

  • 我应该使用哪个gensim语料库来加载LDA转换语料库? – Python2019-06-20 14:46:39

    如何从python的gensim加载LDA转换语料库?我尝试过的: from gensim import corpora, models import numpy.random numpy.random.seed(10) doc0 = [(0, 1), (1, 1)] doc1 = [(0,1)] doc2 = [(0, 1), (1, 1)] doc3 = [(0, 3), (1, 1)] corpus = [doc0,doc1,doc2,doc3] dictionary = c

  • 斐波那契数列——(逆推法)2019-05-28 11:49:59

    程序代码: #include<stdio.h> #define FETCH 1000 #define RATE 0.0171 int main() { double corpus[49]; int i; corpus[48]=(double)FETCH; for(i=47;i>0;i--) { corpus[i] = (corpus[i+1]+FETCH)/(1+RATE/12); printf("第%d月末本利合计:%.2f\n",i+1,co

  • LSI和LDA模型初试验2019-05-11 22:49:00

    从文本到向量 import csv # 出于试验目的,只读取前5条评论 with open('comments.csv', 'r', newline='') as f: comments_reader = csv.reader(f, dialect='excel') corpus = [comment[1] for comment in comments_reader][1:6] for i, commen

  • 初识gensim2019-04-19 13:51:15

    介绍 Gensim是一个用于从文档中自动提取语义主题的Python库,足够智能,堪比无 痛人流。Gensim可以处理原生,非结构化的数值化文本(纯文本)。Gensim里面的算法,比如Latent Semantic Analysis(潜在语义分析LSA),Latent Dirichlet Allocation,Random Projections,通过在语料库的训练下检验词

  • R语言实现 朴素贝叶斯算法2019-03-14 16:49:42

    library(NLP)library(tm)library(wordcloud)library(RColorBrewer)library(e1071)library(gmodels)setwd('C:/Users/E0399448/Desktop/机器学习')###spam 垃圾短信 ham非垃圾短信 ###数据地址:https://github.com/stedy/Machine-Learning-with-R-datasets/commit/72e6b6cc91bc2bb0

  • jieba gensim 相似度实现2019-03-10 10:39:59

    博客引自:https://www.cnblogs.com//DragonFire/p/9220523.html   简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话

  • 工具篇Flair之使用加载语料库教程2019-02-08 20:03:16

    更多实时更新的个人学习笔记分享,请关注: 知乎:https://www.zhihu.com/people/yuquanle/columns 微信订阅号:AI小白入门 ID: StudyForAI Flair工具使用教程之如何加载自己的语料库 本教程的展示了如何加载自己的语料库,以便训练自己的模型。 教程地址:https://github.com/zalan

  • Python下载PTB数据集的方法(附NLP常用数据集)2019-01-28 16:00:44

    ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集训练RNN神经网络作为语言预测,tensorflow对于ptb数据集的读取也定义了自己的函数库用于读取,在python 1.0定义了models文件用于导入ptb库函数,然而当python升级后,导入models文件时就会出现:ModuleNotFountError错误,这时需

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有