标签:分类器 train 随机 test import 森林
随机森林 - RandomForestClassifier
在了解随机森林之前,得先了解一下:集成学习方法
集成学习是通过建立几个模型组合来解决单一问题的预测。 它的工作原理是生成多个分类器/模型 , 各自独立的学习和作出预测。 这些预测最后结合成单一的预测,因此优于任何一个单一分类器作出的预测。
什么是随机森林?
定义:在机器学习中,随机森林是一个包含了多个决策树的分类器,并且输出的类别是由个别树输出的类别的众数而定的。 例:你训练了10棵树,其中8个结果为True,2个树的结果为False , 那么最终结果会是True。
随机森林的创建过程
- 用N来表示训练样本的个数,M表示特征数目
- 一次随机选出一个样本,重复N次 # 使用后会放回,可能会出现重复#
- 随机选出m个特征, m<M ,建立决策树
- 采用有放回样本,也叫bootstrap抽样
问题来了,为什么要随机抽样训练集?
如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也完全一样的。
为什么要有放回的抽样?
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是有“偏移的”,都是“绝对的”,也就是说每棵树训练出来都是有很大差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票决定的。
随机森林API
标签:分类器,train,随机,test,import,森林 来源: https://www.cnblogs.com/luowei93/p/11964735.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。