随机森林

2020-04-04 23:04:40 阅读：198 来源： 互联网

随机森林 - RandomForestClassifier

　　在了解随机森林之前，得先了解一下：集成学习方法

集成学习是通过建立几个模型组合来解决单一问题的预测。
它的工作原理是生成多个分类器/模型 ， 各自独立的学习和作出预测。 这些预测最后结合成单一的预测，因此优于任何一个单一分类器作出的预测。

　　什么是随机森林？

定义：在机器学习中，随机森林是一个包含了多个决策树的分类器，并且输出的类别是由个别树输出的类别的众数而定的。
例：你训练了10棵树，其中8个结果为True，2个树的结果为False ， 那么最终结果会是True。

　　随机森林的创建过程

　　问题来了，为什么要随机抽样训练集？

　　　　如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也完全一样的。

　　为什么要有放回的抽样？

　　　　如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是有“偏移的”，都是“绝对的”，也就是说每棵树训练出来都是有很大差异的；而随机森林最后分类取决于多棵树(弱分类器)的投票决定的。