首页 > 其他分享> 文章详细

关于随机森林进行多分类的一个思考

2020-11-18 12:32:24 阅读：1147 来源： 互联网

标签：采样样本分类随机思考决策树森林

机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别输出的类别的众树而定，它有着许多的有点，能很好地处理多分类问题。

基本算法

原始训练集为N，应用bootstrap法有放回的随机抽取k个新的自助样本集，并由构建k棵决策树。每次未被抽到的样本组成了k个袋外数据；
设有M个变量，在每一棵树的每个节点处随机抽取m(m<M)个变量，从m中选择一个最具有分辨能力的变量，变量的阈值通过检查每一个分类点确定。
每棵树最大限度的生长，不做任何修剪（普通的决策树算法需要剪枝）。
将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行判断与分类，其分类结果按决策树分类器的投票决定。

优点

对于很多种资料，它可以产生高准确度的分类器。
它可以处理大量的输入变量。
可以在决定类别时，评估变量的重要性。
它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
它提供一个实验方法，可以去侦测variable interactions。
对于不平衡的分类资料集来说，它可以平衡误差。
它计算各例中的近亲度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
它可以延伸应用在未标记的资料上，即使用非监督式聚类方法。也可以侦测偏离者和观看资料。
学习过程速度很快。
能够处理很高维度的数据，并且不用做特征选择。
创建随机森林的时候，对generlization error使用的是无偏估计。
容易扩展到并行方法

缺点

在某些噪音较大的分类或回归问题上会过拟合
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，也就是说随机森林在这种数据上产生的属性权值是不可信的。

简要描述

随机森林，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵之间是没有关联的，在得到森林之后，当有一个新的输入样本进入的时候，让森林中的每一棵决策树分别进行判断，对其进行分类，最后预测为被选择的最多的那一类。
建立决策树的过程中，需要注意两点：采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据进行行列的采样；这里的采样，可能存在重复的样本。假设有N个样本，那么采样的样本也为N个，在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。然后进行列采样，从M个feature中选择m（m<M）个,之后就是对采样后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面所有的样本都指向同一个分类。一般很多的决策树算法都有一个很重要的步骤-剪枝，这里不需要这样做，因为之前的两个随机采样的过程保证了随机性，就算不减枝，也不会出现over-fitting。

需要注意的是： 每一棵决策树相对是较弱的，但是将多棵决策树结合起来就十分强大。可以这样比喻随机森林算法：每一棵决策树就是一个精通某一个窄领域的专家（从M个feature中选择m个让每一棵决策树进行学习），这样在随机森林中就有很多个精通不同领域的专家，对一个新的输入数据，可以从不同的角度去分析，最终由各方面的专家进行投票，得到最终结果。

RF、XGB、GBDT、LigthGBM 对缺失值的敏感性；

RF：不敏感，它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度

XGB：不敏感，算法中对缺失值进行了处理，对缺失特征值分裂时，左右节点都分裂，最终看哪个损失更小就分到哪边，所以对缺失值不敏感

GBDT：对缺失值没有对应处理，敏感

ligthGBM: 不敏感，和Xgboost是一样的。每次分割的时候，分别把缺失值放在左右两边各计算一次，然后比较两种情况的增益，择优录取

随机森林做多分类：

自己的理解：

多分类：根据基尼系数最小的分裂原则，看叶子节点中，占比最高的是哪一个类别就分为哪个类别，最后多棵树的分类结果进行投票

回归：均方误差损失最小化原则，就是叶子节点的均值作为回归值，最终多棵树再次求平均

参考：https://wustchuichui.github.io/2016/04/06/Random-forest/

标签：采样,样本,分类,随机,思考,决策树,森林
来源： https://www.cnblogs.com/Allen-rg/p/13999119.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9