ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

统计学习方法读书随笔:统计学习方法的三要素

2022-03-19 20:37:02  阅读:178  来源: 互联网

标签:风险 函数 模型 三要素 学习 emp 选择 最小化 统计


统计学习方法的三要素是 模型 + 策略 + 算法。

模型

统计学习的过程就是在假设空间中搜索,确定最终模型的过程。模型(某个形式)确定了假设空间(某个函数族),比如:假设最后决策函数的形式是线性函数,那么就确定了假设空间是线性函数组成的函数族,一般由一个参数向量 \(\theta\) 确定。

策略

策略就是用来选择模型的依据,我们希望模型预测的结果应该尽量和真实结果相同,或者接近,首先要量化如何评判这种相同或者接近。

定义损失函数 \(\mathfrak{L}(y,f(x))\) , 它衡量了一次预测的好坏,风险函数 \(R_{exp}(f)\) 衡量期望意义下模型预测的好坏。

选择模型就是要选择风险函数最小的模型。

由于 $X, Y $ 独立同分布,风险函数 \(R_{exp}(f) = \int \mathfrak{L}(y,f(x))P(x,y)dxdy\)

然而 \(P(x, y)\) 是我们未知的,事实上,如果已知 \(P(x,y)\), 就可以直接求出条件概率分布 \(P(y|x)\).

因此需要用其他形式来近似风险函数。

\(R_{emp}(f)\) 是经验风险函数,它是损失函数在数据集上的平均。

\(R_{emp}(f) = \frac{\sum \mathfrak{L}(y^{(i)}, f(x^{(i)}))}{N}\)

由大数定律,当 N 趋向于无穷时,经验风险趋近于期望风险。

然而现实中数据集往往不够大,因此这个近似的效果可能并不一定特别好,因此需要一些修正。

选择的依据主要有经验风险最小化和结构风险最小化。

经验风险最小化就是使经验风险最小,然而当数据集不大时或者模型比较复杂的时候经验风险最小化可能有过拟合的风险。

结构风险 \(R_{srm}(f) = R_{emp}(f) + \lambda J(f)\), 第二项 \(J(f)\) 是复杂度项,对模型的复杂度施加惩罚, 结构风险最小化就是正则化。结构风险最小化可以解决过拟合的问题。

综上,模型的选择标准被量化成风险函数。选择模型就变成了一个最优化问题。

算法

由上,统计学习问题被转化成了最优化问题。当存在闭式解,那么该问题是比较简单的,当不存在闭式解,就需要使用数值计算方法,比如梯度下降。在设计或选择学习算法时,如何保证得到全局最优解和求解的效率是需要考虑的。

标签:风险,函数,模型,三要素,学习,emp,选择,最小化,统计
来源: https://www.cnblogs.com/Softwarer1412/p/16027799.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有