斯坦福机器学习第九讲--经验风险最小化

2022-07-22 00:31:09 阅读：239 来源： 互联网

本讲内容
1. Bias/Variance trade-off （偏差-方差权衡）
2. Empirical risk minimization(ERM) （经验风险最小化）
3. Union Bound/ Hoeffding inequality （联合界/霍夫丁不等式）
4. Uniform convergence （一致收敛）

1. 偏差方差权衡

dark

对于上图左的情况，我们称之为欠拟合(under-fitting)，或者说，我们认为算法的偏差很高。高偏差意味着一个事实：即使你有无穷多的训练数据，算法依然不能拟合出数据的内在结构（比如二次结构）
对于上图右的情况，我们称之为过拟合(over-fitting)，或者说，我们认为算法的方差很高。高方差意味着一个事实：算法拟合出了数据中的一些奇怪的规律，或者说一些怪异的属性。

2. 经验风险最小化 ERM
定义一个线性分类器
dark emoji

其中 dark emoji
（note
）
假设有m个训练样本，样本之间是独立同分布的。
定义训练误差：

训练误差也被称为风险。
经验风险最小化：选择分类器函数的参数，使得分类器的训练误差（training error）最小。
dark emoji

让我们换一种考虑方式：我们不是在选择最优分类器函数的参数，而是在选择最优的分类器函数。
定义假设类
dark emoji

假设类的每一个成员都是参数n+1个的线性分类器函数。
重新定义ERM：从假设类H中选取一个函数，使得分类器的训练误差最小。
dark emoji

实际上，我们并不关心训练误差的大小，我们关心的是分类器对于未知样本的预测能力，也就是一般误差（generation error）：
dark emoji

先引入两条引理：
1.联合界引理（Union Bound）：
令 dark emoji
表示k个事件，这些事件不一定是独立的，

2.Hoeffding 不等式：
假设Z1,…,Zm为m个独立同分布（iid,independent and identically distributed）的随机变量,服从于伯努利分布，即
dark emoji

dark emoji

并且
dark Emoji

为这些随机变量的均值，给定
，那么有

表达的是对真实分布的估计值与真实分布之间的差值大于 dark emoji
的概率的上界，这个上界随着m的增加而指数下降。
考虑具有有限假设类的情形：

猜想类H具有k个假设
ERM会从H中选出具有最小训练误差的假设

需要证明
1. 训练误差是一个对一般误差的很好的近似
2. ERM选择的假设的一般误差存在上界
首先证明第一项，从猜想类H中任意选取一个假设 dark emoji
,定义

服从伯努利分布，因此

其均值是假设的一般误差。
训练误差为

由Hoeffding不等式可知
dark emoji

假设m很大，即训练样本很多，那么训练误差将会以很大概率近似于一般误差。
定义事件 dark emoji
为
发生
有

那么对于整个猜想类来说
dark emoji

= dark emoji

两边同时用1减去
dark emoji

dark emoji

也就是说，在不小于 dark emoji
的概率下，对于猜想类H中的所有假设h，其训练误差和一般误差之间的差距将会在
以内。
这被称为 一致收敛。
定义

那么给定 dark emoji
和
解出

意思是，只要你的训练集合包含至少上述m这么多的样本，那么概率至少在 dark emoji
下，有
对H中的所有假设成立。
样本复杂度：为了达到一个特定的错误的界，你需要多大的训练集合。
误差界：
同样的，我们可以固定m和，得到

定义 dark emoji
为H中具有最小一般误差的假设，
为H中具有最小训练误差的假设，那么至少在
的概率下，有

dark emoji

也就是说，我们选择的（具有最小训练误差的）假设的一般误差，和具有最小一般误差的假设的一般误差之间的差值存在 dark emoji
的上界。
直观上，我们可以把第一项
看成是选择假设的偏差，第二项
看成选择假设的方差。
当我们将H替换为更复杂的猜想类H'，即H是H'的子集时，第一项只会变的更小，即偏差变小；而由于k的增大，第二项会变的更大，即方差变大。
将一切总结为两个定理如下：
dark

dark

第九讲完。
转
转

标签：误差,训练,方差,--,假设,斯坦福,分类器,最小化,ERM
来源： https://www.cnblogs.com/-402/p/16504159.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

斯坦福机器学习第九讲--经验风险最小化