首页 > 其他分享> 文章详细

为什么交叉熵和KL散度在作为损失函数时是近似相等的

2022-02-09 11:04:00 阅读：216 来源： 互联网

标签：交叉概率分布散度 KL 信息量正态分布

在本文中，我们将介绍熵、交叉熵和 Kullback-Leibler Divergence [2] 的概念，并了解如何将它们近似为相等。

尽管最初的建议使用 KL 散度，但在构建生成对抗网络 [1] 时，在损失函数中使用交叉熵是一种常见的做法。这常常给该领域的新手造成混乱。当我们有多个概率分布并且我们想比较它们之间的关系时，熵和 KL 散度的概念就会发挥作用。

在这里我们将要验证为什么最小化交叉熵而不是使用 KL 散度会得到相同的输出。所以我们首先从正态分布中抽取两个概率分布 p 和 q。如图 1 所示，两种分布都不同，但是它们共享一个事实，即两者都是从正态分布中采样的。

熵

熵是系统不确定性的度量。直观地说它是从系统中消除不确定性所需的信息量。系统各种状态的概率分布 p 的熵可以计算如下：

交叉熵

交叉熵是指存在于两个概率分布之间的信息量。在这种情况下，分布 p 和 q 的交叉熵可以表述如下：

完整文章：

https://www.overfit.cn/post/cec0eb1d28c446129b38aedf11182fbb

标签：交叉,概率分布,散度,KL,信息量,正态分布
来源： https://www.cnblogs.com/deephub/p/15874134.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

为什么交叉熵和KL散度在作为损失函数时是近似相等的

熵

交叉熵