《自然语言处理：基于预训练模型的方法》第四章自然语言处理中的神经网络基础--神经网络模型的训练

2021-10-31 18:04:33 阅读：194 来源： 互联网

以上章节介绍了自然语言处理中几种常用的神经网络（深度学习）模型，其中每种模型内部都包含大量的参数，如何恰当地设置这些参数是决定模型准确率的关键，而寻找一组优化参数的过程又叫作模型训练或学习。

1.损失函数

为了评估一组参数的好坏，需要有一个准则，在机器学习中，又被称为损失函数（Loss Function）

（无法直接使用准确率等指标评估，因为这些指标对于参数的微小变化有可能不敏感(导数过小)或过于敏感(不可导)从而无法对参数优化）

简单来讲，损失函数用于衡量在训练数据集上模型的输出与真实输出之间的差异。

因此，损失函数的值越小，模型输出与真实输出越相似，可以认为此时模型表现最好。不过如果损失函数的值过小，那么模型就会与训练数据集过拟合(Overfit)，反倒不适用于新的数据。所以，在训练深度学习模型时，要避免产生过拟合的现象，有多种技术可以达到此目的，如正则化（Regularization）、丢弃正则化（Dropout）和早停法（Early Stopping）等。

在此介绍深度学习中两种常用的损失函数：均方误差(Mean Squared Error，MSE)损失和交叉熵（Cross-Entropy,CE）损失。

所谓均方误差损失指的是每个样本的平均平方损失，即：

$\mathrm{MSE}=\frac{1}{m} \sum_{i=1}^{m}\left(\hat{y}^{(i)}-y^{(i)}\right)^{2}$

式中， $m$ 表示样本的数目； $y^{(i)}$ 表示第 $i$ 个样本的真实输出结果； $\hat{y}^{(i)}$ 表示第 $i$ 个样本的模型预测结果。可见，模型表现越好，即预测结果与真实结果越相似，均方误差损失越小。

以上形式的均方误差适用于回归问题，即一个样本有一个连续输出值作为标准答案。那么如何使用均方误差损失处理分类问题呢？

假设处理的是 $c$ 类分类问题，则均方误差被定义为：

$\operatorname{MSE}=\frac{1}{m} \sum_{i=1}^{m} \sum_{j=1}^{c}\left(\hat{y}_{j}^{(i)}-y_{j}^{(i)}\right)^{2}$

式中， $y_{j}^{(i)}$ 表示第 $i$ 个样本的第 $j$ 类上的真实输出结果，只有正确的类别输出为1，其他类别输出为0； $\hat{y}_{j}^{(i)}$ 表示模型对第 $i$ 个样本的第 $j$ 类上预测结果，如果使用Softmax函数对结果进行归一化，则表示该类别预测的概率。与回归问题的均方误差损失一样，模型表现越好，其对真实类别预测的概率越趋近于1，对于错误类别预测的概率则趋近于0，因此最终计算的损失也越小。

标签：输出,函数,误差,模型,样本,损失,神经网络,自然语言
来源： https://blog.csdn.net/zhang_xiaomeng/article/details/121067080

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

《自然语言处理：基于预训练模型的方法》第四章 自然语言处理中的神经网络基础--神经网络模型的训练

《自然语言处理：基于预训练模型的方法》第四章自然语言处理中的神经网络基础--神经网络模型的训练