概念篇-多分类多标签

2021-05-22 05:01:18 阅读：255 来源： 互联网

最近在处理一个多分类的归类问题。多分类问题是个很常见的问题。但由于大家问题描述的角度不同，纠结点不一样，用词不同，导致有时候理解上出现了what?的尴尬情况。但透过现象看本质，抓住机器学习本质就是找公式，解方程，解不出来就尽量优化这个核心思想，就不会lost。

什么是归类。

在图像归类中，

手写数字识别，预测目标是0，1，2...9中的某一个数字

自动驾驶中的目标检测，预测目标是汽车，行人，建筑物

在自然语言处理中，

情感分类，预测目标文字所要表达的情感是高兴，悲伤，愤怒

传统的逻辑回归分类问题，是二项分类，是非问题，就是预测目标是不是属于某个分类。比如说，是新冠病毒携带者吗？是合理的吗？是坏的吗？当把传统的二项分类逻辑回归算法衍生到多分类的时候，该如何处理呢。因为逻辑回归算法比较简单，一个线性方程再加一个激活函数，解决问题能力有限，因此一个模型直接用于多分类，效果不理想。(图片来自网络)

所以，处理多分类问题的时候，通常就是分解为多个二项模型，然后一一判断是不是属于某个分类。

对于手写数字识别问题，就是有10个二项分类模型，分别预测是不是0，是不是1。。。

这样的做法，就是很可能，一个目标可能会落入多个分类中。对于实际问题，确实也有属于多分类的情况。比如说，自然语言处理中的命名实体识别NER，某个词组可能同时归类于”组织”和”时间发生地”。可以说多个二项分类模型的组合是default的解决了目标可能处于多个分类的这个问题。

但是如何处理只能是其中一个分类的问题呢。我们知道，逻辑回归的输出其实是代表概率，为了避免又是1又是0的问题，最后以选取概率最大的分类，作为最后的目标分类，就可以解决这个问题。

当我们用多层神经网络来取代罗辑回归算法的时候，由于网络的复杂，可以fit的情况越来越多，也就是可以用更加复杂的方程来匹配样本。(逻辑回归分类只有一层，怎么整都没法匹配复杂样本的) 。这个时候，多个分类问题并不需要分成多个网络来分别处理。

这时候需要保证的是输出层的节点数必须与分类的个数是一致的。从概念上，可以从更通用的角度来理解，这个模型网络就是一个n维(n个feature)的矢量到一个m维(m个分类)适量的transformer。(图片来自网络)

而以上提到的两种归类问题(多个分类可以共存与否)被转换为两个互相对立的概念: multi-class(不可共存，排他) 和multi-label(可以共存)

其实我很不喜欢把它们对立起来，明明就是同样的网络模型嘛，唯一的区别就是激活函数。multi-class 的激活函数用softmax,这样保证最后只有一个class被选中。multi-label的激活函数用sigmoid, 不管别人怎样，我根据我自己的标准来归类。激活函数不一样，最后的loss function的cross entropy的公式自然也不一样，但本质上就是交叉熵，最大似然。

所以再用pre-trained的模型时候，至少两件事情必须考虑，根据类别数量确定输出层的节点数，根据是多分类问题还是多标签问题确定激活函数。

当然有衍生的复杂问题。例如对目标进行不同角度的分类，比如说一首音乐对于风格和流行度同时进行分类，一个排他一个不排他。回到概念的本质，其实也一样，定位输出，找出优化方程(loss function)。

阅读作者更多原创文章，关注微信公众号:

标签：multi,标签,分类,归类,问题,概念,目标,二项
来源： https://www.cnblogs.com/dagis/p/14797999.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

概念篇-多分类多标签