ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【ACL2020】用于改进文本分类的特征投影

2021-04-10 12:01:27  阅读:206  来源: 互联网

标签:fp 文本 特征向量 特征 分类 投影 net ACL2020


图片

作者:云不见

学校:华南师范大学

paper:Feature Projection for Improved Text Classification. ACL 2020

Link:https://www.aclweb.org/anthology/2020.acl-main.726/

code:https://github.com/Qqinmaster/FP-Net/md

TL; DR

  1. 在情感分类中,一些good features,比如”good“、”nice“表示积极,”bad“、“terrible”表示消极。但是,还有许多common features,比如voice、screen就没有特别的情感性。
  2. 尽管深度学习拥有强大的representation learning(表征学习,即同一个数据用不同的表示形式)。但我们认为还有可以改进的地方。
  3. 在本文中,我们提出了一种新的角度来进一步改善这种表示学习,即特征投影(feature projection):将现有特征投影到common特征的正交空间中。
  4. 所得的投影向量垂直于common特征,能更好的进行分类。
  5. 将该方法用于改进基于CNN,RNN,Transformer和Bert的文本分类模型,获得更好的结果。

网络结构

Feature Purification Network 特征净化网络

图片模型分为两部分:

  1. projection network (P-net);
  2. common feature learning network (C-net)
  • P-net:计算净化的向量特征,通过将学习到的输入文本的信息向量投影到更具区分性的语义空间中来消除共同特征的影响。
  • C-net:提取common features。

P-net由四部分组成:

  • 输入层X
  • 特征提取器Fp
  • 正交投影层(OPL,Orthogonal Projection Layer)
  • 分类层Cp

C-net也由四部分组成:

  • 输入层X
  • 特征提取器Fc(Fp和Fc的参数不共享)
  • 渐变反向层(GRL,Gradient Reverse Layer)
  • 分类层Cc

技术的关键思想如下:

P-Net中特征向量fp投影到C-Net的fc的正交方向上。也就是说,将fp(从输入文档中提取的完整信息)投影到更具区分性的语义空间中,以进行最终分类。

图片

图2:正交投影层的工作方式。这里的示例是在二维空间中。

  • fp表示传统特征向量;
  • fc表示公共特征向量;
  • fp∗是投影特征向量;
  • fp~是最终的正交投影特征向量。
  1. 我们首先将传统特征向量fp投影到共同特征向量fc,得到fp∗。

图片

等式9中的fp∗即表示对共同特征向量fc的约束。

  1. 再将fp投影到fp-fp*得到fp~

图片

也就是说:通过将输入的传统特征向量fp投影到公共特征向量fc来限制公共特征向量的模,因此新的公共特征向量fp*的语义信息仅包含xi的公共语义信息。

这使得最终的纯化特征向量fp~来自传统特征向量fp,而不是与公共特征向量fc正交的任何平面中的任何向量。

最后,我们使用纯化的特征向fp~进行分类。

image.png

Experiments实验

1 实验使用数据集

image.png

2 Baselines模型

用LSTM、CNN、Transformer和BERT等基准模型进行对比实验,已验证特征投射的有效性。

3 实施细节

首先,我们将实验中的所有词嵌入随机初始化为200维向量,然后在训练过程中进行修改(Bert除外)。对于每种类型的特征提取器,我们具有以下配置:

  1. 对于RNN模型,使用两层LSTM进行特征提取,每层的hidden state=256;
  2. 对于CNN模型,为了获得更多的细粒度特征,我们分别使用了[2,3,4,5,6]的滤波器大小,每个滤波器都有100个特征图。
  3. 对于Transformer的模型,我们使用Transformer的编码器作为特征提取器,使用单头和3个block。
  4. 对于Bert模型,我们微调了预训练的基于Bert的参数。这些设置与FP-Net中的基线完全相同。

在C-net模块的训练中,我们以0.9为初始学习率的随机梯度和随后的退火学习率(Ganin and Lempitsky,2014)。

图片

其中,训练进度p从0线性变化为1,l0 = 0.01,α= 10和β= 0.75。在GRL中,超参数λ为[0.05,0.1,0.2,0.4,0.8,1.0]。

4 实验结果image.png5 消融实验与分析

消融实验类似于“控制变量法”。假设在某任务中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道效果是由A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个任务中所起的作用。

image.png

图片

结论

  1. 在本文中,我们提出了一种新的特征净化网络(FP-Net),以改进文本分类的表示;
  2. 该方法基于特征投影。所提出的模型使用两个子网,一个用于识别对分类没有区别的共同特征common features,另一个用于将传统特征投射到共同特征的正交方向的特征投影;
  3. 我们当前的方法仅用于传统文本分类方法,例如LSTM,CNN和Transformer。在未来的工作中,我们将考虑将其扩展到基于图的方法(例如用于图形数据的GCN),以及扩展到基于生成的方法(例如用于对抗性学习的GAN)。






投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

图片


标签:fp,文本,特征向量,特征,分类,投影,net,ACL2020
来源: https://blog.51cto.com/u_15127535/2696907

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有