论文笔记 | Attention Is All Y ou Need for Chinese Word Segmentation

2021-05-12 09:58:52 阅读：256 来源： 互联网

标签：字符 Segmentation Word 高斯 Transformer Attention 编码器 ij 分词

在这里插入图片描述

作者：景
单位：燕山大学

论文来源：EMNLP2020
代码地址

关于分词任务

中文分词(CWS)是在句子中划分单词边界的任务，对于中文和许多其他东亚语言来说，这是一项基本和必要的任务——对于中文来说，进行交流的基本单位是汉字，每个汉字均有各自的意思，且当不同的汉字进行组合后还会产生新的含义。英语中词的最基本单位是字母（letter），但英语日常使用的基本单位是词（word），词汇之间的关联组合性相较中文较弱。在实际应用场景中，如果按照英文的使用习惯对中文进行“按字拆分”，就会割裂中文词汇内的语义联系。

任务定义

给定一段中文序列[x₁,…,x_n],用标签0/1来标记序列中俩俩字符之间的间隙(gap)，如果间隙前后的字符（如x₅、x₆）属于不同的词汇，即判定该处间隙属于分词符，用标签1标记该间隙，反之则用标签0表示。最后根据标签值将序列进行划分即可完成分词任务。

论文概述

提出了一种新型的Transformer变体——高斯掩码定向Transformer编码器（Gaussian-masked Directional Transformer encoder，GD）
提出了一种新的中文分词模型，该模型基于GD Transformer设计，但其内部仅仅堆叠了注意力机制模块，没有添加前馈神经网络
作者证明在使用GD作为编码器之后，单个字符特征加上贪婪分割算法可以支持产生强大的性能，并刷新了当前的sota。

方法

模型的总结构图如下所示。
123

1.高斯掩码定向Transformer

作者提出的GD Transformer与原版的Transformer相比，做了两大改进：
1.用三种平行的Encoder代替了原transformer中的Encoder
2.采用高斯掩码定向注意力机制代替了标准的多头自注意力机制

Encoder部分

在这里插入图片描述

如上图所示，每层共有三个彼此平行的编码器：前向编码器、中心编码器、后向编码器；前、后向编码器用于捕捉gap前边、后边的信息，中心编码器与原Transformer编码器一样，可以同时捕捉gap前后文的信息。

For the forward encoder, we forcibly set all values inside the attention matrix representing the character pair relation after the concerned character as 0 so that the encoder can focus on the forward characters.

对于前向编码器，作者强制将gap之后的关系矩阵内的所有值设置为0，进行一个掩盖的操作，以便编码器可以关注前向字符。后向编码器的设置与前向编码器相似，不过掩盖的是gap之前的位置。
编码器的输出结果为r^f、r^b、r^c，得到图示的 v b v^b vb和 v f v^f vf
v b = r b + r c v f = r f + r c v^b=r^b+r^c\\ v^f = r^f+r^c vb=rb+rcvf=rf+rc

GD多头注意力机制

在这里插入图片描述

我们知道，Transformer中Attention的计算公式如式1所示，
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V (1) Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt {d_k}})V \tag{1} Attention(Q,K,V)=softmax(dk QKT)V(1)

与缩放的点积注意力不同，高斯掩码定向注意力期望关注每个位置的相邻字符，并将字符之间的局部性关系作为固定的高斯权重进行关注。作者假设高斯权重只依赖于字符之间的距离。因此引入高斯权重矩阵 G = ( g i j ) G=(g_{ij}) G=(gij)，它表示位置i和位置j的两个字符之间的关系，计算公式如式2所示，
g i j = Φ ( d i s i j ) = 2 σ 2 π ∫ − ∞ − d i s i j e x p ( − x 2 2 σ 2 ) d x (2) g_{ij}=Φ(dis_{ij})={{\sqrt {\frac{2}{σ^2π}}{\int_ {-∞}^{-dis_{ij}}{exp(-\frac {x^2}{2σ^2})}dx}}} \tag{2} gij=Φ(disij)=σ2π2 ∫−∞−disijexp(−2σ2x2)dx(2)

其中 g i j g_{ij} gij是字符i和j之间的高斯权重， d i s i j dis_{ij} disij是字符i和j之间的距离，φ(x)是高斯累积分布函数，σ是高斯函数的标准差，是超参数。当 d i s i j dis_{ij} disij为0时，高斯权重等于1。字符之间的距离越大，权重越小，这使得一个字符对其相邻字符的影响大于对不相邻字符的影响。

再将高斯权重融入注意力机制，
A G ( Q , K , V ) = s o f t m a x ( Q K T ∗ G d k ) V (3) AG(Q,K,V)=softmax(\frac{QK^T*G}{\sqrt {d_k}})V\tag{3} AG(Q,K,V)=softmax(dk QKT∗G)V(3)

值得注意的是，由于作者采用了三种编码器并行，因此在把高斯权重融入注意力的时候也需要分三步进行，即针对前后向编码和中心编码采用不同的掩码矩阵，前向编码模块中，位置i应当能够见到它前方的字符序列信息，看不到它后边的信息；后向编码则完全相反，公式如下：
g i j f = { g i j , p o s j ≤ p o s i , − ∞ , o t h e r s . g i j b = { g i j , p o s i ≤ p o s j , − ∞ , o t h e r s . (4) g_{ij}^f=\left\{ \begin{array}{lr} g_{ij},&pos_j≤pos_i, \\\\ -∞,&others.\\ \end{array} \right.\\\tag{4} g_{ij}^b=\left\{ \begin{array}{lr} g_{ij},&pos_i≤pos_j, \\\\ -∞,&others.\\ \end{array} \right. gijf=⎩⎨⎧gij,−∞,posj≤posi,others.gijb=⎩⎨⎧gij,−∞,posi≤posj,others.(4)

GD多头注意力机制的计算公式如式5所示，

G M H ( Q , K , V ) = C o n c a t ( h e a d 1 , . . . , h e a d h ) W m , h e a d i = A G ( Q W i q , K W i k , V W i v ) (5) GMH(Q,K,V)=Concat(head_1,...,head_h)W_m,\\ head_i = AG(QW_i^q,KW_i^k,VW_i^v)\tag{5} GMH(Q,K,V)=Concat(head1,...,headh)Wm,headi=AG(QWiq,KWik,VWiv)(5)

2.Biaffine Attention Scorer

Biaffine Attention是Dozat 等提出来的方法，作者采用Biaffine Attention Scorer来标记词间gap是否为单词边界。在这里插入图片描述
作者用s_ij来表示字符i和字符j之间是否应该分词，计算公式如下，

s i j = B i a f f i n a l S c o r e ( v i f , v j b ) = ( v i f ) T W v j b + U ( v i f ⨁ v j b ) + b (6) s_{ij} =BiaffinalScore(v_i^f,v_j^b)\\ =(v_i^f)^TWv_j^b+U(v_i^f\bigoplus v_j^b)+b\tag{6} sij=BiaffinalScore(vif,vjb)=(vif)TWvjb+U(vif⨁vjb)+b(6)

如上图所示，“天”的位置为i，“是”的位置为j，通过三个编码器得到v_i^f与v_j^b，再由式6计算即可得到s_ij，判断字符i与字符j是否应该进行分词操作。

3.Highway Connections via Hidden Layer

Highway Connections直观理解就是高速公路连接，这里其实是采用了比喻的说法，作者为了充分利用隐层状态信息而不是只使用最后一层的输出，将每一层编码器的输出信息都进行了提取，按照和最后一层相同的BiaffineScorer的计算方法来计算每一层的s_ij得分，最后将所有层的s_ij汇总得出最终结果，在模型结构上的体现就像是架起了若干高架桥，如总体模型图最顶端显示的部分。

实验

1.数据集

作者进行实验才用的数据集为SIGHAN Bakeoff 2005，具体又细分为PKU,MSR, AS and CITYU.具体细节如下表所示：
在这里插入图片描述

2.实验结果

在SIGHAN Bakeoff数据集上的封闭测试结果如下：在这里插入图片描述
评价指标：
F1、训练时长、测试时常

在开放集合中测试的F1表现：在这里插入图片描述

结论

本文以快速分词的贪婪解码器为基础，只关注编码器的设计，提出了一种仅基于CWS模型的注意机制。算法在标准的基准SIGHAN Bakeoff数据集上进行评估，在速度与性能上均具有最好的效果。

标签：字符,Segmentation,Word,高斯,Transformer,Attention,编码器,ij,分词
来源： https://blog.csdn.net/u011150266/article/details/116587100

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

论文笔记 | Attention Is All Y ou Need for Chinese Word Segmentation

关于分词任务

任务定义

论文概述

方法

1.高斯掩码定向Transformer

Encoder部分

GD多头注意力机制

2.Biaffine Attention Scorer

3.Highway Connections via Hidden Layer

实验

1.数据集

2.实验结果

结论