ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

【干货】黄国营:未来的语法书和词典可能是什么样儿?——大数据和语言学研究

2021-05-28 16:03:08  阅读:137  来源: 互联网

标签:语法 语言 我们 语言学 干货 数据 词典 形容词


本讲座选自清华大学中国语言文学系黄国营老师于2016年1月19日在RONGv2.0系列——“语言语音语义与大数据技术”专场论坛上所做的题为《未来的语法书和词典可能是什么样儿?——大数据和语言学研究》的演讲。

 图片

   

这个题目一方面来源于大数据时代来临我自己的感受,同时也来源于对我们这些年研究的一个反思。


图片
              

现在网上很多在线的词典、在线的输入法,还有在线的百科全书,百科维基等,实际上已经给我们预示了大数据对传统语文工具所带来的一种颠覆性的改变:大数据的时代已经到来。数据和信息大爆炸,这个过程中产生的大数据体量非常巨大的,而且还是increasingdata,不断飞速增长。它是real-time data,可以实时处理及时得到结果的;还是cloud-based data,是基于云计算,可以很方便管理和分析的。现在大数据已经从数量的增加,到了发生质变的这么一个阶段。所以这种情况非常深刻地影响了语言研究的理论和方法,最终会体现在语法书和词典上面。


图片

  

在不久的将来,语法书和语法词典可能会有一种新的形态,它是基于大数据和云计算的一种多功能综合平台,这种平台可能具有下面几个特点:第一,它是语法和词汇一体化的,也就是说语法书和词典是融合在一起的。第二,是研究、编辑、使用一体化的。第三,它是多层次、多维度、多功能的一体化的。如果从语言学理论上来说,它实际上就是语言和言语的一体化。从语法学上来讲,语言学的很多纠结问题,也是编写语法书或者编写词典当中可能遇到的很多麻烦。实际上大都出现在语言和言语——这衔接两者的最后的一公里。

图片

               

这种与时俱进的多层次、多维度、多功能的词典和语法书,是传统的纸媒体的工具无法实现的,只能在网上以电子形式出现,并且具有传统的语文工具书所不可能具有的优势。大数据对理论非常重视,它第一是一个全样本,而不是抽样。第二它重视像似性和网络性,而不是我们传统重视的符号性。第三它重视的是相关性而不是因果性。第四它重视的是描写性,而不是解释性,也就是说它强调的是What,而不是Why。而这些都是在语言学里面传统的理性主义和经验主义两种取向的根本分歧。在现在大数据呼啸而来之际,是非常值得我们思考的。理性主义、经验主义在语言学当中产生影响,实际上它是一个波浪式的前进和螺旋式的上升,这样才会互相交替,但是现在又来了这么一个新的阶段,这就是整个波浪当中的一段。

图片

                     

语法。在大数据的时代,在这个背景下面,未来电子版的语法书我想可能和传统的是很不一样的,它编写的方法和使用的方法很不一样。我这里讲两个小故事,谈谈我为什么会有这样的认识。一个是非谓形容词,我在1978年读研究生的时候做的第一次作业写的第一篇小文章“非谓形容词”,一般的形容词是可以又做谓语又做定语的。但是非谓形容词只能做定语,而不能做谓语。这个“非谓形容词”有的叫区别词,这个提法甚至把它和形容词并列。非谓形容词是把它作为形容词下面的一个小类。但是做这个作业的时候,我就在琢磨这么一个问题,因为你用这个主谓宾定状补,区分句法的可能性,能承担什么、不能承担什么,来判别给形容词分类,那么你现在把这个非谓形容词,能做定语、不能做谓语的在形容词里面,列一个小类,甚至还有的学者把它看成是和形容词平行的另外一个大类。但问题在于,如果我们用“非谓”,能充当什么成分,不能充当什么成分这个标准来检测的话,这个形容词里面到底能有多少类产生?当时80年代我的研究生考试,就让同学做这么一个题目,形容词横向上的主谓宾定状补,纵向的主谓宾定状补,如果形容词根据句法的表现来分类有很多很多的类。为什么我们现在只能提出非谓形容词这个小类呢?别的小类还有很多啊。当时有的学生就根据这个思路写了一篇文章发表,就是形容词里面既然有只能做定语,不能做谓语的,有没有反映出来只能做谓语不能做定语的?有,而且100多个。比如说这个行,行不行,比如“这个小伙子真行”,但是你不能说这是一个“行小伙子”,你可以说“这小伙子很棒”,也可以说“这是一个棒小伙子”。“行”就是能做谓语,不能做定语,这样一类的有很多,就看怎么处理它们了。这说明什么问题呢?我就觉得这里面分类可能有很多,分类的角度、层次和结果其实是非常多的,我们平时讨论的许多复合的情况,很多都涉及分类的性质、方法和思路。

图片

                  

第二个例子讲讲“老师有多书”。我的留学生看到我家里有很多书,他就说“老师有多书”。我说你不能说老师有多书,你只能说老师有很多书。你可以说有好书、有新书、有旧书,但是为什么不能说有多书呢?因此也牵扯到形容词的问题,为什么多、少就必须要加状语呢?这样的形容词有多少呢?当然不多。但是我们的教科书里面、语法书里面、词典里面都没有交代。所以刚才我谈到的多、少这样的问题,学生会出问题的话,计算机也会出问题。


                

那么这两个事情,我一直在琢磨,就说明语法的分类实际上是没完没了的过程,从最高层的名词、动词、形容词,给每一个再细分,实际上它可以不断地再分,一直分到最后,剩下的两个词我仍然可以告诉你,这两个词可能会有什么差别。也就是说语言和言语、语法和词汇、类和例之间,至于类分到什么地步为止,在于语法研究的深广。


             

词典。现代词典已经形成一种范式,一种很成熟的、很权威的范式。现代词典对我们的学习和研究做出了重大贡献,在未来也肯定会继续发挥很大的作用。但是我们是不是考虑过呢,词典编辑的方式只有这一种?特别是在大数据的时代。当然,在大数据时代,词典的编辑在理论上、技术上可以发生很大的变化。但是会发生什么变化呢?这种变化和我们对语言的研究、对词汇的研究会提供什么样的要求呢?我们可以想想看,现代词典,这里我讲的是语文词典,它给我们提供的信息包括了些什么?当然,语文词典、语言词典,很多人说是应该给我们提供说这种语言的人的语言知识。实际上是不是这样?说这种语言的人使用这种语言时,比如说这种词汇知识到底是一些什么东西?它包括哪些内容?而我们说话的时候又怎么调动有关知识的?这个我觉得很值得我们思考。比如动物、植物,我们的词典里面会给出定义,说它是什么纲、什么科,可能还会给出拉丁文。但是我们清楚,我们说汉语的人绝大部分根本就不了解这些动物和植物的这些百科性的知识,更写不出拉丁文。就是编词典的人很多也是要查工具书才能得来的。比如像“玫瑰”,其实对很多人来说,“玫瑰”这个词在他使用这个词的过程当中,他实际上想到的、知道的是玫瑰花的形(形状)、色(颜色)、香(特定的香味),还有和爱情关联的这种特定的意义。这个才是我们很多人在很多情况下面使用“玫瑰”这个词的时候所用到的知识。再比如是“绅士”,我们词典里就会定义说这是旧时地方上有势力、有功名的人。但是我们从开放的网络上面的大数据检索得到的,绝大多数人是在很有礼貌、文质彬彬这个意义上来使用这个词的。这就给我们提出一个问题了,词典里面给出的释义到底是不是我们说这种语言的人需要的关于这些词的知识?而我们实际使用的知识是什么?词典能不能、有没有把它概括进去?我们掌握现代汉语的某些词,在理解和运用的时候,到底在底层丢掉了什么东西。


              

语言符号性的概念是有局限性的,我们很多年把语言看成是一些符号,把语言的符号性看成很基本的概念、很基本的理论,但是对它的局限性其实是注意不到的。


             

我认为它也有局限性,二十世纪初奥地利的科学家马赫说过一句有名的话,他说“物(物体、物质)是感觉的复合。”如果把感觉和相似性连接起来,词汇的语义是若干关联的复合,所以我们有可能就把词汇意义构筑成了一个神经网络系统,所有词汇的意义都是在这个网络当中相互定义,你说明我、我说明你。所以某一个词语它很可能是若干个感觉,若干种意念的一种复合,而这种感觉和意念构成了一个庞大的、复杂的系统。


                

如果从图论角度来看,每一个顶点、每一个词都指向别的顶点,就是指向别的词。它都有一条边,这条边就是有相关性,而相似性就是在边上扮演了非常重要的角色,所以我们可以把词汇和词义的系统看成是一个非常复杂的有向图。


              

以前我做过有关这方面的研究,利用词语的相关性构筑语义的网络,通过语义网络给出其中的词语的多维的、多层次的信息。最近本科的同学杨宇昌在课程作业里面用有向图的方法研究了《康熙字典》单字为训注释关系网络的构建和分析。《康熙字典》很基本的解释就是用同义词或者同义字来解释,“X,Y也”等等,用这个框架来解释。我们从《康熙字典》当中,13309个汉字当中可以提取48000多条有效的条目。相注释的单字有22683个,这里面可以通过用程序来做,就给你画出非常复杂的《康熙字典》这些注解和被注解的数以万计的神经网络,它们之间的语义关系,有的路径很长,有的很快就被循环了,一圈就循环了,而这个圈的长短关系非常复杂,但是我们可以给大家看一个图。

图片

              

也就是说我们可以用有向图来描写《康熙字典》字与字之间的释义关系,非常复杂,但是又非常地清楚,我们可以完成做定性的、定量的分析,可以把每一个词义的注释、它的关系理出一个头绪出来。当然,《康熙字典》有几万个互相注释的关系,但是如果比起开放的英特网上面大数据的这么一种对象来说,它又是比较小的、封闭的。[但是(删去)]我们做了很多的探索,发现是可以做的。所以如果能用大数据构筑一个非常庞大的,而且语料不断增加的这么一个语义网络,我们对很多的词义的理解,就能对它的研究提供很多意想不到的角度、数据、例子,这是非常有意思的,我们在做类似的题目就有这样的感受。所以大数据可能给我们提供,如果是把它基于大数据做成语义网络,而不是像一般纸媒体那样用下定义的方式,而把它看成是一些关系的集合,那么我们就可以从实用的角度给出我们词语的非常丰富的各种的意义,都可以在这里面得到有意思的材料。

图片

  

未来的语法书和词典可能会是什么样的?当然会有纸媒体的非常有用的词典,像《现代汉语词典》这样的经典词典,但是很可能需要也会出现基于大数据构建一个开放的网络,提供多层次、多维度的句法和语义信息,而这些语法和语义信息又是融合在一起的,用户可以根据自己的需要,在不同的界面上获取知识,我想这应该是很有用的。这样的平台必然是综合的,它应该是开放的,这个终端可以服务于各种用途,但是这个平台有一个最重要的内核,这是传统的纸媒体的语法书和词典无法做到的,也是大数据时代的必然产物。

图片

              

我讲的这种语法和词典,这种新的形态是适用于普通人,并不仅仅限于研究者。

图片

图片

图片



这是我们在研究过程当中有关的一些图,网络的图。黑黑的、密密麻麻的实际上就是《康熙字典》里面的字和字、字义之间构成的语义网络,非常复杂。但是每一个关系都能说清楚。他们互相定义。每个词语的意义就是一组关系


标签:语法,语言,我们,语言学,干货,数据,词典,形容词
来源: https://blog.51cto.com/u_15127682/2826270

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有