关于垂直领域NLP相关检测体系的搭建

2022-06-20 13:03:00 阅读：155 来源： 互联网

众所周知垂直领域相对于开放域来说需要的专业知识度更高，很多垂直领域的NLP处理在前期都是基于规则的。一个明显的原因，基于规则的准确率更高，需要的数据较少，但是它的弊端依然很明显--泛化扩展能力差。所以基于大规模预训练模型检测体系应运而生。但是在垂直领域做完全专注于模型的检测真的work吗，答案往后看。
大多数研究人员在实验室做研究，NLP数据在实验情况下可能显得相对规整和干净，但是实际生产过程中数据的繁杂，多变是超乎想象的。在这种数据下，在垂直领域的情境中，我们所要做到的检测不是90%，而是100%的准确率，所以你说直接用一个端到端的大模型检测是真的能做到吗？答案就是两条腿走路，规则与模型并行。
那具体哪一部分用规则，哪一部分用模型，规则和模型如何结合使用呢？这里有一个前提，我们已经有了这个行业足够多的语料和知识库。
（1）线下
规则：如果我们之前做了一部分规则的工作，并在某些样本上足够准确，在线下的场景中我们可以利用规则来进行模型数据的标注。有些场景比如分词和实体识别，利用词典和正则表达式、DAG等方法识别准确度很高，所以我们可以利用其进行NER标注。
模型：线下刚拿到数据的时候数据处理，打标签，然后选模型，这里建议选模型的时候直接选较稳定的大模型，看一下检测准确率上限是什么，具体后续上线的时候再考虑换模型。
（2）线上
规则：规则主要用于对模型的补充，并且规则这种可以很好的对badcase进行处理，我们利用规则建立一个快速的修复通道，这个完全是规则可以办到的，也是它的优势。
模型：模型比较笨重，一般我们训练完成之后很少去改动它，但是这里有一个比较重要的问题就是模型的上线，一般的方式是首先上线一个baseline模型，后续根据这个数据分析和模型效果选择优化，优化到一定程度这个模型效果一直上不去，考虑上预训练大模型，这个过程需要一步步迭代。
当前人工智能领域在垂直领域的智能化应用发展迅速，我们真的需要不断探索创新来实现真正意义上的智能，路很难，所以需要很努力。
PS：最近有点开心，准备加快知识产出^J^

标签：NLP,检测,模型,领域,垂直,规则,搭建
来源： https://www.cnblogs.com/Leahx/p/16392871.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

关于垂直领域NLP相关检测体系的搭建