ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

自然语言处理(NLP)-第三方库(工具包):FastSum【基于fastNLP开发的文本摘要解决方案,包括数据加载、模型调用、模型评价】【实现的模型:Seq2Seq、PGNet、BertSum】

2022-02-25 20:06:40  阅读:261  来源: 互联网

标签:Summarization 模型 摘要 Seq2Seq summary 文章 Corpus 文本 FastSum


FastSum是基于fastNLP开发的一套完整的文本摘要任务解决方案,包括数据加载、模型调用、模型评价三个部分。

FastSum中实现的模型包括:

  • 基准模型 (LSTM/Transformer + SeqLab)
  • Get To The Point: Summarization with Pointer-Generator Networks
  • Extractive Summarization as Text Matching
  • Text Summarization with Pretrained Encoders

提供了12个文本摘要任务的数据集:

名称论文类型描述
CNN/DailyMailAbstractive Text Summarization using Sequence-to-sequence RNNs and Beyond新闻修改了原本用于 passage-based question answering 任务的数据库。 CNN 和 DailyMail 的网站为每篇文章都人工提供了一些要点信息总结文章。而且这些要点是抽象的而非抽取式摘要形式。 微调 Teaching Machines to Read and Comprehend 的脚本之后,作者生成了一个 multi-sentence summary 的数据集合
XsumDon’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization新闻article-single sentence summary 的数据集。在 BBC 上,每篇文章开头都附有人工撰写的摘要,提取即可
The New York Times Annotated CorpusThe New York Times Annotated Corpus新闻人工撰写的摘要
DUCThe Effects of Human Variation in DUC Summarization Evaluation新闻2003 和 2004 Task1 都是对每个 doc 生成一段摘要
arXiv PubMedA Discourse-Aware Attention Model for Abstractive Summarization of Long Documents科学著作从 arXiv 和 PubMed 获取的长篇文档的摘要,论文的 abstract 部分作为摘要的 ground-truth。
WikiHowWikiHow: A Large Scale Text Summarization Dataset知识库[WikiHow 有一个关于“怎么做”的数据库,每个步骤描述是由一段加粗摘要以及详细步骤叙述组成。作者把每个步骤的加粗摘要合并作为最终摘要,每步的剩余部分进行合并组成 article。
Multi NewsMulti-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model新闻、多文本摘要数据集由新闻文章和这些文章的人工摘要组成,这些文章来自 newser.com 网站。每一篇摘要都是由专业编辑撰写的,并包含到引用的原始文章的链接。
BillSumBillSum: A Corpus for Automatic Summarization of US Legislation法案文本数据是选自美国国会和加利福尼亚州立法机构的法案文本,人为编写的摘要。
AMIThe AMI meeting corpus: a pre-announcement会议AMI会议语料库是一种多模式数据集,包含100小时的会议多模式记录。本语料库为每个单独的讲话者提供了高质量的人工记录,还包含了抽取式摘要、生成式摘要、头部动作、手势、情绪状态等。
ICSIICSI Corpus会议ICSI会议语料库是一个音频数据集,包含大约70个小时的会议记录。包含了抽取式摘要和生成式摘要。
Reddit TIFUAbstractive Summarization of Reddit Posts with Multi-level Memory Networks在线讨论通过从 Reddit 爬取数据,作者生成了两套摘要:用原帖的 title 作为 short summary,TL;DR summary 作为 long summary。
SAMSumSAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization对话对话由语言学家根据日常对话写成,之后由语言学家标注摘要。
名称论文类型描述
CNN/DailyMailAbstractive Text Summarization using Sequence-to-sequence RNNs and Beyond新闻修改了原本用于 passage-based question answering 任务的数据库。 CNN 和 DailyMail 的网站为每篇文章都人工提供了一些要点信息总结文章。而且这些要点是抽象的而非抽取式摘要形式。 微调 Teaching Machines to Read and Comprehend 的脚本之后,作者生成了一个 multi-sentence summary 的数据集合
XsumDon’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization新闻article-single sentence summary 的数据集。在 BBC 上,每篇文章开头都附有人工撰写的摘要,提取即可
The New York Times Annotated CorpusThe New York Times Annotated Corpus新闻人工撰写的摘要



参考资料:
预训练编码器文本摘要
FastSum:基于fastNLP开发的文本摘要解决方案

标签:Summarization,模型,摘要,Seq2Seq,summary,文章,Corpus,文本,FastSum
来源: https://blog.csdn.net/u013250861/article/details/123139980

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有