ICode9

精准搜索请尝试: 精确搜索
  • 模型压缩实践系列之——layer dropout2021-03-28 22:54:45

    本文算是一篇论文实践小总结,篇幅不大,主要是最近开始在研究模型的压缩工作,看了一些论文,感觉这块内容实践工程的部分很多,因此记录一下,防止忘记。本次研究重点在于结构性剪枝,并选取了比较简单的layer dropout来实践验证其有效性。参考论文:Reducing Transformer Depth on Demand with S

  • 可解释性论文阅读笔记2-Leveraging Language Models2021-03-28 22:53:59

    ACL2019的一篇文章,主要亮点是利用预训练语言模型中的丰富信息生成解释,辅助CQA(Commonsense Question Answer)任务,对比CQA的the state of the art baseline,提升了10%的准确率,文章的链接如下:https://www.aclweb.org/anthology/P19-1487/Explain Yourself! Leveraging Language Models

  • 【Github】nlp-paper: 按主题分类的自然语言处理文献大列表2021-03-28 22:51:50

    项目地址,阅读原文可以直达:https://github.com/changwookjun/nlp-paper看了一下,这个项目的作者changwookjun貌似是韩国人,项目按主题分类整理了自然语言处理的相关文献列表,很详细,包括 Bert系列、Transformer系列、迁移学习、文本摘要、情感分析、问答系统、机器翻译、自动生成等以及N

  • Dive into BERT:语言模型与知识2021-03-28 21:51:23

    写在前面最近在看的主要是跟知识相关的一些东西,包括回顾了一些知识表示模型呀,一些大规模的语言模型如何锦上添花融入外部知识的方法呀,如果你感兴趣的话可以直接去之前几篇文章里面瞄一眼。今天就以 知识 为切入点来更深入地剖析一下最近比较火的预训练模型。√ Language Models as

  • ALBERT 告诉了我们什么?2021-03-28 21:51:11

    前言在忙毕业论文之前,恰逢ALBERT刚刚出来,当时想着要聊一聊这篇文章的,但实在是懒,毕业不易啊。最近诸事已经告一段落,已经进入佛系毕业状态,尽人事,知天命啊。本文依据论文本身的顺序,按照模块进行描述,并对一些细节展开讨论,最后针对模型效果提一些自己的看法。需要注意的一点是:ALBERT降低

  • 我不太懂BERT系列——BERT预训练实操总结2021-03-28 20:51:38

    作者:邱震宇(华泰证券股份有限公司 算法工程师)知乎专栏:我的ai之路通过本文章,你可以了解以下内容:了解bert预训练会遇到的坑,包括但不限于数据预处理的正确姿势、数据预处理的高效实现、bert单机多卡分布式训练的基本实现,以及如何debug并提升使用单机多卡来进行深度学习训练的性能瓶颈。

  • 火山翻译:工业级应用与研究2021-03-26 14:54:11

    工业级应用与研究,将从两个维度介绍字节跳动的机器翻译工作:首先,机器翻译工业级别的应用,如何通过机器翻译服务全球用户;然后,介绍我们在大规模应用中产生的一些新算法,包括预训练、多语言机器翻译和多模态机器翻译等。01火山翻译的应用研究及相关Demo1. 背景介绍其实机器翻译这几年在产

  • 面试题:预训练方法 BERT和OpenAI GPT有什么区别?2021-03-26 13:51:08

    解析:1.GPT在BooksCorpus(800M单词)训练;BERT在BooksCorpus(800M单词)和维基百科(2,500M单词)训练2.GPT使用一种句子分隔符([SEP])和分类符词块([CLS]),它们仅在微调时引入;BERT在预训练期间学习[SEP],[CLS]和句子A/B嵌入3.GPT用一个批量32,000单词训练1M步;BERT用一个批量128,000单词训

  • bert源码解读【学习笔记】2021-03-24 13:30:46

    一、预训练数据生成 【预训练数据生成】BERT源码分析PART II:https://mp.weixin.qq.com/s/whZlOBhMpvUsWjCkKjRnAw 二、预训练 【预训练】【BERT】BERT源码分析(PART III):https://mp.weixin.qq.com/s/dvPAryIB5fpMJfycUPsPOg 三、bert模型结构 【模型结构】BERT源码分析PART

  • 中文纠错(Chinese Spelling Correct)最新技术方案总结2021-03-20 15:58:01

    目录 1 纠错基础知识1.1 常见错误类型1.2 纠错组成模块 2 深度学习技术2.1 FASPell(爱奇艺)2.1.1 技术方案2.1.1.1 背景2.1.1.2 模型结构2.1.1.3 训练过程 2.1.2 优点和缺点 2.2 SpellGCN (阿里)2.2.1 技术方案2.2.1.1 背景2.2.1.2 模型结构2.2.1.3 训练过程 2.2.2 优点和缺点

  • bert-for-tf2源码解读10------权重参数对应的结构图2021-03-19 13:33:59

    从bert之中读取出来的权重矩阵内容如下: { 'cls/seq_relationship/output_bias': [2], Unused weights 'cls/predictions/transform/dense/kernel': [768, 768], Unus

  • 复制粘贴发明人和Java 语言发明人相继去世2021-03-18 20:04:40

    前几天,我在浏览 Hacker News 的时候,发现复制粘贴发明人和Java 语言发明人相继去世的新闻。 Hacker News 的前两条被国外网友顶了起来,我细细的看了内容才发现这两位全是牛人。 先说第一条,Larry Tesler 是一位计算机科学家、复制粘贴功能的发明者。 大家对他的名字可能都没听说过,但他

  • 【关系抽取-R-BERT】定义训练和验证循环2021-03-17 09:33:56

    【关系抽取-R-BERT】加载数据集 【关系抽取-R-BERT】模型结构 【关系抽取-R-BERT】定义训练和验证循环 相关代码 import logging import os import numpy as np import torch from torch.utils.data import DataLoader, RandomSampler, SequentialSampler from tqdm import tqdm,

  • 意图识别及槽填充联合模型bert2021-03-16 22:01:36

    一.简介 此模型采用bertBERT for Joint Intent Classification and Slot Filling进行意图识别与槽填充。 结构如下:   从上可知: 1.意图识别采用[cls]的输出进行识别 2.槽填充直接输出对应的结果进行序列标注,这里不使用mlm中的mask 3.其中Trm是transformer-encode

  • 模型训练相关参数问题2021-03-12 18:05:00

    1、bert那么大,你的训练数据只有10w,会过拟合吗,epcho是不是只能设置为1? 看过epcho的曲线,当epcho小于10时,评测的效果会存在震荡的情况。epcho设置为20时,表现的比较稳定。 2、分词时,你这边做了什么处理么? 有一些领域特定的词,这边不需要把它分开,我们会把这些词加入jieba的初始词表中

  • code embedding研究系列六-C-BERT2021-03-09 12:01:48

    Exploring Software Naturalness throughNeural Language Models 论文概述模型:C-BERTTokenizerTransformer Based Language ModelsMasked Language Model (MLM) Pre-training ObjectiveWhole Word Masked (WWM) Pre-training ObjectiveAST Fine-tuning ObjectiveVI Fine-t

  • Bert/Albert-CRF模型代码初试2021-03-08 19:01:46

    模块调用 2021/3/8 周一:基于模块调用部分(如下)bug,重装Anaconda与Tensorflow,解决bug。 import numpy as np from bert4keras.backend import keras, K from bert4keras.models import build_transformer_model from bert4keras.tokenizers import Tokenizer from bert4keras.opti

  • 从NLP中的标记算法(tokenization)到bert中的WordPiece2021-03-07 23:29:43

    文章目录 词级标记 (Word level tokenization)字符级标记 (Character level tokenization)子字级标记 (Subword level tokenization)WordPiece 子字级标记算法BPE 所谓 tokenization ,就是如何提取或者说是记录文本中词语,常用的tokenization有 词级标记 (Word level token

  • 莫烦nlp-BERT双向语言模型2021-03-04 21:01:44

    莫烦视频:https://mofanpy.com/tutorials/machine-learning/nlp/bert/ 跳过了GPT模型;但代码里面bert模型继承了GPT模型。。。本节不涉及莫烦对于bert的训练改进(trick),模型的任务改变,或者说标签不一样。改进版存在的问题莫烦在他的主页文字部分有详细解释。 所以这里只是介绍最

  • 基于BERT的通用语命名实体识别论文翻译2021-03-04 20:30:27

    **基于BERT的通用语命名实体识别笔记整理** 基于BERT的通用语命名实体识别摘要简介命名实体识别(NER)现存问题本文主要思想 现有研究工作多语言工作多任务学习 任务和框架实验:基线数据和实验设置比较方法单语言训练多语言训练Zero-shot 推理 实验结果与分析讨论:Zero-shot实

  • 重磅!京东云自研第四代云主机发布;曝国外物理学家开发出用于量子计算机的汇编语言2021-03-02 11:02:43

    开发者社区技术周刊 又和大家见面了,快来看看这周有哪些值得我们开发者关注的重要新闻吧。 谷歌推出了GKE Autopilot用于交付Kubernetes 曝微软将发布基于Excel的低代码语言:Power Fx 国外物理学家开发出用于量子计算机的汇编语言 流量洪峰磨练,京东云造“京刚”! 谷歌与英特尔合推

  • 使用keras_bert调用bert的简单方法2021-03-01 14:58:32

    mark一下使用keras_bert调用bert的简单方法,来源于某位大佬,在此表示感谢(找不到来源之处了)。 import json import numpy as np import pandas as pd from keras_bert import load_trained_model_from_checkpoint, Tokenizer, load_vocabulary # 超参数 from keras.layers impo

  • 读BERT论文记录2021-02-27 23:03:06

    最近阅读了提出BERT的论文,做一个简要的阅读记录,供大家和自己阅读。 题目: BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 通过深层双向Transformer来提高语言理解能力 摘要 我们引入了一种新的语言表示模型叫做BERT,BERT代表了:Bidirectiona

  • DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter学习2021-02-23 11:32:36

    1. 总结 论文地址 论文写得很简单,但是引用量好高啊

  • bert2021-02-22 19:31:23

    预训练过程 代码在这里 在encoder最后一层,取出来被打mask的词的向量,加入线性层在变化为embending的输出,取得softmax进行celoss。 roberta的byte的编码方式 https://zhuanlan.zhihu.com/p/121787628

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有