bert

Bert不完全手册8. 预训练不要停！Continue Pretraining2022-09-15 20:34:43

paper: Don't stop Pretraining: Adapt Language Models to Domains and Tasks GitHub： https://github.com/allenai/dont-stop-pretraining 论文针对预训练语料和领域分布，以及任务分布之间的差异，提出了DAPT领域适应预训练（domain-adaptive pretraining）和TAPT任务适应预训练（task
关于代码效率优化的事情2022-08-27 18:30:31

最近要上线代码，然后我在本地运行我的程序我：一般本地cpu跑程序大概效率需要达到多少？同事大哥：maybe 70it/s 我运行了一下我的程序显示：running time is 12s/70it ....... what the f... 我承认那一刻我慌了，纳尼，我对我的程序打上无数个print，到底是哪一个地方出了问题哇然后我发现了
Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert2022-08-18 09:00:08

借着ACL2022一篇知识增强Tutorial的东风，我们来聊聊如何在预训练模型中融入知识。Tutorial分别针对NLU和NLG方向对一些经典方案进行了分类汇总，感兴趣的可以去细看下。这一章我们只针对NLU领域3个基于实体链接的知识增强方案Baidu-ERNIE，THU-ERNIE和K-Bert来聊下具体实现~ 知识增强
69用于预训练BERT的数据集2022-08-17 23:00:36

点击查看代码 import os import random import torch from d2l import torch as d2l #@save d2l.DATA_HUB['wikitext-2'] = ( 'https://s3.amazonaws.com/research.metamind.io/wikitext/' 'wikitext-2-v1.zip', '3c914d17d80b1459be87
69预训练BERT2022-08-17 23:00:28

点击查看代码 import torch from torch import nn from d2l import torch as d2l batch_size, max_len = 512, 64 train_iter, vocab = d2l.load_data_wiki(batch_size, max_len) net = d2l.BERTModel(len(vocab), num_hiddens=128, norm_shape=[128], ffn
Bert bert-base-uncased 模型加载2022-08-15 20:31:00

1、下载模型相关文件到本地路径 https://huggingface.co/bert-base-uncased/tree/main 2、修改模型加载，注释为修改前
huggingface中Bert模型的简单使用2022-08-01 22:34:07

因为项目和毕设的缘故，做了挺多关于Bert分类的操作的，也算是有点收获吧，本文在主要记录下transformers库中有关Bert使用较多的类。在本文中，你将看到 Bert模型的简单回顾 BertConfig，BertTokenizer，BertModel的简单使用  Bert模型 Bert(Bidirectional Transformer for
Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert2022-07-28 08:07:23

一章我们来聊聊在中文领域都有哪些预训练模型的改良方案。Bert-WWM，MacBert，ChineseBert主要从3个方向在预训练中补充中文文本的信息：词粒度信息，中文笔画信息，拼音信息。与其说是推荐帖，可能更多需要客观看待以下'中文'改良的在实际应用中的效果~ Bert-WWM Take Away: Whole Word Mas
Block Recurrent Transformer：结合了LSTM和Transformer优点的强大模型2022-07-08 13:02:57

在以前的文章中，我们讨论过Transformer并不适合时间序列预测任务。为了解决这个问题Google创建了Hybrid Transformer-LSTM模型，该模型可以实现SOTA导致时间序列预测任务。但是我实际测试效果并不好，直到2022年3月Google研究团队和瑞士AI实验室IDSIA提出了一种新的架构，称为Block Recu
BERT2022-06-25 22:33:03

目录前言前言论文全称及链接：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》项目地址：google-research/bert BERT全称：Bidirectional Encoder Representations from Transformers
ALBERT2022-06-22 18:34:13

目录介绍模型结构Factorized embedding parameterizationCross-layer parameter sharingSentence order predictionNo Dropout 介绍谷歌的研究者设计了一个精简的BERT（A Lite BERT，ALBERT），参数量远远少于传统的 BERT 架构。BERT (Devlin et al., 2019) 的参数很多，模型很大，内存消耗很
从普通双非到百度算法岗，优秀！2022-06-08 22:02:39

大家好，我是对白。今天给大家分享一位23届普通双非硕士参加腾讯、百度和京东等大厂的日常实习经历，最终斩获百度算法岗实习offer，面经干货十足，希望能帮助到即将面试的小伙伴们，以下为原文。本人目前研二，在后厂村某公司NLP日常实习，看到马上要到3月份了，很多同学要开始暑期实习面试或日
tensorflow版本的bert模型 GPU的占用率为100%而其利用率为0%2022-06-05 10:01:28

Notice: 本方法只是解决问题的一种可能，不一定百分百适用，出现这个问题还有很多其他原因，这个可以作为解决的一种尝试！！！经过检查发现，是由于激活环境的原因使用 conda activate env_name激活环境就会出现这种情况而改换成 source activate env_name就不会出现这种情况按照官方文
《BERT模型的优化改进方法》读书笔记2022-05-26 02:00:06

https://mp.weixin.qq.com/s/MHm7AxmcuEgFR_oNbNqFkQ 参考这篇文章 BERT预训练方法 BERT 模型使用两个预训练目标来完成文本内容特征的学习。掩藏语言模型（Masked Language Model，MLM）通过将单词掩盖，从而学习其上下文内容特征来预测被掩盖的单词相邻句预测（Next Sentence Pr
利用java加载bert模型进行加速推理2022-05-19 19:31:43

这里利用java加载onnx模型，并进行推理。项目地址：https://github.com/jiangnanboy/onnx-java 步骤 1.利用java加载onnx模型，并进行推理预测。这里采用roberta模型的onnx版。 2.pytorch模型从这里下载。 3.pytorch模型转为onnx见这里。使用 1.sy/BertMask String text = "中国
transformer_bert学习2022-04-26 23:33:38

一、参考资料（1）github代码（2）详解transformer https://zhuanlan.zhihu.com/p/48508221 https://jalammar.github.io/illustrated-transformer/ （3）transformer位置向量是什么 https://zhuanlan.zhihu.com/p/338592312 (4)nlp中的mask https://zhuanlan.zhihu.com/p/139595546 (5)美团
pytorch的bert预训练模型名称及下载路径2022-04-26 18:34:27

google的bert预训练模型： BERT-Large, Uncased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters BERT-Large, Cased (Whole Word Masking): 24-layer, 1024-hidden, 16-heads, 340M parameters BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110
跟着李沐老师做BERT论文逐段精读（笔记）2022-04-22 00:36:07

论文地址；中文翻译；代码地址；视频地址；本篇大部分内容来源。只做整理补充，推荐去看李沐老师原视频，讲的真的很好建议学习顺序：李沐老师论文讲解 -> 图解or手推BERT -> 代码讲解 1-标题 + 作者 BERT: Pre-training of Deep Bidirectional Transformers for Language Unders
BERT的双向编码与BiLSTM的编码的不同之处2022-04-19 17:36:41

感觉会有用，先记录下来，如果大家看了有帮助，深感荣幸，若不幸点开了，万分抱歉。 Instead of predicting the next word in a sequence, BERT makes use of a novel technique called Masked LM (MLM): it randomly masks words in the sentence and then it tries to predict them. Ma
transformers 报错,无法加载执行 bert-base-chinese github.com连不上2022-04-05 17:32:43

https://blog.csdn.net/weixin_37935970/article/details/123238677 pip install transformers==3.0.2 pip install torch==1.3.1 pip install huggingface_hub tokenizer = torch.hub.load('huggingface/pytorch-transformers', 'tokenizer', 'be
BERT预训练tensorflow模型转换为pytorch模型2022-03-20 23:02:37

在Bert的预训练模型中，主流的模型都是以tensorflow的形势开源的。但是huggingface在Transformers中提供了一份可以转换的接口（convert_bert_original_tf_checkpoint_to_pytorch.py）。但是如何在windows的IDE中执行呢？首先，需要安装transformers (可以挂国内清华、豆瓣源之类的加速)
Bert不完全手册1. 推理太慢？模型蒸馏2022-03-08 09:03:11

模型蒸馏的目标主要用于模型的线上部署，解决Bert太大，推理太慢的问题。因此用一个小模型去逼近大模型的效果，实现的方式一般是Teacher-Stuent框架，先用大模型（Teacher）去对样本进行拟合，再用小模型（Student）去模仿Teacher。为什么蒸馏本身会比直接用小模型去拟合样本取得更好的效果呢？这里
知识增广的预训练语言模型K-BERT：将知识图谱作为训练语料2022-03-04 14:03:15

©原创作者 | 杨健论文标题： K-BERT: Enabling Language Representation with Knowledge Graph 收录会议： AAAI 论文链接： https://ojs.aaai.org/index.php/AAAI/article/view/5681 项目地址： https://github.com/autoliuweijie/K-BERT 01 背景论述笔者在前面的论文解读中提到过ERN
自然语言处理（二十九）：Transformer与BERT常见问题解析2022-02-27 17:35:10

自然语言处理笔记总目录 Transformer介绍 BERT介绍 Transformer结构图：一、Transformer结构中的Decoder端具体输入是什么? 在训练阶段和预测阶段一致吗? Decoder端的架构：Transformer论文中的Decoder模块是由N=6个相同的Decoder Block堆叠而成，其中每一个Block是由3个子
硅谷硬核Rasa课程、Rasa培训、Rasa面试系列之：Rasa 3.x Rules2022-02-22 12:33:39

课程关键字：Transformer、BERT、Dialogue Transformer、Rasa 3.x、Dialogue Policies、GraphComponent、TED Policy、UnexpecTEDIntentPolicy、RulePolicy、MemoizationPolicy、Ensemble 课程介绍：通过超过16小时对基于Transformer的Rasa智能业务对话机器人对话Policies的全

1 2 3 4 5 6 7 8 > 尾页

ICode9

Bert不完全手册8. 预训练不要停！Continue Pretraining2022-09-15 20:34:43

关于代码效率优化的事情2022-08-27 18:30:31

Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert2022-08-18 09:00:08

69用于预训练BERT的数据集2022-08-17 23:00:36

69预训练BERT2022-08-17 23:00:28

Bert bert-base-uncased 模型加载2022-08-15 20:31:00

huggingface中Bert模型的简单使用2022-08-01 22:34:07

Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert2022-07-28 08:07:23

Block Recurrent Transformer：结合了LSTM和Transformer优点的强大模型2022-07-08 13:02:57

BERT2022-06-25 22:33:03

ALBERT2022-06-22 18:34:13

从普通双非到百度算法岗，优秀！2022-06-08 22:02:39

tensorflow版本的bert模型 GPU的占用率为100%而其利用率为0%2022-06-05 10:01:28

《BERT模型的优化改进方法》读书笔记2022-05-26 02:00:06

利用java加载bert模型进行加速推理2022-05-19 19:31:43

transformer_bert学习2022-04-26 23:33:38

pytorch的bert预训练模型名称及下载路径2022-04-26 18:34:27

跟着李沐老师做BERT论文逐段精读（笔记）2022-04-22 00:36:07

BERT的双向编码与BiLSTM的编码的不同之处2022-04-19 17:36:41

transformers 报错,无法加载执行 bert-base-chinese github.com连不上2022-04-05 17:32:43

BERT预训练tensorflow模型转换为pytorch模型2022-03-20 23:02:37

Bert不完全手册1. 推理太慢？模型蒸馏2022-03-08 09:03:11

知识增广的预训练语言模型K-BERT：将知识图谱作为训练语料2022-03-04 14:03:15

自然语言处理（二十九）：Transformer与BERT常见问题解析2022-02-27 17:35:10

硅谷硬核Rasa课程、Rasa培训、Rasa面试系列之：Rasa 3.x Rules2022-02-22 12:33:39