Bert Model 训练遇到的问题描述

2021-11-04 14:58:30 阅读：224 来源： 互联网

标签：Bert code tokenizer bert encode sen Model model 描述

1. tokenizer.encode() 方法与 tokenizer.tokenize() 之间的区别：
(1) tokenizer.encode() 返回其在字典中的id

(2) tokenizer.tokenize() 返回 token

def bert_():
    model_name = 'bert-base-chinese'
    MODEL_PATH = 'F:/models/bert-base-chinese/'

    # a.通过词典导入分词器
    tokenizer = BertTokenizer.from_pretrained(model_name)
    # b. 导入配置文件
    model_config = BertConfig.from_pretrained(model_name)
    # 修改配置
    model_config.output_hidden_states = True
    model_config.output_attentions = True
    # 通过配置和路径导入模型
    bert_model = BertModel.from_pretrained(MODEL_PATH, config=model_config)
    # tokenizer.encode()
    sen_code_encode = tokenizer.encode("自然语")
    print("sen_code_encode",sen_code)
    # tokenizer.tokenize
    sen_code_tokenizer = tokenizer.tokenize("自然语")
    print("sen_code_tokenizer", sen_code0)

if __name__ == '__main__':
    bert_()




#  结果输出：
sen_code_encode [101, 5632, 4197, 6427, 102]
sen_code_tokenizer ['自', '然', '语']

2. tensorflow 2.0 保存方式

(1) .pb 的格式，存模型参数和网络结构，还有模型计算过程，可以直接部署到服务器，不需要依赖原始代码。pb 格式文件是一种freeze_graph，它的目的是就是将模型固化，具体说就是将训练数据和模型固化成pb文件。

(2) .ckpt的格式，保存全部的模型参数包括网络的和优化器的，恢复的时候，需要定义下网络结构

标签：Bert,code,tokenizer,bert,encode,sen,Model,model,描述
来源： https://blog.csdn.net/it_lxg123/article/details/121142057

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Bert Model 训练遇到的问题描述