深度学习pytorch学习笔记

2021-09-07 20:59:39 阅读：207 来源： 互联网

标签：batch 笔记学习 pytorch num steps indices corpus size

深度学习pytorch学习笔记

关于语言模型数据集预处理章节的代码解释

模块

# 导入模块
import torch
import random
import zipfile

读取数据

# 打开压缩包,读取数据
with zipfile.ZipFile('D:/dataset/data_jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:  # 压缩包内文档名
        # corpus_chars储存所有歌词
        corpus_chars = f.read().decode('utf-8')  # utf-8编码格式，输出中文，防止乱码

准备工作

# 将换行符，回车符替换为空格使用
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
# 前10000个字符训练模型
corpus_chars = corpus_chars[: 10000]

# 提取不同的字符，使用set集合的特性去重
idx_to_char = list(set(corpus_chars))
# char_to_idx字典，将idx_to_char中每个字符按顺序与数字一一对应
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
# vocab_size是字典的长度，即有多少种不同的字符
vocab_size = len(char_to_idx)

# 借助char_to_idx字典，将corpus_chars中的字符转换成字典中对应的索引号，corpus_indices列表储存
corpus_indices = [char_to_idx[char] for char in corpus_chars]

时序数据采样

# 随机采样
def data_iter_random(corpus_indices, batch_size, num_steps):
    # 减1是因为输出的索引X是相应输入的索引Y+1
    # num_steps为每个样本包含的时间步数，即样本序列数
    # num_examples为样本总数
    num_examples = (len(corpus_indices) - 1) // num_steps  # //向下取整
    # batch_size每个小批量的样本数
    epoch_size = num_examples // batch_size  # 周期大小
    # 样本总数变为列表，从0开始
    example_indices = list(range(num_examples))
    # 打乱
    random.shuffle(example_indices)

    # 返回从pos位置开始的长为num_steps的corpus_indices索引号序列
    def _data(pos):
        return corpus_indices[pos: pos + num_steps]

    for i in range(epoch_size):
        # 每次读取batch_size个随机样本
        i = i * batch_size
        batch_indices = example_indices[i: i + batch_size]
        X = [_data(j * num_steps) for j in batch_indices]      # 批量大小batch_sizes确定矩阵的行数，时间序列num_steps确定了矩阵的列数
        Y = [_data(j * num_steps + 1) for j in batch_indices]  # batch_indices中的每项确定的矩阵每行从哪个位置开始
        yield torch.tensor(X, dtype=torch.float32, device=device), torch.tensor(Y, dtype=torch.float32, device=device)

# 相邻采样
def data_iter_consecutive(corpus_indices, batch_size, num_steps):
    # 转换格式
    corpus_indices = torch.tensor(corpus_indices, dtype=torch.float32, device=device)
    data_len = len(corpus_indices)
    batch_len = data_len // batch_size
    indices = corpus_indices[0: batch_size * batch_len].reshape(batch_size, batch_len)
    epoch_size = (batch_len - 1) // num_steps
    for i in range(epoch_size):
        i = i * num_steps
        X = indices[:, i: i + num_steps]
        Y = indices[:, i + 1: i + num_steps + 1]
        yield X, Y

标签：batch,笔记,学习,pytorch,num,steps,indices,corpus,size
来源： https://blog.csdn.net/weixin_51154479/article/details/120166643

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

深度学习pytorch学习笔记

深度学习pytorch学习笔记

模块

读取数据

准备工作

时序数据采样