SSTable

Flink状态管理2022-06-22 09:32:05

大家好，我是小寒~ 原文链接: Flink的状态管理 2022 大数据学习路线图在上一篇文章，我们分享了 FLink 中时间和窗口的相关技术细节，今天我们来分享一下 FLink 中的状态管理相关的内容。状态管理状态在 FLink 中叫作 State，用来保存中间计算结果或者缓存数据。对于流计算而言，事
【翻译】ScyllaDB数据建模的最佳实践2022-05-05 19:03:08

文章翻译自Scylla官方文档：https://www.scylladb.com/2019/08/20/best-practices-for-data-modeling/ 转载请注明出处：https://www.cnblogs.com/morningli/p/16202131.html 在我们最新的夏季技术讲座系列网络研讨会上，ScyllaDB 现场工程师 Juliana Oliveira 指导虚拟与会者了解了
LevelDB 学习笔记3：合并策略2022-04-17 00:34:30

LevelDB 学习笔记3：合并策略 LSM 树常见的合并策略有两种： Leveled Compaction 和 Size-tiered Leveled Compaction LevelDB 和 Rocksdb 选择的合并策略叫 Leveled Compaction 每个 level 是有序的 sstable 内有序，多个 sstable 的 key 不重叠每层有大小阈值触发阈值后，选择至
《DDIA》读书笔记:SSTable and LSM Trees2022-02-10 18:34:35

目录Hash Index + logSSTable的特点处理读写请求与保证crash-safecompact和merge的策略本文是第三章SSTable and LSM-Trees部分的读书笔记。这部分包括的内容为介绍如何用Hash Index与log组成key-value数据库，为了引入以SSTable作为log的实现 SSTable的特点如何处理读写请求，如
cassandra-压缩策略2022-01-18 16:58:34

cassandra压缩策略 Cassandra的存储机制借鉴了Bigtable的设计，采用Memtable和SSTable的方式。和关系数据库一样，Cassandra在写数据之前，也需要先记录日志，称之为commitlog（数据库中的commit log 分为 undo-log, redo-log 以及 undo-redo-log 三类，由于 cassandra采用时间戳识别新老
BigTable论文翻译2022-01-12 09:59:11

摘要 Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance。这些应用对Bigtable提出的要求差异非常大，无论是在数据量上（从URL到
设计数据密集型应用-存储与检索章节读书总结2021-12-28 15:36:08

这一章节介绍了两大类存储引擎： 1、日志结构的存储引擎（log-structured） 2、面向页面的存储引擎（page-oriented），比如B树拿最简单的append only的日志作为例子，引出存储和检索功能，为了加快查询速度，增加Hash索引，在内存中使用Hash映射来存储key-value在文件中的偏
基于LSM的Key-Value数据库实现初篇2021-12-20 11:01:51

前篇文章对LSM的基本原理，算法流程做了简单的介绍，这篇文章将实现一个简单的基于LSM算法的迷你Key-Value数据库，结合上篇文章的理论与本篇文章的实践使之对LSM算法有更好的理解，当然此版本还有很大问题只是Demo模型，后面也会指出；此LSMDB有支持常见的数据库四大功能：CURD（增删查
BigTable-列族存储2021-12-19 22:02:01

BigTable 其实就是 Google 设计的分布式结构化数据表. Bigtable 的设计动机: 需要存储的数据种类繁多,包括URL、网页内容、用户的个性化设置在内的数据都是Google需要经常处理的需要存储的数据种类繁多海量的服务请求,Google运行着目前世界上最繁忙的系统,它每时每刻处理的客
数据结构考研复习（顺序查找&折半查找）2021-09-23 20:33:53

这部分内容和复习资料上写的不太一样，比如【哨兵】的存放位置，以及结果的呈现方式等。需要注意的是折半查找要求数据有序顺序存储，所以要注意数据的输入。顺序查找部分有个小bug，我暂时还没反应过来，具体表现为不能查找最后一个数据。代码如下： #include <stdio.h> #define InitSize
Google Bigtable 简介2021-09-18 12:03:11

Google Bigtable 简介 Bigtable 本质是一个分布式 K-V 数据库，其主要目标就是数据的高性能读写。分布式 Bigtable 将整个大的表水平划分为多个 Tablet ，每个 Tablet 负责一定范围内的 Key 对应的数据，Bigtable 的服务节点称为 Tablet Server，每个 Tablet Server 中有若干个 Tablet
SSTable 与 LSM 引擎2021-09-18 12:02:07

SSTable 与 LSM 引擎假设我们需要设计一个K-V数据库，为了提升 K-V 数据库的写性能，要尽量避免对磁盘上的内容做随机写，所以对已经持久化在磁盘上的 K-V 不做原地更改，当这个 Key 对应的 Value 发生更新或者删除时，我们仍然继续向磁盘新增一条数据，在读取时同一个 Key 以最后的数据记
联网数据库 IoTDB —— 存储引擎原理篇2021-07-06 15:05:56

前言没过正月都是年，在此给大家拜个晚年，衷心的祝福诸位读者朋友们晚年幸福 : ）新年伊始，谈谈今年的写作计划吧。《联网数据库 IoTDB》开个新坑，起因是参加了《Apache IoTDB社区导师计划》，所以，为督促自己为社区尽一点绵薄之力。而且刚好选到了存储引擎和分布式两个有意思的方向，就
分布式数据库（十九）：数据库的存储引擎2021-05-28 23:58:43

1. RUM 猜想 2. B+ Tree 3. LSM-Tree 3.1 LSM-Tree的处理过程 3.2 LSM-Tree的缺点 3.3 Leveled Compact Strategy 4. 分布式数据库的实现 4.1 OceanBase 4.2 TiDB：WiscKey 4.3 CockroachDB：Pebble 4.4 TiFlash 5.
分布式——吞吐量巨强、Hbase的承载者 LSMT2021-04-29 20:51:49

今天是分布式系统的第九篇文章。今天给大家分享的内容是LSM树，它的英文是Log-structed Merge-tree。看着有些发怵，但其实它的原理不难，和B树相比简直算是小儿科了。并且这也是一个非常经典的数据结构，并且在大数据系统当中有非常广泛的应用。有许多耳熟能详的经典系统，底层就是基于LS
数据库的数据结构（2）——什么是SSTable.md2021-02-08 22:59:17

SSTabble的定义 SStable是排序字符串表，顺序存储key的key-value日志格式，要求每个key在合并的段文件中只出现一次（在压缩的过程中确保） SSTable相较于纯哈希索引日志段的优点合并段更高效，支持文件大于可用内存合并方法类似于归并排序，并发读取多个输入文件，比较每个文件的第一个k
LSM(Log Structured Merge Trees ) 笔记2021-01-24 17:05:11

目录一、大幅度制约存储介质吞吐量的原因二、传统数据库的实现机制三、LSM Tree的历史由来四、提高写吞吐量的思路4.1 一种方式是数据来后，直接顺序落盘4.2 另一种方式，是保证落盘的数据是顺序写入的同时，还保证这些数据是有序的五、 LSM Tree结构图5.1 写入时，为什么要先写一份log5.2
Cassandra 数据如何写入2020-01-07 14:04:22

数据如何写入？ Apache Cassandra™（DDAC）数据库的DataStax分发在写入路径上的多个阶段处理数据，从立即记录写入开始，最后是将数据写入磁盘：在提交日志中记录数据将数据写入内存表从内存表中刷新数据在SSTables中的磁盘上存储数据注意：所有写入的时间戳均为UTC（世界标准时间）。
sstableloader工具使用及原理解析2019-09-16 11:39:19

sstableloader是cassandra提供的bulkload工具，可以将sstable文件导入到集群中。本文详细介绍其用法和实现原理。用法 sstableloader工具在cassandra的bin目录下面，用法如下： bin/sstableloader <options> <dir_path> 具体的选项可以参考官方文档的介绍，常见的选项有： -d, –nodes
[leveldb] Compaction2019-06-09 22:04:00

前文有述，对于LevelDb来说，写入记录操作很简单，删除记录仅仅写入一个删除标记就算完事，但是读取记录比较复杂，需要在内存以及各个层级文件中依照新鲜程度依次查找，代价很高。为了加快读取速度，levelDb采取了compaction的方式来对已有的记录进行整理压缩，通过这种方式，来删除掉一些不再有效的
三篇论文之bigtable2019-03-13 08:53:47

Bigtable：一个分布式的结构化数据存储系统译者：alex 摘要 Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance。这些应用对Big

ICode9

Flink状态管理2022-06-22 09:32:05

【翻译】ScyllaDB数据建模的最佳实践2022-05-05 19:03:08

LevelDB 学习笔记3：合并策略2022-04-17 00:34:30

《DDIA》读书笔记:SSTable and LSM Trees2022-02-10 18:34:35

cassandra-压缩策略2022-01-18 16:58:34

BigTable论文翻译2022-01-12 09:59:11

设计数据密集型应用-存储与检索章节读书总结2021-12-28 15:36:08

基于LSM的Key-Value数据库实现初篇2021-12-20 11:01:51

BigTable-列族存储2021-12-19 22:02:01

数据结构考研复习（顺序查找&折半查找）2021-09-23 20:33:53

Google Bigtable 简介2021-09-18 12:03:11

SSTable 与 LSM 引擎2021-09-18 12:02:07

联网数据库 IoTDB —— 存储引擎原理篇2021-07-06 15:05:56

分布式数据库（十九）：数据库的存储引擎2021-05-28 23:58:43

分布式——吞吐量巨强、Hbase的承载者 LSMT2021-04-29 20:51:49

数据库的数据结构（2）——什么是SSTable.md2021-02-08 22:59:17

LSM(Log Structured Merge Trees ) 笔记2021-01-24 17:05:11

Cassandra 数据如何写入2020-01-07 14:04:22

sstableloader工具使用及原理解析2019-09-16 11:39:19

[leveldb] Compaction2019-06-09 22:04:00

三篇论文之bigtable2019-03-13 08:53:47