标签:面试题 log buffer t2 索引 innodb mysql 整理 数据
1 myisam 和 innodb 引擎的区别
- innodb 支持事务,外键,myisam 不支持
- innodb 支持 mvcc ,myisam 不支持
- innodb 支持表锁、行锁,myisam 仅支持表锁
- innodb 必须有主键,myisam 不需要
2 mysql有几种锁
- 按锁粒度划分有三种:表锁、页锁、行锁
- 加锁机制:可分为 悲观锁和乐观锁
- 兼容性:意向所 和 排他锁
- 实现:记录锁、gap锁、next-key锁、插入意向锁
3 事务和锁
- update、delete、insert 无论是否在事务,都加锁。保证数据的一致性
- 快照读:读取的是快照版本,也就是 mvcc 历史版本 readView 里的数据 ,普通的 SELECT 就是快照读
- 当前读:读取的是最新版本,UPDATE、DELETE、INSERT、SELECT ... LOCK IN SHARE MODE、SELECT ... FOR UPDATE 是当前读,需要加锁
- RC、RR、SERIALIZABLE 级别的隔离,当前读都会需要借助锁实现
- RR 隔离级别需要先 select ... for update 加锁进行当前读操作,才能防止幻读
- 对于SERIALIZABLE隔离级别的事务来说,InnoDB规定使用加锁的方式来访问记录
4 什么情况会加锁
- update、delete、insert 无论是否在事务,都加锁。保证数据的一致性
- 在事务里,for update、LOCK IN SHARE MODE 会分别加一个 排他锁和共享锁,直至事务结束
- select 无论是否在事务,都不加锁
5 隔离级别,具体的实现原理是什么
- 读未提交
- 读已提交
- 可重复读
- 串行化
- 原理
- 事务就ACID四个特性
- 原子性:是使用 undo log来实现的,如果事务执行过程中出错或者用户执行了rollback,系统通过undo log日志返回事务开始的状态
- 持久性:使用 redo log来实现,只要redo log日志持久化了,当系统崩溃,即可通过redo log把数据恢复
- 隔离性:通过锁以及MVCC,使事务相互隔离开
- 一致性:通过回滚、恢复,以及并发情况下的隔离性,从而实现一致性
6 redo log 、 undo log 、 binlog
- redo log:
- innodb 为了提高磁盘I/O读写性能,存在一个 buffer pool 的内存空间,数据页读入会缓存到 buffer pool,事务的提交则实时更新到 buffer pool,
而不实时同步到磁盘(innodb 是按 16KB 一页同步的,一事务可涉及多个数据页,实时同步会造成浪费,随机I/O)。
事务暂存在内存,则存在一致性问题,为了解决系统崩溃,保证事务的持久性,我们只需把事务对应的 redo 日志持久化到磁盘即可
- innodb 为了提高磁盘I/O读写性能,存在一个 buffer pool 的内存空间,数据页读入会缓存到 buffer pool,事务的提交则实时更新到 buffer pool,
- undo log:
- 事务需要保证原子性,也是说事务中的操作要么全部完成,要么什么也不做。如果事务执行到一半,出错了怎么办-回滚。但是怎么回滚呢,靠 undo 日志。undo 日志就是我们执行sql的逆操作
- binlog:
- binlog指二进制日志,它记录了数据库上的所有改变,并以二进制的形式保存在磁盘中,它可以用来查看数据库的变更历史、数据库增量备份和恢复、MySQL的复制
- 一条更新语句,redo log 、 undo log 、 binlog的对应更新顺序流程是怎样的
- 数据的更新插入删除都是两阶段提交的,如果 redo 不是两阶段提交;
- redo 先写,binlog 后写,会导致依赖 binlog 同步的从库数据缺失。
- binlog 先写,redo log 后写,则会导致从库多出未提交的脏修改。主从库数据会不一致
7 double insert buffer 、redo log buffer 、change buffer
- double insert buffer:数据页的更新需要两次写doubleWrite,其原因:重做日志是对页层面的物理操作与备份。如果磁盘页坏了的时候,那么用重做日志去重做是没有意义的,所以需要一个副本,在页损坏的时候,用副本页去还原原本的页,然后再进行重做日志
* 其中doubleWrite 原理结构有一个 doubleWrite buffer 和 共享128表空间页的物理磁盘 - change buffer: Change Buffer与 Insert Buffer一样,适用对象还是非唯一的辅助索引
- redo log buffer 类似 buffer pool,它是申请出来的一片连续内存,然后里面划分出了N多个空的redo log block。redo log 刷新到磁盘的时机如下
- 后台线程每隔1秒自动刷盘
- 关闭 mysql 服务
- 记录达到 log buffer 空间一半时刷盘
- 做 checkpoint 的时候
- 事务提交时会刷盘。数据库中 innodb_flush_log_at_trx_commit 参数就控制了在事务提交时,如何将 buffer 中的日志数据刷新到磁盘file中
- 参数值为0:提交事务也不进行刷盘操作
- 参数值为1:提交事务一次就刷盘一次( 默认刷盘策略)
- 参数值为2:每次提交事务时,只会将buffer中的内容写入页面缓存中,不会在将页面缓存中的数据刷盘到file中
8 check point 是怎么确定的
- Sharp CheckPoint : 数据库关闭时,将所有脏页刷新到磁盘,默认的工作方式。但如果运行时,也使用Sharp方式,会对数据库的可用性造成很大影响
- Fuzzy CheckPoint :每次只刷新一部分脏页
- Master ThreadCheckPoint master thread 会以一定的频率从缓冲池的脏页列表中刷新一定比例的页会磁盘,这个过程是异步的,不会阻塞查询
- Flush_lru_list checkPoint
- LRU列表要保证有差不多100个空闲页可用。
- Page Cleaner线程中,会检查LRU列表中是否有足够的可用空间,没有的话,则移除LRU尾部的页,如果这些页中有脏页,则需要CheckPoint
- Async/Sync Flush CheckPoint
- 重做日志不可用的情况下,需要强制将一些页刷回到磁盘,而此时脏页是从脏页列表中选取的。若将已经写入到重做日志的LSN记为redo_lsn
- 用来保证重做日志的循环使用。MySQL 5.6 以后,该操作移到了 Page Cleaner Thread 中,故不会阻塞用户的查询
- Dirty Page too much CheckPoint
- 总的来说,是为了保证缓冲池中有足够可用的页。InnoDB—max_dirty_pages_pct 标识当缓冲池中脏页的数量占据 75%时,强制 CheckPoint,刷新部分脏页回磁盘
9 mysql 优化的切入点
- explain分析sql语句,查看执行计划,优化sql
- 查看是否涉及多表和子查询,优化Sql结构,如去除冗余字段,避免返回不必要的数据
- 优化索引结构,看是否可以适当添加索引
- 数量大的表,可以考虑进行分库/分表
- 数据库主从分离,读写分离
- 查看mysql执行日志,分析是否有其他方面的问题
10 导致索引失效的几种情况
- 查询条件含 or、is null、is not null、in、exists、not in、!=、<> 都可能会导致索引失效
- 列是字符串类型,查询时条件没有使用引号扣起来
- like 前模糊匹配
- 在列字段使用内置函数,或者做加减乘除运算
- innodb 估算走全表扫描比走索引快,大概是 1/3 ?
- 连接查询,两个表用作关联的字段,其编码不一致
- 联合索引,不遵循最左前缀原则
11 varchar(20) 20 有什么意义 和 char(20) 的20 又有什么不同
- vachar(20) 指明其字段长度最大是 20,其长度可变
- char(20),指明其字段长度是 20,长度不可变,多余部分空格填充
- int(10),指明有效长度是10 ,多余部分前面用零填充
12 给字符串列建索引 需要注意什么
- 选择固定前缀子串作为索引,可以节约空间,缺点可能需要多次IO扫描
- 如果不是字符串全长度作为索引,在索引覆盖时仍需要回表查询
- 固定前缀的离散值必须够大,不然导致索引失效
- 倒序存储
- 字符串计算hash值,建立一个hash值的索引列。范围查询时索引失效
13 有哪几种索引
- 索引结构上可分为两种类型
- 聚簇索引
- 非聚簇索引,二级索引
- 一个表中只能拥有一个聚集索引,而非聚集索引一个表可以存在多
- 聚集索引,索引中键值的逻辑顺序决定了表中相应行的物理顺序;非聚集索引,索引中索引的逻辑顺序与磁盘上行的物理存储顺序不同
- 索引是通过二叉树的数据结构来描述的,我们可以这么理解聚簇索引:索引的叶节点就是数据节点。而非聚簇索引的叶节点仍然是索引节点,只不过有一个指针指向对应的数据块
- innodb的索引语法分为五种
- 主键索引:数据列不允许重复,不允许为NULL,一个表只能有一个主键
- 唯一索引:数据列不允许重复,允许为NULL值,一个表允许多个列创建唯一索引
- 普通索引:基本的索引类型,没有唯一性的限制,允许为NULL值
- 全文索引:是目前搜索引擎使用的一种关键技术,对文本的内容进行分词、搜索
- 组合索引:多列值组成一个索引,用于组合搜索,效率大于索引合并
- innodb对索引的优化
- 索引下推:是 MySQL 5.6 引入的, 可以在索引遍历过程中,对索引中包含的字段先做判断,
直接过滤掉不满足条件的记录,减少回表次数 - 最左前缀原则:MySQl建立联合索引时,会遵循最左前缀匹配的原则,即最左优先。如果你建立一个(a,b,c)的联合索引,
相当于建立了(a)、(a,b)、(a,b,c)三个索引 - 覆盖索引:只需要在一棵索引树上就能获取 SQL 所需的所有列数据,无需回表,速度更快
- 索引下推:是 MySQL 5.6 引入的, 可以在索引遍历过程中,对索引中包含的字段先做判断,
14 innodb 索引的底层实现
- innodb 索引分为 B+树索引 和 hash索引。哈希索引是自适应索引,由innodb 是否建立,DBA无法干预
- B+ 和 hash 索引的区别
- B+树可以进行范围查询,Hash索引不能。
- B+树支持联合索引的最左侧原则,Hash索引不支持。
- B+树支持order by排序,Hash索引不支持。
- Hash索引在等值查询上比B+树效率更高。
- B+树使用like 进行模糊查询的时候,like后面(比如%开头)的话可以起到优化的作用,Hash索引根本无法进行模糊查询。
14.1 为啥使用B+作为数据索引,而不是二叉树,或者平衡树,B树
- 二叉树在特殊情况会退化为链表,查询操作是O(n)
- 平衡二叉树,树的高度太高。而mysql的数据持久化在磁盘,读取磁盘IO会非常多。而B+是矮胖型树,磁盘IO小很多
- B树会在非节点存在键值和数据,innodb的页默认是16KB,其高度不比平衡二叉树低多少。而B+在非叶子节点只存键值,树高度很低
- B+树的叶子节点会使用前后指针连起来,那B+树用来范围查找,排序,分组及去重都非常简单快速
15 now() 和 current_date() 有什么区别
- now()精确到时分秒,current_date() 只精确日期
16 blob 和 text 的区别
- Blob 用于存储二进制数据,而 Text 用于存储大字符串
- Blob 值被视为二进制字符串(字节字符串),它们没有字符集,并且排序和比较基于列值中的字节的数值。
- text 值被视为非二进制字符串(字符字符串)。它们有一个字符集,并根据字符集的排序规则对值进行排序和比较
17 建立索引的原则是什么,是否越多越好,为什么
- 数据量少的不适合加索引
- 更新比较频繁的也不适合加索引
- 区分度低的字段不适合加索引(如性别)
- 创建索引和更新索引要耗费时间
- 索引需要占物理空间,除了数据表占用数据空间之外,每一个索引还要占用一定的物理空间
- 以表中的数据进行增、删、改的时候,索引也要动态的维护
- 定义有外键的数据列一般要建立索引
- 在order by或者group by子句中,创建索引需要注意顺序
18 连接查询,innodb 有哪几种优化机制,了解吗
- Index Nested-Loop Join (NLJ)
select * from t1 straight_join t2 on (t1.a=t2.a);
;t2 的字段 a 上有索引- 从表 t1 中读入一行数据 R
- 从数据行 R 中,取出 a 字段到表 t2 里去查找
- 取出表 t2 中满足条件的行,跟 R 组成一行,作为结果集的一部分
- 重复执行步骤 1 到 3,直到表 t1 的末尾循环结束
- 在形式上,这个过程就跟我们写程序时的嵌套查询类似,并且可以用上被驱动表的索引,所以我们称之为“Index Nested-Loop Join”,简称 NLJ
- Simple Nested-Loop Join
select * from t1 straight_join t2 on (t1.a=t2.b);
;t2 的字段 b 上没有索引- 因为 t2.b 没有索引,只能循环遍历比较。 如果 t1 有100行数据,t2 有 1000 行,则需要 100 * 1000 = 10 0000。
- Block Nested-Loop Join
- Simple Nested-Loop Join 太低效了,innodb 会优化成 Block Nested-Loop Join
- 把表 t1 的数据读入线程内存 join_buffer 中,由于我们这个语句中写的是 select *,因此是把整个表 t1 放入了内存
- 扫描表 t2,把表 t2 中的每一行取出来,跟 join_buffer 中的数据做对比,满足 join 条件的,作为结果集的一部分返回
- Block Nested-Loop Join 算在内存操作,速度快很多
- Multi-Range Read,这个优化的主要目的是尽量使用顺序读盘。
- 根据索引 a,定位到满足条件的记录,将 id 值放入 read_rnd_buffer 中
- 将 read_rnd_buffer 中的 id 进行递增排序
- 排序后的 id 数组,依次到主键 id 索引中查记录,并作为结果返回
- Batched Key Access(BKA),(BKA)是对 NLJ 算法的优化
- 我们就把表 t1 的数据取出来一部分,先放到一个临时内存 join_buffer
- 然后按照 MRR 思想批量去 第二张表 t2 根据 ID 顺序查询数据
- BNL 转 BKA
select * from t1 join t2 on (t1.b=t2.b) where t2.b>=1 and t2.b<=2000;
t2.b 没有索引- 一些情况下,我们可以直接在被驱动表上建索引(或者使用临时表),这时就可以直接转成 BKA 算法了
19 buffer pool
- 预读:用于异步将磁盘的页读取到buffer pool中,预料这些页会马上被读取到
- 自适应哈希索引:提升热点等值查询sql的效率
- double write buffer,保障在innodb崩溃的时候,也能保证数据的一致性
- redo log buffer 保证 redo log 刷盘的效率
20 innodb 什么时候会用到临时表
- sort buffer、内存临时表和 join buffer。这三个数据结构都是用来存放语句执行过程中的中间数据,以辅助 SQL 语句的执行的。
其中,我们在排序的时候用到了 sort buffer,在使用 join 语句的时候用到了 join buffer - 临时表的建立有以下几个场景
- union 执行流程
- group by 执行流程
- 尽量让 group by 过程用上表的索引,使用 explain 确认没有 Using temporary 和 Using filesort。此时优化成不使用临时表,不排序
- 如果 group by 需要统计的数据量不大,尽量只使用内存临时表;也可以通过适当调大 tmp_table_size 参数,来避免用到磁盘临时表
- group by 和 order_id 字段不一致时。( group by order_id order by id)
- join 语句,order by 的列不在驱动表里
- distinct + order by
- from 里的子查询
21 mysql 的主从同步整个流程是怎样的
- 主库的更新事件(update、insert、delete)被写到binlog
- 从库发起连接,连接到主库
- 此时主库创建一个binlog dump thread,把binlog的内容发送到从库。
- 从库启动之后,创建一个I/O线程,读取主库传过来的binlog内容并写入到relay log
- 还会创建一个SQL线程,从relay log里面读取内容,从 Exec_Master_Log_Pos 位置开始执行读取到的更新事件,
将更新内容写入到slave的db - 异步复制、半同步和全同步
- 主库执行完提交事务后,立刻异步执行将结果返给给客户端,并不关心从库是否收到并处理。
如果出现从库并未收到处理的情况,还是会有主从数据不一致的问题 - 主库在执行完客户端提交的事务后不是立刻返回给客户端,而是等待至少一个从库接收到并写到 relay log 中才返回给客户端。
相对于异步复制,半同步复制提高了数据的安全性,同时它也造成了一定程度的延迟 - 当主库提交事务之后,所有的从库节点必须收到、并且提交这些事务,然后主库线程才能继续做后续操作
- 主库执行完提交事务后,立刻异步执行将结果返给给客户端,并不关心从库是否收到并处理。
22 mysql 读写分离时,存在主从延迟,有哪几种策略解决
- 网络延迟
- 当sql在进行锁表时,可能会导致大量 sql 积压,未同步到服务器,此时有主从延时
- 如果服务器硬件性能好,可以设置 sync_binlog = 1 , innodb_flush_log_at_trx_commit = 1
- 读写分离减少主库压力
- 如果读从库存在延迟
- 强制读主库
- 写入redis缓存中间件,从 redis 读取最新数据
- 延迟读
23 自适应哈希索引(AHI)了解过吗,innodb 在什么情况会用到 hash index
- MySql数据库中的索引B+树的一般高度为3~4层,所以如果用索引B+树查找的话一般要进行3-4次的查找
- Innodb存储引擎会监控对表上二级索引的查找,如果发现某二级索引被频繁访问,二级索引成为热数据,建立哈希索引可以带来速度的提升
- 自适应哈希索引是通过缓冲池的B+树页来构造的,因此建立的速度很快,不需要对整张表构建哈希索引
- hash自适应索引会占用innodb buffer pool
- 自适应hash索引只适合搜索等值的查询,如 select * from table where index_col='xxx',而对于其他查找类型,如范围查找,是不能使用的
- 哈希索引数据并不是按照索引值顺序存储的,所以也就无法用于排序
24 B+树,它的优点在哪
- B+Tree 的根节点和枝节点中都不会存储数据,只有叶子节点才存储数据
- B+Tree 的每个叶子节点增加了一个指向相邻叶子节点的指针,它的最后一个数据会指向下一个叶子节点的第一个数据,形成了一个有序链表的结构
- 扫库、扫表能力更强(如果我们要对表进行全表扫描,只需要遍历叶子节点就可以了,不需要遍历整棵 B+Tree 拿到所有的数据)
- B+Tree 的磁盘读写能力相对于 B Tree 来说更强,同数据量下磁盘I/0次数更少(根节点和枝节点不保存数据区,所以一个节点可以保存更多的关键字,一次磁盘加载的关键字更多)
- 范围查询和排序能力更强(因为叶子节点上有下一个数据区的指针,数据形成了链表)
25 最左前缀匹配,索引下推,索引覆盖
- 索引下推:是 MySQL 5.6 引入的, 可以在索引遍历过程中,对索引中包含的字段先做判断,
直接过滤掉不满足条件的记录,减少回表次数 - 最左前缀原则:MySQl建立联合索引时,会遵循最左前缀匹配的原则,即最左优先。如果你建立一个(a,b,c)的联合索引,
相当于建立了(a)、(a,b)、(a,b,c)三个索引 - 覆盖索引:只需要在一棵索引树上就能获取 SQL 所需的所有列数据,无需回表,速度更快
26 数据库的乐观锁和悲观锁是什么,怎么实现
- 悲观锁:当前线程在修改,其他线程阻塞等待。select for update 、select in share lock
- 乐观锁:其他线程过来,先放过去修改。当前线程如果看到别的线程没修改过则修改成功,如果别的线程修改过则修改失败或者重试。
读的时候带一个版本号,修改的时候版本等值比较,未改动则修改成功,不相等则失败
27 union all 和 union 有什么区别,哪个效率更好
- Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序
- Union All:对两个结果集进行并集操作,包括重复行,不进行排序
- UNION 的效率高于 UNION ALL
28 多表关联查询,有什么优化建议不
- 减少子查询,使用 join 代替
- in和not in也不慎重使用的话,会导致全表扫描
- 使用exists而不是in是一个不错的选择
- 避免索引失效
29 超大表数据分页,怎么处理
- select from table where age > 20 limit 1000000,10这种查询其实也是有可以优化的余地的。
这条语句需要load1000000数据然后基本上全部丢弃,只取10条当然比较慢。
可以修改为select from table where id in (select id from table where age > 20 limit 1000000,10)。
这样虽然也load了一百万的数据,但是由于索引覆盖,减少不必要的回表查询 - 如果使用的索引列 ID 是连续的,我们还可以 select * from table where id > 1000000 limit 10
- 业务上限制翻页次数
30 group by 产生的数据是不是有序的
- group by xxx 默认会按 xxx 排序
- 如果不想排序可以加语句 order by null,选择不排序
31 group by 和 order by 怎么优化
- group by 非执行时选取的索引列时,则额外使用临时表并默认排序,所以可以尽量 group by (index_x) 或者 group by xxx order by null
- group by xxx 和 order by yyy 不同的列时,也会使用临时表,尽量使得 xxx == yyy
32 分表分库,怎么分
- 分表方案(水平分表,垂直分表,切分规则hash等)
- 垂直分表:把长度较大且访问不频繁的字段,拆分出来创建一个单独的扩展表 xxx_ext 进行存储
- 水平分表:分成多个结构相同的表,而每个表只占原表一部分数据,然后按不同的条件分散到多个数据库中
- 库内分表:库内分表虽然将表拆分,但子表都还是在同一个数据库实例中,只是解决了单一表数据量过大的问题,并没有将拆分后的表分布到不同机器的库上,还在竞争同一个物理机的CPU、内存、网络IO
- 分库分表:分库分表则是将切分出来的子表,分散到不同的数据库中,从而使得单个表的数据量变小,达到分布式的效果
- 切分规则
- ID RANGE: 从0到10000一个表,10001到20000一个表
- HASH取模: 例如电商的 order 和 order_ext 关联一个 user_id ,然后user_id hash取模,分配到不同的数据库上
- 地理区域:比如按照华东,华南,华北这样来区分业务,七牛云应该就是如此
- 时间:按照时间切分,就是将6个月前,甚至一年前的数据切出去放到另外的一张表,因为随着时间流逝,这些表的数据 被查询的概率变小,所以没必要和“热数据”放在一起
- 分库分表一些问题(事务问题?跨节点Join的问题)
- 分布式事务
- 跨节点Join的问题
- 分页、排序,分组的坑
- 全局唯一主键问题
- 分库分表中间件(Mycat,sharding-jdbc等)
33 MVCC了解过不,它的实现原理是怎样的的
- mvcc 是一系列的 undo log 相连行成的版本视图。它的实现原理主要是依赖数据记录中
DB_TRX_ID、DB_ROLL_PTR、DB_ROW_ID 3个隐式字段,undo log ,read View 来实现的 - MVCC其好处是读不加锁,读写不冲突,并发性能好
- 详解可以看看这篇文章:数据库篇:mysql事务原理之MVCC视图+锁
34 limit 100000 很慢怎么办
- 如果id是连续的,筛选大于上次查询的最大记录ID,再往下limit
- 限制翻页页数
- order by 索引列。再做限制
35 百万级别或以上的数据,你是如何删除的
- 我们想要删除百万数据的时候可以先删除索引
- 然后批量删除其中无用数据
- 删除完成后重新创建索引
标签:面试题,log,buffer,t2,索引,innodb,mysql,整理,数据 来源: https://www.cnblogs.com/cscw/p/16501451.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。