osd故障检测机制 前言 心跳是用于OSD节点间检测对方是否故障的,以便及时发现故障节点进入相应的故障处理流程。故障检测需要在故障的发现时间和心跳带来的负载之间做权衡,如果心跳频率太高则过多的心跳报文会影响系统性能,如果心跳频率过低则会延长发现故障节点的时间,从而影响
CEPH简介 不管你是想为云平台提供Ceph 对象存储和/或 Ceph 块设备(下一篇介绍其差别),还是想部署一个 Ceph 文件系统或者把 Ceph 作为他用,所有 Ceph 存储集群的部署都始于部署一个个 Ceph 节点、网络和 Ceph 存储集群。 Ceph 存储集群至少需要一个 Ceph Monitor 和两个 OSD
osd对象存储设备: ceph中数据存储过程首先数据会被分割成多个object,(每个object一个object id,大小可设置,默认是4MB),object是Ceph存储的最小存储单元。由于object的数量很多,为了有效减少了Object到OSD的索引表、降低元数据的复杂度,使得写入和读取更加灵活,引入了pg(Placement Group ):P
之前已详细介绍了Ceph分布式存储基础知识,下面简单记录下Centos7使用Ceph-deploy快速部署Ceph环境:1)基本环境 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
一、ceph概念 Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。ceph 的统一体现在可以提供文件系统、块存储和对象存储,分布式体现在可以动态扩展。 特点: (1)高性能: a. 摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高
https://www.jianshu.com/p/ae96ee24ef6c 调整ceph的pg数 PG全称是placement groups,它是ceph的逻辑存储单元。在数据存储到cesh时,先打散成一系列对象,再结合基于对象名的哈希操作、复制级别、PG数量,产生目标PG号。根据复制级别的不同,每个PG在不同的OSD上进行复制和分发。可以
关于块存储、文件存储、对象存储方面的知识在知乎上看到了个很好的解答:https://www.zhihu.com/question/21536660 通俗易懂,查了些资料做了详细的补充。 块存储 典型设备:磁盘阵列、硬盘 块存储主要是将裸磁盘空间整个映射给主机使用的。 就是说例如:磁盘阵列里
1、查看ceph集群配置信息 ceph daemon /var/run/ceph/ceph-mon.$(hostname -s).asok config show 2、在部署节点修改了ceph.conf文件,将新配置推送至全部的ceph节点 ceph-deploy --overwrite-conf config push dlp node1 node2 node3 3、检查仲裁状态,查看mon添加是否成功 cep
先上几张图展示下目前Ceph存储的大体情况,模拟更换服务器CLIENT3上数据硬盘,ceph存储设备已经有存放数据,观察更换过程及恢复变化。[root@client3 ~]# systemctl stop ceph-osd@2.service[root@client3 ~]# umount /var/lib/ceph/osd/ceph-2 [root@client3 ~]# ceph osd out osd.2[ro
引出 初衷是自己搭建一套ceph的实验集群,按照官方的quick start,按理说应该是分分钟的事,因为GFW的原因,搞得忙活了一上午,再加上心情烦躁,中间出现了各种差错,这里记录一下。 系统预检并安装ceph-deploy 准备集群系统,网络设置,SSH无密码登录等设置略过,详细参考PREFLIGHT CHECKLIST 这里
一、测试环境描述 之前我们已快速部署好一套Ceph集群(3节点),现要测试在现有集群中在线方式增加节点 如下表中可以看到增加节点node004具体配置 主机名 Public网络 管理网络 集群网络 说明 admin 192.168.2.39 172.200.50.39 --- 管理节点 node001
1、删除osd删除创建的osd。数据和日志在同一个磁盘上的osd将osd.0踢出集群,执行ceph osd out 0停止此osd进程,执行systemctl stop ceph-osd@0 然后执行:ceph osd crush remove osd.0,此时osd.0已经不再osd tree中了 执行ceph auth del osd.0 和 ceph osd rm 0, 此时删除成功但是原来的
MON、OSD10.110.180.112AdminMON、OSD10.110.180.113Node1MON、OSD10.110.180.114Node2 此次部署系统为Cenots 7 Ceph文件目录部署过程此部署过程是采用文件目录方式挂在激活OSD的方式部署Ceph集群。1.系统关闭防火墙 关闭selinux 2.配置ntp 时间同步 配置普通用户 sudo 免
[root@node141 ~]# ceph health detailHEALTH_ERR 2 scrub errors; Possible data damage: 2 pgs inconsistentOSD_SCRUB_ERRORS 2 scrub errorsPG_DAMAGED Possible data damage: 2 pgs inconsistentpg 3.3e is active+clean+inconsistent, acting [11,17,4]pg 3.42 is activ
(1)查看集群状态,发现2个osd 状态为down [root@node140 /]# ceph -s cluster: id: 58a12719-a5ed-4f95-b312-6efd6e34e558 health: HEALTH_ERR noout flag(s) set 2 osds down 1 scrub errors Possible data damage:
PG 当Ceph 集群接收到数据存储的请求时,它被分散到各个 PG 中。然而, CRUSH 首先将数据分解成 一组对象,然后根据对象名称、复制级别和系统中总的 PG 数目等信息执行散列操作,再将结果生成 PG ID。 PG 是一组对象的逻辑集合,通过复制它到不同的 OSD 上来提供存储系统的可靠性。 根据 Cep
http://blog.itpub.net/31545808/viewspace-2637083/ 注意空格,有的命令少空格 随着云计算业务的快速发展,国内外云计算企业的专利之争也愈发激烈。在云计算这样的技术领域,专利储备往往代表着企业最新的技术实力。本文将与大家共同分享云计算领域的最新技术与解决方案。 一
简要步骤: 1.软件包安装 2.时间同步设置 3.设置/etc/hosts,创建ceph-admin用户 4.在deploy-ceph上分发配置,使用ceph-admin用户 cd /home/ceph-admin/ceph-cluster ceph-deploy admin hostname001 5.查看osd上的磁盘列表 ceph-deploy disk list hostname001 ceph-deploy disk list
部署使用ceph集群的时候遇到一个情况,在大规模集群的时候,有节点网络或者osd异常时,mon迟迟不把该异常的osd标down,一直等待900s后mon发现该节点的osd一直没有更新pgmap才把异常的osd标down,并更新osdmap扩散出去。现象:部署使用ceph集群的时候遇到一个情况,在大规模集群的时候,有节点网络
描述命令查看ceph版本1 2root@controller:~# ceph --version ceph version 12.2.11 (26dc3775efc7bb286a1d6d66faee0ba30ea23eee) luminous (stable)查看ceph相关的进程 The Ceph Manager daemon (ceph-mgr) runs alongside monitor daemons, to provide additional monitoring an
集群规模: 1个monitor , 2个osd 机器monitor—| _172.16.x.x (ip2,10.1.x.x/24) ceph01 |---- osd1 _172.16.x.x (ip2,10.1.x.x/24) ceph02 |----
存储设备有三种使用类型,块存储、文件存储、对象存储。Ceph对于上述3中类型的使用方式都支持,需要进行不同的服务端配置与客户端调用。1、块存储1.1服务端配置创建poolceph osd pool create test 32创建块设备rbd create rbd_write --size 1024 --pool test查看pool下面的
现象:部署使用ceph集群的时候遇到一个情况,在大规模集群的时候,有节点网络或者osd异常时,mon迟迟不把该异常的osd标down,一直等待900s后mon发现该节点的osd一直没有更新pgmap才把异常的osd标down,并更新osdmap扩散出去。但这个900s内,客户端IO还是会一直往异常的osd上去下发,导致io超时,并进
osd启动,报错:“** ERROR: error creating empty object store in /var/lib/ceph/tmp/mnt.3kWxLj: (22) Invalid argument” 第一次遇到是因为开源ceph的auth出问题了,导致启动osd时候报上图中的错误 第二次是因为ceph.conf配置文件未定义,导致启动osd时候报上图中的错误