ceph-deploy 部署

2025-07-12

ceph 集群部署
- ceph deploy 安装
- RBD 块存储
- RGW 对象存储
- OSD 扩容
- RGW 高可用集群
- ceph 集群运维
- CRUSH Map 调整
- RBD 高级功能
- ceph 监控管理

1.0 ceph deploy 安装

1.1 安装方式

主流安装方式:
- cephadm
- ceph-deploy
- 手动安装
- Rook

1.1.1 所需资源

PUBLIC_IP	CLUSTER_IP	主机名	配置	系统	服务
10.16.41.136	172.16.100.180	ceph-node01	8C/16G/40G+(100G*2)	Centos7.9	mon、ceph-mgr、mds、rgw
10.16.41.30	172.16.100.39	ceph-node02	8C/16G/40G+(100G*2)	Centos7.9	mon、ceph-mgr、mds、rgw
10.16.41.169	172.16.100.54	ceph-node03	8C/16G/40G+(100G*2)	Centos7.9	mon、ceph-mgr、mds
10.16.41.27	-	ceph-admin	8C/16G/40G	Centos7.9	ceph-admin、ceph-deploy、client、dashboard
10.16.41.178	-	ceph-haproxy01	8C/16G/40G	Centos7.9	haproxy、keepalived
10.16.41.63	-	ceph-haproxy02	8C/16G/40G	Centos7.9	haproxy、keepalived
vip: 10.16.41.150

1.1.2 集群拓扑

public(公共): 客户端、前端
cluster(集群): 专用、复制、后端
实际生产可根据需求确认是否部署 RGW

upload successful

1.2 环境准备

1.2.1 主机名

6台 ceph 集群主机名和 hosts 全部规划和配置好

# cat /etc/hosts
...

10.16.41.27	ceph-admin
10.16.41.136	ceph-node01
10.16.41.30	ceph-node02
10.16.41.169	ceph-node03

1.2.1 keygen

在 ceph-admin 主机上配置 ssh-keygen 认证

[root@ceph-admin ~]# ssh-keygen
[root@ceph-admin ~]# ssh-copy-id root@ceph-admin
[root@ceph-admin ~]# ssh-copy-id root@ceph-node01
[root@ceph-admin ~]# ssh-copy-id root@ceph-node02
[root@ceph-admin ~]# ssh-copy-id root@ceph-node03

1.2.1 时间同步

ceph 集群对时间精度要求非常高

1
2
3

# timedatectl set-timezone Asia/Shanghai
# crontab -l
*/5 * * * * /usr/sbin/ntpdate ntp.aliyun.com &> /dev/null

1.2.1 yum 源

# cat /etc/yum.repos.d/ceph.repo 
[ceph_norch]
name=norch
baseurl=https://mirrors.aliyun.com/ceph/rpm-nautilus/el7/noarch/
enabled=1
gpgcheck=0

[ceph_x86_64]
name=x86_64
baseurl=https://mirrors.aliyun.com/ceph/rpm-nautilus/el7/x86_64/
enabled=1
gpgcheck=0

# scp /etc/yum.repos.d/ceph.repo root@ceph-node01:/etc/yum.repos.d/
# scp /etc/yum.repos.d/ceph.repo root@ceph-node02:/etc/yum.repos.d/
# scp /etc/yum.repos.d/ceph.repo root@ceph-node03:/etc/yum.repos.d/

# yum clean all
# yum repolist

upload successful

1.3 ceph-deploy 安装

其它节点无需安装

1 2	[root@ceph-admin ~]# yum -y install python-setuptools ceph-deploy [root@ceph-admin ~]# ceph-deploy --version # 查看版本 2.0.1

1.4 monitor 节点部署

双网卡配置参考: https://docs.ceph.com/en/quincy/rados/configuration/network-config-ref/
部署: https://docs.ceph.com/en/nautilus/start/quick-ceph-deploy/
基础环境准备完成后，就可以正式安装 ceph 集群了，先安装 monitor 节点

1.4.1 创建集群

[root@ceph-admin ~]# mkdir -p /data/ceph-deploy
[root@ceph-admin ~]# cd /data/ceph-deploy
[root@ceph-admin ceph-deploy]# ceph-deploy new --public-network 10.16.41.0/24 --cluster-network 172.16.100.0/24 ceph-node01
    --public-network 10.16.41.0/24		# 对外入口网络
    --cluster-network 172.16.100.0/24		#  对内数据内部同步
    ceph-node01					# 将 ceph-node01 部署为 monitor

[root@ceph-admin ceph-deploy]# ll
    ceph.conf
    ceph-deploy-ceph.log
    ceph.mon.keyring				# 身份验证用途

upload successful

1.4.2 ceph 软件包安装

采用手动方式安装；每个 node 节点都安装

1
2
3

[root@ceph-node01 ~]# yum -y install ceph ceph-mon ceph-mgr ceph-radosgw ceph-mds
[root@ceph-node02 ~]# yum -y install ceph ceph-mon ceph-mgr ceph-radosgw ceph-mds
[root@ceph-node03 ~]# yum -y install ceph ceph-mon ceph-mgr ceph-radosgw ceph-mds

1.4.3 初始化 monitor

[root@ceph-admin ceph-deploy]# ceph-deploy mon create-initial
[root@ceph-admin ceph-deploy]# ls -l		# 本地会生成 以下秘钥
    ceph.bootstrap-mds.keyring
    ceph.bootstrap-mgr.keyring
    ceph.bootstrap-osd.keyring
    ceph.bootstrap-rgw.keyring
    ceph.client.admin.keyring

// 如果此过程失败并显示类似“无法找到 /etc/ceph/ceph.client.admin.keyring”的消息，请确保 ceph.conf 中为监控节点列出的 IP 是公共 IP，而不是私有 IP

upload successful

1.4.4 推送配置文件

将配置文件和管理秘钥推送到管理节点和 ceph 节点，以便可以使用 CLI, ceph 而无需 ceph.client.admin.keyring 在每次执行命令时指定 monitor 地址
报错解决办法.官方网站

[root@ceph-admin ceph-deploy]# ceph-deploy admin ceph-node01 ceph-node02 ceph-node03
// 执行完成上面命令后,状态会显示为异常。报错如下
[root@ceph-node01 ~]# ceph health detail			# 查看集群详细状态信息
HEALTH_WARN mon is allowing insecure global_id reclaim
AUTH_INSECURE_GLOBAL_ID_RECLAIM_ALLOWED mon is allowing insecure global_id reclaim
    mon.ceph-node01 has auth_allow_insecure_global_id_reclaim set to true
// 解决办法: 禁用不安全模式
[root@ceph-node01 ~]# ceph config set mon auth_allow_insecure_global_id_reclaim false
[root@ceph-node01 ~]# ceph config set mon mon_warn_on_insecure_global_id_reclaim_allowed false
[root@ceph-node01 ~]# ceph -s					# 再次查看,状态会显示为 "HEALTH_OK" 正常

upload successful

1.4.5 管理器守护进程

主要是用来监控用途

1 2	[root@ceph-admin ceph-deploy]# ceph-deploy mgr create ceph-node01 [root@ceph-node01 ~]# ceph -s

upload successful

1.4.5 部署 OSD 节点

确认有相应的存储磁盘存在

[root@ceph-admin ceph-deploy]# ceph-deploy osd create --data /dev/sdb ceph-node01
[root@ceph-admin ceph-deploy]# ceph-deploy osd create --data /dev/sdb ceph-node02
[root@ceph-admin ceph-deploy]# ceph-deploy osd create --data /dev/sdb ceph-node03
[root@ceph-node01 ~]# ceph -s
[root@ceph-node01 ~]# ceph osd tree			# 查看整个 osd 状态

upload successful

1.5 扩展 mon 与 mgr

一旦集群启动并运行，下一步就是扩展集群。将 ceph 元数据服务器添加到 ceph-node01。然后添加 ceph monitor 和 ceph manager ceph-node02 和 ceph-node03 提高可靠性和可用性
一个 ceph 存储集群至少需要一个 ceph monitor 和 ceph manager 才能运行。为了实现高可用性，ceph 存储集群通常运行多个 ceph monitor，这样单个 ceph monitor 的故障就不会导致 ceph 存储集群瘫痪。ceph 使用 paxos 算法,即基数才能形成仲裁

1.5.1 扩展 monitor

[root@ceph-admin ceph-deploy]# ceph-deploy mon add ceph-node02 --address 10.16.41.30
[root@ceph-node01 ~]# ceph quorum_status --format json-pretty		# 查看
[root@ceph-admin ceph-deploy]# ceph-deploy mon add ceph-node03 --address 10.16.41.169
[root@ceph-node01 ~]# ceph mon stat					# 查看 monitor 状态
[root@ceph-node01 ~]# ceph mon dump					# 查看 monitor 详细信息

upload successful

1.5.2 添加管理器

ceph manager 守护进程以主动/备用模式运行。部署额外的管理器守护进程可确保如果一个守护程序或主机发生故障，另外一个守护程序或主机可以接管不会中断服务

1 2	[root@ceph-admin ceph-deploy]# ceph-deploy mgr create ceph-node02 ceph-node03 [root@ceph-node01 ~]# ceph -s # 可以查看备用 mgr

upload successful

2.0 RBD 块存储

ceph 可以同时提供对象存储 RADOSGW、块存储RBD、文件存储 Ceph FS。RBD 即 RADOS Block Device 的简称，RBD 块存储是最稳定且最常用的存储类型。RBD 块设备类似磁盘可以被挂载。RBD 块设备具有快照、多副本、克隆和一致性等特性，数据条带的方式在 Ceph 集群的多个 OSD 中。
CEPH 存储

upload successful

2.1 创建资源池 Pool

创建资源池.官方网站
pg_num 因目前无法自动计算，以下是一些常用的值
- 小于 5 个 OSD 设置 pg_num 为 128
- 5 ~ 10 个 OSD 设置 pg_num 为 512
- 10 ~ 50 OSD 设置 pg_num 为 1024
- 如果超过 50 个 OSD，需要了解和权衡如何 pg_num 自行计算价值，pgcalc 工具
随着 OSD 数量增加，选择正确的 pg_num 值变得更加重要，因为它对集群的行为及出现问题时数据的持久性 (即灾难性时间导致数据丢失的概率) 有很大影响

[root@ceph-node01 ~]# ceph osd lspools					# 查看块设备池命令
[root@ceph-node01 ~]# ceph osd pool create				# 回车，可以查看相关所需参数
[root@ceph-node01 ~]# ceph osd pool create ceph-test-pool 64 64		# 默认是3个副本
    pool_name: ceph-test-pool
    pg: 64
    pgp: 64
// 当创建好 pool 池之后,需给一个具体类型,默认是 rbd 格式。如果不设定,集群状态会显示不健康状态
[root@ceph-node01 ~]# ceph osd pool application enable ceph-test-pool rbd
[root@ceph-node01 ~]# ceph osd pool application get			# 查看设置了哪些东西。如果没有设置则是空的
[root@ceph-node01 ~]# ceph osd pool application get ceph-test-pool

[root@ceph-node01 ~]# ceph osd lspools					# pool_id: 1; 名称 ceph-test-pool 
1 ceph-test-pool
[root@ceph-node01 ~]# ceph osd pool get ceph-test-pool pg_num		# 查看 pg 数
[root@ceph-node01 ~]# ceph osd pool get ceph-test-pool pgp_num		# 查看 pgp 数
[root@ceph-node01 ~]# ceph osd pool get ceph-test-pool size		# 查看副本数; 默认不指定则是3个副本
[root@ceph-node01 ~]# ceph osd pool get ceph-test-pool -h		# 查看帮助
[root@ceph-node01 ~]# ceph osd pool get ceph-test-pool crush_rule	# 查看调度算法

// 可根据需求进行设置调整
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool size 2
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool pg_num 128	# 调整 pg；pgp也需要调整和pg一样大小
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool pgp_num 128	# gpg 大小调整
[root@ceph-node01 ~]# ceph -s						# 调整完成需检查集群状态是否健康

2.2 RBD 创建和映射

2.2.1 创建、删除、查看

// 在 ceph-client 节点上创建块设备镜像
[root@ceph-node01 ~]# rbd -p ceph-test-pool ls				# -p 指定 pool 名称

// 将 ceph-node01 作为一个客户端来使用
[root@ceph-node01 ~]# rbd create -p ceph-test-pool --image rbd-test1.img --size 10G	# 创建方法1
[root@ceph-node01 ~]# rbd create ceph-test-pool/rbd-test2.img --size 10G		# 创建方法2

// 查看、删除命令
[root@ceph-node01 ~]# rbd info ceph-test-pool/rbd-test1.img				# 查看块文件详细信息
[root@ceph-node01 ~]# rbd rm -p ceph-test-pool --image rbd-test1.img			# 删除块设备

upload successful

2.2.2 禁用特性

去掉它不支持的相关特性 [object-map, fast-diff, deep-flatten]

// 将镜像映射到块；一般情况下块设备是给到虚拟机去使用的，这里实验，则直接将挂到内核上测试验证

[root@ceph-node01 ~]# rbd info ceph-test-pool/rbd-test2.img
[root@ceph-node01 ~]# rbd feature disable ceph-test-pool/rbd-test2.img deep-flatten	# 按照顺序，先去除 "deep-flatten"
[root@ceph-node01 ~]# rbd feature disable ceph-test-pool/rbd-test2.img fast-diff
[root@ceph-node01 ~]# rbd feature disable ceph-test-pool/rbd-test2.img exclusive-lock
[root@ceph-node01 ~]# rbd info ceph-test-pool/rbd-test2.img

upload successful

2.2.3 挂载

1 2	[root@ceph-node01 ~]# rbd map ceph-test-pool/rbd-test2.img # 镜像挂载到 "/dev/rbd0" 设备 [root@ceph-node01 ~]# rbd device list

upload successful

2.2.4 使用

[root@ceph-node01 ~]# fdisk -l /dev/rbd0			# 同本地磁盘一样
[root@ceph-node01 ~]# mkfs.ext4 /dev/rbd0			# 演示操作，对其进行格式化，不做分区
[root@ceph-node01 ~]# mkdir /mnt/rbd-test2
[root@ceph-node01 ~]# mount /dev/rbd0 /mnt/rbd-test2/
[root@ceph-node01 ~]# df -hT			# 同使用本地盘是一样的

// 可以写入操作了
[root@ceph-node01 ~]# echo "write ok" > /mnt/rbd-test2/rbd-test2.txt

upload successful

2.3 RBD 块存储扩容

磁盘扩容一般分三个层面: RBD 底层扩容、磁盘 MBR或者GPT 扩容、文件系统扩容

// 基于 rbd-test2.img 这块盘进行扩容
[root@ceph-node01 ~]# rbd -p ceph-test-pool ls
[root@ceph-node01 ~]# rbd info ceph-test-pool/rbd-test2.img 			# 当前是 10G,扩容到 20G
[root@ceph-node01 ~]# rbd resize ceph-test-pool/rbd-test2.img --size 20G	# 扩容到 20G
[root@ceph-node01 ~]# rbd info ceph-test-pool/rbd-test2.img 
[root@ceph-node01 ~]# lsblk							# 磁盘空间大小20G；但是 "文件系统" 没有扩容
[root@ceph-node01 ~]# df -hT
[root@ceph-node01 ~]# resize2fs /dev/rbd0					# 即扩容完成

upload successful

2.4 RBD 数据写入流程

一个文件最终会切割成多个 objects
每个 objects 是 4M 大小
objects 再存储到 PG 上，会经过一次 hash 的运算，再取掩码 mask,得到它落在哪个 pg 上
然后 pg 再通过 CRUSH 算法，最终找到对应的 OSD 上

upload successful

1. objects
[root@ceph-node01 ~]# rbd info ceph-test-pool/rbd-test2.img					# 查看 objects
[root@ceph-node01 ~]# rados -p ceph-test-pool ls | grep rbd_data.11a6be2183e2			# 查看 objects 大小 4M (size 4194304)
[root@ceph-node01 ~]# rados -p ceph-test-pool stat "rbd_data.11a6be2183e2.000000000000042c"

2. pg
[root@ceph-node01 ~]# ceph osd map ceph-test-pool rbd_data.11a6be2183e2.000000000000042c	# 查看 objects 落在那个 pg 上
osdmap e27 pool 'ceph-test-pool' (1) object 'rbd_data.11a6be2183e2.000000000000042c' -> pg 1.542ef600 (1.0) -> up ([1,2], p1) acting ([1,2], p1)
    pg 1.542ef600	# pg 这个目录 1.f05e358b
    (1.0)		# 落在了 1.0 这个 pg 
    up ([1,2]		# 存储在 osd 的 1 和 2 上
[root@ceph-node01 ~]# ceph osd tree				# 查看 osd 1 和 2 在哪个节点上

// 由于受分配空间大小，随着使用，真正的空间大小才会随着增加，所以可以计算
[root@ceph-node01 ~]# rados -p ceph-test-pool ls | grep "rbd_data.11a6be2183e2" | wc -l			# 有 98 的 objects；98 * 4 = 392
[root@ceph-node01 ~]# df -hT
[root@ceph-node01 ~]# watch -n 1 'rados -p ceph-test-pool ls | grep "rbd_data.11a6be2183e2" | wc -l'	# 如果有数据写入，则可以动态看到 objects 的增长过程

upload successful

3.0 RGW 对象存储

通过对象存储，将数据存储为对象，每个对象除了包含数据，还包含数据自身的元数据
对象通过 Object ID 来检索，无法通过普通文件系统操作来直接访问对象，只能通过 API 来访问，或者第三方客户端（实际也是对API的封装）
对象存储中的对象不整理到目录中，而是存储在扁平的命名空间中，Amazon S3 将这个扁平命名空间成为 bucket

upload successful

3.1 RGW 网关架构

网关架构.官方网站

upload successful

3.2 部署 RGW 存储网关

// 确认 radosgw 包已经安装
[root@ceph-node01 ~]# rpm -qa | grep radosgw
[root@ceph-node02 ~]# rpm -qa | grep radosgw
[root@ceph-admin ceph-deploy]# ceph-deploy rgw -h
[root@ceph-admin ceph-deploy]# ceph-deploy rgw create ceph-node01		# 让 ceph-node01 成为 rgw ; 默认端口 7480
[root@ceph-node01 ~]# ceph -s
[root@ceph-node01 ~]# netstat -nlput | grep 7480
[root@ceph-node01 ~]# curl http://ceph-node01:7480 | grep -o "anonymous"	# 可以使用 curl 验证
// web 访问如下图响应表示网关正常工作: http://10.16.41.136:7480/

upload successful

3.3 修改 RGW 默认端口

7480 Civetweb 默认在端口上运行。要更改默认端口 (例如，更改为 80)，请修改管理服务器工作目录中的 ceph 配置文件。添加标题为 [client.rgw.]的部分，替换为 ceph 对象官网节点的短节点名称 (即: hostname -s)
端口修改.官方网站

3.3.1 修改配置文件

// 修改 ceph-deploy 文件中的 ceph.conf，确保配置的唯一性
[root@ceph-admin ceph-deploy]# cat ceph.conf 
[global]
fsid = 9504ad3b-d89d-4bba-9bd2-94be5c8d3f75
public_network = 10.16.41.0/24
cluster_network = 172.16.100.0/24
mon_initial_members = ceph-node01
mon_host = 10.16.41.136
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx

[client.rgw.ceph-node01]			# ceph 节点对象的短节点名称 (hostname -s)
rgw_frontends = "civetweb port=80"

3.3.2 push 配置到集群节点

1 2	[root@ceph-admin ceph-deploy]# ceph-deploy --overwrite-conf config push ceph-node01 ceph-node02 ceph-node03 --overwrite-conf # 表示覆盖配置

3.3.3 配置生效

重启配置、检查端口是否生效

1
2
3

[root@ceph-node01 ~]# systemctl restart ceph-radosgw.target
[root@ceph-node01 ~]# netstat -nlput | grep 80
[root@ceph-node01 ~]# curl http://ceph-node01:80 | grep -o "anonymou		# curl 验证下修改后的80端口网关是否正常工作

3.4 RGW 之 S3 接口使用

兼容 S3 风格
swift 风格

3.4.1 兼容 S3 风格

3.4.1.1 创建用户

// 要使用 REST 接口，首先为 S3 接口创建初始 ceph 对象网关用户。然后，为 swift 界面创建一个子用户。然后需要验证创建的用户是否能够访问网关。
// 创建用户 S3 访问的 radosgw 用户
//  radosgw 需要创建用户并授权访问权限。该命令将提供有关其它命令选项信息
// 要创建用户，请在 <gateway host> 上执行以下命令

[root@ceph-node01 ~]# radosgw-admin user create --uid="ceph-s3-user01" --display-name="Ceph S3 User Test"	# 用户创建完成
    // 如下 key 是后续访问 radosgw 所需要的认证
    "user": "ceph-s3-user01",
    "access_key": "T5HT88JJ89N9CBTT1X6J",
    "secret_key": "5tsbwNgnzKiEG9skVA4mN9Xpn15hk2EOJBke5QCF"

// 忘记 key，查询方法
[root@ceph-node01 ~]# radosgw-admin user list
[root@ceph-node01 ~]# radosgw-admin user info --uid ceph-s3-user01

3.4.1.2 CMD 管理对象存储

基于运维人员通过命令 cmd 来管理

[root@ceph-node01 ~]# s3cmd --configure
    Access Key: T5HT88JJ89N9CBTT1X6J
    Secret Key: 5tsbwNgnzKiEG9skVA4mN9Xpn15hk2EOJBke5QCF
    Default Region [US]: 					# 默认
    S3 Endpoint [s3.amazonaws.com]: 10.16.41.136:80
    DNS-style bucket+hostname:port template for accessing a bucket [%(bucket)s.s3.amazonaws.com]: 10.16.41.136:80/%(bucket)s	# 也可以采用 dns_域名 方式
    Encryption password: 
    Path to GPG program [/usr/bin/gpg]: 
    Use HTTPS protocol [Yes]: no
    HTTP Proxy server name: 
    Test access with supplied credentials? [Y/n] Y
    Save settings? [y/N] y
    Configuration saved to '/root/.s3cfg'			# 配置保存路径

upload successful

3.4.1.32 s3cmd 使用方法

// 命令使用方法
[root@ceph-node01 ~]# s3cmd -h
[root@ceph-node01 ~]# vim /root/.s3cfg 
    ...
    // 修改配置
    signature_v2 = True				# 通过命令创建 bucket，需将版本开启由 False 修改为 True
[root@ceph-node01 ~]# s3cmd mb s3://s3cmd-test1	# 创建 bucket
[root@ceph-node01 ~]# s3cmd ls

3.4.1.4 s3cmd 上传对象

[root@ceph-node01 ~]# s3cmd put /etc/fstab s3://s3cmd-test1/fstab-file
// 上传报错解决办法[3种办法]:
    1. 调整 pg_num 和 pgp_num ，默认参数值均为8
    2. 调整 mon_max_pg_per_osd 参数，默认是 300，适当增大；当每个 OSD 中的 PG数量超过这个参数值时，就会报
    3. 增加更多的 OSD 进来

// 采用第 2 种方法
[root@ceph-admin ceph-deploy]# cat ceph.conf 
[global]
fsid = 9504ad3b-d89d-4bba-9bd2-94be5c8d3f75
public_network = 10.16.41.0/24
cluster_network = 172.16.100.0/24
mon_initial_members = ceph-node01
mon_host = 10.16.41.136
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
mon_max_pg_per_osd = 1000

[client.rgw.ceph-node01]
rgw_frontends = "civetweb port=80"

[root@ceph-admin ceph-deploy]# ceph-deploy --overwrite-conf config push ceph-node01 ceph-node02 ceph-node03	# 同步配置

// 重启各节点 ceph-mon
[root@ceph-node01 ~]# systemctl restart [email protected]
[root@ceph-node02 ~]# systemctl restart [email protected]
[root@ceph-node03 ~]# systemctl restart [email protected]
// 再次上传
[root@ceph-node01 ~]# s3cmd put /etc/fstab s3://s3cmd-test1/fstab-file

upload successful

3.4.1.5 s3cmd 上传目录

1 2	[root@ceph-node01 ~]# s3cmd put /etc/ s3://s3cmd-test1/etc/ --recursive # 空目录无法上传 --recursive # 上传目录需要使用递归的方式

3.4.1.6 s3cmd 下载、删除

1 2	[root@ceph-node01 ~]# s3cmd get s3://s3cmd-test1/etc/exports exports # 下载到本地目录 [root@ceph-node01 ~]# s3cmd rm s3://s3cmd-test1/fstab-demo

3.4.1.7 数据存储位置信息

[root@ceph-node01 ~]# ceph osd lspools				# 当向 bucket 传入数据后,就会多一个 pool
[root@ceph-node01 ~]# rados -p default.rgw.buckets.data ls	# 查看；实际里面是上传上去的数据
// 每个实际上传上去的文件前缀都有很长的一串字符，可以通过 index 查看数据实际是存储在哪里的
[root@ceph-node01 ~]# rados -p default.rgw.buckets.index ls	# 实际则是,通过 index 索引，找到在 data 里面的数据的存储

3.4.2 swift 风格 API 接口

3.4.2.1 用户创建

可以通过命令行客户端验证快速访问 swift。该命令将提供有关可用命令行选择的更多信息 man swift

// 创建一个 swift 用户需要在 s3 用户基础之上创建 swift 用户
[root@ceph-node01 ~]# radosgw-admin subuser create --uid=ceph-s3-user01 --subuser=ceph-s3-user01:swift --access=full
    :swift		# 类型 swift
    access		# 访问权限是 full
// 创建秘钥
[root@ceph-node01 ~]# radosgw-admin key create --subuser=ceph-s3-user01:swift --key-type=swift --gen-secret
    "user": "ceph-s3-user01:swift",
    "secret_key": "ygooKvSwxPbed0Jpem31kbCKprHATI1U1XE5ARCa"

3.4.2.2 依赖安装

swift 客户端相关依赖安装

[root@ceph-admin ~]# yum -y install python-setuptools python-pip python36
[root@ceph-admin ~]# pip3 install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple/
[root@ceph-admin ~]# pip3 install --upgrade python-swiftclient -i https://mirrors.aliyun.com/pypi/simple/
[root@ceph-admin ~]# swift --version

// 可以 list 之前创建的 bucket
[root@ceph-admin ~]# swift -A http://10.16.41.136:80/auth -U ceph-s3-user01:swift -K 'ygooKvSwxPbed0Jpem31kbCKprHATI1U1XE5ARCa' list
    -A		# 指定认证的 URL
    -U		# 指定 swift 子用户名
    -K		# 指定 secret_key

// 配置环境变量,一遍能使用缩减之后的命令
[root@ceph-admin ~]# cat /etc/profile
...
export ST_AUTH=http://10.16.41.136:80/auth
export ST_USER=ceph-s3-user01:swift
export ST_KEY=ygooKvSwxPbed0Jpem31kbCKprHATI1U1XE5ARCa

[root@ceph-admin ~]# source /etc/profile
[root@ceph-admin ~]# swift list
s3cmd-test1

3.4.2.3 命令使用

[root@ceph-admin ~]# swift post swift-bucket-demo                # 创建 bucket
[root@ceph-admin ~]# swift upload --help                         # 查看帮助

// 上传文件
[root@ceph-admin ~]# swift upload swift-bucket-demo /etc/passwd 
[root@ceph-admin ~]# swift upload swift-bucket-demo /etc/passwd --object-name=passwd

// 上传目录
[root@ceph-admin ~]# swift upload swift-bucket-demo /opt/

// 查看
[root@ceph-admin ~]# swift list swift-bucket-demo

// 下载
[root@ceph-admin ~]# swift download swift-bucket-demo etc/passwd

// 删除
[root@ceph-admin ~]# swift delete swift-bucket-demo opt/test

[root@ceph-node01 ~]# ceph osd lspools                            # 所有的数据都是以对象的形式存储在这些资源池里面

3.4.3 删除块设备镜像

删除 rbd-test2.img 块设备

// 删除块设备和调整 pg、pgp 大小,确保在部署 MDS 时,不会出现 PG 报错
[root@ceph-node01 ~]# rbd device list		# 查看映射关系
[root@ceph-node01 ~]# umount /dev/rbd0		# 解除挂载
[root@ceph-node01 ~]# rbd unmap ceph-test-pool/rbd-test2.img	# 解除映射关系
[root@ceph-node01 ~]# rbd rm ceph-test-pool/rbd-test2.img	# 删除镜像
[root@ceph-node01 ~]# rbd device list

// 将 128 调整为 64
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool pg_num 32
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool pgp_num 32

3.5 MDS 集群部署

Create a Ceph file system.官方网站
Ceph File System.官方网站
ceph file system 是与 POSIX 标准兼容的文件系统，能够提供对 ceph 存储集群上的文件访问。 ceph 需要至少一个源数据服务器(metadata server - MDS) daemon-mds(ceph-mds)运行，MDS管理者与存储在 cephFS 上的文件相关的元数据，并且协调着对 ceph 存储系统的访问

upload successful

3.5.1 安装部署 MDS 集群

快速安装文档.官方网站

// 要使用 CephFS， 至少就需要一个 metadata server 进程。可以手动创建一个 MDS， 也可以使用 ceph-deploy 或者 ceph-ansible 来部署 MDS
// deploy metadata server 部署3个(高可用): ceph-node01、ceph-node02、ceph-node03
[root@ceph-admin ceph-deploy]# ceph-deploy --overwrite-conf mds create ceph-node01
[root@ceph-admin ceph-deploy]# ceph -s
[root@ceph-admin ceph-deploy]# ceph-deploy --overwrite-conf mds create ceph-node02
[root@ceph-admin ceph-deploy]# ceph-deploy --overwrite-conf mds create ceph-node03
[root@ceph-admin ceph-deploy]# ceph mds stat                                        # 由于没有文件系统,所以状态是 standby
     3 up:standby

upload successful

3.5.2 创建 cephFS 文件系统

cephFS 需要2个 pools-cephfs-data 和 cephfs-metadata，分别存储文件数据和文件元数据

// cephFS 需要2个 pools-cephfs-data 和 cephfs-metadata，分别存储文件数据和文件元数据
// 一般 metadata pool 可以从相对较少的 PGs 启动, 之后可以根据需要增加 PGs。因为 metadata pool 存储着 CephFS 文件的元数据, 为了保证安全, 最好有较多的副本数。 为了能有较低的延迟, 可以考虑将 metadata 存储在 SSDs 上

ceph osd pool create cephfs_data <pg_num>            # pool, 存放数据
ceph osd pool create cephfs_metadata <pg_num>        # pool, 存放元数据；实际使用中是比较耗资源的，访问速度比较快；建议使用ssd集群进行构建
ceph fs new <fs_name> cephfs_metadata cephfs_data    # 新建文件系统然后将 metadata 和 data 进行关联
    fs new <fs_name>                # fs 新建文件系统
    cephfs_metadata cephfs_data     # 然后通过 fs fs_name 进行关联

// osd 比较少，pg 也相对需要少一点
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool pg_num 32
[root@ceph-node01 ~]# ceph osd pool set ceph-test-pool pgp_num 32
[root@ceph-node01 ~]# ceph osd lspools

// 接下来创建文件系统，将 cephfs_metadata 和 cephfs_data 关联起来
[root@ceph-node01 ~]# ceph -h | grep "fs new"		# ceph 提供了一个 fs 的子命令，可以使用此命令进行创建
ceph fs new cephfs-demo cephfs_metadata cephfs_data		# 文件系统创建完成
[root@ceph-node01 ~]# ceph fs ls			# 查看

upload successful

3.5.3 cephFS 内核挂载

以 kernel client 形式挂载 cephFS，可以手动用 mount 命令挂载 cephFS 或者通过 /etc/fstab 自动挂载 cephFS
挂载有2中方式:
- 手动挂载
  - sudo mount -t ceph mon1:6789,mon2:6789,mon3:6789/ /cephfs -o name=cephfs,secretfile=/etc/ceph/cephfs.secret
  - stat -f /cephfs# 验证
- 自动挂载
  - mkdir -p /cephfs
  - echo “mon1:6789,mon2:6789,mon3:6789:/ /cephfs ceph name=cephfs,secretfile=/etc/ceph/cephfs.key,_netdev,noatime 0 0” | tee -a /etc/fstab
  - mount -a

3.5.3.1 kernel driver

将 CephFS 挂载为内核驱动程序

1
2
3

[root@ceph-node01 ~]# mkdir /mnt/cephfs
[root@ceph-node01 ~]# mount -t ceph 10.16.41.136:6789:/ /mnt/cephfs/ -o name=admin
[root@ceph-node01 ~]# df -hT

upload successful

永久挂载 [1]

[root@ceph-node01 ~]# cat /etc/fstab
...
10.16.41.136:6789:/       /mnt/cephfs             ceph    name=admin,_netdev,noatime      0 0
[root@ceph-node01 ~]# mount -a

永久挂载 [2]

[root@ceph-node01 ~]# mkdir /opt/test-mnt
[root@ceph-node01 ~]# ceph auth  get client.admin                    # 查看授权信息
[root@ceph-node01 ~]# cat /etc/fstab
...
10.16.41.136:6789,10.16.41.30:6789,10.16.41.169:6789:/  /opt/test-mnt  ceph  name=admin,secret=AQDHynJo+9n7HRAA+YHdu81OW1V9DPNOqMRyLQ==,_netdev,noatime 0 0
    name            # 用户名的 id，非 type.id
    secret          # 授权信息的 key
// 当然，也可以单独创建新的客户端授权信息
[root@ceph-node01 ~]# mount -a
[root@ceph-node01 ~]# ceph fs ls
// 创建一个新的客户端授权
[root@ceph-node01 ~]# ceph auth get-or-create client.bakcup mon 'allow r' mds 'allow rw' osd 'allow rw pool=cephfs_data, allow rw pool=cephfs_metadata'
// 查看授权信息
[root@ceph-node01 ~]# ceph auth  get client.bakcup

upload successful

使用挂载盘

[root@ceph-node01 ~]# echo "test cephfs /mnt/cephfs" > /mnt/cephfs/cephfs.txt
[root@ceph-node01 ~]# echo "test cephfs /opt/test-mnt" > /opt/test-mnt/cephfs.txt
[root@ceph-node01 ~]# lsmod | grep ceph        # 挂载完成之后，会自动加载 ceph 内核

// 清除挂载
[root@ceph-node01 ~]# umount /mnt/cephfs 
[root@ceph-node01 ~]# umount /opt/test-mnt 
[root@ceph-node01 ~]# sed -i '/6789/d' /etc/fstab 
[root@ceph-node01 ~]# df -hT

3.5.3.2 ceph-fuse 用户态挂载

以 FUSE client 形式挂载，同样的，可以手动通过 ceph-fuse 挂载或者通过向 /etc/fstab 添加挂载项自动挂载
参考文档

[root@ceph-admin ~]# yum -y install ceph-fuse
[root@ceph-admin ~]# mkdir /mnt/ceph-fuse
[root@ceph-admin ~]# ceph-fuse -h
[root@ceph-node01 ~]# ceph-fuse -n client.admin -m 10.16.41.136:6789,10.16.41.30:6789,10.16.41.169:6789 /mnt/ceph-fuse/
    -n client.admin                # 指定名称,默认 client.admin
    -m 10.16.41.136:6789           # 指定 monitor 地址。可以写多个。也可以不写，不写则会默认去读 ceph.conf 中的配置
    /mnt/ceph-fuse/                # 挂载到目标
[root@ceph-node01 ~]# df -hT
[root@ceph-node01 ~]# echo "fuse" > /mnt/ceph-fuse/fuse.txt

upload successful

4.0 OSD 扩容

横向扩容(scale out): 简单的理解，就是增加节点，通过增加节点来达到增加容量的目的
纵向库容(scale up):通过增加现有节点的硬盘(OSD)来达到增加容量的目的

4.1 纵向扩容

[root@ceph-admin ceph-deploy]# ceph-deploy disk list ceph-node01                         # 列出磁盘
[root@ceph-admin ceph-deploy]# ceph-deploy disk zap ceph-node01 /dev/sdc                 # 如果磁盘中有分区表，可以使用此命令清除
[root@ceph-admin ceph-deploy]# ceph-deploy disk zap ceph-node02 /dev/sdc
[root@ceph-admin ceph-deploy]# ceph-deploy disk zap ceph-node03 /dev/sdc
[root@ceph-admin ceph-deploy]# ceph-deploy osd create ceph-node01 --data /dev/sdc        # 添加磁盘，纵向扩容
[root@ceph-admin ceph-deploy]# ceph-deploy osd create ceph-node02 --data /dev/sdc
[root@ceph-admin ceph-deploy]# ceph-deploy osd create ceph-node03 --data /dev/sdc
[root@ceph-node01 ~]# ceph osd tree
[root@ceph-node01 ~]# ceph -s

upload successful

4.2 数据 rebalancing 重分布

扩容过程中的注意事项和数据的重分布(rebalancing [重新平衡])
一次性添加大量的 OSD 对集群性能影响会很大。建议少量的或者逐台添加方式以减小其性能影响。最小化的对业务造成不必要的影响
随着集群资源的不断增长，ceph 集群的空间会存在不够用的情况，因此需要对集群进行扩容，扩容通常包含两种:
横向库容: 增加机器
纵向扩容: 在单个节点上添加更多的 OSD 存储，以满足数据增长的需求
添加 OSD 的时候由于集群的状态 (cluster map) 已发生改变，因此会涉及到数据的重分布(rebalancing)，即 pool 的 PGs 数量是固定的，需要将 PGs 数平均分摊到多个 OSD 节点上

4.3 验证 rebalancing 过程

[root@ceph-node01 ~]# dd if=/dev/zero of=rebalancing-file.img bs=1M count=8192
    8192+0 records in
    8192+0 records out
    8589934592 bytes (8.6 GB) copied, 96.5668 s, 89.0 MB/s

// 让后将文件上传到 /mnt/cephfs
[root@ceph-node01 ~]# mount -t ceph 10.16.41.136:6789:/ /mnt/cephfs/ -o name=admin
[root@ceph-node01 ~]# cp rebalancing-file.img /mnt/cephfs/
[root@ceph-node01 ~]# watch -n1 'ceph -s'                                             # 可以查看到动态调整时的状态
[root@ceph-node01 ~]# ceph -w                                                         # 也可以观察迁移过程
[root@ceph-node01 ~]# ceph osd tree                                                   # 查看添加后的情况
[root@ceph-node01 ~]# ceph -s                                                         # 调整完成后查看

4.4 验证 rebalancing 过程

当在做 rebalance 的时候，每个 osd 都会按照 osd_max_backfiles 指定数量的线程来同步，如果该数值比较大，同步会比较快，但是会影响部分性能
另外数据同步时，是走的 cluster_network，而客户端连接是用的 public_network，生产环境建议这两个网络用万兆网络，减少网络传输的影响
同样，为了避免业务繁忙时候 rebalance 带来的性能影响，可以对 rebalance 进行关闭；当业务比较小的时候，再打开

[root@ceph-node01 ~]# ceph --admin-daemon /var/run/ceph/ceph-mon.ceph-node01.asok config show | grep max_backfills
    "osd_max_backfills": "1",        # 每个 osd 最多有1个线程，做数据的同步。如果线程数比较大，同步数据会比较快，但是性能会降低，影响业务。

// 假定 public_network 和 cluster_network 2个网络是在一起(例如同一个交换机，不是单独万兆分开的)。那可以暂停 rebalance 任务
[root@ceph-node01 ~]# ceph help set                    # 查询使用方法
[root@ceph-node01 ~]# ceph osd set norebalance         # 关闭；标志位,用来做数据分布的
[root@ceph-node01 ~]# ceph osd set nobackfill          # 关闭；用来做数据填充的

// 如果关闭了 norebalance 和 nobackfill，有数据正在同步的话，它会将正在执行的任务暂停掉，业务就会恢复正常
// 取消
[root@ceph-node01 ~]# ceph osd unset norebalance
[root@ceph-node01 ~]# ceph osd unset nobackfill

4.5 数据一致性检查

ceph 作为分布式存储系统，在可用性和一致性方面有极高的要求
ceph 区别与其他分布式数据库等产品，更多的是作为云计算基础设施提供服务
作为维护数据一致性和清洁度的一部分，Ceph OSD 还可以清理归置组内的对象。也就是说，Ceph OSD 可以将一个置放组中的对象元数据与其他 OSD 中存储的置放组中的副本进行比较。清理（通常每天执行）可以捕获 OSD 错误或文件系统错误。OSD 还可以通过逐位比较对象中的数据来执行更深入的清理。深度清理（通常每周执行一次）可以发现磁盘上在轻度清理中不明显的坏扇区
数据一致性检测也可以手动做，一般都是针对 PG 来做

[root@ceph-node01 ~]# ceph -h | grep scrub
    pg deep-scrub <pgid>            # 深度 scrub
    pg scrub <pgid>                 # 轻量 scrub；对比的是文件的属性,如 object 这些属性是否是一致的，如果不一致会充主上复制过来

// 轻量 scrub
[root@ceph-node01 ~]# ceph pg dump                            # 获取 pg_id
[root@ceph-node01 ~]# ceph pg scrub 3.1d                      # 针对这个 pg 来做轻量的 scrub 然后对比 3.1d_pg 内的文件属性，看下副本之间的值是否一致
    instructing pg 3.1d on osd.1 to scrub
[root@ceph-node01 ~]# ceph -s                                 # 上面动作非常快，这里基本上看不到具体状态信息，正常这里会有变更状态

// 深度 scrub
[root@ceph-node01 ~]# ceph pg deep-scrub 3.1d                 # 深度对比检查。会耗费系统比较多的内存资源
    instructing pg 3.1d on osd.1 to deep-scrub
[root@ceph-node01 ~]# ceph -s                                 # 正常情况也是会看到里面的一些状态变化

5.0 RGW 高可用集群

无状态化服务，可以采用 keepalived+haproxy方式

5.1 扩展 RGW 集群

upload successful

[root@ceph-admin ceph-deploy]# ceph-deploy rgw create ceph-node02                # 让 ceph-node02 也成为 rgw
// 修改 radosgw 端口为 80 端口
[root@ceph-admin ceph-deploy]# cat ceph.conf 
[global]
fsid = 9504ad3b-d89d-4bba-9bd2-94be5c8d3f75
public_network = 10.16.41.0/24
cluster_network = 172.16.100.0/24
mon_initial_members = ceph-node01
mon_host = 10.16.41.136
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx
mon_max_pg_per_osd = 1000

[client.rgw.ceph-node01]
rgw_frontends = "civetweb port=80"
[client.rgw.ceph-node02]
rgw_frontends = "civetweb port=80"

[root@ceph-admin ceph-deploy]# ceph-deploy --overwrite-conf config push ceph-node01 ceph-node02 ceph-node03
[root@ceph-node02 ~]# systemctl restart ceph-radosgw.target
[root@ceph-node02 ~]# netstat -nlput | grep radosgw
[root@ceph-node02 ~]# curl 10.16.41.30:80
[root@ceph-node02 ~]# ceph -s

upload successful

5.2 RGW 高可用负载均衡

5.2.1 keepalived 安装配置

5.2.1.1 主机 ceph-haproxy01 配置

[root@ceph-haproxy01 ~]# yum -y install wget gcc make tar openssl openssl-devel libnl libnl-devel libnfnetlink-devel psmisc
[root@ceph-haproxy01 ~]# wget https://www.keepalived.org/software/keepalived-2.0.10.tar.gz --no-check-certificate
[root@ceph-haproxy01 ~]# tar -xf keepalived-2.0.10.tar.gz 
[root@ceph-haproxy01 ~]# cd keepalived-2.0.10/
[root@ceph-haproxy01 keepalived-2.0.10]# ./configure --prefix=/data/apps/keepalived
[root@ceph-haproxy01 keepalived-2.0.10]# make && make install
[root@ceph-haproxy01 keepalived-2.0.10]# /data/apps/keepalived/sbin/keepalived -v
[root@ceph-haproxy01 keepalived-2.0.10]# ln -s /data/apps/keepalived/sbin/keepalived /usr/bin/

keepalived 配置

[root@ceph-haproxy01 keepalived-2.0.10]# cd /data/apps/keepalived/etc/keepalived/
[root@ceph-haproxy01 keepalived]# vim /data/apps/keepalived/etc/keepalived/keepalived.conf 
! Configuration File for keepalived
global_defs {
    router_id ceph-cluster
    notification_email {
        [email protected]
    }
    script_user root
    enable_script_security
}

vrrp_script check_haproxy {
    script "/opt/check.sh"
    interval 3
    weight -20
    rise 1
    fall 1
}

vrrp_instance RGW {
    state BACKUP
    interface eth0
    virtual_router_id 000
    priority 100
    advert_int 2
    nopreempt
    authentication {
        auth_type PASS
        auth_pass 000000
    }
    track_interface {
        eth0
    }
    track_script {
        check_haproxy
    }
    virtual_ipaddress {
        10.16.41.150
    }
}

配置文件检测

[root@ceph-haproxy01 keepalived]# chmod +x /opt/check.sh 
[root@ceph-haproxy01 keepalived]# cat /opt/check.sh 
#!/bin/bash
# 每节点监控自己即可 {10.16.41.[163|30]}

curl -s -m 2 http://10.16.41.163:80
if [ $? -eq 0 ]; then
    exit 0
else
    exit 1
fi

[root@ceph-haproxy01 keepalived]# /data/apps/keepalived/sbin/keepalived -t -f /data/apps/keepalived/etc/keepalived/keepalived.conf

[root@ceph-haproxy01 keepalived]# cat /lib/systemd/system/keepalived.service 
[Unit]
Description=LVS and VRRP High Availability Monitor
After= network-online.target syslog.target
Wants=network-online.target

[Service]
Type=forking
PIDFile=/var/run/keepalived.pid
KillMode=process
EnvironmentFile=-/data/apps/keepalived/etc/sysconfig/keepalived
ExecStart=/data/apps/keepalived/sbin/keepalived -f /data/apps/keepalived/etc/keepalived/keepalived.conf
ExecReload=/bin/kill -HUP $MAINPID

[Install]
WantedBy=multi-user.target

[root@ceph-haproxy01 keepalived]# systemctl daemon-reload 
[root@ceph-haproxy01 keepalived]# systemctl enable keepalived.service --now

[root@ceph-haproxy01 keepalived]# ip a s eth0

upload successful

5.2.1.2 主机 ceph-haproxy02 配置

[root@ceph-haproxy02 ~]# yum -y install wget gcc make tar openssl openssl-devel libnl libnl-devel libnfnetlink-devel psmisc
[root@ceph-haproxy02 ~]# wget https://www.keepalived.org/software/keepalived-2.0.10.tar.gz --no-check-certificate
[root@ceph-haproxy02 ~]# tar -xf keepalived-2.0.10.tar.gz
[root@ceph-haproxy02 ~]# cd keepalived-2.0.10/
[root@ceph-haproxy02 keepalived-2.0.10]# ./configure --prefix=/data/apps/keepalived
[root@ceph-haproxy02 keepalived-2.0.10]# make && make install
[root@ceph-haproxy02 keepalived-2.0.10]# /data/apps/keepalived/sbin/keepalived -v
[root@ceph-haproxy02 keepalived-2.0.10]# ln -s /data/apps/keepalived/sbin/keepalived /usr/bin/

keepalived 配置

[root@ceph-haproxy02 keepalived-2.0.10]# cd /data/apps/keepalived/etc/keepalived/
[root@ceph-haproxy02 keepalived]# vim /data/apps/keepalived/etc/keepalived/keepalived.conf 
! Configuration File for keepalived
global_defs {
    router_id ceph-cluster
    notification_email {
        [email protected]
    }
    script_user root
    enable_script_security
}

vrrp_script check_haproxy {
    script "/opt/check.sh"
    interval 3
    weight -20
    rise 1
    fall 1
}

vrrp_instance RGW {
    state BACKUP
    interface eth0
    virtual_router_id 111
    priority 90
    advert_int 2
    nopreempt
    authentication {
        auth_type PASS
        auth_pass 000000
    }
    track_interface {
        eth0
    }
    track_script {
        check_haproxy
    }
    virtual_ipaddress {
        10.16.41.150
    }
}

配置文件检测

[root@ceph-haproxy02 keepalived]# chmod +x /opt/check.sh 
[root@ceph-haproxy02 keepalived]# cat /opt/check.sh 
#!/bin/bash
# 每节点监控自己即可 {10.16.41.[163|30]}

curl -s -m 2 http://10.16.41.30:80
if [ $? -eq 0 ]; then
    exit 0
else
    exit 1
fi

[root@ceph-haproxy02 keepalived]# /data/apps/keepalived/sbin/keepalived -t -f /data/apps/keepalived/etc/keepalived/keepalived.conf

[root@ceph-haproxy02 keepalived]# cat /lib/systemd/system/keepalived.service 
[Unit]
Description=LVS and VRRP High Availability Monitor
After= network-online.target syslog.target
Wants=network-online.target

[Service]
Type=forking
PIDFile=/var/run/keepalived.pid
KillMode=process
EnvironmentFile=-/data/apps/keepalived/etc/sysconfig/keepalived
ExecStart=/data/apps/keepalived/sbin/keepalived -f /data/apps/keepalived/etc/keepalived/keepalived.conf
ExecReload=/bin/kill -HUP $MAINPID

[Install]
WantedBy=multi-user.target

[root@ceph-haproxy02 keepalived]# systemctl daemon-reload 
[root@ceph-haproxy02 keepalived]# systemctl enable keepalived.service --now

5.2.2 配置 haproxy

2台 haproxy 安装一样

# yum -y install gcc readline-devel openssl-devel systemd-devel socat
# wget https://www.lua.org/ftp/lua-5.4.3.tar.gz --no-check-certificate
# mkdir -p /data/apps
# tar -xf lua-5.4.3.tar.gz 
# mv lua-5.4.3 /data/apps/lua
# cd /data/apps/lua
# make linux
# lua -v
# wget https://www.haproxy.org/download/2.4/src/haproxy-2.4.0.tar.gz
# tar -xf haproxy-2.4.0.tar.gz
# cd haproxy-2.4.0/
# make ARCH=X86_64 TARGET=linux-glibc USE_PCRE=1 USE_OPENSSL=1 USE_ZLIB=1 USE_SYSTEMD=1 USE_LUA=1 LUA_INC=/data/apps/lua/src LUA_LIB=/data/apps/lua/src
    # README 中有告知如何进行编译
# make install PREFIX=/data/apps/haproxy
# /data/apps/haproxy/sbin/haproxy -v
# useradd -s /sbin/nologin haproxy

haproxy 子配置文件

# cat /usr/lib/systemd/system/haproxy.service
[Unit]
Description=HAProxy Load Balancer
After=syslog.target network.target

[Service]
Type=notify
Environment="CONFIG=/data/apps/haproxy/haproxy.cfg" "PIDFILE=/data/apps/haproxy/haproxy.pid" "EXTRAOPTS=-S /data/apps/haproxy/haproxy.sock"
Environment="CONFIG_D=/data/apps/haproxy/conf.d/"
ExecStartPre=/data/apps/haproxy/sbin/haproxy -Ws -f $CONFIG -f $CONFIG_D -c -q $OPTIONS
ExecStart=/data/apps/haproxy/sbin/haproxy -Ws -f $CONFIG -f $CONFIG_D -p $PIDFILE $OPTIONS
ExecReload=/bin/kill -USR2 $MAINPID
KillMode=mixed
Restart=always
SuccessExitStatus=143

[Install]
WantedBy=multi-user.target

# systemctl daemon-reload

5.2.2.1 主机 haproxy01

配置文件

[root@ceph-haproxy01 ~]# mkdir -p /data/apps/haproxy/conf.d
// 默认配置文件配置
[root@ceph-haproxy01 ~]# cat /data/apps/haproxy/haproxy.cfg 
global
    log 127.0.0.1 local2 info
    chroot /data/apps/haproxy
    pidfile /run/haproxy.pid
    maxconn 100000
    user haproxy
    group haproxy
    daemon
    stats socket /data/apps/haproxy/haproxy.sock mode 600 level admin
defaults
    mode      http
    log       global
    option    http-keep-alive
    option    forwardfor
    option    httplog
    option    dontlognull
    option    http-server-close
    option    redispatch
    timeout   http-request 10s
    timeout   queue 1m
    timeout   connect 10s
    timeout   client 1m
    timeout   server 1m
    timeout   http-keep-alive 10s
    timeout   check 10s
    maxconn   100000
    retries    3

状态文件配置

[root@ceph-haproxy01 ~]# cat /data/apps/haproxy/conf.d/haproxy-stats.cfg 
listen haproxy-stats
    mode        http
    bind        *:9999
    stats       enable
    stats       refresh 30s
    stats       hide-version
    stats       uri /haproxy-status
    stats       realm "HAProxy stats"
    stats       auth admin:ink8s.com
    stats       admin if TRUE
    timeout   http-request 10s
    timeout   queue 1m
    timeout   connect 10s
    timeout   client 1m
    timeout   server 1m
    timeout   http-keep-alive 10s
    timeout   check 10s
    log         global
    # 下面表示配置可登录的白名单
    #acl         source_ip src 192.168.1.101
    #acl         deny_curl hdr(User-Agent) -m sub -i curl
    #http-request deny if !source_ip || deny_curl

ceph haproxy 配置

[root@ceph-haproxy01 ~]# cat /data/apps/haproxy/conf.d/ceph.cfg 
frontend               http_web
    bind               *:80
    log                global
    mode               http
    default_backend    rgw

backend                rgw
    balance            roundrobin
    server ceph-node01 10.16.41.136:80 check port 80 inter 3s rise 2 fall 3
    server ceph-node02 10.16.41.30:80 check port 80 inter 3s rise 2 fall 3
    
[root@ceph-haproxy01 ~]# systemctl restart haproxy.service

5.2.2.2 主机 haproxy02

配置文件

[root@ceph-haproxy02 ~]# mkdir -p /data/apps/haproxy/conf.d
[root@ceph-haproxy02 ~]# cat /data/apps/haproxy/haproxy.cfg 
global
    log 127.0.0.1 local2 info
    chroot /data/apps/haproxy
    pidfile /run/haproxy.pid
    maxconn 100000
    user haproxy
    group haproxy
    daemon
    stats socket /data/apps/haproxy/haproxy.sock mode 600 level admin
defaults
    mode      http
    log       global
    option    http-keep-alive
    option    forwardfor
    option    httplog
    option    dontlognull
    option    http-server-close
    option    redispatch
    timeout   http-request 10s
    timeout   queue 1m
    timeout   connect 10s
    timeout   client 1m
    timeout   server 1m
    timeout   http-keep-alive 10s
    timeout   check 10s
    maxconn   100000
    retries    3

状态文件配置

[root@ceph-haproxy02 ~]# cat /data/apps/haproxy/conf.d/haproxy-stats.cfg 
listen haproxy-stats
    mode        http
    bind        *:9999
    stats       enable
    stats       refresh 30s
    stats       hide-version
    stats       uri /haproxy-status
    stats       realm "HAProxy stats"
    stats       auth admin:ink8s.com
    stats       admin if TRUE
    timeout   http-request 10s
    timeout   queue 1m
    timeout   connect 10s
    timeout   client 1m
    timeout   server 1m
    timeout   http-keep-alive 10s
    timeout   check 10s
    log         global
    # 下面表示配置可登录的白名单
    #acl         source_ip src 192.168.1.101
    #acl         deny_curl hdr(User-Agent) -m sub -i curl
    #http-request deny if !source_ip || deny_curl

ceph haproxy 配置

[root@ceph-haproxy02 ~]# cat /data/apps/haproxy/conf.d/ceph.cfg 
frontend               http_web
    bind               *:80
    log                global
    mode               http
    default_backend    rgw

backend                rgw
    balance            roundrobin
    server ceph-node01 10.16.41.136:80 check port 80 inter 3s rise 2 fall 3
    server ceph-node02 10.16.41.30:80 check port 80 inter 3s rise 2 fall 3

[root@ceph-haproxy02 ~]# systemctl restart haproxy

浏览器访问: http://10.16.41.150:9999/haproxy-status
admin:ink8s.com

upload successful

5.2.3 修改客户端指向

[root@ceph-node01 ~]# vim /root/.s3cfg
...
host_base = 10.16.41.150:80				# 修改为 vip 地址
host_bucket = 10.16.41.150:80/%(bucket)s

// 可以正常的指向 vip 的客户端了
[root@ceph-node01 ~]# s3cmd ls

// swift 环境变量修改
[root@ceph-admin ~]# vim /etc/profile
...
export ST_AUTH=http://10.16.41.150:80/auth
export ST_USER=ceph-s3-user01:swift
export ST_KEY=ygooKvSwxPbed0Jpem31kbCKprHATI1U1XE5ARCa

[root@ceph-admin ~]# source /etc/profile

[root@ceph-admin ~]# swift post test-1		# 创建一个 backet
[root@ceph-admin ~]# swift delete test-1	# 删除对应的 backet

6.0 ceph 集群运维

7.0 CRUSH Map 调整

8.0 RBD 高级功能

9.0 ceph 监控管理

本文作者： [email protected]
本文链接： https://www.ink8s.com/2025/07/12/ceph-deploy-部署/
版权声明： 本博客所有文章除特别声明外，均采用 MIT 许可协议。转载请注明出处！