kubernets 集群搭建

2025-07-14

kubernets 安装管理与维护
- 高可用集群安装
- K8S 环境实现CI/CD
- K8S 包管理工具 Helm

1.0 高可用集群安装

1.1 基本原理

1.1.1 集群架构与组件

Master 组件:
- kube-apiserver: Kubernetes API，集群的统一入口，各组件协调者，所有对象资源的增删改查和监听操作都交给 APIServer处理后再提交给Etcd存储。
- kube-controller-manager: 处理集群中常规后台任务，一个资源对应一个控制器，而 ControllerManager就是负责管理这些控制器的。
- kube-scheduler: 根据调度算法为新创建的Pod选择一个Node节点，可以任意部署, 可以部署在同一个节点上,也可以部署在不同的节点上。
- etcd: 分布式键值存储系统。用于保存集群状态数据，比如Pod、Service 等对象信息。
Node 组件:
- kubelet: kubelet是Master在Node节点上的Agent，管理本机运行容器的生命周期，比如创建容器、Pod挂载数据卷、下载secret、获取容器和节点状态等工作。
- kube-proxy: 在Node节点上实现Pod网络代理，维护网络规则和四层负载均衡工作。
- 第三方容器引擎: 例如 docker、containerd、podman 容器引擎，运行容器。

1.1.2 部署k8s的 2种方式

kubeadm:
- Kubeadm是一个K8s部署工具，提供kubeadm init和kubeadm join，用于快速部署Kubernetes集群。
二进制包:

从 github 下载发行版的二进制包，手动部署每个组件，组成 Kubernetes 集群。
1. kubeadm init:初始化一个Master节点
2. kubeadm join:将工作节点加入集群
3. kubeadm upgrade: 升级K8s版本
4. kubeadm token:管理 kubeadm join 使用的令牌
5. kubeadm reset:清空 kubeadm init 或者 kubeadm join 对主机所做的任何更改
6. kubeadm version: 打印 kubeadm 版本
7. kubeadm alpha:预览可用的新功能

1.2 安装环境

1.2.1 高可用架构规划

kubernetes_version: 1.28.0

IP地址	主机名	配置	系统	服务
10.16.41.24	k8s-master01	8C/16G/100G	Centos7.9	kubelet、kube-proxy、kube-apiserver、kube-controller-manager、kube-scheduler、etcd、containerd
10.16.41.194	k8s-master02	8C/16G/100G	Centos7.9	kubelet、kube-proxy、kube-apiserver、kube-controller-manager、kube-scheduler、etcd、containerd
10.16.41.123	k8s-master03	8C/16G/100G	Centos7.9	kubelet、kube-proxy、kube-apiserver、kube-controller-manager、kube-scheduler、etcd、containerd
10.16.41.125	k8s-node01	8C/16G/100G	Centos7.9	kubelet、kube-proxy、containerd、keepalived+haproxy
10.16.41.66	k8s-node02	8C/16G/100G	Centos7.9	kubelet、kube-proxy、containerd、keepalived+haproxy
10.16.41.196	k8s-node03	8C/16G/100G	Centos7.9	kubelet、kube-proxy、containerd
vip: 10.16.41.25

upload successful

1.2.2 环境准备

k8s 集群部署前的环境准备。以下 6 台服务器的操作均一样。

1.2.2.1 主机名解析

添加主机名称解析记录，在所有节点执行（暂时先将 k8s-vip.inadm.com 解析到 k8s-master01 节点上，后期扩展高可用 master 时在修改对应的解析）

# cat /etc/hosts
...
10.16.41.24	k8s-master01 k8s-vip.inadm.com
10.16.41.194	k8s-master02
10.16.41.123	k8s-master03
10.16.41.125	k8s-node01
10.16.41.66	k8s-node02
10.16.41.196	k8s-node03

1.2.2.2 关闭防火墙

// 关闭防火墙
# systemctl stop firewalld.service
# systemctl disable firewalld.service

// 关闭 selinux
# sed -i 's/=enforcing/=disable/' /etc/selinux/config 
# setenforce 0

1.2.2.3 关闭 swap

1
2
3

 // 删除 fstab 文件中的 swap 分区
# sed '/swap/d' /etc/fstab 
# swapoff -a

1.2.2.4 配置内核参数

开启内核 ipv4 转发需要执行如下命令加载 overlay、br_netfileter 模块

# cat /etc/modules-load.d/k8s.conf
overlay
br_netfilter

# modprobe overlay
# modprobe br_netfilter

// 创建 /etc/sysctl.d/k8s.conf 文件，添加如下内容
# cat /etc/sysctl.d/k8s.conf 
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.ipv4.ip_forward = 1
vm.swappiness = 0
vm.overcommit_memory = 0

# sysctl -p /etc/sysctl.d/k8s.conf
# sysctl --system

1.2.2.5 ipvs 安装

1. 为了便于查看 ipvs 的代理规则，需要安装管理工具 ipvsadm，在所有节点执行
# yum -y install ipset ipvsadm

2. 为了在系统启动时自动加载 ipvs 相关内核模块，使用 modprobe 命令加载 ipvs 相关内核模块，使用如下命令创建一个脚本文件
# mkdir -p /etc/sysconfig/modules
# cat > /etc/sysconfig/modules/ipvs.modules <<EOF
#!/bin/bash
modprobe -- ip_vs
modprobe -- ip_vs_rr
modprobe -- ip_vs_wrr
modprobe -- ip_vs_sh
modprobe -- nf_conntrack
EOF

3. 为了确保这些模块已加载，使用 chmod 755 命令设置脚本文件的执行权限，然后执行
# chmod 755 /etc/sysconfig/modules/ipvs.modules
# bash /etc/sysconfig/modules/ipvs.modules

// 检测内核模块是否已经加载
# lsmod | grep -e ip_vs -e nf_conntrack

1.2.2.6 时间同步

1
2
3

# timedatectl set-timezone Asia/Shanghai
# crontab -l
*/5 * * * * /usr/sbin/ntpdate ntp.aliyun.com &> /dev/null

1.3 集群单 Master 部署

在所有节点上安装 containerd、kubelet、kubeadm、kubectl

1.3.1 安装 containerd

1.3.1.1 安装 containerd

containerd 阿里云源

1. 通过 yum 安装 Containerd，版本在 1.6 以上。如果需要二进制安装则自行下载 cri-containerd-cni-${VERSION}.${OS}-${ARCH}.tar.gz
# yum -y install yum-utils
# yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
# yum -y install containerd

2. 生成 Containerd 默认配置文件
# mkdir -p /etc/containerd
# containerd config default > /etc/containerd/config.toml

3. 修改 Containerd 配置文件
# vim /etc/containerd/config.toml
[plugins]
...

 [plugins."io.containerd.grpc.v1.cri"]                        
 ...
 sandbox_image = "registry.aliyuncs.com/google_containers/pause:3.9"                # 搜索 "sandbox_image" 修改 pause 镜像地址

...
          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]    # 搜索 "runc.options" 修改 "SystemdCgroup" 为 true
...
            SystemdCgroup = true

4. 启动 containerd，直接执行下面命令
# systemctl daemon-reload
# systemctl enable containerd --now

1.3.1.2 安装 nerdctl

1. 下载 nerdctl
# wget https://github.com/containerd/nerdctl/releases/download/v1.5.0/nerdctl-full-1.5.0-linux-amd64.tar.gz
 
2. 拷贝 nerdctl 命令并完成安装
# tar -xf nerdctl-full-1.5.0-linux-amd64.tar.gz
# cp bin/nerdctl /usr/local/bin/

1.3.1.3 安装 buildkitd

1. 拷贝 buildctl、buildkitd 命令，以及 buildkit.service 服务启动程序
[root@node03 ~]# cp bin/buildctl bin/buildkitd /usr/local/bin/
[root@node03 ~]# cp lib/systemd/system/buildkit.service /usr/lib/systemd/system/

2. 启动 buildkitd 服务
[root@node03 ~]# systemctl daemon-reload
[root@node03 ~]# systemctl enable buildkit --now

1.3.2 安装集群工具

1. 配置 kubernetes 镜像源为阿里云
# cat /etc/yum.repos.d/kubernetes.repo                # 如果升级集群，需确认源是否支持对应的版本，如果不支持，则需要修改源 repo 地址
[kubernetes]
name=Kubernetes
baseurl=http://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64
enabled=1
gpgcheck=0
repo_gpgcheck=0
gpgkey=http://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg
       http://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg

2. 在每个节点安装 kubeadm、kubelet、kubectl
    - kubeadm: 初始化集群工具
    - kubelet: 在集群中的每个节点上用来启动 Pod 和容器等
    - kubectl: 用来与集群通信的命令行工具
# yum -y install kubelet-1.28.0 kubeadm-1.28.0 kubectl-1.28.0
# kubeadm version

3. 启动 kubelet，并加入开机自启动
# systemctl enable kubelet && systemctl start kubelet

1.3.3 集群初始化

1.3.3.1 下载容器镜像

k8s-master01 节点执行

1. 通过命令获取对应集群需要使用的容器镜像
# kubeadm config images list --kubernetes-version v1.28.0
    registry.k8s.io/kube-apiserver:v1.28.0
    registry.k8s.io/kube-controller-manager:v1.28.0
    registry.k8s.io/kube-scheduler:v1.28.0
    registry.k8s.io/kube-proxy:v1.28.0
    registry.k8s.io/pause:3.9
    registry.k8s.io/etcd:3.5.9-0
    registry.k8s.io/coredns/coredns:v1.10.1

2. 由于镜像都在国外无法获取，所以将这些镜像全部替换为自己的仓库镜像地址，然后下载到本地
// 采用国内仓库地址
# kubeadm config images list --image-repository registry.aliyuncs.com/google_containers --kubernetes-version v1.28.0
    registry.aliyuncs.com/google_containers/kube-apiserver:v1.28.0
    registry.aliyuncs.com/google_containers/kube-controller-manager:v1.28.0
    registry.aliyuncs.com/google_containers/kube-scheduler:v1.28.0
    registry.aliyuncs.com/google_containers/kube-proxy:v1.28.0
    registry.aliyuncs.com/google_containers/pause:3.9
    registry.aliyuncs.com/google_containers/etcd:3.5.9-0
    registry.aliyuncs.com/google_containers/coredns:v1.10.1

3. 使用 kubeadm config images pull 进行镜像下载
// 如果是 Docker 容器,则命令最后需要添加此参数: --cri-socket=unix:///var/run/cri-dockerd.sock
# kubeadm config images pull --image-repository registry.aliyuncs.com/google_containers --kubernetes-version v1.28.0

upload successful

1.3.3.2 初始化 Master

1. 执行 kubeadm init 初始化集群，然后设置对应的参数
[root@k8s-master01 ~]# kubeadm init \
--apiserver-advertise-address="10.16.41.24" \
--control-plane-endpoint="k8s-vip.inadm.com" \
--image-repository registry.aliyuncs.com/google_containers \
--kubernetes-version v1.28.0 \
--service-cidr=10.96.0.0/16 \
--pod-network-cidr=10.1.0.0/16

// --apiserver-advertise-address: 宣告apiserver节点地址，填写本机地址
// --control-plane-endpoint: 在多个 master 时，指定其负载均衡的域名，用于实现高可用
// --image-repository: 指定镜像获取仓库的地址，与此前下载镜像的仓库地址保持一致
// --service-cidr: 指定service运⾏⽹段（内部负载均衡的⽹段)
// --pod-network-cidr: 指定pod运⾏⽹段（后续的⽹络插件需要分配这个地址段
// --cri-socket=unix: 指定容器运⾏时sock的路径。默认是 /var/run/containerd/containerd.sock，可不配置，如果是 cri-dockerd 则需要明确指定

2. 拷贝 kubeconfig 配置文件
[root@k8s-master01 ~]# mkdir -p $HOME/.kube
[root@k8s-master01 ~]# sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@k8s-master01 ~]# sudo chown $(id -u):$(id -g) $HOME/.kube/config

upload successful

1.3.3.3 初始化 Node

所有 Node 节点执行

1. 加入 node 节点 (containerd 方式)
[root@k8s-node01 ~]# kubeadm join k8s-vip.inadm.com:6443 --token rpw87z.znus1t8wrfssdud1 --discovery-token-ca-cert-hash sha256:ed0e2bed77363145ce1ef165477e787d3e12b67148cf6b5a2fc8abed509967a0
[root@k8s-node02 ~]# kubeadm join k8s-vip.inadm.com:6443 --token rpw87z.znus1t8wrfssdud1 --discovery-token-ca-cert-hash sha256:ed0e2bed77363145ce1ef165477e787d3e12b67148cf6b5a2fc8abed509967a0
[root@k8s-node03 ~]# kubeadm join k8s-vip.inadm.com:6443 --token rpw87z.znus1t8wrfssdud1 --discovery-token-ca-cert-hash sha256:ed0e2bed77363145ce1ef165477e787d3e12b67148cf6b5a2fc8abed509967a0

2. 如果加入的 token 丢失，后期可以在 master 节点上使用如下命令重新获取
[root@k8s-master01 ~]# kubeadm token create --print-join-command

1.3.4 calico 网络插件安装

可将 calico.yaml 文件中涉及到的镜像保存到 harbor 仓库并修改 calico.yaml 配置文件后再执行,否则会无法拉取到镜像！

[root@k8s-master01 ~]# wget https://docs.projectcalico.org/manifests/calico.yaml --no-check-certificate
[root@k8s-master01 ~]# vim calico.yaml    		# 修改Pod网络段地址,保持和前面 "--pod-network-cidr" 指定的第一致
....
                 - name: CALICO_IPV4POOL_CIDR        	# 搜索关键字 "CALICO_IPV4POOL_CIDR"
                   value: "10.244.0.0/16"

[root@k8s-master01 ~]# kubectl apply -f calico.yaml     # 等Calico Pod都Running，节点就会准备就绪;
[root@k8s-master01 ~]# kubectl get pods -A | grep calico
[root@k8s-master01 ~]# kubectl get nodes

upload successful

1.3.5 优化

1.3.5.1 命令补全

3. 添加 nerdctl 自动补全
# yum -y install bash-completion
# echo 'source <(kubectl completion bash)' >> ~/.bashrc
# echo 'source <(kubectl completion bash)'>> /etc/profile
# echo 'source <(nerdctl completion bash)' >> ~/.bashrc
# echo 'source <(nerdctl completion bash)' >> /etc/profile
# source /etc/profile

1.3.5.2 ipvs 模式修改

设置集群为 IPVS 模式

// 注: 
1、kube-proxy配置文件以configmap方式存储
2、如果让所有节点生效，需要重建所有节点kube-proxy pod; 如是在运行的生产环境,则需要逐台确认业务后要么下线要么驱逐pod后重建生效

# kubectl edit cm -n kube-system kube-proxy
...
      scheduler: ""                    # 调度算法(默认: rr): rr、wrr、lc、wlc、ip hash
      strictARP: false
      syncPeriod: 0s
      tcpFinTimeout: 0s
      tcpTimeout: 0s
      udpTimeout: 0s
    kind: KubeProxyConfiguration
    metricsBindAddress: ""
    mode: "ipvs"                        # 指定 ipvs 模式

// 重启 proxy 的 Pod，先过滤 proxy 的相关名称，然后删除已达到重启的目的
# kubectl get pod -n kube-system -o wide | grep proxy      # 查看 proxy 的 pod
# kubectl delete pod -n kube-system kube-proxy-XXXX        # 逐个删除所有 proxy 的 pod
# ip a s kube-ipvs0

// 如果要查看ipvs的规则模式,需要安装ipvsadm
# yum -y install ipvsadm
# ipvsadm -L -n

1.4 集群单 Master 扩展

高可用架构：在 k8s 高可用中，我们会运行多个 Master 节点,而多个 Master 节点都会运行 API 服务器，控制器管理器和调度器等控制平面组件。这样，即使某个 Master 节点出现故障，其它的 Master 节点任然可以继续提供服务，整个集群的管理和控制能力不会受到影响。
为了实现这一点，我们需要一些额外的技术和组件：
- 负载均衡：负责将请求调度到多个 Master 节点上的 APIServer。确保所有发往 APIServer 的请求都能被成功的路由到一个可用的 Master 节点。
- ETCD 集群：k8s 使用 etcd 作为集群的数据存储。在实现 k8s 的高可用时,etcd 同样需要部署在多个节点上,以避免单点故障。若某个节点崩溃，数据可以从其它节点进行恢复。
- 领导者选举：Controller Manager 和 Scheduler 在多个节点上运行，但不采用负载均衡模式。而这些组件是通过领导者选举机制,只有一个副本（领导者）处于活动状态。若当前领导者崩溃,另外一个副本会被选举为新的领导者,以此保持高可用性。

1.4.1 apiserver 创建负载均衡

为 apiserver 创建负载均衡，并配置对应的域名解析
负载均衡将流量调度给多个控制平面节点的 apiserver

1.4.1.1 haproxy 配置

haproxy 源码安装
k8s-node01、k8s-node02 两台主机的 haproxy 安装配置均一样！

1.4.1.1.1 主配置文件

主配置文件

# cat /data/apps/haproxy/haproxy.cfg 
global
    log 127.0.0.1 local2 info
    chroot /data/apps/haproxy
    pidfile /run/haproxy.pid
    maxconn 100000
    user haproxy
    group haproxy
    daemon
    stats socket /data/apps/haproxy/haproxy.sock mode 600 level admin
    ssl-default-bind-ciphers PROFILE=SYSTEM
    ssl-default-server-ciphers PROFILE=SYSTEM
defaults
    mode      http
    log       global
    option    http-keep-alive
    option    httplog
    option    dontlognull
    option    http-server-close
    option    forwardfor except 127.0.0.0/8
    option    redispatch
    timeout   http-request 10s
    timeout   queue 3m
    timeout   connect 10s
    timeout   client 3m
    timeout   server 3m
    timeout   http-keep-alive 10s
    timeout   check 10s
    maxconn   100000
    retries    3

1.4.1.1.2 状态配置文件

状态文件-子配置文件

# cat /data/apps/haproxy/conf.d/k8s-stats.cfg 
listen kube-stats
    mode        http
    bind        *:9999
    stats       enable
    stats       refresh 30s
    stats       hide-version
    stats       uri /kube?stats
    stats       realm "HAProxy stats"
    stats       auth admin:ink8s.com
    stats       admin if TRUE
    log         global

1.4.1.1.3 apiserver 子配置文件

kube-apiserver 子配置文件

# cat /data/apps/haproxy/conf.d/k8s-master-ha.cfg 
frontend kube_haproxy
    bind        *:6443
    mode        tcp
    use_backend kube-apiserver

backend kube-apiserver
    mode        tcp
    balance     roundrobin
    server k8s-master01 10.16.41.24:6443 check
    server k8s-master02 10.16.41.194:6443 check
    server k8s-master03 10.16.41.123:6443 check

1.4.1.1.4 启动 haproxy

# cat /usr/lib/systemd/system/haproxy.service 
[Unit]
Description=HAProxy Load Balancer
After=syslog.target network.target

[Service]
Type=notify
Environment="CONFIG=/data/apps/haproxy/haproxy.cfg" "PIDFILE=/data/apps/haproxy/haproxy.pid" "EXTRAOPTS=-S /data/apps/haproxy/haproxy.sock"
Environment="CONFIG_D=/data/apps/haproxy/conf.d/"
ExecStartPre=/data/apps/haproxy/sbin/haproxy -Ws -f $CONFIG -f $CONFIG_D -c -q $OPTIONS
ExecStart=/data/apps/haproxy/sbin/haproxy -Ws -f $CONFIG -f $CONFIG_D -p $PIDFILE $OPTIONS
ExecReload=/bin/kill -USR2 $MAINPID
KillMode=mixed
Restart=always
SuccessExitStatus=143

[Install]
WantedBy=multi-user.target

# systemctl daemon-reload 
# systemctl enable haproxy --now
# netstat -nlput

1.4.1.2 keepalived 配置

version: keepalived-2.0.10

1.4.1.2.1 proxy01 配置

k8s-node01 主机

[root@k8s-node01 ~]# cat /data/apps/keepalived/etc/keepalived/keepalived.conf 
! Configuration File for keepalived
global_defs {
    router_id kube-apis
    notification_email {
        [email protected]
    }

    notification_email_from [email protected]
    smtp_server stmp.qq.com
    smtp_connect_timeout 30
}

vrrp_instance ha_kube_apis {
    state BACKUP
    interface eth0
    virtual_router_id 111
    priority 100
    advert_int 1
    nopreempt
    authentication {
        auth_type PASS
        auth_pass inadm
    }
    virtual_ipaddress {
        10.16.41.25
    }
}

virtual_server 10.16.41.125 6443 {
    delay_loop 2
    lb_algo wrr
    lb_kind DR
    # persistence_timeout 60
    protocol TCP
    real_server 10.16.41.125 6443 {
        weight 3
        notify_down /data/apps/keepalived/keepalived_stop.sh
        TCP_CHECK {
            connect_timeout 10
            nb_get_retry 3
            delay_before_retry 3
            connect_port 6443
        }
    }
}

启动 keepalived

[root@k8s-node01 ~]# cat /data/apps/keepalived/keepalived_stop.sh
#!/bin/bash
pkill keepalived

[root@k8s-node01 ~]# chmod +x /data/apps/keepalived/keepalived_stop.sh
[root@k8s-node01 ~]# systemctl daemon-reload
[root@k8s-node01 ~]# systemctl start keepalived.service
[root@k8s-node01 ~]# systemctl enable keepalived.service

1.4.1.2.2 proxy02 配置

k8s-node02 主机

[root@k8s-node02 ~]# cat /data/apps/keepalived/etc/keepalived/keepalived.conf 
! Configuration File for keepalived
global_defs {
    router_id kube-apis
    notification_email {
        [email protected]
    }

    notification_email_from [email protected]
    smtp_server stmp.qq.com
    smtp_connect_timeout 30
}

vrrp_instance ha_kube_apis {
    state BACKUP
    interface eth0
    virtual_router_id 111
    priority 90
    advert_int 1
    nopreempt
    authentication {
        auth_type PASS
        auth_pass inadm
    }
    virtual_ipaddress {
        10.16.41.25
    }
}

virtual_server 10.16.41.66 6443 {
    delay_loop 2
    lb_algo wrr
    lb_kind DR
    # persistence_timeout 60
    protocol TCP
    real_server 10.16.41.66 6443 {
        weight 3
        notify_down /data/apps/keepalived/keepalived_stop.sh
        TCP_CHECK {
            connect_timeout 10
            nb_get_retry 3
            delay_before_retry 3
            connect_port 6443
        }
    }
}

启动 keepalived

[root@k8s-node02 ~]# cat /data/apps/keepalived/keepalived_stop.sh
#!/bin/bash
pkill keepalived

[root@k8s-node02 ~]# chmod +x /data/apps/keepalived/keepalived_stop.sh
[root@k8s-node02 ~]# systemctl daemon-reload
[root@k8s-node02 ~]# systemctl start keepalived.service
[root@k8s-node02 ~]# systemctl enable keepalived.service

1.4.1.3 haproxy 状态页访问

http://10.16.41.25:9999/kube?stats
admin:ink8s.com

upload successful

1.4.2 master 节点环境准备

1.4.2.1 配置主机解析

在 2台新增的 Master 主机上修改 /etc/hosts 文件。其它节点暂时不能修改！
相关组件及软件安装已在 “1.2 环境安装” 里面已经完成。

# cat /etc/hosts
...
10.16.41.24     k8s-master01
10.16.41.194    k8s-master02
10.16.41.123    k8s-master03
10.16.41.125    k8s-node01
10.16.41.66     k8s-node02
10.16.41.196    k8s-node03
10.16.41.25	k8s-vip.inadm.com

1.4.2.2 下载控制平面镜像

1
2

[root@k8s-master02 ~]# kubeadm config images pull --image-repository registry.aliyuncs.com/google_containers --kubernetes-version v1.28.0
[root@k8s-master03 ~]# kubeadm config images pull --image-repository registry.aliyuncs.com/google_containers --kubernetes-version v1.28.0

1.4.3 将节点加入控制平面

1.4.3.1 颁发证书

如果在此前使用 kubeadm init 初始化集群，没有添加 –upload-certs 参数，则需要手动将证书从主控制节点复制到将要加入的控制节点上，当然也可以通过如下方式，在现有的主节点上使用 –upload-certs 重新上传证书，并共享给其他控制节点使用

1
2

[root@k8s-master01 ~]# kubeadm init phase upload-certs --upload-certs
    ef1bab7e027632fb7ba382f69aeda789e77e3343d283232b27649834440e54a8            # 需要记录 certificate key，后面其它 Master 加入到集群时需要使用

1.4.3.2 加入集群

1. 在现有主节点上，运行以下命令，然后获取其它节点加入到集群的指令
[root@k8s-master01 ~]# kubeadm token create --print-join-command
kubeadm join k8s-vip.inadm.com:6443 --token j0mhea.dsmlfdmw2ql3sb48 --discovery-token-ca-cert-hash sha256:ed0e2bed77363145ce1ef165477e787d3e12b67148cf6b5a2fc8abed509967a0

2. 在新的 Master 节点上执行加入集群的命令(需要额外添加 --control-plane、--certificate-key 参数)
    --control-plane: 申明加入的节点是控制平面
    --certificate-key: 填写此前在主控制平面上，使用 --upload-certs 上传证书时所获得的 certificate key
// k8s-master02 执行
[root@k8s-master02 ~]# kubeadm join k8s-vip.inadm.com:6443 --token j0mhea.dsmlfdmw2ql3sb48 --discovery-token-ca-cert-hash sha256:ed0e2bed77363145ce1ef165477e787d3e12b67148cf6b5a2fc8abed509967a0 --control-plane --certificate-key ef1bab7e027632fb7ba382f69aeda789e77e3343d283232b27649834440e54a8
[root@k8s-master02 ~]# mkdir -p $HOME/.kube
[root@k8s-master02 ~]# sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@k8s-master02 ~]# sudo chown $(id -u):$(id -g) $HOME/.kube/config

// k8s-master03 执行
[root@k8s-master03 ~]# kubeadm join k8s-vip.inadm.com:6443 --token j0mhea.dsmlfdmw2ql3sb48 --discovery-token-ca-cert-hash sha256:ed0e2bed77363145ce1ef165477e787d3e12b67148cf6b5a2fc8abed509967a0 --control-plane --certificate-key ef1bab7e027632fb7ba382f69aeda789e77e3343d283232b27649834440e54a8
[root@k8s-master03 ~]# mkdir -p $HOME/.kube
[root@k8s-master03 ~]# sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@k8s-master03 ~]# sudo chown $(id -u):$(id -g) $HOME/.kube/config

1.4.3.3 检查集群状态

1 2	[root@k8s-master01 ~]# kubectl get nodes [root@k8s-master01 ~]# kubectl get pod -A

upload successful

1.4.3.4 检查集群可用性

APIServer 的高可用性主要依赖 keepalived 能否正常切换 vip 地址。但要验证 controllerManager 和 Schduler 的可用性，则可以通过如下步骤
- 首先，确定 kube-controllerManager 和 Schedulered 的 leader 节点是哪一个
- 然后，我们需要模拟 leader 节点故障，然后观察 leader 节点能否正常的切换到另外一个节点

1
2
3

1. 检查 controllerManager 目前的 leader 是那个节点，过滤 became leader (领导者) 关键字
[root@k8s-master01 ~]# kubectl get pod -n kube-system | grep kube-controller-manager
[root@k8s-master01 ~]# kubectl -n kube-system logs kube-controller-manager-k8s-master01 | grep -i "became leader"

upload successful

1
2
3

2. 检查 Scheduler 目前的 leader 是哪个节点，过滤 successfully 关键字
[root@k8s-master01 ~]# kubectl get pod -n kube-system | grep kube-scheduler
[root@k8s-master01 ~]# kubectl -n kube-system logs kube-scheduler-k8s-master02 | grep -i successfully

upload successful

3. 删除 leader 节点的 controllManager，验证能否正常切换
[root@k8s-master01 ~]# mv /etc/kubernetes/manifests/kube-controller-manager.yaml /opt/
// 会发现 Leader 切换到 k8s-master02 节点
[root@k8s-master01 ~]# kubectl -n kube-system logs kube-controller-manager-k8s-master02 | grep -i "became leader"

upload successful

1
2
3

4. 删除 leader 节点上的 scheduler，验证是否正常切换
[root@k8s-master02 ~]# mv /etc/kubernetes/manifests/kube-scheduler.yaml /opt/
[root@k8s-master02 ~]# kubectl -n kube-system logs kube-scheduler-k8s-master01 | grep -i successfully

upload successful

1
2
3

5. 还原 kube-controller-manager.yaml、kube-scheduler.yaml
[root@k8s-master01 ~]# mv /opt/kube-controller-manager.yaml /etc/kubernetes/manifests/kube-controller-manager.yaml
[root@k8s-master02 ~]# mv /opt/kube-scheduler.yaml /etc/kubernetes/manifests/kube-scheduler.yaml

1.4.4 修改 hosts 解析

在此前单 master 多 node 配置中，我们将 k8s-vip.inadm.com 临时指向到了 k8s-master01 节点。现在可以将其重新指向负载均衡的地址。以实现 master 节点的负载均衡
- 修改节点（包括 master 和 node 节点）上的 /etc/hosts 文件
- 找到原先将 k8s-vip.inadm.com 指向 k8s-master01 节点的记录，更改为指向负载均衡的地址

// 修改 k8s-master01、k8s-node01、k8s-node02、k8s-node03 的 hosts
# cat /etc/hosts
...
10.16.41.24     k8s-master01 
10.16.41.194    k8s-master02
10.16.41.123    k8s-master03
10.16.41.125    k8s-node01
10.16.41.66     k8s-node02
10.16.41.196    k8s-node03
10.16.41.25     k8s-vip.inadm.com

upload successful

1.5 集群资源监控

Metrics Server是一个集群范围的资源使用情况的数据聚合器。作为一个应用部署在集群中。Metric server从每个节点上Kubelet API收集指标，通过Kubernetes聚合器注册在Master APIServer中。为集群提供Node、Pods资源利用率指标
先部署 Metrics Server 高可用,再调整每个 Master 节点上的 “kube-apiserver.yaml” 文件

upload successful

1.5.1 metrics server 高可用性

upload successful


[root@k8s-master01 ~]# vim metrics_server.yaml		# 告诉metrics-server不验证kubelet提供的https证书
...
      containers:
      - args:
        - --cert-dir=/tmp
        - --secure-port=10250
        - --kubelet-preferred-address-types=InternalIP,ExternalIP,Hostname
        - --kubelet-use-node-status-port
        - --metric-resolution=15s
        - --kubelet-insecure-tls
        image: registry.k8s.io/metrics-server/metrics-server:v0.8.0
...

# kubectl apply -f metrics_server.yaml

upload successful

1.5.1 metrics server 负载平衡

kube-apiserver是以静态Pod的形式运行的，所以我们需要修改该Pod的清单文件
在所有 Master 节点上重复此操作、逐节点操作以避免服务中断
对于Metrics Server，确保你已经部署了多个副本（例如两个），并且它们都正常运行！！！

// 在`kube-apiserver`容器的`command`部分，添加`--enable-aggregator-routing=true
// 保存文件后，kubelet会自动重启该Pod
# kubectl get deployments -n kube-system metrics-server		# 确保 Metrics Server 已部署多个副本
# cd /etc/kubernetes/manifests/
# cp kube-apiserver.yaml /opt/kube-apiserver.yaml.bak		# 不能备份到 "manifests" 目录下
# vim kube-apiserver.yaml
...
spec:
  containers:
  - command:
    - kube-apiserver
    - --enable-aggregator-routing=true
...

1.5.2 验证

// 修改后，可以通过以下命令检查kube-apiserver的启动参数
# kubectl get pods -n kube-system kube-apiserver-k8s-master01 -o yaml | grep enable-aggregator-routing
# kubectl describe pod kube-apiserver-k8s-master01 -n kube-system | grep enable-aggregator-routing
# ps aux | grep kube-apiserver | grep enable-aggregator-routing

upload successful

1.6 ingress 安装

将Ingress Controller暴露，一般使用NodePort或者宿主机网络(hostNetwork: true)
- NodePort: 管理方便
- hostNetwork: 性能更好
使用 DaemonSet 方式部署，但需要通过 nodeSelector 来选择几个节点安装，并非所有节点都需要安装
将 Pod 的端口与节点共享网络名称空间；设定 Hostnetwork
kubernetes_1.28.0 <=> ingress_1.12.2

upload successful

# wget https://raw.githubusercontent.com/kubernetes/ingress-nginx/controller-v1.13.0/deploy/static/provider/baremetal/deploy.yaml
# vim deploy.yaml
// 将 "  type: NodePort" 修改为 "  type: ClusterIP"
// 将 "kind: Deployment" 修改为 "kind: DaemonSet"
// 在 "kubernetes.io/os: linux" 下面一行添加 "node-role: ingress"
// 将 "dnsPolicy: ClusterFirst" 修改为 "dnsPolicy: ClusterFirstWithHostNet"
// 并在 "dnsPolicy: ClusterFirstWithHostNet" 上面一行添加 "hostNetwork: true"
// 将 "strategy:" 修改为 "updateStrategy:"
...
      hostNetwork: true                        # 与节点共享网络名称空间
      dnsPolicy: ClusterFirstWithHostNet       # dns 策略
      nodeSelector:
        kubernetes.io/os: linux
        node-role: ingress                      # 如果有这个标签，则部署 (需要在部署节点上打标签)
      serviceAccountName: ingress-nginx
  type: ClusterIP
kind: DaemonSet
  updateStrategy:				# 采用 DaemonSet 方式这里需要修改为支持 DS 的滚动更新

// 采用 2 个节点部署 ingress，所以在 k8s-node01、k8s-node02 打标签 (在 master 上执行命令)
# kubectl label node k8s-node01 node-role=ingress
# kubectl label node k8s-node02 node-role=ingress
ubectl get all -n ingress-nginx -o wide

upload successful

本文作者： [email protected]
本文链接： https://www.ink8s.com/2025/07/14/kubernets-集群搭建/
版权声明： 本博客所有文章除特别声明外，均采用 MIT 许可协议。转载请注明出处！