Kubernetes（k8s）部署Promehteus（kube-prometheus&kube-prometheus-stack）监控

2022-07-04 22:03:09 阅读：236 来源： 互联网

标签：alertmanager Kubernetes Prometheus grafana metrics prometheus kube

一、概述
二、安装kube-prometheus
三、使用Helm3安装kube-prometheus-stack

一、概述

在1.8版本以后heapster由metrics-server替代；从k8s的v1.11版本开始已经全面转向以Prometheus为核心的新监控体系架构；kube-prometheus 中包含了 prometheus 监控所用到的所有组件，当然也包含 prometheus-operator。

Helm中心仓库的PrometheusOperator Chart，在2020年9月已经不维护了，新的Chart在Prometheus Community的Repo中，叫 kube-prometheus-stack，使用时需要先添加该Repo。

heapster-》metrics-server-》prometheus-operator -》kube-prometheus-》kube-prometheus-stack

1）metrics-server简介

metrics-server 通过kubelet（cAdvisor）获取监控数据，主要作用是为kube-scheduler，HPA等k8s核心组件，以及kubectl top命令和Dashboard等UI组件提供数据来源。

【注意】如果要部署prometheus，就不用部署了metrics-server了，否则冲突，推荐只部署prometheus，所以这里也只讲prometheus的部署。

2）Prometheus简介

Prometheus是一个开源监控系统，它前身是SoundCloud的警告工具包。从2012年开始，许多公司和组织开始使用Prometheus。

Prometheus的主要特征有：

多维度数据模型
灵活的查询语言
不依赖分布式存储，单个服务器节点是自主的
以HTTP方式，通过pull模型拉去时间序列数据
也通过中间网关支持push模型
通过服务发现或者静态配置，来发现目标服务对象
支持多种多样的图表和界面展示，grafana也支持它

组件
Prometheus生态包括了很多组件，它们中的一些是可选的：

主服务Prometheus Server负责抓取和存储时间序列数据
客户库负责检测应用程序代码
支持短生命周期的PUSH网关
基于Rails/SQL仪表盘构建器的GUI
多种导出工具，可以支持Prometheus存储数据转化为HAProxy、StatsD、Graphite等工具所需要的数据存储格式
警告管理器
命令行查询工具
其他各种支撑工具

3）Prometheus Operator

Prometheus Operator的本职就是一组用户自定义的CRD资源以及Controller的实现，Prometheus Operator负责监听这些自定义资源的变化，并且根据这些资源的定义自动化的完成如Prometheus Server自身以及配置的自动化管理工作。以下是Prometheus Operator的架构图：

4）metrics-server&Promehteus对比&特性

使用metric-server收集数据给k8s集群内使用，如kubectl,hpa,scheduler等
使用prometheus-operator部署prometheus，存储监控数据
使用kube-state-metrics收集k8s集群内资源对象数据
使用node_exporter收集集群中各节点的数据
使用prometheus收集apiserver，scheduler，controller-manager，kubelet组件数据
使用alertmanager实现监控报警
使用grafana实现数据可视化

5）Prometheus Operator VS kube-prometheus

最开始是Heapster+cAdvisor方式监控，这是Prometheus Operator出现之前的k8s监控方案。后来出现了Prometheus Operator，但是目前Prometheus Operator已经不包含完整功能，完整的解决方案已经变为kube-prometheus。

Prometheus Operator 是CoreOS的一个开源项目，用来增强Prometheus在Kubernetes中的管理运维能力。利用Kubernetes的自定义资源定义（Custom Resource Definition）的特性，实现声明式管理运维Prometheus监控告警系统。
kube-prometheus 为基于 Prometheus 和 Prometheus Operator 的完整集群监控堆栈提供示例配置。这包括部署多个 Prometheus 和 Alertmanager 实例、指标导出器（例如用于收集节点指标的 node_exporter）、抓取将 Prometheus 链接到各种指标端点的目标配置，以及用于通知集群中潜在问题的示例警报规则。
两个项目的关系：前者只包含了Prometheus Operator，后者既包含了Operator，又包含了Prometheus相关组件的部署及常用的Prometheus自定义监控，具体包含下面的组件
1. The Prometheus Operator：创建CRD自定义的资源对象
2. Highly available Prometheus：创建高可用的Prometheus
3. Highly available Alertmanager：创建高可用的告警组件
4. Prometheus node-exporter：创建主机的监控组件
5. Prometheus Adapter for Kubernetes Metrics APIs：创建自定义监控的指标工具（例如可以通过nginx的request来进行应用的自动伸缩）
6. kube-state-metrics：监控k8s相关资源对象的状态指标
7. Grafana：进行图像展示

二、安装kube-prometheus

前面我们学习了Heapster+cAdvisor方式监控，这是Prometheus Operator出现之前的k8s监控方案。后来出现了Prometheus Operator，但是目前Prometheus Operator已经不包含完整功能，完整的解决方案已经变为kube-prometheus。项目地址为：https://github.com/coreos/kube-prometheus。

1）安装git

$ yum install -y git

2）下载kube-prometheus

# 下载
$ git clone https://github.com/prometheus-operator/kube-prometheus.git
$ cd kube-prometheus/manifests
# yaml文件比较多，下面进行归档
$ mkdir -p serviceMonitor prometheus adapter node-exporter blackbox kube-state-metrics grafana alertmanager operator other/{nfs-storage,ingress}
$ mv alertmanager-* alertmanager/ && mv blackbox-exporter-* blackbox/ &&  mv grafana-* grafana/ && mv kube-state-metrics-* kube-state-metrics/ && mv node-exporter-*  node-exporter/ && mv prometheus-adapter-* adapter/ && mv prometheus-* prometheus/ && mv kubernetes-serviceMonitor* serviceMonitor/
$

2）修改镜像源

国外镜像源某些镜像无法拉取，我们这里修改prometheus-operator，prometheus，alertmanager，kube-state-metrics，node-exporter，prometheus-adapter的镜像源为国内镜像源。我这里使用的是中科大的镜像源。

# 查找
$ grep -rn 'quay.io' *
# 批量替换
$ sed -i 's/quay.io/quay.mirrors.ustc.edu.cn/g' `grep "quay.io" -rl *`
# 再查找
$ grep -rn 'quay.io' *
$ grep -rn 'image: ' *

3）修改类型为NodePort

为了可以从外部访问prometheus，alertmanager，grafana，我们这里修改promethes，alertmanager，grafana的service类型为NodePort类型。

1、修改prometheus的service

# 设置对外访问端口：30080
$ cat prometheus-service.yaml

2、修改grafana的service

# 设置对外访问端口：30081
$ cat grafana-service.yaml

3、修改alertmanager的service

# 设置对外访问端口：30082
$ cat alertmanager-service.yaml

4、安装CRD和prometheus-operator

【温馨提示】CustomResourceDefinition：自定义资源

$ kubectl apply -f setup/

下载prometheus-operator镜像需要花费几分钟，这里等待几分钟，直到prometheus-operator变成running状态

$ kubectl get pod -n monitoring

5、安装prometheus, alertmanager, grafana, kube-state-metrics, node-exporter等资源

$ kubectl apply -f .

稍等一段时间再查看，查看命名空间monitoring下面的pod状态，直到monitoring命名空间下所有pod都变为running状态，就大功告成了。

$ kubectl get pod -n monitoring

如果上面下载镜像失败，可以使用以下地址下载，当然也可以去hub.docker.com下载。

链接：https://pan.baidu.com/s/1JUx_m-JAJ8gUeJE-Gmhzig
提取码：8888

6、工作流程

Prometheus Server定期从配置好的Exporters/Jobs中拉metrics，或者来着pushgateway发过来的metrics，或者其它的metrics，收集完后运行定义好的alert.rules，记录时间序列或者向Alertmanager推送警报。

7、组件说明

node_exporter：用来监控运算节点上的宿主机的资源信息，需要部署到所有运算节点
kube-state-metric：prometheus采集k8s资源数据的exporter，能够采集绝大多数k8s内置资源的相关数据，例如pod、deploy、service等等。同时它也提供自己的数据，主要是资源采集个数和采集发生的异常次数统计
blackbox_exporter：监控业务容器存活性
prometheus-adapter：由于本身prometheus属于第三方的解决方案，原生的k8s系统并不能对Prometheus的自定义指标进行解析，就需要借助于k8s-prometheus-adapter将这些指标数据查询接口转换为标准的Kubernetes自定义指标。

8、验证

$ kubectl get svc -n monitoring

浏览器访问
prometheus：http://192.168.0.113:30080/

grafana：http://192.168.0.113:30081/login
默认账号/密码：admin/admin

alertmanager：http://192.168.0.113:30082/

9、Grafana添加数据源

1、修改prometheus地址

10、导入DashBoards

dashboards地址：https://grafana.com/grafana/dashboards/
1）从官网下载模板，导入模板

2）kubernetes模板导入（k8s模板）

三、使用Helm3安装kube-prometheus-stack

# 添加repo
$ helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
$ helm repo update
$ helm search repo prometheus-community/prometheus

1）下载kube-prometheus-stack包

# 拉包
$ helm pull prometheus-community/kube-prometheus-stack
# 解包
$ tar -xf kube-prometheus-stack-19.2.3.tgz

查看所需要的镜像，最好提前下载镜像，要不然很大可能会因为下载镜像失败而安装失败。

$ grep -A3 'image:' kube-prometheus-stack/values.yaml

这里提供镜像下载地址，当前也可以去hub.docker.com网站上下载，或者其它地方下载，如果下载不到对应的版本号，可以下载最新的，然后tag一个就行了。

链接：https://pan.baidu.com/s/1NDHckhvVgDngq98BXlHLFw
提取码：8888

2）导入镜像（所有节点都执行）

$ docker image load -i k8s.gcr.io-ingress-nginx-kube-webhook-certgen-v1.0.tar
$ docker image load -i quay.io-prometheus-alertmanager-v0.22.2.tar
$ docker image load -i quay.io-prometheus-operator-prometheus-operator-v0.50.0.tar
$ docker image load -i quay.io-prometheus-prometheus-v2.28.1.tar

3）安装kube-prometheus-stack

# 创建命名空间
$ kubectl create ns kube-prometheus-stack
$ helm install mykube-prometheus-stack kube-prometheus-stack \
  -n kube-prometheus-stack \
  --set prometheus-node-exporter.hostRootFsMount=false \
  --set prometheus.ingress.enabled=true \
  --set prometheus.ingress.hosts='{prometheus.k8s.local}' \
  --set prometheus.ingress.paths='{/}' \
  --set prometheus.ingress.pathType=Prefix \
  --set alertmanager.ingress.enabled=true \
  --set alertmanager.ingress.hosts='{alertmanager.k8s.local}' \
  --set alertmanager.ingress.paths='{/}' \
  --set alertmanager.ingress.pathType=Prefix \
  --set grafana.ingress.enabled=true \
  --set grafana.ingress.hosts='{grafana.k8s.local}' \
  --set grafana.ingress.paths='{/}' \
  --set grafana.ingress.pathType=Prefix

这里我没跑起来，机器跑的东西太多，已经不能支撑跑kube-prometheus-stack了，有兴趣的小伙伴可以试试~

发现K8s v1.21+，PSP已经被废弃，不建议使用，完全移除在v1.25版本。再不学习它就学不到了。PSP官方讲解

4）清理

$ helm uninstall mykube-prometheus-stack -n kube-prometheus-stack

更多实战监控知识，请耐心等待~

标签：alertmanager,Kubernetes,Prometheus,grafana,metrics,prometheus,kube
来源： https://www.cnblogs.com/liugp/p/16444580.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9