ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

pve节点频繁宕机问题排查

2022-05-22 01:04:16  阅读:473  来源: 互联网

标签:11 5.4 宕机 pve 6.3 日志 73 节点


1.时间:

我是大概20220521日上午11:03分收到这个事情开始跟进;

再这之前一直是其他同事在处理,由于最近比较忙,没有安排的事情基本也都没有深入跟进,只是知道个大概。

2.问题现象:

​ qa环境k8s集群内有两台虚拟机节点宕机,影响的业务面为qa环境k8s集群不可用。下层的物理机是自建pve。pve也连接失败(认为此节点宕机)。处理方式人为干预对pve硬重启后,再逐次启动上层虚拟机。但是只能临时解决。

3.问题的处理思路:

#信息收集:

#判断系统
# cat /etc/redhat-release  #这个为centos或者redhat查看方法
cat: /etc/redhat-release: No such file or directory
# cat /etc/debian_version  #这个为通用的debian系统查看方法
10.12




# uname -a
Linux pve65 5.4.73-1-pve #1 SMP PVE 5.4.73-1 (Mon, 16 Nov 2020 10:52:16 +0100) x86_64 GNU/Linux

可以看出我们使用的是开源的pve虚拟机。


查看当前版本信息
# pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.73-1-pve)
pve-manager: 6.3-2 (running version: 6.3-2/22f57405)
pve-kernel-5.4: 6.3-1
pve-kernel-helper: 6.3-1
pve-kernel-5.4.73-1-pve: 5.4.73-1

获取最近的系统重启时间为 11:07分

重启后问题临时解决,那么就要分析11:07分以前的日志,在这个时间之前的日志都为有用的信息。

通过/var/log/messages日志发现11:07以前依然有系统日志输出。 这证明了系统一直在运行状态。

直到17号发现有一条cpu相关警告,但是这条线不太有价值,我追下去没有得到相关具体解决方案。

在/var/log/syslog 日志中有了新发现:

11:07:34秒前所有的日志都是报网卡挂起

e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: (直接google就得到了答案)

官方可以看到很多人遇到了同样的问题,也都回复得到了解决。和我们目前的问题一致:

https://forum.proxmox.com/threads/e1000-driver-hang.58284/

4.下午3点53分处理结束

#如果没有ethtool工具可以执行如下命令安装:
apt install ethtool

#禁用 tcp 分段卸载和通用分段卸载
# ethtool -K eno1 tso off gso off

执行后到20220521日22:50分目前为止再没有报日志:
e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:

标签:11,5.4,宕机,pve,6.3,日志,73,节点
来源: https://www.cnblogs.com/nf01/p/16296724.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有