四、NVIDIA GPU常见报错信息分享及故障分析流程介绍

admin

一、背景说明

本文探讨的GPU报错信息主要收集于数据中心、多机多卡满负载场景。主要面向服务器厂商的维护团队、售后一线同事或者终端使用客户的问题排查和定位。
推荐搭配 lspci -tv、nvidia-smi topo -m分析硬件topo。

二、常见GPU错误信息

说明：本章节仅展示作者在日常使用及问题定位过程发现的错误信息（具体问题的分析结果、根本原因等暂不方便展开描述_勿怪）。

GPU Device is currently unavailable
Unale to determine thr device handle for***
GPU has fallen off the bus（xid 79）
本错误较为致命，属于物理链路上的设备丢失，需重点关注分析。
GPU BDF RmInitAdapter failed
GPU at BDF *** （xid 62）

三、NVIDIA 错误码XID Erros

官网网址：https://docs.nvidia.com/deploy/xid-errors/analyzing-xid-catalog.html 推荐将文档下载到本地检索使用。

四、常规GPU问题分析思路

（很重要）保留第一现场，即遇到报错或者弹出告警信息的时候，第一时间截图或者拍照保留（同样不要立马使用重启大法直接重启恢复）；
查看demsg对应打印，推荐关注dmesg最后的日志打印，然后根据需要反正往上看，直到报错开始的日志打印处；
如果报错信息中存在第二部分展示的部分xid相关的错误码信息，可以自行对比xid表格，找出问题具体指向硬件链路还是软件层；
执行 nvidia-bug-report.sh 日志收集脚本（装完NVIDIA驱动之后就可直接tab出来使用）然后就会Creates 'nvidia-bug-report.log.gz' if 'gzip' is installed；

在服务器的web管理页面进行一键日志下载（需要传递给服务器厂商进行解读分析）；
如果必需的日志收集完成，可以选择进行服务器重启（如有业务部署的GPU服务器重启需注意呀）进行问题复现（重启也分DC和AC），找出问题的触发条件从而进一步进行分析定位。

皖ICP备17021150号-4