admin 一、nvidia-smi命令展示 nvidia-smi简称NVSMI,提供监控GPU使用情况和更改GPU状态的功能,是一个驱动自带的跨平台工具,只要装好驱动之后就可以正常使用。 使用nvidia-smi --help可以看到此命令的所有参数及说明。下文仅介绍GPU测试相关同学使用频次最高的一些命令和示例。 nvidia-smi 可以显示所有GPU的当前信息状态,是每一个GPU相关从业者使用次数最多也最重要的命令。 打印信息中会包括从左到右依次为: Fan风扇当前转速(进针对主动散热带风扇的GPU卡,如4090、5090等等,如果不带风扇先显示为NA); Temp(温度temperature)是当前GPU设备的温度; Perf 性能状态从最大性能P0到P8、Pwr 功耗(当前功耗/设备最大TDP); Persistence-M 持续模式默认为off,使用nvidia-smi -pm 1可以将PM打开(性能测试或者追求性能的情况下再打开),打开PM能够让 GPU 更快响应任务,待机功耗增加; Bus-Id GPU总线,domain:device.function; Memory-Usage 显存使用率(当前使用显存/总显存); Volatile GPU-Util GPU使用率,可以在进行压力测试或者性能测试的过程中,关注GPU卡是否100%占用; ECC 是否开启错误检查和纠正技术,0/DISABLED, 1/ENABLED. 推荐使用:watch -n 1 nvidia-smi (动态监控GPU卡的实时状态),在进行压力测试、性能调优过程可以对比参考。nvidia-smi -l 2 也是动态打印信息(但是打印的全屏都是一直打印不推荐) 二、nvidia 其他命令使用介绍 nvidia-smi -q -u 显示单元而不是GPU的属性 nvidia-smi -q | grep -i vbios 查看GPU的vbios版本 nvidia-smi -pm 0/1 设置持久模式:0/DISABLED,1/ENABLED nvidia-smi dmon 设备监控命令,以滚动条形式显示GPU设备统计信息 nvidia-smi dmon –d 2/3 指定刷新时间(默认为1秒) nvidia-smi dmon –f **.txt 将查询的信息输出到具体的文件中,不在终端显示 nvidia-debugdump 很好用的故障信息日志收集命令,一键打包 三、GPU设备识别及带宽速率查看 说明:Nvidia GPU卡在没有负载的时候,会自动进入节能模式,就上图所示速率为2.5GT/s。 四、查看GPU topo 使用nvidia-smi topo -m查看当前服务器设置中各GPU的硬件topo。使用nvidia-smi topo -p2p rw可以查看当前设备中配置的GPU卡是否支持P2P通信。 如下第一张图可以看出当前配置是直通配置,GPU都是挂在CPU直出的PE口(topo图中的每个矩阵值代表什么,后续可以专篇介绍)。 第二张图代表当前设备下的8个GPU设备支持P2P通信,即GPU直接的数据通信不用通过CPU,而可以直接进行显存之间的数据交换。(P2P相关技术点、原理等后续专篇分析介绍)。