前面几篇文章主要讲了如何使用Quarch产品主动导入一些问题来验证大模型训练/推理过程中使用的GPU, 网卡,SSD等的健壮性,但是有的时候我们也需要被动地解决一些电源相关的问题。
Quarch的功率分析模块(PAM, Power Analysis Module)是一款强大的工具,用于精确监测硬件组件的功耗和边带信号。在AI训练和推理主机的硬件验证中,PAM可以帮助发现许多潜在的问题和故障。
以下是一些使用Quarch PAM进行功耗监测和边带信号分析的具体例子:
1.GPU动态功耗分析
场景:监测GPU在不同AI工作负载下的功耗变化。操作:
使用PAM持续监测GPU的功耗。
运行不同类型的AI模型(如CNN、RNN、Transformer等)。
分析功耗波动和峰值。可能发现的问题:
某些模型可能导致异常的功耗峰值,指示潜在的优化空间。
功耗波动过大可能暗示散热问题或电源设计不足。
场景:监测高速网卡在数据传输过程中的电源稳定性。操作:
使用PAM监测网卡的电压纹波和瞬态响应。
在不同的数据传输模式下(如突发传输、持续高带宽传输)进行测试。可能发现的问题:
电压瞬态过大可能导致网卡不稳定或位错误率增加。
持续的电压纹波可能影响信号完整性,降低网络性能。
场景:长时间监测SSD的功耗模式。操作:
使用PAM记录SSD在各种操作(读、写、空闲)下的功耗。
分析功耗数据,寻找异常模式。可能发现的问题:
空闲状态下异常高功耗可能指示固件问题或后台进程异常。
写入操作功耗突然增加可能暗示写入放大效应恶化。
场景:同时监测GPU的温度和功耗。操作:
使用PAM监测GPU功耗,同时记录温度传感器数据。
在长时间的AI训练过程中分析两者的关系。可能发现的问题:
温度升高但功耗不变,可能指示散热系统效率下降。
功耗突然下降伴随温度急剧上升,可能是过热保护机制触发的标志。
场景:监测网卡的PCIe边带信号。操作:
使用PAM监测诸如PERST#(PCIe复位)等信号。
在系统启动、负载变化时分析这些信号的行为。可能发现的问题:
PERST#信号异常可能指示系统在压力下不稳定,导致频繁的PCIe重置。
边带信号的异常行为可能暗示PCIe链路训练问题。
场景:监测SSD在不同电源状态间的转换。操作:
使用PAM精确捕捉SSD在活跃、空闲、睡眠状态间切换时的功耗变化。
分析转换的时间和功耗特征。可能发现的问题:
状态转换时间过长可能影响系统响应性。
低功耗状态的实际功耗高于预期,可能指示电源管理问题。
场景:同时监测GPU的多个电源轨(如核心、内存、I/O)。操作:
使用PAM的多通道功能同时监测不同电源轨。
分析各轨之间的功耗关系和时序。可能发现的问题:
电源轨之间的不同步可能导致性能不稳定或错误。
某个电源轨的异常行为可能指示局部故障。
场景:监测网卡在处理突发流量时的功耗特性。操作:
使用PAM高采样率功能捕捉网卡在突发流量下的瞬时功耗。
分析功耗峰值和持续时间。可能发现的问题:
过高的功耗峰值可能超出电源设计限制,导致系统不稳定。
功耗无法及时响应流量变化可能指示性能瓶颈。
场景:详细分析SSD在不同写入模式下的功耗特征。操作:
使用PAM高精度测量SSD在顺序写入和随机写入时的功耗模式。
分析功耗波形的形状和持续时间。可能发现的问题:
随机写入功耗异常高可能指示写入放大问题严重。
功耗波形不规则可能暗示内部垃圾回收机制异常。
场景:同时监测GPU的功耗和某些关键边带信号(如风扇速度控制信号)。操作:
使用PAM同时记录GPU功耗和边带信号。
分析信号变化与功耗变化的关系。可能发现的问题:
功耗上升但风扇速度控制信号无响应可能指示散热控制系统故障。
边带信号频繁波动可能暗示系统在不稳定状态下运行。
深入了解硬件在实际AI工作负载下的行为。
发现常规测试难以察觉的细微问题。
优化系统设计,提高能效和可靠性。
预测潜在故障,提前采取预防措施。
如果你有其任何关于PCIe5&6.0, CXL, NVMe, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。