今天带大家认识一款专业工具—— Quarch公司的GPU 功耗分析模块(PAM),看看它是如何解决这一难题的。感兴趣的朋友可以直接查看下面的高清视频。
我们花费2个小时针对本期视频处理添加了中、英文字幕供大家参考,参见下面的视频,如果想看高清视频一定要在电脑上打开上面的视频链接进行观看!如果你觉得这篇文章对你有帮助,也希望帮助到更多人,欢迎分享到朋友圈或者与朋友讨论!
高工作速度:GPU 高速运行,信号频率极高,传统测量手段难插入。
物理结构受限:直接插在 PCIe 插槽中,探针和导线无法轻易接入。
多路大电流供电:底部三路电源轨、顶部两路并联供电轨,瞬时电流极大。
功耗波动剧烈:持续可达 600W,瞬时峰值最高可达 1800W甚至到2700W。
上图为在GPU卡和插槽之间串接了Quarch公司的PAM Gen5 x16治具的效果
无损透传:夹在 GPU 与主板之间,不影响高速信号传输。
全通道测量:同时监测 12V、3.3V 主电压与辅助电压。
辅助电源精测:通过分流扩展板精准采集顶部 12V 辅助电流。参见下图的PAM治具的具体方式,以及如何连接并且监控、记录辅助电源输入到GPU卡
软件可视化:配合 Quarch Power Studio 实时查看电压、电流、边带信号状态及功耗曲线。
长时间记录 & 数据导出:几乎无限制采样,可导出到脚本或其他分析软件,实现自动化分析。
上图为为Quarch PAM的管理软件Quarch Power Studio示例图
空闲状态下,GPU 功耗可能仅约 3W;当运行 AI 图像生成时,瞬间飙升至 600W。 在数据中心内,多卡并行运行时,功耗变化会成倍放大,对电力分配与冷却提出巨大挑战。
上图为采用液冷机制进行降温的国内某server厂家的方案示例,主要就是为了解决GPU等关键器件的高功耗和发热量的问题
精准容量规划:避免电力/冷却系统过度或不足配置。
成本优化:减少不必要的基础设施投入。
稳定性提升:提前发现功耗异常,优化散热与供电设计。
Quarch GPU 电源分析治具为 GPU 功耗测量提供了高精度的解决方案,可应对极宽动态范围和高电流需求,为 AI 训练、高性能计算和数据中心运维提供可靠的数据依据。
4.3 电源分析模块PAM - 电压/电流/Sideband
12.4.4 GPU and AI Analysis
17.12 Quarch PAM电源分析模块在大模型训练/推理过程中进行问题诊断的典型场景分析(四)
17.13 Quarch PAM电源分析模块在大模型训练/推理过程中进行GPU问题诊断的典型场景分析(五)
https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y
如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。