【高清视频】精准测量 GPU 功耗的秘密武器 — Quarch GPU和各类插卡功耗分析模块
2025-08-12 11:06:46

近几年,AI 训练与高性能计算让 GPU 的功耗冲上新高,数据中心的用电和冷却需求水涨船高。如何准确、有效、长时间地测量和记录、回溯分析 GPU 的功耗,不仅是研发工程师关注的重点,也是数据中心运维优化的关键。

今天带大家认识一款专业工具—— Quarch公司的GPU 功耗分析模块(PAM),看看它是如何解决这一难题的。感兴趣的朋友可以直接查看下面的高清视频。

我们花费2个小时针对本期视频处理添加了中、英文字幕供大家参考,参见下面的视频,如果想看高清视频一定要在电脑上打开上面的视频链接进行观看!如果你觉得这篇文章对你有帮助,也希望帮助到更多人,欢迎分享到朋友圈或者与朋友讨论!

01 为什么测 GPU 功耗这么难?
上图为采用标准PCIe 5.0 x16插卡的Nvidia H100GPU卡和400GE网卡
  • 高工作速度:GPU 高速运行,信号频率极高,传统测量手段难插入。

  • 物理结构受限:直接插在 PCIe 插槽中,探针和导线无法轻易接入。

  • 多路大电流供电:底部三路电源轨、顶部两路并联供电轨,瞬时电流极大。

  • 功耗波动剧烈:持续可达 600W,瞬时峰值最高可达 1800W甚至到2700W。


02 Quarch 治具的独门绝技

上图为在GPU卡和插槽之间串接了Quarch公司的PAM Gen5 x16治具的效果

  • 无损透传:夹在 GPU 与主板之间,不影响高速信号传输。

  • 全通道测量:同时监测 12V、3.3V 主电压与辅助电压。

  • 辅助电源精测:通过分流扩展板精准采集顶部 12V 辅助电流。参见下图的PAM治具的具体方式,以及如何连接并且监控、记录辅助电源输入到GPU卡

  • 软件可视化:配合 Quarch Power Studio 实时查看电压、电流、边带信号状态及功耗曲线。

  • 长时间记录 & 数据导出:几乎无限制采样,可导出到脚本或其他分析软件,实现自动化分析。


03 实战场景:AI 图像生成

上图为为Quarch PAM的管理软件Quarch Power Studio示例图

空闲状态下,GPU 功耗可能仅约 3W;当运行 AI 图像生成时,瞬间飙升至 600W 在数据中心内,多卡并行运行时,功耗变化会成倍放大,对电力分配与冷却提出巨大挑战。


04 给数据中心带来的价值

上图为采用液冷机制进行降温的国内某server厂家的方案示例,主要就是为了解决GPU等关键器件的高功耗和发热量的问题

  • 精准容量规划:避免电力/冷却系统过度或不足配置。

  • 成本优化:减少不必要的基础设施投入。

  • 稳定性提升:提前发现功耗异常,优化散热与供电设计。


演示视频总结

Quarch GPU 电源分析治具为 GPU 功耗测量提供了高精度的解决方案,可应对极宽动态范围和高电流需求,为 AI 训练、高性能计算和数据中心运维提供可靠的数据依据。


更多关于PCIe Gen6的测试工具和技术,请下载我们2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。本视频演示的产品请参考下面面的章节:
  • 4.3 电源分析模块PAM - 电压/电流/Sideband

  • 12.4.4 GPU and AI Analysis

  • 17.12 Quarch PAM电源分析模块在大模型训练/推理过程中进行问题诊断的典型场景分析(四)

  • 17.13 Quarch PAM电源分析模块在大模型训练/推理过程中进行GPU问题诊断的典型场景分析(五)

白皮书下载链接 (或者点击下面的二维码直接下载):

https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y

图片

如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。

图片