【经验分享】一颗推理GPU芯片流片前，为什么必须先把PCIe 6.0测试环境搭起来？

2026-06-02 14:32:15

我们最近和一家正在研发推理用 GPU 芯片的startup 公司做了一次针对PCIe 6.0测试技术的交流。对方不是单纯做板卡，也不是只做系统集成，而是从自研 GPGPU 芯片开始，往 PCIe 卡、OM 模组、八卡互联、超节点整机柜等不同产品形态延伸。我们今天的这篇文章就结合和用户交流来谈谈GPU推理卡针对PCIe测试都在关心什么。

这次交流的重点并不是泛泛而谈“PCIe 6.0有多快”，而是围绕一个非常现实的问题展开：当一颗面向推理场景的新一代 GPU 芯片即将流片，真正落地时应该怎样提前准备 PCIe 6.0 的验证环境？分析仪要不要买？训练器和兼容性测试是否现在就要上？没有真正成熟的 Gen6 Server 怎么办？Switch 卡、延长线、Retimer、AOC/ACC、故障注入、电压拉偏和功耗记录这些东西，到底哪些是必需的，哪些可以分阶段准备？

Nvidia全线PCIe 6.0 GPU和CX-8等采用SerialTek PCIe 6.0分析仪/训练器/CTS进行测试

整个会议大致可以分成几条主线。

一、从传统芯片，转向面向推理的最新一代 GPGPU

客户这个团队早期方向更偏传统芯片应用，现在公司的策略结合市场的需求，不是继续做大而全的训练芯片，而是 all in 推理。客户的判断是，大模型已经从“训练竞赛”逐步进入“推理落地”阶段，推理更接近真实用户场景，卡的需求数量也会远远大于训练。因此最新一代产品会把一些训练中需要、但推理中未必关键的模块砍掉，重点放在推理效率、大内存容量、内存带宽，以及卡与卡之间的互联能力上。芯片原型将涉及 112G SerDes、PCIe 6.0，以及未来可能用到的 CXL 3.0 或后续版本。也就是说，这不是一张普通加速卡，而是一颗从一开始就要面对高速互联和系统级验证挑战的芯片。

由于项目推进的需要，现在就需要关注 PCIe 6.0 测试环境：等芯片回来以后再找工具、找线缆、找平台，时间上一定来不及。

二、产品形态

客户最新一代产品不是单一形态，而是同时规划了 PCIe 标卡和 OAM 模组，还有八卡、超节点、整机柜场景，PCIe 6.0 就不再只是“卡插到主板上能不能亮”的问题，而变成了多卡互联、线缆距离、Retimer、Switch、散热、供电、故障恢复和长期稳定性的综合问题。

三、PCIe 6.0生态的实际进展：规范早已发布，但落地比想象中慢

随后我们重点聊到了 PCIe 6.0 当前全球测试和互操作进展。PCIe 6.0 规范在 2022 年 1 月已经正式发布，到现在已经过去几年。但从真实产业推进来看，Gen6 的落地节奏并没有当初想象得那么快。

原因并不难理解。PCIe 6.0 首次引入 PAM4、FLIT Mode、FEC 等机制，协议层和物理层都发生了比较大的变化。规范本身定下来，并不代表 CPU、Switch、SSD、网卡、GPU、分析仪、训练器、示波器、BERT、Retimer 等生态马上就能全部成熟。

会议中回顾了几次 PCIe 6.0 小规模互操作测试的大致情况。

第一次是在 2024 年 6 月左右，属于 preliminary FYI (for your information) 的 Gen6 workshop。这个阶段还非常早，参加的公司大约十几家，测试工具和产品厂商各占一部分。结果并不理想，很多产品之间无法稳定互联互通，工具本身也存在不少问题。

第二次在 2024 年 10 月中旬，情况比第一次有所改善，已经有部分设备可以跑到 Gen6，但干净稳定、没有 recovery 的链路仍然很少，很多产品仍然存在各种兼容性和链路恢复问题。

第三次在 2025 年 3 月左右，测试规模和成熟度继续提升，SerialTek 作为其中的重要参与方，围绕协议层分析和训练器测试做了更多验证。

第四期测试相对还不错，在2025年10月底，除了一家公司的产品有些问题，大部分厂家的产品都可以工作在PCIe 6.0。

第五次比较特殊，在2026年3月底，重点集中在协议层互操作和兼容性测试，没有像前几次那样同时覆盖完整的物理层测试。最终测试反馈，SerialTek 的测试速度是业内最快，比传统分析仪至少介绍一般的时间，并且和PCIe 6.0链路同步锁定也最快。测试之后，各家根据不通过项继续定位问题，并在 4 月20日做了再次 re-test。随后在 PCI-SIG Developer Conference 期间，SerialTek的PCIe 6.0分析仪和训练器被PCI SIG官宣进入官方CTS测试供应商名单。

这个过程说明一个现实：PCIe 6.0不是某一家厂商单独做出来就能用，而是要靠 CPU、Switch、SSD、网卡、GPU、协议分析仪、训练器、线缆和连接器共同成熟。对正在开发 Gen6 Endpoint 的公司来说，提前建立自己的验证能力非常关键。

四、CXL 3.0目前更像“未来需求”，当下先把PCIe 6.0跑稳更现实

客户也提到未来可能使用 CXL 3.0。我们的判断是，CXL 3.0 很重要，但现阶段真正可落地的验证重点还是 PCIe 6.0。

原因很直接：CXL 是跑在 PCIe 之上的上层协议生态。如果 PCIe 6.0 底层链路、FLIT、训练、恢复、兼容性都还没有充分稳定，那么 CXL 3.0 的系统级验证就更难。现在市场上真正可购买、可规模部署的 CXL 3.0 设备还非常有限，更多现实项目仍然停留在 PCIe 5.0 + CXL 2.0 或更早阶段。

因此，当前对客户最有价值的工具路径是：先把 PCIe 6.0 Analyzer 作为基础 debug 工具配起来；如果后续需要自定义测试用例、RC/EP模拟、协议兼容性自动化测试，再进一步考虑 Tester/Exerciser 和 CTS 软件。

五、分析仪、训练器和CTS：到底该怎么选？

会议中我们重点解释了 SerialTek PCIe 6.0/CXL 3.0 Analyzer/Tester 的配置逻辑。

如果客户只是做 bring-up 和 debug，那么最基础、最必要的是 Analyzer。芯片回来以后，链路能不能起来，LTSSM 卡在哪里，Recovery 为什么频繁发生，FLIT Mode 是否进入，报错来自哪一层，这些都离不开协议分析仪。

如果客户还希望主动模拟 Root Complex 或 Endpoint，自己写测试脚本、发 packet、验证响应，就需要 Tester/Exerciser 功能。SerialTek 设备可以通过 operation mode 切换工作模式，配合 Host Smart Fixture 等治具，把设备模拟成 RC，用来测试客户自己的 GPU Endpoint；也可以模拟 EP，用来测试客户的 CPU 或 Root Complex。

更进一步，如果客户需要跑协议兼容性测试，那么 Tester 激活以后，相关 CTS 套件也可以配套使用。软件支持通过网络连接、Web 管理界面、RESTful API 和 Python 脚本进行自动化调用。用户可以自己写测试用例，也可以直接跑标准兼容性测试用例。

但从客户当前阶段来看，我们也给出一个比较务实的建议：如果只是为了偶尔跑 CTS，不一定一开始就要买完整 Tester/CTS 配置。因为客户不是专门做认证实验室，真正刚需还是芯片 bring-up 和问题定位。所以第一阶段更合理的选择，是先上 PCIe 6.0 Analyzer，加上最匹配自己板卡形态的 interposer。等芯片回来后，先把基础链路问题抓清楚。

六、没有成熟Gen6 Server怎么办？可以先用Gen6 Switch卡搭环境

客户非常关心一个问题：真正支持 PCIe 6.0 的 AMD 或 Intel Server 到底什么时候能买到？

这里存在两种情况。一种是通过特殊合作拿到 CPU 样片、原型机、样机平台，这对一些大客户或深度合作伙伴是可能的。另一种是市场上正式购买可量产服务器，这个时间点可能会比很多人想象得晚。

要注意，正式可购买的 Gen6 Server 和少量样片平台是两回事。服务器厂商从 DVT 到量产可能拖很久，Gen5 时代就已经有类似情况。尤其是热插拔、链路稳定性、背板信号完整性、riser 设计等问题，都会拖慢平台成熟。

因此，如果客户不能完全依赖 Gen6 Server，另一条更现实的路径是用 PCIe Gen6 Switch 卡先搭建测试环境。

我们介绍了基于Saniffer在销售的基于Broadcom Gen6 Switch 芯片的 Switch 卡。早期有 144-lane 版本，后续逐步切换到 80-lane 版本。实际卡上可提供上行 x16、多个下行 x16/x8 等组合。对于 GPU、AI 加速卡、SSD 控制器、ARM CPU、网卡等 Endpoint 验证来说，这类 Switch 卡可以先承担一个相对稳定的 Gen6 测试平台角色。

具体到 GPU 卡测试，可以把 GPGPU 验证卡接到 Switch 下行槽位。如果直接插接出现问题，可以通过 PCIe Gen6 x16 延长线、x8 MCIO 线缆组合、带风扇的笼子(Cage)式转接治具等方式，把卡延长出来测试。会议中特别提到，某些 Gen6 网卡或工程样品在直接连接时不一定稳定，但中间加一根 30 厘米延长线或一个转接笼子后，反而可以稳定跑到 Gen6 x16。这类现象在高速链路中并不少见，太短、太长、阻抗、损耗、反射、均衡参数都可能影响训练结果。

对于客户来说，这意味着测试环境不能只看“有没有接口”，还要看插卡姿态、线缆长度、散热、供电和信号裕量。

七、从一张卡测试，到多设备、多SSD、P2P场景

客户进一步问到，如果上行 Host 还是 PCIe 5.0 CPU，但 Switch 下行接的是 PCIe 6.0 设备，那么设备之间能不能以 Gen6 速率通信？

我们的解释是：上行到 CPU 的链路会降到 Gen5，但 Switch 下行之间的 P2P 通信仍然可以按 Gen6 运行。也就是说，如果测试重点是下行设备之间的 Gen6 链路，或者 SSD、GPU、DPU 等 Endpoint 在 Gen6 Switch 下的互操作，仍然可以做很多验证。

会议中还提到，用合适的 MCIO bifurcation 线缆和 EDSFF 转接卡，甚至可以连接多张 EDSFF SSD 做压力测试。比如一个 x8 端口拆成两个 Gen6 x4 SSD，多个端口组合后，可以形成多盘测试环境。由于上行带宽有限，压力测试时可以分组打压，观察不同组合下的链路稳定性、性能和错误情况。

这对 SSD 控制器、GPU 卡、AI 加速卡公司都有参考意义。很多时候，早期验证不一定非要等完整服务器平台成熟，而是可以用 Switch 卡、转接卡、线缆和分析仪先把大量底层问题暴露出来。

八、Microchip、Broadcom、Marvell、Astera等Gen6生态也在快速变化

除了 Broadcom Gen6 Switch 卡，会议中也提到了Saniffer即将销售的基于Microchip的160-lane Gen6 Switch 卡。该卡可以提供 CDFP Gen6 x16、QDD x8、MCIO x8 等多种接口形态。对于需要做更大规模互联、更多下行端口或更接近系统级架构验证的客户，这类 Switch 卡会有价值。

线缆和互联方面，也讨论了 Gen6/Gen7 的 ACC、AOC、CDFP、MCIO、OSFP、QDD 等方案。比如 Gen7 x16 ACC CDFP 6 米线缆，Gen6 x16 AOC CDFP 10 米级方案，以及 x8 MCIO ACC 方案。这些方案不只是传高速差分信号，还可能把 sideband 信号一起处理和传输，这对 PCIe over cable、PCIe over fiber、外部扩展盒、JBOF、超节点互联都有意义。

Retimer 方面，Broadcom、Marvell、Credo 等方案都在推进，但不同厂商的量产节奏、bug 修复、价格和供货状态并不完全一致。会议中也提到，某些 Retimer 方案曾出现不能稳定跑到 Gen6 的问题，后续需要修复。因此客户不能只看 datasheet 或厂商发布节奏，还要看真实工程环境下的可用性。

九、为什么故障注入和电压拉偏对GPU芯片公司很重要？

会议后半段重点讨论了故障注入、电压拉偏和功耗监测。对于正在做 GPU 芯片的公司，这部分其实非常关键。

真实服务器环境并不总是理想的。尤其在 Gen5、Gen6 这种高速链路下，服务器主板、riser、背板、连接器、线缆、散热和供电设计稍有问题，就可能带来链路 recovery、性能下降、偶发错误、热插拔失败等问题。过去我们在一些服务器和 SSD 测试中也遇到过类似情况：表面上链路能跑到 Gen5 x4 或 x16，看起来没有掉速，但底层可能已经存在频繁 recovery 或信号质量问题，最终体现为性能不稳定、延迟抖动或偶发异常。

因此，Quarch 这类故障注入工具的价值在于：它可以串在 Switch 卡和被测 GPU 卡之间，在指定 lane、指定极性、指定时间窗口内注入毛刺或错误。例如在某个 lane 的 Tx positive 或 negative 上制造 100ns 毛刺，再按一定周期循环，就可以让 packet 在传输过程中出现 bit error 或 CRC error。通过调节毛刺频率，可以从“一秒钟偶发几个错误”到“一秒钟几百个错误”，模拟不同严重程度的真实环境问题。

这对 GPU 芯片公司很有意义。因为芯片未来会插到不同厂商的服务器、riser、背板和整机柜系统中，不可能每个客户环境都像实验室一样干净。提前通过故障注入验证链路恢复、错误处理、驱动日志、firmware 策略和系统稳定性，可以显著降低后期客户现场问题的风险。

十、电压拉偏和功耗监测：不是只看平均功耗，而是看异常瞬间

电压拉偏工具的逻辑是，治具串在 PCIe 插槽和 GPU 卡之间，信号链路保持透明，但供电由测试模块接管。这样就可以把原本 12V 供电主动拉到 11V、13V、14V，或者按照微秒级时间序列做动态变化。

这类测试不是为了简单测“功耗多少瓦”，而是为了验证卡在不同服务器平台、不同供电波动、不同负载变化下是否还能稳定工作。比如在 GPU 卡跑 IO、跑压力、功耗上升时，主动拉偏电压 10% 或 20%，观察系统是否报错、链路是否恢复、驱动是否重置、板卡是否掉电。

同时，Power Analysis Module 可以透明监测电压、电流、功耗和边带信号。它可以长时间记录几小时、几天甚至几周的数据。对偶发问题特别有价值：比如凌晨 3 点 18 分系统日志里出现一次 GPU 异常，工程师可以回到对应时间点，查看当时电压、电流、功耗和 sideband 信号是否有异常波形。

相比示波器，这种长期记录方式更适合定位低概率、非固定时间出现的问题。示波器需要知道接哪个信号、怎么触发、什么时候触发，而这类模块可以把相关信号全部接出来，长期记录，事后回溯。

十一、最终建议：芯片回来之前，至少先准备基础分析环境

会议最后，客户也基本认可一个思路：今年如果要买，第一阶段大概率先上 PCIe 6.0 Analyzer，并且要提前购买，否则等回片以后再采购、交付、培训、熟悉工具，就会非常被动。

对这类自研推理 GPU 芯片公司来说，PCIe 6.0 分析仪不是锦上添花，而是 bring-up 阶段的基础工具。芯片回来以后，最先要面对的问题往往不是跑模型，而是：

链路能不能训练到 Gen6 x16？ LTSSM 卡在哪个状态？是否进入 FLIT Mode？有没有频繁 Recovery？错误来自物理层、数据链路层还是事务层？与不同 Switch、不同线缆、不同服务器平台连接时差异在哪里？热插拔、掉电、降速、恢复是否符合预期？

这些问题如果没有协议分析仪，很容易变成工程师之间互相猜测：到底是芯片问题、板卡问题、BIOS问题、固件问题、服务器问题、线缆问题，还是测试平台本身的问题？

这也是这次交流最核心的结论：PCIe 6.0 时代，AI 推理芯片公司不能只关注算力指标、内存带宽和模型适配。真正进入工程落地阶段后，链路稳定性、协议兼容性、供电波动、故障恢复和系统级验证同样决定产品能不能顺利交付。

从这个角度看，测试环境不是研发最后一步才补的工具，而应该在芯片回来之前就先搭起来。尤其是 Gen6 Switch、Analyzer、必要的 interposer、延长线、转接卡、故障注入和功耗监测能力，越早准备，越能在 bring-up 的第一时间把问题抓住。

AI 推理芯片真正走向客户现场，拼的不只是芯片规格书上的 TOPS，也包括它在复杂服务器环境里，能不能长期、稳定、可解释地跑起来。

更多PCIe5&6.0, CXL, NVMe SSD, SAS/SATA, NVMe over Fabric (NVMoF), NAND,新型存储技术NVM（RRAM/ReRAM, FRAM/FeRAM, MRAM, PCM, 3D-NOR, SRAM/DRAM等） DDR5/LPDDR5以及UFS测试方面的问题想咨询，可以查看Saniffer公司2026.2.24最新更新的测试工具白皮书15.1版本，我们已经整理收录在Saniffer公众号的【白皮书】菜单中。

欢迎关注Saniffe公众号，点击底部菜单栏即可免费获取。如有任何技术问题，也可直接在公众号内留言交流。