-
1.2.1.8.1 截至2025/4月份已经发布的PCIe 6.0相关工具和产品
-
1.2.1.8.2 PCIe 6.0实验室搭建环境的各色产品来了!
-
1.3.3 PCI SIG第三次PCIe 6.X Pre-FYI Workshop(2025.3.24-28)
-
1.3.8 解锁CXL潜力:服务器内存和性能革命
-
1.3.8.1 UALink 200G 1.0正式发布:规范、白皮书等文档分享
-
1.3.8.2 谈谈UEC和UALink是否融合以及协议设计相关的问题
-
1.5.1 2024/7-2025/4年上半年部分视频汇总(更新到2025/4)
-
2.3.13 Interposer内嵌Quarch PAM功耗分析功能
-
2.3.13 Interposer内嵌Quarch PAM功耗分析功能
-
2.6.1.9.1 Gen5 x16 OCP Interpose组装示意图
-
4.1.1.1 应如何选择Quarch Gen6热插拔/上下电/故障注入卡?
-
9.4.3 LPDDR5/5X, eMMC, UFS, ePOP, eMCP和uMCP测试
以下的总结报告基于《测试技术和工具白皮书12.1》的整体结构和主要内容,按照文档目录顺序整理各章节核心要点,力求逻辑清晰、条理明了。由于文档内容十分庞大,下述总结在每一章节中对关键主题进行提炼和概括,帮助读者快速理解全貌并把握重点。喜欢该白皮书的读者可以直接到本文最底部下载。
本次版本相对于11.11版和12.0版的修订内容
- 修订重点:在11.11版基础上,进一步补充了PCIe 6.0、CXL 3.0相关最新进展、测试工具更新以及各类高低温批量测试方案等内容,并对部分旧版章节进行了精简或合并。
- 目标:使读者对新版本比旧版本的更新之处有一个快速总览,包括协议、工具、测试流程和市场动态等方面的改进。
第1章 前言
1.1 AI大模型训练/推理底层硬件诊断和测试
- AI训练/推理硬件设备底层技术与协议简介
-
重点介绍了GPU/网卡/AI加速卡及其在大规模模型训练中的角色。
-
提到了PCIe总线、CXL以及NVMe等对存储和通信的重要性。
- PCIe总线在国产服务器与国产GPU/网卡中的兼容性和稳定性挑战
-
-
提及问题解决与优化的思路,以及测试流程中的实践要点。
1.2 PCIe 5.0/6.0设计和测试带来的挑战
- 推动PCIe向Gen6发展的因素
-
数据中心、AI、存储等需求的不断提升使带宽、速度等需求持续上升。
-
板级布线设计、电源效率、连接器变化,都在给开发和测试带来挑战。
- PCIe Gen5与Gen6兼容性与速度变化
- PCIe 6.0测试工具和实验室搭建进展
-
截至2025年4月,已有部分分析仪、训练器等支持到PCIe 6.0。
-
实验室搭建需考虑线缆、Retimer、Switch、Interposer等多方面因素。
- PCIe Gen5发展回顾
1.3 PCIe Gen6/CXL协议的最新进展
- PCI-SIG对Gen6小范围互通测试的若干次总结
-
每一次互通测试都涉及若干厂商、测试设备、兼容性问题及修复方案。
-
- CXL协议与NVMe SSD融合趋势
- CXL 3.0
最新动态,各大厂商的产品形态以及在内存扩展、缓存一致性领域的应用。
- CXL
与PCIe/NVMe正在形成更紧密的生态融合,尤其是Type 3内存扩展卡市场现状、应用场景。
- CXL 3.0进展与服务器内存/性能革命
1.4 关于Saniffer开放实验室
- 实验室概览
:提供了PCIe/CXL/NVMe等多种协议分析、测试与诊断工具的开放实验环境。
- 主要设备:
- PCIe协议分析仪:覆盖Gen3/4/5/6多种速率,支持多条lane(x4、x8、x16)及多种接口形态。
- SAS/SATA协议分析仪:12G、6G多代产品。
- SSD性能/功能测试设备:聚焦NVMe、SAS,涵盖故障注入、热插拔等多种模块。
- 电压拉偏、功耗测试模块:实现对SSD等设备长时间监测和功耗分析。
- PCIe Gen5测试环境清单:从主机、Host Card、Retimer、转接卡、延长线等硬件到软件测试平台的整体打包方案。
1.5 Saniffer技术讲座和培训视频录像汇总
-
分年度、分阶段汇总了公司举办或参与的技术培训、产品演示视频及技术讲座。
-
涵盖PCIe 4/5、NVMe、CXL、AI/ML等热门主题,便于有不同需求的工程师快速检索。
1.6 FMS (The Future of Memory and Storage) 2024总结
-
全球存储与内存未来发展趋势大会的核心要点:如NAND新技术演进、CXL、PCIe 6.0相关解决方案等。
-
1.7 关于Saniffer公司
-
业务范围:涵盖计算、网络、存储以及总线接口(PCIe、CXL、SAS、SATA、DDR、UFS等)的测试解决方案。
-
强调其与各大国际厂商(如SerialTek、SanBlaze、Quarch等)的合作关系,以及官方认证的中国独家合作伙伴身份。
1.8 联系方式
-
提供Saniffer上海公司的电话、邮箱等联系方式,用于技术支持或购买咨询。
第2章 PCIe/CXL Gen 4/5/6协议分析
2.1 面临的技术挑战
- PCIe协议发展历史
-
从Gen3到Gen6的速率提升、调制方式改变以及对电气信号完整性的要求越来越高。
- PCIe 6.0/CXL 3.0新增特性
- PAM4
信号、FLIT模式、L0p低功耗子状态、训练序列更新等。
-
- 协议分析和诊断难点
2.2 ~ 2.3 SerialTek PCIe协议分析仪创新功能
- 信号高保真、超快解码、极速存储、实时监控Sideband等,能够在捕获大规模Trace数据的同时保持对协议层细节的准确掌握。
- 远程分析和远程协作:方便分布式团队在线查看Trace、进行问题定位。
- 基于Widget的小工具:包括LTSSM分析、统计分析、TLP延迟分析、NVMe统计、Flow Control等,让工程师可快速针对某个问题深入调试。
2.4 ~ 2.5 SerialTek PCIe Gen6/CXL 3.0分析仪/训练器与连接方式
- Kodiak系列架构:支持PCIe 6.0和CXL 3.0,通过Web管理界面进行触发和过滤配置。
- BusXpert软件:Widget丰富,结合训练器可进行故障复现与调试。
- 典型连接示例:U.2/U.3、M.2、AIC、E1.S/E1.L/E3.S/E3.L及Cable Interposer,帮助工程师直观搭建分析环境。
2.6 SerialTek PCIe协议分析仪产品硬件
- Gen5/Gen4/Gen3协议分析仪Interposer展示:详细拆解各种外形与接口转接方式,对边带信号监控接口也有说明。
- 顶级专业拉杆箱:便携及防护。
2.7 ~ 2.9 具体产品介绍与第三方评测
- Kodiak PCIe Gen5 x16/x4协议分析仪:在多通道高速抓取方面提供高内存深度及快速解码。
- Broadcom Gen5 Switch内嵌iTAP功能:通过Broadcom/SerialTek内置分析仪在Switch内部抓取数据。
- 第三方评测:对Kodiak系列的功能、架构、兼容性、管理方式做了较为全面的测评。
2.10 ~ 2.11 产品单页和使用案例
- PCIe/CXL/NVMe协议分析仪单页:快速查看主要性能指标和功能列表。
- 使用分析仪测试WIFI网卡案例:介绍了如何在A/E Key M.2上运用SerialTek进行协议抓取与分析。
第3章 PCIe Gen 4/5/6 NVMe SSD性能/功能测试
3.1 ~ 3.3 SANBlaze测试系统
- RM6/DT5/DT4系列:覆盖Gen6/Gen5/Gen4 SSD测试,支持性能、功能和协议一致性验证。
- 软件可控硬件特性:可编程电源管理、故障注入脚本,以及大量预封装测试用例(含ZNS、TCG Opal、SPDM、Dual Port、CMB/HMB等)。
3.4 ~ 3.7 测试功能及脚本
- SanBlaze Certified:面向企业/数据中心级SSD的测试流程,通过广泛场景验证并输出报告。
- VDM/ZNS/SRIS/TCG/双端口/DSSD/CMB/HMB/T10/DIF_DIX测试:针对当下主流及前沿技术特性的覆盖。
- 与协议分析仪联动:可以在出现问题时由SanBlaze侧自动触发SerialTek分析仪抓取Trace。
3.8 ~ 3.10 新型测试硬件与典型用例
- SanBlaze Gen5设备产品单页:介绍端口数量、速率、软件接口等关键指标。
- iRiser5专利卡:针对PCIe 5.0在信号控制与测量方面的新功能。
- M.2 SSD低功耗L1.2测试:在实际脚本中的配置方法、时序细节,以及如何监测CLKREQ#信号的切换过程。
第4章 PCIe Gen 4/5/6 NVMe SSD故障注入/热插拔和电压拉偏/功耗测试
4.1 ~ 4.3 热插拔与故障注入测试、可编程电源(PPM)与电源分析模块(PAM)
- Quarch热插拔/故障注入模块:Gen6/Gen5/Gen4多种形态(U.2/U.3、M.2、E1/E3、AIC)与线缆接口,支持自动化脚本控制。
- 掉电测试:通过上下电循环、高速信号毛刺注入、边带信号控制评估SSD/系统的可靠性。
- PPM(Programmable Power Module):可对电压进行拉偏或编程控制、测试功耗极限值。
- PAM(Power Analysis Module):被动方式精准检测电压、功耗、电流,并分析边带信号。
- 采样速率设定:测试OCP 100ms或100μs峰值功耗时,对速率需求以及对结果准确度的影响。
4.4 ~ 4.7 各类线缆热插拔、主机掉电和自动化测试
- SAS/SATA、SFP28、RJ-45、USB 3.0/3.1、-48V电信供电等多种线缆热插拔:实现多协议测试。
- 主机自动化掉电工具(智能可编程PDU、小型220V掉电器等):可做整机级别的异常断电测试。
- 在CXL测试中的使用:热插拔、故障注入、功耗监测等对CXL设备同样适用。
第5章 PCIe Gen4/5/6 NVMe SSD测试环境搭建(一):Switch/Retimer/盘柜/转接/延长线
5.1 ~ 5.2 搭建PCIe 6.0与5.0测试环境的必备产品
- Switch卡:Broadcom与Microchip两大阵营,提供多端口扩展;
- Retimer卡:用于延长链路、补偿信号衰减;
- 各类转接卡、线缆:MCIO、SlimSAS、Oculink等,供不同形态SSD或外设连接。
- Passive/Active盘柜:Passive背板仅进行连接转发,Active背板内置Switch芯片,实现更灵活的多盘位管理与CLI配置。
5.3 常见Host/Retimer卡
-
详细列举了基于Broadcom或Microchip的PCIe 4/5/6架构主机卡,以及如何进行批量测试(如温箱内、大规模上架式测试)。
5.4 ~ 5.7 常用盘柜、转接卡、线缆、延长线
第6章 PCIe Gen4/5/6 NVMe SSD测试环境搭建(二):主机和端口扩展
6.1 PCIe Gen6 CPU与相关技术进展
- Intel Xeon Diamond Rapids
、AMD Zen 6等下一代服务器CPU均规划支持PCIe 6.0,并搭配CXL 3.0。
-
部分厂商还在尝试PCIe 6.0的光纤传输方案,用于超远程数据中心通信。
6.2 PCIe Gen5测试主机和Gen5 SSD选择
- Intel平台:Gen5 Xeon服务器与Core工作站,Z690、X670E等主板。
- AMD平台:Genoa服务器CPU,消费级则有X670E主板。
- 企业级Gen5 SSD:Kioxia CD8/CM7、Samsung PM1743等;消费级Gen5 SSD:Phison E26主控等,陆续在2023~2024年上市。
6.3 PCIe Gen5 NVMe SSD RAID解决方案
- GPU RAID简述:区分于传统软RAID/硬RAID,主要利用GPU并行能力加速RAID计算。
- 示例:通过软件定义物理盘、驱动器组和虚拟驱动器(VD),实现RAID 5/6等高性能存储阵列。
6.4 M.2/U.2/Slot等扩展卡与批量测试
- 转接卡:实现AIC与M.2/U.2/U.3、E1.S/E3.S、EDSFF等不同形态之间的灵活对接;
- 主板及扩展板:x8/x16分割、背板测试环境、大规模测试机架等举例。
6.5 CXL测试环境搭建要点
-
需要同时准备符合CXL协议的主机、设备(Type 1/2/3)、相应的Switch或Retimer及协议分析仪、故障注入工具等。
第7章 NAND和DDR5测试工具与夹具
7.1 NAND特性分析设备
- NplusT Nanocycler:可以进行高强度P/E循环测试、特性分析、温度分布、BER统计、Read Retry研究等;
- BarnieMAT后处理软件:从Icc3、Vt分布、Fail分布等多视角评估NAND品质。
7.2 ~ 7.5 NAND闪存及新型存储(PCM/MRAM/ReRAM)测试平台
- TestMesh系列:主打对新型非易失存储器的研究;
- VNR (Visual NAND Reconstructor):用于数据恢复和物理层面分析;
- Burn-In测试设备:8~512槽位规格,用于芯片级别的老化与筛选。
7.6 ~ 7.12 各种NAND/DDR5/LPDDR5/eMMC/Interposer/Sockets
- NAND BGA152/132夹具
、DDR5/LPDDR5协议分析仪,针对不同封装形式的抓取与调试。
- Zero Footprint Sockets:在高速测试中尽量减少额外插损,保证信号完整。
7.13 ATE/SLT测试设备
- DDR5/UDIMM/RDIMM
测试平台:对服务器/PC存储条进行自动化测试与筛选。
- LPDDR5/4X
多槽位测试系统:一般用于移动设备内存与eMCP/ePOP评估。
第8章 SSD批量测试/RDT/高低温测试方案
8.1 ~ 8.4 PCIe Gen5 SSD批量测试硬件与温箱
- P41000、BI120A/BI-003
- 高低温冲击:ThermoJet气流、Peltier模组等为SSD在极端温度下进行稳定性、寿命检测。
8.5 ~ 8.7 托架、夹具与机架化
- 协议分析仪专用托架:满足布线与空间散热需求;
- 机架定制:适合大规模SSD测试实验室建设。
第9章 UFS 4.0、eMMC、I3C协议测试和800G/1.6T光模块测试
9.1 ~ 9.4 UFS与eMMC测试/分析仪
- UFS 4.0协议分析仪:符合MIPI规范,支持高速Gear模式;
- I3C/I2C分析仪:低速控制总线的调试;
- 定制UFS 3.1& eMMC 5.1开发测试平台:提供电压调节、关键测试点,适配移动和消费电子场景。
9.5 ~ 9.6 800G/1.6T光模块
-
光通信领域高速模块测试,涵盖协议及误码率分析,紧跟网络设备演进。
第10章 附录 A:PCIe和NVMe协议基础知识
本章为读者提供了从协议基础到进阶应用的参考索引,包括PCIe、NVMe、CXL、DDR、UFS、NAND等在高速互连与存储领域的重要概念。
- 10.1 PCIe/NVMe/CXL/DDR/UFS/NAND协议Wiki:
-
对PCIe协议的体系结构、速率演进、外形标准等进行简明扼要的介绍。
- NVMe
的主要特征,以及与SAS/SATA在性能与协议架构上的差异。
-
对CXL在内存扩展、缓存一致性方面的思路进行简要解析。
- DDR、UFS、NAND
- 10.6 PCIe热插拔和SR-IOV:对服务器或存储设备在动态扩展时的注意事项进行了较为详细的说明。
- 10.7 PCIe NVMe SSD各种接口简介:阐明U.2、U.3、M.2等形态的主要差异以及数据中心EDSFF的发展前瞻。
- 10.8 CXL协议基础:
-
从CXL 1.0开始到CXL 3.0的演进脉络,包括Flex Bus、DVSEC等核心概念,及对池化、交换机、非易失性内存支持的扩展。
-
指出CXL与PCIe在物理层上的关联以及CXL在高带宽、低延迟方面的优势。
- 10.9 PCIe Retimer:对Retimer与Redriver之间的区别,使用场景、信号眼图影响进行分析,对高速链路布局与优化具有重要启示意义。
第11章 附录 B:SSD/服务器/存储测试转接卡以及延长线等夹具速查手册
本章是针对各种PCIe GEN5的转接卡、线缆、主机卡及Retimer/Redriver卡等“硬件夹具”提供速查清单。
- 11.1 PCIe GEN5转接卡/适配卡:列出U.2、M.2、U.3、EDSFF等多种形态适配器,并简要描述它们在服务器/工作站/测试环境中的功能。
- 11.2 PCIe GEN5 转接线/延长线:各种MCIO、EDSFF、U.2、SlimSAS等线缆的长度、速率规范,帮助快速搭建测试平台。
- 11.3~11.5 主机卡/switch card、Retimer/Redriver卡:提供不同厂商的PCIe Switch/Retimer卡产品,以及CXL type3 Smart Memory Card的示例。
第12章 附录 C:Quarch测试工具速查手册
集中介绍了Quarch在热插拔、物理层故障注入、电源拉偏/功耗测量、物理层自动化切换等多方面的产品和应用场景。
- 12.1 热插拔和物理层故障注入工具:
-
从Torridon管理模块、多端口控制模块到支持PCIe Gen5各种接口的热插拔夹具。
-
也包括RJ-45、USB、光纤等其他协议的插拔模块。
- 12.2 电压拉偏与功耗测量(PPM):
-
提供对电压及功耗进行可编程调控的产品,可在SSD或其他设备上进行极限功耗及可靠性测试。
-
介绍了QPS管理软件在批量管理PPM方面的图形界面。
- 12.3 物理层自动化切换设备:
-
允许工程师在复杂网络或存储拓扑中通过切换设备来替代手动插拔。
- 12.4 Quarch功耗测试/分析速查:
-
总结了DC、GPU/AI、AC等多种功耗分析场景,以及多通道治具、自动化脚本接口等特点。
第13章 附录 D:PCIe Gen 4/5/6 测试工具定制开发
本章节在正文中并未做特别详细阐述,而是强调定制化服务的重要性:
-
针对某些特殊需求,如特定带宽配置、协议模拟或特定故障注入类型,提供私有化定制。
-
这些定制工具在越来越多的企业研发测试、自动化部署中发挥关键作用。
第14章 附录 E:PCIe Gen4/5/6互操作性和兼容性测试夹具
此章节主要指出:
-
对互操作性和兼容性测试而言,需要多种形态的测试夹具与适配器;
-
提供高保真、低损耗的连接,让各种PCIe设备(如SSD、交换芯片、加速卡)在实验室条件下进行模拟互通测试。
第15章 附录 F:PCIe 5.0协议诊断、分析、测试常用工具和CXL技术研讨
- PCIe 5.0协议诊断与分析工具:
-
包含SerialTek、Teledyne LeCroy、Keysight等业内常用的分析仪品牌,以及相关故障注入与调测手段。
- CXL 1.1/2.0/3.0技术研讨会PPT:
-
概括CXL如何在服务器平台进行内存扩展或缓存一致性管理,以及对AI/ML应用场景带来的潜在变革。
- VNA测试PCIe Gen5线缆:阐述罗德与施瓦茨等厂商在矢量网络分析仪(VNA)领域对高频线缆进行S参数测试的方法。
第16章 附录 G:针对Gen5 M.2 SSD和超薄笔记本散热的新方案
聚焦于超薄笔记本/设备在高速SSD等高功耗芯片散热方面的探索:
- mini冷却器、小型化风扇或固态制冷方案的技术原理与实物拆解展示。
-
介绍OWC、苹果MacBook Air改装等成功案例;并在此基础上剖析固态散热与气流散热的结合方式。
第17章 附录 H:AI大模型训练/推理的原理及底层硬件兼容性、稳定性测试
这是白皮书最后一章,但其内容非常详细,且与前面“1.1 AI大模型训练/推理底层硬件诊断和测试”篇章呼应。
- 17.1~17.4 通俗易懂地讲解ChatGPT训练/推理过程:
-
将大模型训练过程从软件调用栈到底层GPU、CUDA、NCCL库等做了一次分层解析。
-
强调国产GPU兼容性挑战,比如在CUDA替代方案或国产深度学习框架上可能面临的问题。
- 17.5~17.6 AI大模型训练和推理对硬件性能的要求:
-
-
存储IO:高带宽、低延迟的SSD或其他大容量介质;
-
网络:多节点训练/推理场景对RDMA或NVLink/InfiniBand的要求;
-
强调各种测试工具(SerialTek、Quarch、SanBlaze)在定位PCIe或存储瓶颈时的用法。
- 17.7~17.9 SerialTek与Quarch对大模型典型问题的主动测试:
-
介绍如何使用协议分析仪抓取GPU与SSD之间的传输细节;
-
如何利用故障注入模拟某些读写错误或者掉电场景,从而验证系统健壮性。
- 17.10~17.14 Quarch故障注入模块在AI环境的更多案例:
-
包括针对SSD的异常断电、对GPU的功耗异常拉偏,或对网络端口的插拔测试。
-
均旨在在实验室“先发现、先解决”各种极端场景下的问题。
- 17.15 使用SanBlaze硬件工具测试AI训练硬件:
-
涵盖功能与性能测试案例,对NVMe SSD的兼容性、最大吞吐量及读写延迟做深入验证。
- 17.16 PCIe 5.0/6.0协议分析仪在AI训练/推理硬件调试中的价值:
-
高速链路中Any-to-Any通信(GPU-GPU,GPU-CPU,CPU-SSD,GPU-NIC等)的Trace获取与分析。
-
快速复现并定位在大规模分布式训练时出现的潜在协议死锁、延时突增或掉线等问题。
- 17.17 GPU进阶笔记:
-
对NVIDIA A100、H100、L40S,以及GPU集群组网方式做了深入介绍,分析拓扑带宽瓶颈与测试注意事项,为构建超大规模AI训练平台提供参考。
白皮书总结
《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》系统地阐述了PCIe 5.0/6.0及CXL 3.0等前沿高带宽接口技术的研发、测试、诊断所需的工具与方案。其特点在于:
- 覆盖面广:从GPU/AI服务器、SSD/NAND、DDR5/LPDDR5到UFS、I3C等全面涵盖;
- 深度专业:不仅列举了不同协议分析仪、故障注入模块等硬件,而且有大量软件功能、脚本、CLI界面等案例说明;
- 工具与实践结合:围绕如何搭建Gen5/Gen6测试环境,如何做大规模老化、失效分析、高低温测试,都有极具参考价值的细节。
对于有意在高速互连、存储或AI加速领域从事研发或测试工作的工程师而言,本白皮书既是工具清单,也是实操指南;对于想要快速了解最新PCIe/CXL/NVMe测试趋势的管理层或科研人员,也能从中捕捉前沿动向和行业部署建议。
下载链接:
https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg
如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。