技术专栏 - Saniffer - 业内最完整的总线协议分析/测试工具，PCIe/CXL/NVMe, SSD, SAS/SATA, FC, RapidIO, SRIO, NAND, DDR5/LPDDR5等等

【高清视频】PCIe 6.0真实测试环境演示来了！
Saniffer订购的业内首批PCIe Gen6 x16 PCIe Switch 卡今天已正式到货。在此前几篇文章中，我们已经就该产品进行过预热和介绍。感兴趣的可以自己在Saniffer公众号下面搜索查看，下面列出几篇仅供参考： 4月份，PCIe Gen6 x16测试环境来了！业内首款同时支持PCIe 6.0 Host和Device的插卡视频介绍 PCIe 6.0实验室搭建环境的各色产品来了！下面是我们今天下午拍摄的PCIe Gen6 x16演示环境的高清视频供参考。下面是针对上述演示视频的总结，不想看视频可以直接看这里。 PCIe Gen6 x16 Switch 卡实物解析与串联演示总结一、背景介绍此次视频为实物演示，详细展示了该 Switch 卡的外观结构、接口配置、电源接法以及多卡串联使用的测试环境，本文对此进行全面梳理总结。二、外观与结构解析 1. 散热与外壳正面配有一个大尺寸主动式散热风扇；搭配铝制散热鳍片，保障高速 PCIe 通道在满负载下的热稳定性；背面为常规 PCB 元器件，无特殊结构。 2. 接口配置主通道接口一端为 PCIe Gen6 x16 金手指，用于插入主板；另一端为 Gen6 x16 插槽，支持上级链路拓扑对接。 MCIO 扩展口左右各配有 2 个 MCIO x8 接口，共 4 个；每个 MCIO x8 接口均支持分接 2 条 x4 通道的存储设备（如 EDSFF 或 U.2 硬盘）；使用 1 分 2 的 Y 型线缆，总体最多支持 8 张 x4 SSD 并行接入。电源接口板上设计有一个 4pin EPS12V 电源接口；正常情况下，单张卡可通过 PCIe 插槽供电，无需外接；当两张卡串联使用时，需要为上层 Switch 卡通过 EPS12V 补充供电。管理接口板载的双针接口用于接出管理口；可连接该PCIe Gen6卡提供的管理工具，实现链路状态查看、设备配置等操作。三、电源注意事项 EPS12V 与 ATX12V 区分供电接口虽然形状相似，但 EPS12V 和 ATX12V 电压稳定性与引脚定义不同；视频中展示了如何从接口形状判断供电类型，建议务必使用 EPS12V 接头；若主板除 CPU 外还有备用 EPS 接口，可直接引出供电线使用。四、串联连接示范与链路结构说明 1. 板卡接入逻辑演示服务器为 Gen5 主板；第一张 Switch 卡插入主板 x16 插槽，作为 Root Complex (RC)；第二张 Switch 卡通过金手指插入第一张卡的 x16 插槽，作为 End Point (EP)；此类结构适用于多卡级联或中继拓扑测试场景。 2. 多角色切换本卡支持在不同链路位置扮演 EP 或 RC；视频中展示的连接方式为为：主板（RC） → Switch 卡1（EP） → Switch 卡2（RC） → MCIO 接设备（EP） 3. Link 状态与灯光指示板上绿色 LED 表示电源状态；蓝色 LED 表示链路连接状态：常亮：链路稳定；闪烁：链路可能不稳定或未建立。五、软件管理与链路确认通过管理口连接至配置用 PC；进入管理页面后可查看每个金手指的实际连接速率与宽度；演示中链路确认为 PCIe Gen6 ×16全带宽接入，状态稳定。六、总结与应用展望我们今天演示的这款Gen6 x16 Switch 卡具备以下优势：支持 PCIe 6.0 高速通道；灵活的 RC/EP 模式切换；可级联拓扑，适合多通道并发测试；丰富的 MCIO 扩展能力，适配主流 EDSFF/U.2 设备；配套管理接口及软件工具，便于部署和调试。此类卡片非常适合用于： PCIe Gen6 SSD的验证环境； PCIe Gen6 CPU, GPU以及各类endpoint device芯片开发和验证高性能计算平台（HPC）测试； PCIe通信链路压力测试；大模型训练基础设施互联。更多关于PCIe Gen6的测试工具和技术，请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。本视频演示的产品请参考章节5.1。下载链接：链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-05-16 10:25:01
UNH-IOL 实验室和NVMe 测试平台及 Interact 工具到底是个啥东西？
UNH IOL实验室是NVMe协会组织官方唯一授权的NVMe协议测试机构，全球各地的NVMe SSD controller和盘要送到该实验室进行测试。当然，在正式测试前，用户可以在自己实验室里面进行演练测试，参见下图，只有两种方式可以实现：购买IOL Interact测试工具软件如果用户已经购买SanBlaze公司的RM5/DT5 PCIe Gen5 NVMe SSD硬件设备，只要在之上购买一个IOL Interact测试软件license即可，并且可以实现更多底层的测试功能。我们放大图片来看如下： Users have two options for accessing versions of IOL INTERACT:the PC edition, ideal for standard PC’s but without the ability to capture low-level PCIe bus trace data, or the SANBlaze edition, which is designed to operate with the SBExpress-RM5 and SBExpress-DT5 test systems. With these options, you can confidently select the solution that best meets your testing needs. Saniffer是UNH IOL实验室在中国大陆的唯一合作伙伴，不仅可以协助用户进行IOL认证测试，也销售其测试软件，或者帮助客户购买年度会员身份。Saniffer也是SanBlaze，以及UNH IOL认证的SerialTek, Quarch等公司在国内的独家合作伙伴，感兴趣的可以通过本文底部的链接下载并参考《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》章节1.7.3 UNH IOL官方认证的SerialTek, SanBlaze, Quarch中国独家合作伙伴，或者直接看下图。下面我们简单介绍一下UNH IOL实验室，其测试软件、认证服务等。感兴趣的可以直接观看下面录制的2024年底的视频介绍，我们添加了中、英文字幕方便大家参考。一、机构背景与测试权威性 UNH-IOL（InterOperability Laboratory）是由美国新罕布什尔大学主导的中立第三方测试实验室，自2012年起就开始参与NVMe标准的制定与测试工具的开发。其核心职能包括：为NVMe设备提供一致性（Conformance）测试和互操作性测试与NVMe Express协会联合发布测试规范管理和维护NVMe Integrators List（集成商列表）自主开发并维护官方测试软件Interact 由于其独立性和长期技术积累，IOL在业内具有极高的权威性。其认证结果广泛被OEM厂商、服务器平台、云服务商所认可。二、Interact 测试工具简介 Interact是由IOL自主研发、专用于NVMe测试的软件平台。主要功能包括： 1. 核心特性：涵盖众多测试用例，覆盖从命令集到高级功能的多层次验证每年发布两次新版本（测试计划更新）提供图形界面（GUI）与命令行模式（CLI），满足研发与自动化需求可生成详细日志、自动回放失败用例、导出压缩包进行问题追踪 2. 适用阶段：固件开发验证合规性预检查认证送测准备集成前自测 Interact 支持基于 JSON 文件选择测试集，自定义运行顺序、跳过特定用例，是目前最为灵活的官方测试平台之一。三、测试流程及技术架构 1. 三阶段测试架构： IOL 与 NVMe 标准组织协作，将新功能测试纳入三阶段流程：研发测试计划（Test Plan） —— 基于NVMe规格开发社区验证阶段（FYI测试） —— 多家供应商实现并测试，作为“可选项” 强制阶段 —— 进入集成商名单必须通过的测试 2. 测试运行方式：运行方式特点描述 GUI模式适合新手及单次验证，提供测试分组、实时日志与图形展示 CLI - LDD 支持单用例调用、调试日志、自定义命名空间 CLI - Autorunner 批量运行测试套件，可结合JSON跳过指定测试或仅运行部分测试 3. 样品测试机制：测试可选择：寄送样品至 IOL 实验室进行预约测试（Reservation Test）参加每年两次的Plugfest测试大会或选择自行测试，仅购买软件授权（不加入Integrators List）四、测试内容覆盖与升级路径 1. 支持功能： PCIe 协议通道验证 Namespace 管理、Queue操作、命令集完整性 Flex Placement（灵活数据布局） Persistent Event Log IOL驱动兼容性验证 OCP兼容测试 2. 用例分组： Interact提供四层级分组（包括测试子用例），可按需选择：必测项（Required）可选项（Optional） Demo用例（仅用于初次试用验证）失败用例复测（Failed） 3. 常见版本支持：五、IOL会员体系与权益 1. 基础会员权益（年费）： 2.增值服务：增加席位数（>10个并发测试系统）提前预约测试窗口私人定制脚本支持六、自测试部署指南（Ubuntu环境） Interact 工具仅支持Ubuntu 20.04+，需要如下配置：解压tar文件 → 运行 install.sh → 安装依赖与配置环境导入License文件至指定目录 /manage 启动GUI / CLI 工具（运行命令或autorunner）通过勾选测试组/命令行JSON文件执行测试查看日志（log文件夹 & test_runs 目录），生成压缩包上传反馈七、送测策略建议（针对国内厂商）八、常见问题与解答 Q1：是否必须加入集成商名单？答：非必须。可以仅用于内部测试、验证规范实现，不对外公布。 Q2：非会员可以送测吗？答：可以，但费用较高，测试机会受限，不建议长期采用。具体联系Saniffer咨询。 Q3：是否支持OCP测试？答：支持，但需单独预约，Interact目前未集成OCP测试用例。该测试目前唯一运行在SanBlaze平台。参见下图。 The OCP NVMe 1.0 & 2.0 testing will be performing these new use case tests against NVMe target devices using the SANBlaze VirtuaLUN NVMe test tool which compliments the existing set of tooling used for NVMe conformance. Manufacturers of NVMe SSDs, integrators as well as hyperscalers will have the peace of mind knowing their products will work in data center environments. Q4：测试失败怎么办？答：工具提供失败用例自动回放功能。可压缩log发回IOL，获得技术支持。九、总结与展望 UNH-IOL 所建立的NVMe测试体系是全球范围内最具代表性的合规性验证平台之一。其所推出的Interact工具不仅在功能覆盖、日志追踪、运行灵活性方面做到精细化管理，也通过开放社区合作方式不断引入新测试内容。对国内SSD、主控或服务器厂商而言：掌握Interact的操作与送测流程是必修课提前投入研发阶段自测将显著提升通过率 IOL认证已成为国际主流服务器平台采购中关键“通行证” 如需演示版、工具试用、预约测试等资源，欢迎联系UNH-IOL销售团队或中国合作伙伴Saniffer公司获取免费体验包，具体参见下面的联系方式。更多这方面的问题分析，请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。参考章节1.7.3 UNH IOL官方认证的SerialTek, SanBlaze, Quarch中国独家合作伙伴。下载链接：链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-04-30 10:33:41
举几个PCIe分析仪解决AI训练/推理过程中碰到的典型问题
最近国外对中国禁售H20，国产GPU加速卡加速部署，其它较容易替代的一些产品包括网卡，NVMe SSD等也迎来了国产替代的机遇。下面是2025年4月中旬上海东方卫视新闻频道播放的新疆克拉玛依AI智算中心采用国产GPU的新闻。不过，这也带来了服务器厂家在内部系统集成测试(SIT - System Integration Test)阶段，以及产品部署到数据中心机房后碰到各种稳定性的问题。下面的文章在去年写的AI训练/推理过程中碰到的典型问题如何分析和解决的基础上做了一些修订，仅供业内服务器厂家以及AI智算中心运维团队参考使用。我们今天再举一些使用SerialTek公司PCIe协议分析仪解决大模型训练过程中使用的各种硬件，例如主机、网卡、GPU、AI加速卡，以及存储碰到的各种各样的问题的例子。 1.主机相关问题例子1: CPU-GPU协同问题问题：在混合精度训练中，CPU-GPU协同效率低下。分析：使用PCIe分析仪监控CPU和GPU之间的数据传输。发现：CPU在处理FP32到FP16的转换时造成了PCIe总线的频繁小数据传输。解决：优化了数据转换算法，增加了批处理大小，减少了PCIe传输次数。结果：CPU-GPU协同效率提高30%，总体训练速度提升15%。例子2: NUMA节点间通信问题问题：多插槽服务器在大模型训练时性能不及预期。分析：使用PCIe分析仪观察不同NUMA节点间的数据流动。发现：跨NUMA节点的PCIe通信造成了严重的延迟。解决：优化了NUMA亲和性设置，确保关键数据路径保持在同一NUMA节点内。结果：系统延迟降低20%，训练吞吐量提升约12%。 2.网卡相关问题例子3: 分布式训练网络瓶颈问题：大规模分布式训练中，网络性能成为瓶颈。分析：使用PCIe分析仪检查高速网卡（如InfiniBand或100GbE）的PCIe行为。发现：网卡的PCIe配置不正确，运行在较低的链路速度上。解决：更新了网卡固件，正确配置了PCIe链路速度和宽度。结果：网络吞吐量提高40%，显著加快了分布式训练速度。例子4: RDMA性能优化问题：使用RDMA进行节点间通信时，性能增益不明显。分析：PCIe分析仪显示RDMA操作导致了频繁的PCIe中断。发现：驱动程序配置不当，未充分利用PCIe中断调节功能。解决：优化了网卡驱动的中断合并设置，减少了PCIe总线负担。结果：RDMA通信延迟降低25%，分布式训练扩展性显著提高。 3.GPU相关问题例子5: 多GPU系统PCIe带宽饱和问题：8-GPU系统中，扩展到更多GPU后性能提升不明显。分析：PCIe分析仪显示在所有GPU之间的全互联通信中，某些链路严重饱和。发现：PCIe拓扑结构不合理，导致某些GPU对之间的通信路径过长。解决：重新设计了PCIe交换机拓扑，优化了GPU放置策略。结果：GPU间通信带宽提高35%，8-GPU系统的训练速度提升20%。例子6: GPU动态频率调节问题问题：长时间训练后，GPU性能逐渐下降。分析：PCIe分析仪结合GPU性能计数器，监控长时间训练过程。发现：由于功耗限制，GPU频率在高负载下逐渐降低，但PCIe通信未相应调整。解决：实现了动态PCIe链路状态管理，根据GPU频率实时调整PCIe链路状态。结果：在保持同等性能的情况下，系统功耗降低8%，热输出减少，GPU能够持续在高频率运行。 4.AI加速卡相关问题例子7: AI加速卡与CPU内存同步问题问题：使用专用AI加速卡时，数据预处理阶段成为瓶颈。分析：PCIe分析仪显示加速卡与系统内存之间存在频繁的小数据传输。发现：加速卡的DMA引擎配置不当，未充分利用PCIe批量传输能力。解决：优化了加速卡驱动程序，改进了DMA策略，增加了传输批量大小。结果：预处理阶段性能提升40%，总训练时间减少15%。例子8: 异构计算负载均衡问题：在GPU和AI加速卡混合系统中，负载分配不均。分析：使用PCIe分析仪监控不同类型设备的数据传输模式。发现：工作负载调度算法未考虑设备间的PCIe带宽差异。解决：实现了感知PCIe拓扑的动态负载均衡算法。结果：系统整体计算效率提高25%，充分发挥了异构硬件的优势。 5.存储系统相关问题例子9: NVMe SSD队列深度优化问题：使用高速NVMe SSD阵列时，读取性能波动大。分析：PCIe分析仪显示SSD控制器的命令队列经常出现饱和。发现：默认的NVMe驱动队列深度设置不适合大模型训练的I/O模式。解决：增加了NVMe命令队列深度，优化了I/O调度算法。结果：存储系统IOPS提高30%，读取延迟降低20%，数据加载更加稳定。例子10: 分布式文件系统PCIe优化问题：使用分布式文件系统（如Ceph）时，元数据操作成为瓶颈。分析：PCIe分析仪发现网络存储适配器处理小I/O请求效率低下。发现：网络存储适配器的中断处理机制导致大量的PCIe事务开销。解决：实现了中断合并和批处理机制，减少了PCIe事务次数。结果：元数据操作延迟降低50%，大规模数据集处理性能显著提升。这些例子展示了PCIe分析仪在解决大模型训练中各种复杂硬件问题时的重要性。通过深入分析PCIe层面的行为，工程师能够识别出许多传统监控工具难以发现的性能瓶颈和兼容性问题。这不仅帮助优化了现有系统的性能，还为未来硬件设计和系统架构提供了宝贵的洞察。在大语言模型等AI前沿领域，硬件性能往往被推到极限，PCIe作为关键的互连技术，其优化对于充分发挥系统潜力至关重要。PCIe分析仪等专业工具在这个过程中发挥着不可替代的作用，帮助研究人员和工程师构建更高效、更可靠的AI训练基础设施。更多这方面的问题分析，请下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。参考随后一个章节Chapter 17。下载链接：链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k 请点击打开上面的图片，参考左边的目录页，Chapter 17列出了各种AI碰到的各种问题以及解决办法。如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-04-25 09:39:31
PCI SIG PCIe 6.x Pre-FYI第三次小规模测试小结
PCI SIG第三次关于PCIe 6.0的小规模测试过去快一个月了，本次测试由SerialTek作为host，使用了SerialTek公司的PCIe 6.0 x16协议分析仪analyzer、训练器tester和Pre-FYI Gen6兼容性测试软件。下面是针对本次的Gen6小规模测试的一个简单英文说明。 The PCIe 6.x Preliminary FYI Workshop, hosted by Serialtek, is scheduled for March 24-28, 2025, in South San Francisco. This workshop is a pre-FYI event focused on the upcoming PCIe 6.x standard, providing attendees with an early look at its specifications and development. 前段时间一直没有腾出时间，今天我们简单总结一下。 PCIe 6.x Preliminary FYI Workshop 总结报告主办单位：SerialTek时间地点：2025年3月24日至28日，美国加州南旧金山活动类型：Pre-FYI Workshop（非正式测试预演）标准版本：PCI Express 6.x（重点为 Gen 6.0 @ 64 GT/s）一、基本概况项目数量测试日程天数 4 天（Monday–Thursday）参与厂商设备种类（匿名） 8 类不同设备测试 TID（Test ID） 10 个独立 TID 测试单元 PCIe 6.0 相关测试条目 9 项明确为 Gen 6.0 @ 64 GT/s 二、测试目标与核心关注点本次 Workshop 以探索 PCIe 6.0 初步互通为主要目标，测试内容覆盖以下几个核心方向： ✅ PCIe 6.0 PHY 层链接训练（Link Training） ✅ Equalization（EQ）协商行为与稳定性 ✅ Device 与 Root Complex 间的 ACK/TLP 处理正确性 ✅ 支持 G5→G6 转换机制的状态迁移验证 ✅ 初步验证 Retimer / Switch / Compute Devices / Accelerator / SSD 控件设备等三、主要发现与典型问题总结 ✅ 正常工作的案例多个 x16 Accelerator 设备成功在 64 GT/s速率下完成链路建立；某些设备的 EQ 测试在单独测试通道时表现良好；部分设备能够自动协商 G5 → G6，进入目标状态。 ⚠️ 发现的问题类别问题类型示例说明 Link Training 不完整 / 中断如“Link only trains to Gen5 or Gen1 under cold boot” ACK/TLP 不响应如“NFM not working – Acks TLP but does not complete” EQ 跨通道失败 EQ 个别通道成功，合并多通道后失败 PLL未锁 / 不稳定某些控制器在 Gen6 上频繁掉链或 PLL unlock 设备策略错误 “Device prefers G6 via G5 step”，可能导致性能回退或训练冗余这些问题多数集中在多通道 EQ 协调、链路稳定性、初期协议状态机实现差异，与 PCIe 6.x 的高数据速率和 PAM4 调制技术密切相关。四、参与设备类型（匿名归类） x16 compute-only accelerator（多次出现）控制器类 SoC Storage 控制器（可能为 SSD 或 RAID 控件） Root Complex 模拟器 Retimer/Switch 类型芯片（未显式出现但评论中提及）五、组织与工具支持测试平台由 SerialTek 提供主控/host侧接口；使用自动化脚本与调试台记录测试窗口状态、TLP交互与链路训练日志；未提及测试覆盖率或一致性等级，默认为 Pre-FYI 自愿测试性质。六、结语与建议本次 Workshop 成功完成了对 PCIe 6.x 多厂商设备的初步兼容性与链路特性探索，虽为非正式 FYI 测试，但结果显示出：链路训练基本可达成协议实现尚不一致高频失效与 EQ 敏感度需重点优化有对于PCI SIG前面两次PCI 6.0小规模测试总结感兴趣的朋友，可以下载我们4/12最新更新的白皮书12.1版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》，查找章节1.3。下载链接： https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-04-24 17:43:07
一颗PCIe/NVMe SSD从加电开始到正常工作在底层到底发生了哪些事情？
当今的工作站，笔记本电脑大量使用PCIe/NVMe SSD，主要接口为M.2 SSD；服务器和存储系统则使用企业级PCIe/NVMe SSD，接口主要为U.2和E3.S。但是很多人开机后看到NVMe SSD，其实并不理解从开机到看到这个SSD到底经历了哪些东西。今天我们就沿着时间轴顺序逐步深入到底层，从一颗典型的 PCIe/NVMe SSD 插在电脑主板上、系统加电那一刻起，逐周期、逐模块地解释它是如何一步一步走向“可读写”的工作状态。这既包括电源、电路、协议链路初始化，也包括控制器、固件、文件系统可见性等一整套复杂的协同过程。 🧠背景设定 SSD类型：PCIe Gen5 x4 接口，支持 NVMe 1.4 或最新的2.0/2.1协议主控平台：ARM Cortex-R 系列 + NAND 控制器 + DRAM + PMIC 主板 BIOS 支持 NVMe 引导 🔌阶段一：硬件加电 + 物理层启动（0–100ms） 1.1 电源路径建立系统加电，主板通过 PCIe 插槽给 SSD 提供： 12V 主电（经 SSD 内部降压供 SoC、NAND、DRAM） 3.3V 辅助电（供控制器/电源管理上电） SSD 内部 PMIC（电源管理 IC）按顺序拉高电源轨，比如： Vcore (1.0V) → 控制器 CPU/PLL Vddq (1.2–1.8V) → DRAM Vcc (3.3V) → NAND 点击放大上面的SerialTek PCIe 5.0协议分析仪抓取的上电时序，包括12V, 3.3V, PERST#, CLKREQ#以及参考时钟REFCLK在时间上面的先后关系。 1.2 Controller Boot ROM 执行 SSD 控制器从内部 BootROM启动，执行固件加载流程：启动 SPI NOR Flash或 ROM 固化代码初始化 DRAM/NAND 接口（DDR PHY、ONFI/NV-DDR）检查 NAND BBT（坏块表）、FTL 映射结构 1.3 PCIe PHY 链路训练控制器的PCIe PHY 初始化：完成 Link Training and Status State Machine (LTSSM) 链接状态变更（LTSSM 状态机）： Detect → Polling → Configuration → L0（Active）协议链路建立后，PCIe Switch / Root Port 上检测到新的Endpoint 设备，分配 Bus/Device/Function (BDF)地址 PCIe构建完整链路（如 Gen5 x4，32GT/s per lane） 🧬阶段二：枚举与 NVMe 初始化（100–500ms） 2.1 BIOS / UEFI 枚举 PCIe 设备 BIOS 扫描 PCIe 总线，读取 SSD 的 Configuration Space 识别设备为ClassCode = 01 08 02 (Mass Storage, Non-volatile Memory) 如果支持 NVMe Boot，加载 UEFI NVMe Driver（或 Option ROM） 2.2 NVMe Admin Queue 建立系统向 SSD 下发 Admin Queue 初始化命令：创建 Submission / Completion 队列（SQ/CQ）获取 Controller Identify 信息（如容量、队列数支持、命令集） SSD控制器在固件中分配 DRAM 地址，初始化 Admin Queue 元数据 2.3 Namespace 构建与启用系统请求构建 namespace（NVMe 中一个命名空间即一块逻辑盘）控制器对 NAND 做如下操作：扫描块元信息、构建 L2P 映射表（Logical-to-Physical）初始化 FTL（Flash Translation Layer）如果使用 SLC Cache，配置好临时区域确认 ready 后返回 Namespace ID + 可用大小 💽阶段三：OS 加载 + 文件系统挂载（500ms –2s） 3.1 操作系统加载 NVMe 驱动 Windows/Linux 加载 nvme 驱动模块驱动通过 BAR0（Base Address Register）映射控制器的 MMIO 寄存器空间 3.2 OS 构建 IO 队列 OS设置多队列 IO（I/O Submission/Completion Queues） Linux常见 4/8/16 队列，对应 CPU 核心数 NVMe控制器分配 DRAM 缓冲区，映射 Host 地址空间支持 MSI-X 中断，每个 Queue 可独立响应中断 → 高并发低延迟 3.3 扫描分区 + 文件系统识别 OS 读取 NVMe Namespace 的前几个 LBA： MBR / GPT → 分区表 ext4 / NTFS / APFS → 挂载文件系统如果识别成功 → /dev/nvme0n1 或 C:\ 出现，用户可见 🧮阶段四：工作状态下的数据路径（Read/Write） 4.1 写入流程（例：NVMe Write Command） CPU → nvme_submit_io(): 填写 write 命令 + 数据地址 → SQ Entry → 控制器读 SQ Entry → DMA Host 数据到 DRAM → 写入 NAND（可能走 SLC 缓冲）→ CQ Entry 写入完成状态 → Host Poll CQ 或中断响应控制器内部处理： L2P映射查找 → NAND 空块分配 ECC 编码（LDPC/BCH）→ NAND Page Program 元信息更新（Valid Bitmap、Mapping Table） 4.2 读取流程（例：NVMe Read Command） CPU → nvme_submit_io(): 填写 read 命令 + LBA → 控制器查 L2P → 发起 NAND Read → ECC 解码 → DMA 回 Host → CQ 更新 ⚙️补充模块（在 SSD 固件中完成）功能模块作用 FTL Flash Translation Layer：LBA ↔ PBA 映射，维护元数据、垃圾回收（GC） Wear Leveling 均衡擦写次数，延长寿命 Bad Block Management 跳过出错的 NAND 块（硬件 ECC + 表） Thermal Throttling 控制写入速率，防止温度过高 SLC Cache / pSLC 提高写入速度，动态转为 MLC/TLC ⌛时间线概览（近似）时间动作 0–20ms 电源建立 → 控制器 PMIC + Reset 20–100ms Boot ROM 初始化 NAND/DRAM，PCIe PHY 链路训练 100–300ms BIOS UEFI PCIe 枚举，Option ROM 加载 300–500ms NVMe Admin Queue 建立，Namespace Ready 500ms – 2s OS 挂载驱动，构建 IO 队列，挂载文件系统 2s+ 可接受读写命令，进入稳定运行状态 ✅总结一颗 PCIe/NVMe SSD 从通电到可工作，经历了：电源初始化 → 控制器BootROM → PCIe 链路训练 → NVMe 枚举 →队列建立 → FTL 映射 → OS 驱动挂载 → 用户可读写这个流程结合了硬件（PHY、PLL、Flash 电源）、协议（PCIe TLP/ACK, NVMe SQ/CQ）、控制器固件（FTL、Bad Block Table、Queue Manager）以及操作系统（UEFI、驱动、文件系统）多层次协同设计，使得用户最终看到的是“1秒内可读写”的高性能存储设备。对于上述内容感兴趣的朋友，可以下载并且参考我们4/12最新更新的白皮书12.1版本的Chapter 10章节 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》。下载链接： https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-04-23 17:39:52
【高清视频】业内三种针对PCIe插卡实现不关机进行热插拔的方法演示
之前有用户咨询如何针对PCIe插卡进行热插拔测试。一般情况下，PCIe插卡是不支持热插拔的。简单讲，因为插卡的热插拔一般需要下面的四个方面都要支持才可以：插卡本身要支持热插拔主板支持热插拔 BIOS设计要支持热插拔操作系统要支持热插拔所以，如果一个用户要在电脑不关机的情况下实现针对PCIe插卡进行插拔替换那么必须要找到一个折中可行的办法和方案采用。为啥有这类需求呢？简单举个场景，例如一家公司作为设备原厂，或者网卡的一个贸易商，对于接收到几万张网卡每一张都要测试一下，咋办呢？正常方法是，电脑上插好网卡，然后开机启动后进入操作系统，调用软件进行读/写压力，然后关机（因为无法进行带电插拔，也就是“热插拔”），这样依次反复，所以你发现开机、关机时间占用了非常多的时间，效率很低。所以，这就催生了在电脑不关机的情况下实现手工拔掉待测卡，然后更换一张新卡进行连续测试问题。其实，我们在2025/1月份的时候做了一期文章和演示“如何实现PCIe插卡的热插拔”，我记得当时是使用SSD转接成插卡来演示的。今天我们重新演示一下该方法，使用一张PCIe 2.0 x8的网卡。同时我们还将讲述两外两种更方便的方法，总计演示时间11分钟。具体请参见下面的视频以及汇总文字介绍。我们花费2个小时拍摄了本期视频并处理添加了中文字幕供大家参考,参见下面的视频，如果想看高清视频一定要在电脑上打开上面的视频链接进行观看！如果你觉得这篇文章对你有帮助，也希望帮助到更多人，欢迎分享到朋友圈或者与朋友讨论！ 1. 通过Gen5 switch卡实现直接热插拔方案要点说明核心思路依靠 PCIe 本身支持的热插拔特性，在主机不断电的前提下直接拔插网卡。实验设备 • 主板 + 一块 Gen5 ×16 Switch + 延长线 + DUT待测试卡 • 被测 10 GbE 网卡（Gen2 ×8）操作流程 1. 正常启动系统，确认网卡枚举。2. 手动拔出网卡 → 系统立即失去设备。3. 再插回网卡 → 设备重新被识别并恢复 Gen2 ×8链路。优点 • 验证纯热插拔兼容性最快捷。局限 • 无法细粒度控制电源/Reset 时序。• 拔插必需人工操作，易磨损金手指（建议+延长线）。• 不支持自动化回归测试。 • Gen5 switch卡价格较贵（如果实验室未购买该卡） 2. 定制热插拔掉电卡方案要点说明硬件拓扑主板 ←→ 定制掉电卡（×16 上/下行）←→ Gen5 ×16 延长线 ←→ DUT (待测试卡，这里采用博通 Switch卡演示) 控制链路掉电卡 ➜管理模块 ➜ USB ➜ PC (命令行) 工作步骤 1. 下电：拉低 Reset → 断主电源 12 V → 断辅电 3.3 V → DUT 指示灯/风扇熄灭，主机端链路降至 Gen1 ×16。 2. 上电：先送 3.3 V 辅电 → 送 12 V 主电 → 拉高 Reset → 链路恢复 Gen5 ×16。能力特点 • 可独立控制 Reset、主/辅电三路。 • 全部命令行手动下发，不支持脚本自动化。优势 • 成本低于进口卡； • 足够覆盖“上/下电 + Link 恢复”核心测试。不足 • 仅能做电源级控制，无法细分单条差分线； • 无电压监控、信号毛刺（glitch）等高级功能。 3. Quarch Power Control Card（英国进口）要点说明硬件架构主板 ←→ Quarch 掉电/信号控制卡 ←→ Gen5 ×16 延长线 ←→ DUT 控制软件专用 GUI + CLI；支持 Python 脚本、外部 Trigger信号。掉电/上电流程类似上述定制热插拔卡：先拉低 PERST# → 断 3.3 V → 断 12 V；上电顺序反之 → 拉高 PERST#。进阶功能 1. 信号多路分组 (source 0‑8)：可将任意边带/差分线分到不同组，实现独立通断或延迟。 2. Glitch 注入：向选定信号植入毛刺错误。 3. 实时电压监控：Device/Host 各路电压即时报表。 4. 外部触发：示波器或其他设备可触发热插拔/掉电序列。优缺点 • 功能最丰富，支持自动化回归与复杂失效注入； • 价格显著高于定制卡，但是提供更多功能，包括故障注入，针脚控制，sideband拉高/拉低等很多丰富测试功能。 4 三方案横向对比维度 Switch卡实现热插拔国产掉电卡 Quarch 卡主要应用简单兼容性验证电源时序 & Link 恢复自动化、精细信号测试成本购买switch卡价格较贵成本有优势成本较高控制粒度仅整卡物理插拔 Reset + 主/辅电单条信号、glitch、触发自动化支持无命令行，可以编写Python脚本 GUI + CLI + Python 电压监控无有电压、电流监控有典型链路速度 Gen5 x16 Gen5 ×16 Gen5 ×16 5 结论与建议功能需求决定选型仅需确认“设备在热插拔后能否重新枚举并工作” → 直接热插拔即可。需要可靠、可重复的电源时序测试 → 选定制热插拔掉电卡，性价比最高。需要批量脚本化、注入故障、记录电压或与示波器联动 → Quarch 卡不可替代。测试自动化趋势Quarch方案展示了通过脚本/API 与外部触发信号结合，实现全流程无人值守与数据采集，是未来高端硬件验证的趋势。国产卡若能补足脚本接口，将显著提升竞争力。成本与效益平衡在新品研发早期，可先用热插拔 + 定制热插拔卡完成基本验证。待进入稳定性/边界条件测试阶段，再引入 Quarch 卡进行大规模自动化回归和异常注入，避免高昂设备空置。通过以上三种方案的配合，实验室可以覆盖从低成本验证到高精度故障注入的全周期掉电／热插拔测试需求。对于上述内容感兴趣的朋友，可以下载我们4/12最新更新的白皮书12.1版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》。今天的视频内容可以参考白皮书4&5章节。下载链接： https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-04-21 17:15:38
【高清视频】PCIe Gen5 EDSFF 延长线使用演示
我们之前拍摄过一期PCIe 5.0 EDSFF延长线，请参照3/4saniffer公众号文章《PCIe 5.0 x4 EDSFF延长线高清视频演示》，当时的视频我们采用PCIe Gen5 x8 EDSFF/AIC转接卡环境。本期的高清视频我们采用PCIe Gen5 switch卡+MCIO/EDSFF female cable形式展现该延长线使用，以及注意事项。注意：大部分客户是将该延长线串接在服务器背板EDSFF槽和E3.S SSD中间； PCIe 6.0 EDSFF延长线操作完全一样。我们花费2个小时拍摄了本期视频并处理添加了中文字幕供大家参考,参见下面的视频，如果想看高清视频一定要在电脑上打开上面的视频链接进行观看！如果你觉得这篇文章对你有帮助，也希望帮助到更多人，欢迎分享到朋友圈或者与朋友讨论！视频总结：PCIe Gen5 EDSFF 延长线使用注意事项本总结根据上述的视频对如何安全、正确地连接 PCIe 5.0 EDSFF 延长线进行了总结。重点强调：务必对齐箭头或 A1 引脚标志，切勿接反，否则可能导致线缆烧毁甚至起火。一、背景与设备说明使用环境字幕中演示了在 AMD Gen5 平台或带有 PCIe Gen5 X16 插槽的环境下，通过 SerialCables 公司的 EDSFF 延长线来连接 E3.S NVMe SSD。典型连接结构主板 / CPU → PCIe Gen5 Switch 卡或转接卡 → EDSFF 延长线 → E3.S NVMe SSD 可能还涉及 E3.S 转金手指等不同形式的转接卡，以及延长线本身的不同长度（0.5 米、1 米等）。二、连接方式与对齐要求箭头标记的重要性延长线或转接卡上一般印有 “A1” 或 “箭头” 标记，用于指示正确的对接方向。必须保证 “箭头对箭头” 或 “A1 对 A1”，将相同引脚脚位对应相连，否则会出现严重的电气短路。正反面的区别部分延长线或转接卡正面明确标注 A1 / 箭头，背面可能无任何标识。出现此情况时，应使用有箭头标记的一侧作为参考，确保与设备或转接卡端的 A1 / 箭头对应。具体插接实例将 Dell EMC 的 E3.S NVMe SSD 正确插入延长线的一端。另一端则连接到转接卡 / Switch 卡上，同样要查看箭头或 A1 标记，逐一对齐。字幕里演示了：如果方向相反，插不进去或强行插入会导致针脚定义错位，进而产生灾难性后果。三、错误连接的风险线缆烧毁 / 冒烟一旦接反，引脚供电位置错误，延长线可能瞬间过载而烧毁，甚至出现冒烟情况。这不仅会损坏线缆，也可能进一步破坏 SSD、主板或 Switch 卡等设备。火灾隐患供电短路导致过热或火花，最严重时会引发火灾风险。数据中心环境下更应谨慎操作，以免造成安全事故和财产损失。四、操作与排查建议事先识别标识在开始插接前，仔细确认延长线、转接卡、SSD、Switch 卡等所有器件上所标注的 A1、箭头、端口编号等信息。充分阅读厂商提供的说明文档和参考示意图。逐步插接、确认可以先将 SSD 或转接卡的接口方向与延长线对比，对齐后轻轻插入，若遇阻力异常或无法插入，应立即停手检查。不要凭借“感觉”或“习惯”去推测正反面。上电前的最终检查将所有连接完成后，务必再次目视或对照插口标识，确认箭头对齐、“A1 对 A1”。通电时若立刻闻到异味或看到烟，应马上断电排查。建议使用品牌线材选择正规厂商（如 SerialCables）生产的 PCIe 5.0 EDSFF 延长线；其标识更清晰，减少误插风险。五、总结 PCIe Gen5 EDSFF 延长线虽然给高速 SSD 的部署和调试带来了极大灵活性，但其高带宽、高功耗的属性也意味着接反后果极为严重。视频及字幕中不断强调以下要点：对齐箭头每一端均需与 A1 / 箭头匹配；反插不但无法正常工作，更会产生严重安全风险。确认正反面某些线材或转接卡仅在一面印有标识，务必仔细观察后再插接。安全第一接反会导致线缆瞬间短路、冒烟，乃至起火；对人身及设备安全均构成威胁。若严格遵循这些操作原则，并在上电前仔细检查，对齐标识并确保插接牢固，即可安全享用 PCIe Gen5 EDSFF 延长线所带来的高带宽与灵活布线优势。对于上述内容感兴趣的朋友，可以下载我们4/12最新更新的白皮书12.1版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.1》。今天的视频内容可以参考白皮书5.7.1章节。下载链接： https://pan.baidu.com/s/1Ms4ys0dbt66-2HVhFuHbCQ?pwd=yvwg 提取码: yvwg 如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询，请访问：访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品；或者添加saniffer公众号留言，致电021-50807071 / 13127856862，sales@saniffer.com。
2025-04-17 10:06:16

【高清视频】PCIe 6.0真实测试环境演示来了！

UNH-IOL 实验室和NVMe 测试平台及 Interact 工具到底是个啥东西？

举几个PCIe分析仪解决AI训练/推理过程中碰到的典型问题

PCI SIG PCIe 6.x Pre-FYI第三次小规模测试小结

一颗PCIe/NVMe SSD从加电开始到正常工作在底层到底发生了哪些事情？

【高清视频】业内三种针对PCIe插卡实现不关机进行热插拔的方法演示

【高清视频】PCIe Gen5 EDSFF 延长线使用演示

电话：(021)5080-7071; 131-2785-6862

www.saniffer.cn

邮箱：sales@saniffer.com

地址：上海市浦东新区秋月路26号矽岸国际1号楼

【高清视频】PCIe 6.0真实测试环境演示来了！

UNH-IOL 实验室 和NVMe 测试平台及 Interact 工具到底是个啥东西？

举几个PCIe分析仪解决AI训练/推理过程中碰到的典型问题

PCI SIG PCIe 6.x Pre-FYI第三次小规模测试小结

一颗PCIe/NVMe SSD从加电开始到正常工作在底层到底发生了哪些事情？

【高清视频】业内三种针对PCIe插卡实现不关机进行热插拔的方法演示

【高清视频】PCIe Gen5 EDSFF 延长线使用演示

电话：(021)5080-7071; 131-2785-6862

www.saniffer.cn

邮箱：sales@saniffer.com

地址：上海市浦东新区秋月路26号矽岸国际1号楼

UNH-IOL 实验室和NVMe 测试平台及 Interact 工具到底是个啥东西？