周六下午和一家PCIe 5.0 M.2 NVMe SSD公司的AE (application engineering) 部门做了一场技术交流,我觉得他们针对M.2 SSD日常碰到的问题的诊断、分析的困扰非常具有代表意义,反馈的问题也很典型,有必要放在这里给大家分享一下。我们主要围绕下面这些主题依次展开讨论:
- PCIe 5.0 M.2 NVMe SSD 的研发与验证
- M.2 SSD 在低功耗场景中的调试难点
- PCIe 协议分析仪在 NVMe SSD 调试中的作用
- SATA SSD 与 NVMe SSD 的历史与测试差异
- 企业级 SSD(U.2/U.3/EDSFF)与消费级 M.2 SSD 的区别
- PCIe Low Power(L1.2)问题及如何使用Quarch PAM有效分析这些问题
- NVMe SSD性能与协议层分析方法
PCIe 5.0 M.2 NVMe SSD 测试技术交流小结
一、交流背景与参与人员
交流时间约 2 小时。 用户参会人员包括:
- SSD 厂商 AE(Application Engineer)
- NPI产品导入工程师
客户目前主要从事:
PCIe 5.0 M.2 NVMe SSD(消费级)
研发、应用工程支持与后续产品导入。
交流初期,客户提到:
- 之前主要使用 SATA SSD
- 以及 PCIe 3.0 / PCIe 4.0 SSD
- 曾经使用过一些PCIe协议分析仪,但是在分析低功耗L1.2以及上电时序的时候,不得不配合示波器和逻辑分析仪,需要3个部门同时参与,只是为了同时抓取PCIe协议packet和对应的sideband信号,调试问题非常不方便
- 平时更多是在研发阶段前期、测试阶段使用PCIe协议分析工具
- 当产品成熟后,协议层问题相对较少
同时也提到:
- 遇到过之前PCIe协议分析仪“抓不到数据”以及“丢数据”的问题
这一点后续自然引出了:
M.2 NVMe SSD 的低功耗抓包问题。
二、SATA SSD 与 NVMe SSD 的历史演进
我们在交流中花了较长时间回顾了传统SATA SSD和最近10多年来主流的NVMe SSD的发展历程:
SATA SSD → NVMe SSD 的产业演进过程
重点包括:
1)2011~2012 年是 NVMe SSD 的关键转折期
当时 PCIe SSD 上层协议有多个竞争方向:
- SCSIe //* SCSI over PCIe
- SATA Express //* 即ATA over PCIe
- NVMe
最终:
NVMe 在 2012 年后成为主流标准。
这里特别要注意,很多 SSD 厂商当年的NVMe 团队都是并行开发两个协议:即,企业级SSD同时押注NVMe和SCSIe,消费类SSD同时押注NVMe和SATAe,事后我们知道是NVMe一统江湖,但是当时行业并不确定:
最终到底哪种协议会胜出。
2)SATA SSD 目前仍存在,但主要用于:
交流中还提到:
部分海外市场(例如南美的类似于沃尔玛等这类大卖场针对个人用户的消费类电子产品) 仍存在大量低成本 SATA SSD在销售。
但很多:
- 控制器质量差
- Flash 品控差
- 拆机 NAND
- 黑片 NAND
导致:
掉盘、稳定性问题频繁。
三、当前 NVMe SSD 接口形态讨论
我们随后也讨论了:
PCIe 5.0 SSD 当前主流接口形态
包括:
- M.2
- U.2 / U.3
- EDSFF(E1.S、E3.S 等)
1)客户当前产品:
PCIe 5.0 x4 M.2 消费级 SSD
客户明确表示:
目前主要是:
未来可能向:
扩展。
2)PCIe 6.0 对接口的影响
交流中重点提到:
PCIe 6.0 时代:
EDSFF 将成为主流。
原因包括:
- 信号完整性问题
- M.2/U.2 在 64GT/s 下难度过高
- PCIe 6.0 对连接器、走线要求极高
同时也提到:
虽然市场上短期内 M.2 仍会存在,
但长期:
企业级 PCIe 6.0 SSD 会越来越偏向 EDSFF。
四、企业级 SSD 与消费级 M.2 SSD 的差异
我们也详细解释了:
企业级 SSD 的 Dual Port 机制
包括:
的区别。
Dual Port SSD 特点
典型用于:
特点:
- 同一 SSD 可建立两条 PCIe Link(2条Gen5 x2 link)
- 一主一备
- 提供冗余访问路径
但:
两条链路不能同时写同一数据区域。
否则会造成数据破坏。
M.2 SSD 特点
M.2 主要面向:
不涉及 Dual Port。
五、交流核心:M.2 SSD 低功耗问题
这是我们本次讨论最多,也是用户问题最多的部分。
重点围绕:
PCIe L1.2 Low Power State
展开。
1)为什么 M.2 SSD 特别容易出问题?
原因:
笔记本平台大量使用低功耗机制。
我们知道:
现代笔记本为了待机续航:
都会快速进入:
L1.2 深度低功耗状态。
2)L1.2 的典型行为
交流中详细讲解:
- L0:正常工作状态
- L1:低功耗状态
- L1.0 / L1.1 / L1.2
其中:
L1.2 是最深度低功耗。
特点:
- PLL 关闭
- REFCLK 关闭
- TX, RX, PHY 关闭
- SSD 内部部分逻辑关闭 (PS4状态 - power state 4)
优点:
功耗极低
缺点:
唤醒复杂。
3)CLKREQ# 信号的重要性
SerialTek是业内唯一可以同时实时监控所有sideband边带型号的协议分析仪,非常好用,交流中特别强调:
CLKREQ
是观察:
最关键的边带信号之一。
典型行为:
同时:
PCIe Link 会重新经历:
过程。
六、协议分析仪在低功耗调试中的作用
我们重点讨论了:
为什么传统协议分析仪经常抓不到低功耗下 M.2 SSD 的问题。
核心原因:
低功耗切换过程中PCIe协议分析容易丢包。
1)协议分析仪需要同时抓:
- PCIe Traffic
- CLKREQ#
- PERST#
- Sideband
- LTSSM
- Power State
否则:
很容易误判。
2)我们知道:
这么多年来,已经持续得到市场验证,传统的PCIe协议分析仪:
在 M.2 低功耗场景下全部都会丢数据。
尤其:
过程中。
目前全球只有一家公司的产品,即SerialTek PCIe 5.0 M.2协议分析仪这方面做的最好:
更适合 M.2 NVMe SSD 抓包。
因为:
- Sideband 抓取更完整
- Low Power 状态处理更稳定
七、LTSSM 与链路训练分析
我们也花了大量时间:
解释 LTSSM。
包括:
- Detect
- Polling
- Config
- Recovery
- L0
等状态。
并结合:
协议分析仪 Timeline 界面,
讲解:
如何观察:
过程。从中可以看到Ordered Set, packet以及CLKREQ#的同步关系,参见下图,绿色代表L0状态,紫色表示L1.2低功耗状态:
下图是一张全貌图,从上面时间轴可以看出,CLEREQ#反复拉高、拉低进出L1.2低功耗,同时出低功耗后重新进入L0后,读写ssd的时候LED#的闪烁情况。
八、NVMe 性能分析方法
我们也重点根据用户日产碰到各类笔记本上观察到NVMe SSD性能不好的情况提供了如何使用SerialTek PCIe协议分析仪来分析这些问题的思路和方法,包括NVMe 延迟统计、TLP延迟分析、Flow Control流控分析等等,首先可以从:
NVMe Command 和I/O Latency 分析。
包括:
- Queue
- Read Command
- Write Command
- Completion
- TLP
等。下图是一个所有NVMe I/O队列里面最快和最慢的I/O的图形统计,左边绿色是最快的,右边红色的是最慢的。
下图是点击一笔非常慢的I/O操作同步到这边具体NVMe 命令的图片和命令解码。下面是NVMe ADMIN CMD的延迟分析,这个一般即便得到ms或者几十ms也问题不大,因为平时不是很多。1)分析思路
不仅看:
PCIe Link Speed
还要看:
- NVMe Queue //* 重点看NVMe I/O延迟分析
- Completion Delay
- Transaction Latency //* 重点看TLP transaction 延迟分析,包括flow control流控分析。
- TLP 延迟 //* 参见下图,NVMe传输依赖于底层TLP传输,所以TLP延迟大,那么NVMe读写肯定慢。
2)举例
交流中举例:
某些 NVMe 命令:
达到:
1.5 ms
已经明显偏慢。
因为:
正常很多 I/O:
通常:
3)性能慢的原因可能包括:
- 主控
- NAND
- Flow Control
- CPU 平台
- OS
- 信号完整性
- 低功耗切换
- Firmware
等。
九、Windows 10 与 Windows 11 性能差异讨论
我们讨论过程中也插入了一个非常有意思的话题,就是我们在实际使用笔记本的过程中观察到:
Windows 11 在某些 SSD 场景下明显慢于 Windows 10。
其实,这与:
有关。
同时也提到:
不同 SSD:
即使:
实际体验仍差异很大。
其实,关于这块的更深入的分析,请添加Saniffer公众号,我们有一篇关于这方面的详细的讨论,包括我最近在2024年和2025年当年度购买的ThinkPad x1 Carbon配合最新的PCIe 4.0 M.2 SSD反而总体性能,包括专门的文件拷贝性能远低于7-8年前ThinPad x1 carbon 笔记本配合当时的PCIe 3.0 x4 M.2 SSD(Samsung 970/980 M.2 SSD)的情况,这里面问题比较复杂,不是一句两句话可以说的清楚的。具体请查询《深度揭秘:为什么最新Windows 11笔记本复制大文件竟不如旧款Windows 10?》
十、流控(Flow Control)问题
讨论中我们也提到在高负载NVMe SSD读写压力下:
SSD Flow Control
也是协议分析的重要观察点。
即:
SSD 因内部处理不过来,
通知 Host:
暂停发送。
如果大量发生:
- Credit 不足
- Flow Control Stall
可能意味着:
- NAND 忙
- Firmware 调度问题
- 缓存机制问题
- 主控瓶颈
最终:
导致性能下降。
十一、本次交流几个非常关键的核心观点
1)
M.2 NVMe SSD 最大调试难点:
不是协议本身,
而是低功耗切换。
2)
PCIe 5.0 后:
Recovery / L1.2 / Retraining
越来越重要。
3)
协议分析:
不能只看 TLP。
必须:
- 看 LTSSM
- 看 Sideband
- 看 Power State
- 看 CLKREQ#
4)
很多“偶现掉盘”或者笔记本的蓝屏、死机等现象导致的根源:
本质上是:
低功耗兼容性问题。
5)
PCIe协议分析仪:
已经不仅是“抓包工具”。
而是:
PCIe/NVMe 系统级调试平台。
总结
整体来看,
这场这次讨论非常典型地反映了:
当前 PCIe 5.0 M.2 NVMe SSD 的真实研发、测试、包括AE/FAE支持客户碰到的问题难点。
重点已经不只是:
而是:
低功耗、
稳定性、 兼容性、 长期运行、 Recovery、 LTSSM、 系统协同。
尤其在:
- 笔记本
- Client 平台
- AMD 平台
- Windows Modern Standby
场景下,
L1.2 已经成为:
M.2 NVMe SSD 调试最核心的问题之一。
更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2026.1.6最新更新的白皮书15.1版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3
如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。