logo
  • 首页
  • 产品中心
  • 解决方案
  • 技术专栏
  • 关于我们
  • 首页
  • 产品中心
  • 解决方案
  • 技术专栏
  • 关于我们
  • 【深度分析】AI液冷真正可怕的,可能不是漏液,而是你根本看不见的“慢性腐蚀”

    很多人这两年谈液冷,关注点几乎都集中在:CDU冷板(Cold Plate)Manifold快接头泵流量漏液检测冷却液配方浸没式 vs 冷板式但实际上,在越来越多AI数据中心真正开始大规模部署液冷之后,业内正在慢慢意识到一个过去很少被认真讨论的问题:“液冷系统里面流动的冷却液,本身到底是不是健康的?”这个问题,过去在很多传统数据中心里并不突出。 因为以前服务器功耗没那么高,液冷规模也没那么大。但随着H100、B200、GB200、MI300这一代AI GPU不断推高单柜功耗,液冷系统已经开始从“辅助散热”,变成数据中心的“生命系统”。而一旦液冷系统内部出现问题,影响的可能不是一台服务器,而是整个集群。最近,在和业内一位长期做液冷监测方向的工程师交流时,我第一次真正意识到:原来液冷行业,已经开始有人在研究一种“冷却液健康监测器(Coolant Health Monitor)”。而且,它监控的还不是传统意义上的:温度流量压力而是:冷却液里的铜离子腐蚀抑制剂(azole)biocide(杀菌剂)生物污染(细菌增长)冷却液长期化学变化这些以前很多人根本不会想到的问题。更有意思的是,这些新的技术其实有点像:“液冷系统的在线体检仪”。为什么液冷系统最怕的,可能不是漏液?很多刚接触液冷的人,第一反应通常是:“液冷最怕的不就是漏液吗?”但真正做大型液冷运维的人会告诉你:漏液反而很多时候是最容易被发现的问题。真正难处理的,是:慢性腐蚀冷板内部材料老化冷却液污染微生物增长管路长期化学变化inhibitor,例如铜腐蚀抑制剂耗尽这些问题,往往不是几小时发生的。而是:几个月、甚至一年以后,系统开始慢慢“生病”。最可怕的是:你一开始根本看不出来。冷却液里面为什么会出现“铜”?上图:随着试管内“铜腐蚀抑制剂”的耗尽观察到的铜的腐蚀在实验室逐渐腐蚀的例子这个其实是整个技术路线里最让我觉得“有意思”的地方。他们现在第一代产品,重点就是检测:冷却液中的铜离子浓度。为什么是铜?因为很多冷板、热交换器、散热结构内部,本身就使用铜材料。如果冷却液里开始持续出现铜离子:通常意味着:系统内部已经开始发生腐蚀。也就是说:系统表面上可能还在正常运行,GPU温度也没问题,但实际上内部材料已经在慢慢被“吃掉”。而传统液冷系统,很多时候并不知道这件事。于是你会发现:半年后流量下降一年后堵塞两年后冷板性能恶化某些区域开始析出污染物很多问题最后查半天,才发现是冷却液体系早就出了问题。而他们现在做的事情,本质上就是:尝试把这种“慢性疾病”提前可视化。液冷行业,其实已经开始遇到“化学问题”了这家公司在交流时提到一句让我印象非常深的话:“做液冷监测,到最后会发现,自己越来越像化学公司。”因为真实的数据中心冷却液,并不是:“水 + 管子”这么简单。里面往往会有:丙二醇(propylene glycol)去离子水corrosion inhibitor(腐蚀抑制剂)azole类保护剂biocide(杀菌剂)而这些东西:会互相反应会随着温度变化会随着时间老化会逐渐耗尽也就是说:未来液冷系统真正复杂的地方,很可能不是机械结构,而是:“长期化学稳定性”。这其实和传统汽车冷却系统越来越像。只不过:AI数据中心的功耗密度、流量规模、运行时间,要恐怖得多。数据中心液冷系统,已经开始遇到“细菌问题”交流里还有一个特别有意思的话题。有人提到:之前和某大型互联网公司海外数据中心运维团队交流时,对方最头疼的问题之一,居然是:液冷系统里的细菌。而且:即使已经加入大量biocide(杀菌剂),问题依然很严重。更麻烦的是:长期使用同一种biocide后,细菌会逐渐形成耐受性。听到这里时,对方工程师直接说了一句:“这其实就像人类长期使用抗生素后出现耐药性一样。”这一点其实很多做IT的人以前根本不会想到。因为大家默认:数据中心 = 电子设备。但液冷时代以后:数据中心正在越来越像:化工系统水循环系统工业冷却系统甚至开始出现“微生物治理”问题。未来的数据中心,可能会出现“冷却液运维工程师”这是我听完整个交流后最大的感受之一。过去的数据中心运维,主要是:电网络空调服务器但液冷时代之后,未来很可能会多出来一个新角色:“冷却液健康运维”。因为很多问题,不再只是:温度高不高泵转不转流量够不够而是:inhibitor还有多少铜离子是否异常是否开始生物增长杀菌剂是否失效冷却液是否老化这已经不是传统IT运维逻辑了。而更像:半个化学实验室。为什么这类监测工具会越来越重要?因为AI数据中心正在进入一个新阶段:以前:一台服务器坏了,问题不大现在:一个液冷系统可能对应上千块GPU一旦液冷体系出问题:损失非常巨大。尤其未来:NVL72超高密度机柜100kW+200kW机柜越来越普及后:液冷系统本身的可靠性,会变得和GPU本身一样重要。而过去很多液冷系统,其实缺少:“长期在线健康监测能力”。所以这类产品真正的价值,不一定是:“发现已经坏掉的系统”。而是:在系统真正坏掉之前,提前几个月看到趋势变化。这才是它最有意思的地方。一个很容易被忽略的趋势:液冷正在从“硬件问题”变成“系统工程”整个交流过程中,还有一个很明显的感受:真正成熟的液冷系统,未来一定不是:“买个CDU接上就结束”。而是:化学材料流体软件长期数据分析预测性维护在线监控全部结合在一起。甚至他们的软件系统,已经开始强调:长时间日志记录趋势分析周级别运行观察自动采样长周期数据追踪因为很多液冷问题:根本不是瞬间发生的。而是:“系统慢慢变坏”。这其实和今天AI服务器的发展方向非常一致:未来真正重要的,不只是“性能”,而是:“长期稳定运行能力”。结语:液冷行业,正在进入“看不见的问题”时代过去几年,液冷行业最吸引眼球的是:快接头CDU冷板漏液浸没式但未来几年,真正难的问题,可能恰恰是那些:肉眼看不见的问题。例如:腐蚀化学失衡微生物增长冷却液老化inhibitor耗尽长期污染而这类“在线冷却液健康监测”技术的出现,其实说明整个行业正在逐渐成熟。因为只有行业真正开始大规模部署、长期运行之后,大家才会意识到:原来液冷系统真正复杂的地方,并不只是“把热带走”。而是:如何让整个冷却系统,稳定健康地运行很多年。如果大家对于本文讨论的内容感兴趣,可在公众号后台留言,大家可以多多进行经验交流和分享,共同研究如何有效地促进数据中心,尤其是大型互联网数据中心针对AI训练和推理使用的液冷技术的发展和进步。
    2026-05-12 10:30:54
  • 【深度解析】PCIe 5.0 M.2 SSD 最难调的,已经不是 Gen5,而是 L1.2 低功耗

    周六下午和一家PCIe 5.0 M.2 NVMe SSD公司的AE (application engineering) 部门做了一场技术交流,我觉得他们针对M.2 SSD日常碰到的问题的诊断、分析的困扰非常具有代表意义,反馈的问题也很典型,有必要放在这里给大家分享一下。我们主要围绕下面这些主题依次展开讨论:PCIe 5.0 M.2 NVMe SSD 的研发与验证M.2 SSD 在低功耗场景中的调试难点PCIe 协议分析仪在 NVMe SSD 调试中的作用SATA SSD 与 NVMe SSD 的历史与测试差异企业级 SSD(U.2/U.3/EDSFF)与消费级 M.2 SSD 的区别PCIe Low Power(L1.2)问题及如何使用Quarch PAM有效分析这些问题NVMe SSD性能与协议层分析方法说明:其实我们2025年底也发了一篇文章,通过PCIe M.2协议分析仪实际演示讲述:笔记本电脑出现蓝屏、死机、慢、不稳定是这样连接分析M.2 SSD的;以及通过全球SSD业内都在使用的quarch公司的PAM分析由于L1.2低功耗导致的M.2 SSD问题的文章:如何有效分析笔记本电脑的低功耗?当然,对于quarch的QPS(quarch power studio)细节感兴趣的也可以进一步看这里:如何监控和快速分析各类接口SSD和PCIe 插卡的功耗、sideband信号?PCIe 5.0 M.2 NVMe SSD 测试技术交流小结一、交流背景与参与人员交流时间约 2 小时。 用户参会人员包括:SSD 厂商 AE(Application Engineer)NPI产品导入工程师客户目前主要从事:PCIe 5.0 M.2 NVMe SSD(消费级)研发、应用工程支持与后续产品导入。交流初期,客户提到:之前主要使用 SATA SSD以及 PCIe 3.0 / PCIe 4.0 SSD曾经使用过一些PCIe协议分析仪,但是在分析低功耗L1.2以及上电时序的时候,不得不配合示波器和逻辑分析仪,需要3个部门同时参与,只是为了同时抓取PCIe协议packet和对应的sideband信号,调试问题非常不方便平时更多是在研发阶段前期、测试阶段使用PCIe协议分析工具当产品成熟后,协议层问题相对较少同时也提到:遇到过之前PCIe协议分析仪“抓不到数据”以及“丢数据”的问题这一点后续自然引出了:M.2 NVMe SSD 的低功耗抓包问题。二、SATA SSD 与 NVMe SSD 的历史演进我们在交流中花了较长时间回顾了传统SATA SSD和最近10多年来主流的NVMe SSD的发展历程:SATA SSD → NVMe SSD 的产业演进过程重点包括:1)2011~2012 年是 NVMe SSD 的关键转折期当时 PCIe SSD 上层协议有多个竞争方向:SCSIe //* SCSI over PCIeSATA Express //* 即ATA over PCIeNVMe最终:NVMe 在 2012 年后成为主流标准。这里特别要注意,很多 SSD 厂商当年的NVMe 团队都是并行开发两个协议:即,企业级SSD同时押注NVMe和SCSIe,消费类SSD同时押注NVMe和SATAe,事后我们知道是NVMe一统江湖,但是当时行业并不确定:最终到底哪种协议会胜出。2)SATA SSD 目前仍存在,但主要用于:工业控制军工嵌入式老平台维护部分低成本市场交流中还提到:部分海外市场(例如南美的类似于沃尔玛等这类大卖场针对个人用户的消费类电子产品) 仍存在大量低成本 SATA SSD在销售。但很多:控制器质量差Flash 品控差拆机 NAND黑片 NAND导致:掉盘、稳定性问题频繁。三、当前 NVMe SSD 接口形态讨论我们随后也讨论了:PCIe 5.0 SSD 当前主流接口形态包括:M.2U.2 / U.3EDSFF(E1.S、E3.S 等)1)客户当前产品:PCIe 5.0 x4 M.2 消费级 SSD客户明确表示:目前主要是:M.2x4消费级未来可能向:PCIe 5.0企业级 SSD扩展。2)PCIe 6.0 对接口的影响交流中重点提到:PCIe 6.0 时代:EDSFF 将成为主流。原因包括:信号完整性问题M.2/U.2 在 64GT/s 下难度过高PCIe 6.0 对连接器、走线要求极高同时也提到:虽然市场上短期内 M.2 仍会存在,但长期:企业级 PCIe 6.0 SSD 会越来越偏向 EDSFF。四、企业级 SSD 与消费级 M.2 SSD 的差异我们也详细解释了:企业级 SSD 的 Dual Port 机制包括:Single PortDual Port的区别。Dual Port SSD 特点典型用于:银行电信医疗税务高可靠系统特点:同一 SSD 可建立两条 PCIe Link(2条Gen5 x2 link)一主一备提供冗余访问路径但:两条链路不能同时写同一数据区域。否则会造成数据破坏。M.2 SSD 特点M.2 主要面向:笔记本消费级PADClient 平台不涉及 Dual Port。五、交流核心:M.2 SSD 低功耗问题这是我们本次讨论最多,也是用户问题最多的部分。重点围绕:PCIe L1.2 Low Power State展开。1)为什么 M.2 SSD 特别容易出问题?原因:笔记本平台大量使用低功耗机制。我们知道:现代笔记本为了待机续航:CPUPCIe PHYREFCLKPLLSSD都会快速进入:L1.2 深度低功耗状态。2)L1.2 的典型行为交流中详细讲解:L0:正常工作状态L1:低功耗状态L1.0 / L1.1 / L1.2其中:L1.2 是最深度低功耗。特点:PLL 关闭REFCLK 关闭TX, RX, PHY 关闭SSD 内部部分逻辑关闭 (PS4状态 - power state 4)优点:功耗极低缺点:唤醒复杂。3)CLKREQ# 信号的重要性SerialTek是业内唯一可以同时实时监控所有sideband边带型号的协议分析仪,非常好用,交流中特别强调:CLKREQ是观察:进入低功耗退出低功耗最关键的边带信号之一。典型行为:拉低:退出低功耗拉高:进入低功耗同时:PCIe Link 会重新经历:RecoveryLTSSMRetraining过程。六、协议分析仪在低功耗调试中的作用我们重点讨论了:为什么传统协议分析仪经常抓不到低功耗下 M.2 SSD 的问题。核心原因:低功耗切换过程中PCIe协议分析容易丢包。1)协议分析仪需要同时抓:PCIe TrafficCLKREQ#PERST#SidebandLTSSMPower State否则:很容易误判。2)我们知道:这么多年来,已经持续得到市场验证,传统的PCIe协议分析仪:在 M.2 低功耗场景下全部都会丢数据。尤其:L1.2RecoveryRetraining过程中。目前全球只有一家公司的产品,即SerialTek PCIe 5.0 M.2协议分析仪这方面做的最好:更适合 M.2 NVMe SSD 抓包。因为:Sideband 抓取更完整Low Power 状态处理更稳定七、LTSSM 与链路训练分析我们也花了大量时间:解释 LTSSM。包括:DetectPollingConfigRecoveryL0等状态。并结合:协议分析仪 Timeline 界面,讲解:如何观察:建链Recovery低功耗退出链路恢复过程。从中可以看到Ordered Set, packet以及CLKREQ#的同步关系,参见下图,绿色代表L0状态,紫色表示L1.2低功耗状态:下图是一张全貌图,从上面时间轴可以看出,CLEREQ#反复拉高、拉低进出L1.2低功耗,同时出低功耗后重新进入L0后,读写ssd的时候LED#的闪烁情况。八、NVMe 性能分析方法我们也重点根据用户日产碰到各类笔记本上观察到NVMe SSD性能不好的情况提供了如何使用SerialTek PCIe协议分析仪来分析这些问题的思路和方法,包括NVMe 延迟统计、TLP延迟分析、Flow Control流控分析等等,首先可以从:NVMe Command 和I/O Latency 分析。包括:QueueRead CommandWrite CommandCompletionTLP等。下图是一个所有NVMe I/O队列里面最快和最慢的I/O的图形统计,左边绿色是最快的,右边红色的是最慢的。下图是点击一笔非常慢的I/O操作同步到这边具体NVMe 命令的图片和命令解码。下面是NVMe ADMIN CMD的延迟分析,这个一般即便得到ms或者几十ms也问题不大,因为平时不是很多。1)分析思路不仅看:PCIe Link Speed还要看:NVMe Queue //* 重点看NVMe I/O延迟分析Completion DelayTransaction Latency //* 重点看TLP transaction 延迟分析,包括flow control流控分析。TLP 延迟 //* 参见下图,NVMe传输依赖于底层TLP传输,所以TLP延迟大,那么NVMe读写肯定慢。2)举例交流中举例:某些 NVMe 命令:达到:1.5 ms已经明显偏慢。因为:正常很多 I/O:通常:数十微秒百微秒以内3)性能慢的原因可能包括:主控NANDFlow ControlCPU 平台OS信号完整性低功耗切换Firmware等。九、Windows 10 与 Windows 11 性能差异讨论我们讨论过程中也插入了一个非常有意思的话题,就是我们在实际使用笔记本的过程中观察到:Windows 11 在某些 SSD 场景下明显慢于 Windows 10。其实,这与:文件系统NVMe StackOS 内核处理方式有关。同时也提到:不同 SSD:即使:PCIe Gen4 x4参数一致实际体验仍差异很大。其实,关于这块的更深入的分析,请添加Saniffer公众号,我们有一篇关于这方面的详细的讨论,包括我最近在2024年和2025年当年度购买的ThinkPad x1 Carbon配合最新的PCIe 4.0 M.2 SSD反而总体性能,包括专门的文件拷贝性能远低于7-8年前ThinPad x1 carbon 笔记本配合当时的PCIe 3.0 x4 M.2 SSD(Samsung 970/980 M.2 SSD)的情况,这里面问题比较复杂,不是一句两句话可以说的清楚的。具体请查询《深度揭秘:为什么最新Windows 11笔记本复制大文件竟不如旧款Windows 10?》十、流控(Flow Control)问题讨论中我们也提到在高负载NVMe SSD读写压力下:SSD Flow Control也是协议分析的重要观察点。即:SSD 因内部处理不过来,通知 Host:暂停发送。如果大量发生:Credit 不足Flow Control Stall可能意味着:NAND 忙Firmware 调度问题缓存机制问题主控瓶颈最终:导致性能下降。十一、本次交流几个非常关键的核心观点1)M.2 NVMe SSD 最大调试难点:不是协议本身,而是低功耗切换。2)PCIe 5.0 后:Recovery / L1.2 / Retraining越来越重要。3)协议分析:不能只看 TLP。必须:看 LTSSM看 Sideband看 Power State看 CLKREQ#4)很多“偶现掉盘”或者笔记本的蓝屏、死机等现象导致的根源:本质上是:低功耗兼容性问题。5)PCIe协议分析仪:已经不仅是“抓包工具”。而是:PCIe/NVMe 系统级调试平台。总结整体来看,这场这次讨论非常典型地反映了:当前 PCIe 5.0 M.2 NVMe SSD 的真实研发、测试、包括AE/FAE支持客户碰到的问题难点。重点已经不只是:Gen5 x4 跑起来带宽够不够而是:低功耗、稳定性、 兼容性、 长期运行、 Recovery、 LTSSM、 系统协同。尤其在:笔记本Client 平台AMD 平台Windows Modern Standby场景下,L1.2 已经成为:M.2 NVMe SSD 调试最核心的问题之一。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2026.1.6最新更新的白皮书15.1版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-05-11 10:29:40
  • 【PCIe 6.0新阶段】从 PAM4 到 Protocol CTS,产业重点已经发生变化,为什么 2026 年开始,PCIe 6.0 的重点变成了“互操作性”?

    我们前天发了一篇文章,介绍了一下SerialTek的PCIe 6.0 协议分析仪、训练器以及其CTS成为PCI SIG正式批准的Gold Suite approved for PCIe 6.0 Link and Transaction Layer Endpoint Testing,也就是业界我们经常说的SerialTek成为官方指定的PCIe 6.0协议层兼容性测试服务提供商,全球任何公司的PCIe 6.0产品只要在PCI SIG组织的PCIe 6.0 workshop通过SerialTek的PCIe 6.0 CTS测试就可以成为官方认证产品。这个是在2026年5月6日至7日在加州圣克拉拉会议中心的2026年PCI-SIG®开发者大会正式宣布的。我们今天进一步介绍一下今年这次非常重要DEVCON 2026的一些情况。【DEVCON 2026观察】PCIe 6.0 正在进入“真正可落地”的阶段:从协议分析、CTS 到 AI 服务器互操作性2026 年 5 月,对于 PCIe 产业来说,是一个很值得记录的时间点。一方面,PCI-SIG Developers Conference(DEVCON 2026)于 5 月 6-7 日在美国 Santa Clara Convention Center 举办;另一方面,就在 DEVCON 前夕,PCI-SIG 官方批准了 PCIe 6.0 Link & Transaction Layer CTS(Compliance Test Suite)相关测试平台的新进展,其中一个引起业内关注的消息是:SerialTek Kodiak 平台正式获得 PCI-SIG 的 Gold Suite Approved for PCIe 6.0 Link and Transaction Layer Endpoint Testing。如果把 PCIe 6.0 过去几年的发展划分阶段,那么:2022~2024:更多是 PHY、电气层和 PAM4 bring-up;2024~2025:进入大规模 Pre-FYI、互操作性验证;具体可以到本文底部下载或者联系我们Saniffer,你可以查看Saniffer公司编写的《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1》的章节1.4:PCIe 6.0/CXL3.0协议的最新进展(截至2026年)获得更多信息。2026:则开始明显进入“正式合规验证(Compliance)”阶段。而这一变化,在今年 PCI-SIG DEVCON 2026 的各种议题、演讲、展示和会后讨论中,已经越来越明显。一、PCIe 6.0:行业已经不再讨论“要不要做”,而是在讨论“怎么验证”过去几年,PCIe 6.0 最容易吸引眼球的,通常是这些关键词:64 GT/sPAM4FLIT ModeFEC256 GB/s x16AI/HPCCXLPCI-SIG 官方对于 PCIe 6.0 的描述也很明确:PCIe 6.0 在保持低延迟的同时,将带宽相比 PCIe 5.0 再次翻倍,并继续成为 AI、HPC、数据中心、高性能存储等场景的关键互连标准。但真正进入工程落地后,产业开始发现:PCIe 6.0 最大的挑战,也许已经不是“速度”。而是:“复杂系统下的协议一致性与互操作性”。因为到了 PCIe 6.0:PAM4 带来更高 BER 压力;FEC 和 FLIT 改变了传统错误恢复模型;Retimer、Switch、GPU、SSD、NIC 组合越来越复杂;AI 服务器的 PCIe Fabric 规模越来越大;CXL 与 PCIe 深度耦合;多 CPU、多 GPU、多 Root Complex 场景越来越普遍。很多问题开始变成:能训练,但长时间运行后偶发掉链;能跑 benchmark,但实际 AI workload 下出现 replay storm;某些 SSD 在特定 Switch 下 Recover 异常;Retimer 与 Endpoint 组合在 FLIT mode 下出现兼容性问题;不同厂商 PHY 在边界条件下行为不一致。所以:2026 年之后,PCIe 6.0 产业重点已经明显转向:“Protocol Compliance + Interoperability”。二、DEVCON 2026:PCIe 6.0 议题已经全面“工程化”从 PCI-SIG 官方公开的 DEVCON 2026 Agenda 来看,今年 PCIe 6.x 的议题已经非常偏向实际工程问题。例如:PCIe 6.x & 7.0 Protocol UpdatePCIe Compliance UpdatesFlit Error Injection at 64 GT/s Using Protocol TesterDesign Insights into Flit-mode Error and Replay MechanismsEfficient Strategies for TS0-Based Equalization Verification这些议题本身就说明:行业重点已经从“理论规范”,转向:“如何验证”。尤其是:Flit Error InjectionReplay MechanismProtocol ComplianceEqualization Verification这些关键词背后,其实已经是典型的:PCIe 6.0 调试现场问题。三、PCIe 6.0 生态正在快速形成从今年 DEVCON 的现场展示和会后报道来看,PCIe 6.0 的生态明显比 2024、2025 年成熟很多。目前产业链中已经形成了几个方向:1)IP / PHY 厂商包括:SynopsysCadenceAlphawaveRambus等。今年 DEVCON 上,Synopsys 展示了:PCIe 6.0 Root Complex ↔ EndpointPCIe 7.0 PHY128 GT/s 测试PCIe optical connectivity等内容。这意味着:PCIe 7.0 已经开始预研,但 PCIe 6.0 仍然是当前真正的主战场。SerialTek等领先公司已经在开发PCIe 7.0协议测试工具的过程中。Saniffer的重要合作伙伴SerialCables已经推出PCIe 7.0相关的连接解决方案。2)Switch / Retimer / Connectivity包括:BroadcomAstera LabsCredoSamtec等。尤其 AI 服务器正在推动:更长链路更多 Retimer更复杂 BackplanePCIe over opticsOCP NIC / EDSFF的发展。3)测试与协议分析这个领域的重要性,在 PCIe 6.0 时代明显上升。因为:PCIe 6.0 已经不是传统“抓包”逻辑。而是:ProtocolLink behaviorLTSSMReplayFLITFECEqualizationPower behavior共同耦合的问题。四、为什么 PCIe 6.0 CTS 开始变得如此重要?很多人过去理解 PCI-SIG Compliance:会觉得:“就是做个认证”。但实际上:PCIe 6.0 之后,CTS 的意义已经发生变化。因为:64 GT/s + PAM4 下,很多设备:“能工作” ≠“真正 interoperable”。PCI-SIG 官方在 DEVCON 和 Compliance Update 议题中, 已经越来越强调:Link Layer + Transaction Layer 的一致性验证。尤其:FLIT modeReplayOrdered setDLLPProtocol behaviorError handling已经成为 PCIe 6.0 的关键部分。这也是为什么:Protocol Layer CTS 正式发布,在 2026 年成为一个很重要的产业节点。五、测试工具也在发生代际变化PCIe 6.0 之后,传统协议分析仪也开始出现明显分化。因为工程现场开始出现几个新问题:1)Trace 太大AI 服务器、GPU、SSD、CXL 流量规模暴涨。很多问题:不是几秒钟触发。而是:几小时几天长时间运行后才出现。所以:深 Trace Buffer超长 Capture快速索引Snapshot Replay变得越来越重要。2)需要同时看 Link + ProtocolPCIe 6.0 的很多问题:单纯看 TLP 已经不够。必须同时关联:LTSSMReplayEqualizationFLITError injectionRetimer behavior3)功耗与协议开始耦合这一点在 AI 服务器中尤其明显。很多问题:表面是协议错误,本质可能是:电流尖峰Power IntegrityThermalRetimer Margin导致。六、PCIe 6.0 测试平台正在成为“基础设施”在这样的背景下,PCIe 6.0 测试平台的重要性正在快速提升。业内如SerialTek等厂商,都在强化 PCIe 6.0 / CXL 方向。其中一个比较值得关注的变化是:Protocol CTS 正在开始正式进入 PCI-SIG 官方生态。而就在 DEVCON 2026 前夕,SerialTek 官方宣布:其 Kodiak PCIe Protocol Test System 已正式获得 PCI-SIG 批准,可用于 PCIe 6.0 Link 和 Transaction Layer Compliance Testing。PCI-SIG 官方也明确表示:PCIe 6.0 Compliance Testing 需要严格 MOI(Method of Implementation)和验证流程, 确保测试平台能够正确执行 CTS 并准确输出 pass/fail 结果。七、为什么这个节点值得关注?因为这意味着:PCIe 6.0 已经开始从:“研发 bring-up”进入:“正式 Compliance Ecosystem”。而这对于:GPUSSDSmartNICDPUSwitchFPGAAI服务器CXL设备都会产生非常现实的影响。未来:是否通过 PCI-SIG Compliance、 是否进入 Integrators List、 是否具备稳定互操作性,会越来越影响产品导入和客户信心。八、一个容易被忽略的趋势:PCIe 6.0 与 AI 服务器正在深度绑定从这次 DEVCON 的各种展示可以明显看到:PCIe 6.0 的推进, 已经越来越不是传统 PC / Server 驱动。而是:AI / HPC 驱动。包括:GPU互联高速SSDCXL MemoryAI NICOptical PCIeRetimer Fabric都在推动:PCIe 6.0 进入真正的大规模部署阶段。甚至:PCI-SIG 已经同步开始讨论 PCIe 8.0 draft 0.5, 目标达到 256 GT/s。这说明:高速互连正在成为 AI 基础设施竞争核心。九、简单针对本次DEVCON 2026小结回头看 2026 年的 PCIe 产业,一个非常明显的变化是:行业已经开始从“追求速度”,转向“追求稳定互操作”。而:Protocol CTSCompliance WorkshopAuthorized Test LabIntegrators List的重要性,也开始快速提升。在这样的背景下,SerialTek 的 PCIe 6.0 Protocol Analyzer、Exerciser/Tester,以及其 CTS 获得 PCI-SIG 正式批准的 Gold Suite Approved for PCIe 6.0 Link and Transaction Layer Endpoint Testing,某种程度上也反映了:PCIe 6.0 协议测试生态,正在逐步成熟。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2026.1.6最新更新的白皮书15.1版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-05-09 10:20:31
  • 【每日一题】从DE到Post-Silicon:AI正在吃掉整个芯片开发链条

    我们Saniffer频道很多粉丝都是从事涉及PCIe高速接口的芯片研发、设计、验证、测试、支持的工程师,你平时有没有想一想,如果有一天,AI比你更懂PCIe协议栈,你还剩下什么?你有没有遇到过这种场景:凌晨2点,实验室灯还亮着。 你盯着一条PCIe链路——LTSSM卡在Polling状态,怎么都起不来。你已经做过所有“标准动作”:Reset拉低重来换线、换slot调整EQ参数抓log、看TLP甚至开始怀疑REFCLK是不是有问题但问题依然在那里,一动不动。这种时候,经验告诉你:  这不是“不会”,而是“要时间”。  是靠反复试、反复猜、反复验证,一点点把问题逼出来。这也是为什么,一个成熟的PCIe工程师,值钱。但现在,有一件事情正在悄悄改变这个逻辑。越来越多的团队,开始把这些步骤交给AI:自动分析LTSSM状态跳转自动比对历史case自动生成debug路径甚至直接给出“最可能的root cause排序”原来需要1~2天定位的问题, 现在,有些团队已经能在几十分钟内收敛范围。更关键的是——AI不会累,不会情绪波动,也不会“卡思路”。问题来了: 如果AI可以完成80%的调试和验证工作,那剩下的20%,还需要多少工程师?你可能觉得,这还只是“辅助工具”。但如果你把视角拉大一点,从DE、DV,到Post-Silicon,再到FAE,你会发现:AI不是在优化某一个环节,而是在吞掉整个链条。最近硅谷一个越来越常被提到的词是: “永久底层”(Permanent Underclass)它指的不是短期失业,而是——在技术体系中,被永久替代掉的位置。更讽刺的是:最早讨论这个问题的, 不是普通工程师, 而是——正在造AI的那群人。接下来这篇文章,我们不讲空洞的“AI趋势”, 只讲一件更现实的事情: 在芯片研发和测试一线,AI已经具体影响了哪些岗位? 哪些能力正在快速贬值?哪些能力反而在升值? 以及——你现在该怎么应对?如果一种 AI 发展的净社会结果,是让更多人在美国滑向失业、住房不稳甚至无家可归,在国内则滑向长期“躺平”、延迟就业和失去上升通道,那么社会并不需要那种发展路径上的 AI。所以,我有的时候也在想,当AI让更多人不快乐时,我们还需要AI吗?但是,真正的问题从来不是“要不要 AI”这个抽象命题,而是:生产率收益由谁拿走,转型成本由谁承担,人的判断权、议价权和基本尊严是否还被保留。昨天虎嗅的一篇文章把这种焦虑概括成“永久底层”,参见《永久底层:硅谷的AI从业者普遍认为,普通人已经“完蛋了”》,这个提法很尖锐,但它抓住了一个真实变化:AI 正在从“辅助”迅速走向“委托”。对半导体工程人群来说,最重要的分界线并不是“白领/蓝领”,而是任务是否结构化、可验证、可被工具链评分。凡是有成熟规格、回归体系、覆盖率指标、日志、波形、ATE 数据、fail bin、root-cause loop 的工作,AI 都更容易先吃掉一层、再吃掉一层。METR 的时间跨度研究也说明了这一点:当前前沿代理在短而清晰、可自动评测的任务上能力提升极快,但在长链条、强上下文、模糊目标的工作上仍不稳;而 ASIC 从 DE、DV 到 post-silicon,恰恰同时包含这两类任务,所以真正发生的不是“一夜清零”,而是先自动化子任务,再压缩团队规模与岗位层级。“永久底层”这篇文章抓住了什么,也夸大了什么作为一篇问题意识极强的评论,这篇文章有两点是说对了的。第一,连 AI 公司自己都已经开始把“劳动力市场冲击”当成公开议题。Anthropic 明确写过,用户正越来越倾向把完整任务直接委托给 Claude,而不是把它当作协作助手;它还专门讨论了在“工资下滑、就业减少、贫富差距扩大”情景下需要考虑的政策反应。Dario Amodei 甚至把强 AI 比作“数据中心里的天才之国”,直言这可能是现代劳动市场最大的变化之一。与此同时,世界经济论坛 在《Future of Jobs 2025》中也记录到:40% 的雇主预计会在 AI 能自动化任务的地方减少用工。但这篇文章如果被理解成“普通人已经完蛋了”,就说过头了。到 2026 年为止,公开证据仍然更支持“岗位重构”而不是“全面塌方”。Anthropic 自己跟踪的 labor-market 研究强调,真正有害的 AI 冲击通常应该先体现为失业上升,但它目前的初步结果还没有显示那种剧烈、明确的结构性失业;国际劳工组织 2025 年更新版也认为,多数工作更可能是被改造,而不是被整块删除。更关键的是,在芯片行业,自动化上升和人才短缺是同时成立的:Deloitte 估计到 2030 年全球半导体还需要新增一百多万名熟练人才,而美国半导体行业协会 估计美国半导体行业到 2030 年还会新增约 11.5 万个岗位,其中约 6.7 万个可能招不满。换句话说,危险不是“行业没工作了”,而是“行业有工作,但工作形态、门槛和人力结构变了”。高速芯片链条里,AI正在怎样逐步替代人在芯片规划、物理实现和后端调参环节,AI 已经不是概念验证,而是商用品。Google DeepMind 在 Nature 论文里把强化学习 floorplanning 描述为能在 6 小时内完成过去常常要几个月的人类工作,之后又公开称 AlphaChip 已用于多代 TPU。商业 EDA 领域里,Synopsys 的 DSO.ai 已经被用于 100 多个 commercial tape-out;公司披露 STMicroelectronics 在云上获得了超过 3 倍的 PPA 探索生产率提升,SK hynix 则拿到了 15% cell area reduction 和 5% die shrink。Cadence 说其 Cerebrus AI Studio 让单个工程师可以同时推进多个 block,而MediaTek 报告某 SoC block 上 die area 缩小 5%、功耗下降超过 6%。Siemens 则宣称 Aprisa AI 带来 10 倍生产率、3 倍算力效率和 10% 更好的 PPA。对做 CPU、GPU、DPU、NIC、SSD controller、AI accelerator,尤其是 PCIe 5.0/6.0 高速芯片的人来说,这直接冲击的是那类靠经验反复调 script、调 flow、调 recipe 的资深实现工程师与 CAD/flow 工程师。在 DE 和 DV 侧,侵蚀更直接,因为这里大量工作天然就是“规格—代码—验证计划—回归—debug”的文本和工具链闭环。Synopsys 最新 Copilot 已能从自然语言生成 RTL、自动修 lint、从规格生成 formal testbench,并给出“2–5 倍更快生产率”“RTL 约 30% 提升”“formal 4–5 倍效率”这类早期客户反馈。Cadence 的 ChipStack AI Super Agent 则公开写明能生成 formal verification plan + SVA 并自动证明,还能生成 dynamic verification plan、UVM sequences、checkers 和 coverage,并做 autonomous triage 和 root cause proposal。Siemens 的 agentic toolkit 里有 Verification Planning Agent;Questa One 的 Property Assist 被 MediaTek 说成能“省下几周工程时间”,Regression Navigator 能“省下几天回归和 debug 时间”。如果把场景代入一个 PCIe 6.0 controller、retimer、CXL endpoint 或 AI NIC:L0p/L1 交互、link width change、flit mode、equalization、error injection、compliance 这些角落状态组合本来就爆炸性增长,而 AI 现在已经在吃掉 verification plan 初稿、SVA boilerplate、UVM sequence skeleton、第一轮 fail triage、coverage gap 分析与 regression 排序这些曾经高度依赖老师傅经验的活。在 post-silicon、PVE、PE/TE、FW test 和失效分析这边,AI 的渗透方式是“先左移,再数据闭环”。NVIDIA 与 Siemens 联合披露,Veloce proFPGA CS 已能在 first silicon 之前几天内抓到万亿级验证周期,把大量软件验证与系统场景测试提前到 pre-silicon。NI 明确说现代化 post-silicon validation lab 的标准化基础设施能够自动化超过 80% 的重复性任务,而 Nigel AI 已能解释 LabVIEW 项目结构、帮助定位设置、解释文档、给出任务操作说明。到了量产测试端,Advantest 的 ACS RTDI 能把 test insight 在同一次 insertion、毫秒级转成 production step;Synopsys 的 Silicon.da 可以处理 petabytes 级 design / monitor / diagnostic / fab / production test 数据,用于 downstream manufacturing、RMA debug 与历史根因分析;Siemens 的 Tessent Diagnosis 直接把 failure analysis 的大量前处理数字化,被称作 failure analysis 的 digital twin。换句话说,PVE、FW/FTE、PE/TE、failure analysis 工程师里最容易被吃掉的,不是最终签字责任,而是那些“肉眼看 log、写胶水脚本、调 tester 参数、做 fail clustering、给 FA 排嫌疑名单”的重复环节。Firmware、应用工程、客户方案工程和现场 FAE 也并不安全。OpenAI 的 Codex 已经能在隔离环境里读写代码、运行 test harness、linters 和 type checkers;Anthropic 对 50 万条 coding 交互的分析显示,Claude Code 的对话有 79% 属于自动化而不是增强。与此同时,Synopsys 的 Knowledge Assistant 承诺在 EDA design / verification / test 栈上把“找答案时间”缩短约 70%;NI Nigel 也能总结文档、解释 dependencies 和项目结构。由此推断,FW/FTE、AE、CSE、field FAE 中那部分“寄存器 bring-up 脚手架、测试脚本骨架、重现步骤编写、文档检索、问答型支持、例行性 trouble-shooting”会被越来越快地压缩。能够留下来的,是那些高歧义、高风险、高责任的部分:复现不稳定的系统问题、跨芯片/板卡/软件栈定位性能断崖、在客户现场协调业务风险和技术取舍、以及在证据不完整时做判断。哪些岗位最容易被蚕食,哪些岗位更能留住议价权最危险的,不是“初级”这个字面标签,而是工作是否可模板化、可验证、可由反馈环推动持续自动改进。因此,高风险岗位包括:DE 里写模块骨架、寄存器映射和大量常规 glue logic 的人;DV 里写 verification plan 初稿、SVA/UVM boilerplate、做 regression scheduling 和 fail triage 的人;FW/FTE 里主要做驱动脚手架、测试脚本、日志清洗与回归自动化的人;PE/TE 里主要做 ATPG 参数搜索、tester recipe 反复试错、良率分析初筛的人;FA 里做大批量 fail case 前处理和嫌疑排序的人;以及 AE/CSE/FAE 里以文档答疑、标准流程支援为主的人。因为这些任务都很接近 METR 所说的“短、清晰、可度量”的任务分布,也和 GDPval、vendor agent 工具最容易吃到的区间高度重叠。相对更能留住议价权的,是那些必须把物理世界、系统上下文、责任归属和业务取舍捆在一起的岗位:跨层系统架构师;真正负责 signoff 的 owner;post-silicon root-cause lead;混合信号、封装、SI/PI、热、可靠性和系统 bring-up 专家;能把客户 workload、板级限制、协议行为、现场现象和公司决策连成闭环的人。它们也会被 AI 增强,但短期内更像“一个人管更多 agent”,而不是“人直接被删掉”。这也是为什么我更倾向于判断,未来几年的主旋律是每个项目所需 headcount 下降、entry-level 入口缩窄、mid-level 中层被压扁、而少数能定义问题和签字负责的人更值钱,而不是芯片工程师整体突然消失。给工程师的建议真正该做的,不是跟 AI 比谁更会吐文本,而是把自己迁移到 AI 最难替代的位置:定义问题、设定验收标准、拥有数据闭环、承担结果责任。对 DE/DV 来说,这意味着把重心从“写更多 RTL / UVM”转向 executable spec、golden reference、scoreboard semantics、coverage intent、signoff criteria;对 FW/FTE 来说,要从“写脚本和小工具”转向“设计 bring-up strategy、telemetry schema、failure taxonomy 和跨层 debug 流程”;对 PE/TE 和 FA 来说,要从“跑流程”转向“做实验设计、因果归因和量产决策”;对 AE/CSE/FAE 来说,要从“答问题的人”变成“把协议、系统、客户场景和商业目标绑起来的人”。这是一个推论,但它和今天自动化最强的区域完全一致:越靠近机器可评分的子任务,越容易被压缩。更具体地说,未来三到五年最稳的路线不是“抗拒 AI”,而是“成为 AI-native 工程师”。一是尽快学会在团队内部搭建 RAG 和 agent workflow,让规格、errata、波形、log、测试记录真正可检索、可评测、可复用;二是把“评估 AI 输出是否可信”的 eval 设计变成你的核心能力;三是向更稀缺的物理直觉靠拢,例如高速接口的 SI/PI、功耗/热、封装、可靠性和系统联调;四是补上产品和客户语境,因为模型天生缺乏真实组织上下文。Synopsys 已经在公开表述里把“工程师必须演化 skillsets and workflows”说得很直白,而 OECD 和 WEF 的最新信号也都更接近“AI 正在重塑工作内容和职业阶梯”,而不是简单的岗位破坏。AI最后可能如何结局我认为,AI 的“结局”主要不是技术问题,而是制度分配问题。以下几种结果最值得参考。受监管的增强型均衡。这是我认为概率最高的一种。AI 大幅提高知识工作的吞吐量,企业减少部分中低层岗位,但培训、转岗、职业认证、便携福利和劳动协商跟上,生产率收益部分回流给劳动者。对芯片行业来说,这意味着团队更小、项目更快、entry-level 更少,但工程职业本身不会消失。ILO 和 Anthropic 都在往这个方向提示:多数岗位更可能被重构,而不是整体冗余。寡头自动化与“永久底层”。这是我们上面虎嗅《永久底层》文章最担心的情景,也是现实中最不能低估的风险:模型公司、云厂、资本和核心 IP 持有者拿走大部分收益,中层知识岗位被长期压价,很多人退化成“AI 监督员”“低价承包者”或间歇性就业者。如果社会补偿和再分配严重滞后,这就会演化成稳定的 underclass。Anthropic 已经把 automation tax、sovereign wealth fund、social services 等讨论摆上台面,本身就说明这个情景并非幻想。强烈反弹与部署减速。如果失业、降薪、入行门槛关闭和社会不满快速上升,很多国家会走向更严格的 licensing、责任追究、行业准入、强制 human sign-off、工会合同和高风险用途限制。芯片行业尤其可能走这条路,因为芯片、算力、制造设备和网络安全本来就是战略基础设施。这样一来,AI 不会消失,但会被更像“核设施”而不是“普通 SaaS”那样对待。危机后再分配与新社会契约。如果前期冲击足够痛,政治系统最后往往会被迫重新分配 AI 租金,包括自动化相关税、公共基金、主权财富基金、面向 care economy 的岗位扩张、以及把算力收益部分社会化。这条路的前提不是技术善意,而是冲突已经大到“非解决不可”。现在一些政策文件已经把“automated labor taxes”“care and connection economy”“AI jobs transition framework”放入讨论范围,说明这种再契约并非遥不可及。我的基线预测是:到 2026–2032 这一段,芯片行业的结局不会是“没有工程师”,而会是“更少的 junior、更薄的 middle、更多由 AI-native senior 工程师带着 agents 完成的项目”。换句话说,真正会被淘汰的不是“工程师”这个职业本身,而是那些只提供可模板化、可验证、可复制劳动的人。如果社会没有把收益分给大多数人,文章里说的“永久底层”就会从修辞变成现实;如果分配机制跟上,AI 就会成为一种提高工程和社会产出的基础设施,而不是把多数人扫地出门的装置。最终决定权,不在模型参数里,而在制度、议价和分配里。开放问题与局限有三点需要坦白。第一,半导体细分岗位级的公开失业数据,到今天仍然远少于软件行业,所以我对“具体哪类芯片岗会先被裁掉多少”只能做结构性判断,不能给出高置信度的精确数字。第二,很多 EDA 厂商提供的 uplift 数字属于 vendor 或客户案例,方向非常可信,但幅度在不同公司、流程成熟度和项目类型之间会差很多。第三,你附的文章更适合当作“风险感受和问题意识”的放大镜,而不应被当作所有细节都已独立证实的事实总表。近期外部报道可作补充参照:- theguardian.com  //* ‘Wake up to the risks of AI, they are almost here,’ Anthropic boss warns- investopedia.com  //* Anthropic Study Reveals Which Jobs Are Most Exposed to Real-World AI Risks- businessinsider.com  //* Companies laying off staff this year include Meta, Amazon, and Oracle — see the list更多关于PCIe, NVMe, SATA, SSD, CXL等的测试工具和技术,请下载Saniffer公司2026.2.24最新更新的白皮书15.1版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-05-08 14:06:31
  • 【重磅】PCI-SIG正式批准!SerialTek 成为 PCIe 6.0 协议层 CTS 官方认证测试平台

    今天正在美国举行的2026年度PCI-SIG开发者论坛对于业内关注PCIe 6.0的朋友非常重要,看过我们写的针对PCIe 6.0测试工具白皮书的朋友知道,PCIe 6.0自从2022.1正式发布以来,经过5次小规模PCIe 6.x PRE-FYI workship + 今年4月份的一次re-test,今天总算正式认证了PCIe 6.0 协议层兼容性测试(CTS)供应商,SerialTek成为PCI SIG正式批准的Gold Suite approved for PCIe 6.0 Link and Transaction Layer Endpoint Testing。2026年5月6日至7日,圣克拉拉会议中心, 加利福尼亚州2026年PCI-SIG®开发者大会将于2026年5月6日至7日提前回归圣克拉拉!PCI-SIG社区的成员——包括系统架构师、设计师、工程师及工程经理——一致认为,这是一场您绝不容错过的盛会。PCI-SIG开发者大会是一项专为本组织900多家成员公司举办的免费活动;这些成员公司致力于开发并向市场推出采用PCI Express®技术的新产品。本次大会为您提供了一个绝佳的机会,让您可以直接向业界顶尖的PCIe®专家请教,并参与各类技术培训,从而掌握最佳实践,进而有效提升产品的上市效率与互操作性。PCIe 6.0 正式进入“官方 CTS 合规时代”:为什么这对所有服务器、AI、SSD、NIC、Switch、GPU 厂商都极其重要?最近,PCIe 6.0 测试领域迎来一个非常关键、甚至可以说具有“里程碑意义”的消息:SerialTek 正式获得 PCI-SIG 批准,成为 PCIe 6.0 Link Layer(链路层)和 Transaction Layer(事务层)Compliance Testing(CTS 协议兼容性测试)的官方授权测试平台。这意味着:SerialTek Kodiak™ PCIe 6.0 Protocol Test System 已正式进入 PCI-SIG 官方 PCIe 6.0 协议兼容性测试生态。对于当前整个 PCIe 6.0 产业链——包括:AI GPUSSDSmartNIC / DPUPCIe SwitchFPGACXL设备高速服务器平台主板与系统厂商这都是一个极其重要的信号。因为它意味着:PCIe 6.0 正式从“研发调试阶段”,进入“标准化合规验证阶段”。一、为什么 PCIe 6.0 CTS 如此重要?很多工程师知道 PCIe 6.0 很快:PAM4FLIT 模式FEC64 GT/s更复杂的 LTSSM更严苛的时序与误码要求但是很多人其实忽略了:PCIe 真正难的,从来不是“跑起来”,而是:跨厂商稳定互通。尤其到了 PCIe 6.0 后:Root ComplexEndpointSwitchRetimerCXL Device之间的组合已经极其复杂。过去 PCIe 4.0/5.0 时代,一些系统“偶尔掉链路”、“训练失败”、“Recover 卡死”、“Uncorrectable 暴涨”,很多时候还能靠经验、Firmware Patch、Retry、降速解决。但 PCIe 6.0 不一样。因为:PCIe 6.0 已经进入“误差预算极其有限”的时代。任何协议层、链路层细节实现差异,都可能导致:建链失败LTSSM异常Recovery反复震荡Replay异常FLIT错误FEC恢复失败DLLP/TLP处理异常长时间运行后掉链高负载下随机错误所以:CTS(Compliance Test Suite)已经不是“加分项”,而是“入场券”。二、PCI-SIG 官方批准意味着什么?这次最核心的内容是:SerialTek Kodiak 已获得 PCI-SIG 官方 Gold Suite Approval即:官方批准其用于 PCIe 6.0 协议层 CTS 测试。这不是普通“支持 PCIe 6.0”。而是:PCI-SIG 正式认可:该平台能够执行 PCIe 6.0 Compliance Test Specification(CTS)规定的官方协议兼容性测试。PCI-SIG 在新闻稿中特别提到:测试设备厂商需要提交正式 MOI(Method of Implementation),并经过严格验证。 必须证明其能够正确执行所有要求的 Compliance Test,并准确输出 pass/fail 结果。换句话说:这并不是“厂商自己说支持 CTS”。而是:PCI-SIG 官方审核通过。这对于整个产业链意味着:更统一的测试标准更可信的测试结果更稳定的跨厂商互通更高质量的 Integrators List(集成商列表)更高的客户采购信心三、为什么这对于 PCIe 6.0 市场是划时代事件?因为:PCIe 6.0 是历史上第一次如此复杂的 PCIe。它不仅仅是速率翻倍。而是:PCIe 5.0PCIe 6.0NRZPAM4无FEC引入FEC普通 TLPFLIT Mode较简单误码模型极复杂误码恢复较宽 Margin极窄 Margin这意味着:过去很多“看起来能工作”的设备:到了 PCIe 6.0 后, 可能已经“不是真正兼容”。因此:官方 CTS 的价值被空前放大。四、SerialTek Kodiak 为什么越来越被关注?近年来,PCIe 6.0 圈子里,SerialTek Kodiak 的曝光度越来越高。尤其在:PCI-SIG FYI WorkshopPre-FYIAI GPU互通测试SSD兼容性验证Retimer调试CXL bring-up高速服务器验证中,越来越频繁出现。原因其实很现实:PCIe 6.0 已经不是传统“协议分析仪”能轻松应对的时代。SerialTek 这次官方新闻稿里面,其实透露了几个非常关键的技术点:1)64 GT/s 下的 deterministic capture(确定性抓包)PCIe 6.0 最大的问题之一:流量太大。很多传统平台:抓不久Buffer不够丢包Trace处理慢分析效率低而 Kodiak 强调:deterministic capture高速处理深 Trace Buffer最长 8 TB 内部存储这对于:AI训练服务器GPU集群大规模NVMe长时间稳定性验证非常关键。因为很多 PCIe 6.0 问题:根本不是“瞬时问题”。而是:跑几个小时、几天后, 才随机触发。2)Protocol + Link Behavior 全栈可见性这次官方新闻稿特别强调:Full-stack visibility即:不仅能看 TLP/DLLP。还要:看链路行为。因为 PCIe 6.0 的很多问题:实际上是:RecoveryEqualizationFLITReplayFECLTSSM共同作用。传统“只看协议包”的时代已经过去。3)Quarch 集成功耗分析新闻稿里面一个非常容易被忽略、 但实际上极其重要的点:Quarch integrated power analysis这意味着:协议分析 + 功耗行为, 已经开始融合。这在:SSDCXLAI服务器GPU系统里非常关键。因为很多 PCIe 6.0 问题:其实是:Power Integrity + Protocol 联合问题。例如:掉链瞬时恢复Surprise DownLTSSM异常可能都和:电流尖峰电源波动热行为有关。五、PCIe 6.0 官方 CTS 时代已经到来过去几年, PCIe 6.0 更多还处于:实验室Bring-upPre-FYI原型验证阶段。但这次 SerialTek 获得 PCI-SIG 官方批准,实际上释放了一个非常重要的行业信号:PCIe 6.0 正在正式进入规模化合规验证阶段。这意味着:未来:CPUGPUSSDSmartNICSwitchRetimerAI服务器厂商,都必须更加重视:官方 CTS Compatibility Testing。六、为什么中国市场尤其需要关注?目前中国:AI服务器GPUSSDDPUCXL高速交换国产CPU都在快速推进。但 PCIe 6.0 的核心难点:已经越来越不是“做出来”。而是:能否稳定通过 PCI-SIG Compatibility Ecosystem。而 CTS 平台, 正是其中关键基础设施。七、SerialTek 在 PCIe 6.0 时代的重要性正在快速上升过去很多工程师提到协议分析仪, 首先想到的是:“抓包”“协议解码”但在 PCIe 6.0 时代:协议分析平台已经开始变成:系统级验证基础设施。尤其:CTSComplianceInteroperabilityLong-run stabilityAI服务器验证CXL验证正在成为未来几年最核心的需求。而此次:PCI-SIG 官方批准 SerialTek Kodiak 作为 PCIe 6.0 CTS 平台,对于整个行业, 是一个极其重要的里程碑。小结PCIe 6.0 的真正挑战, 已经不只是“速度”。而是:在 64 GT/s + PAM4 + FLIT + FEC 的复杂体系下,实现跨厂商长期稳定互通。这也是为什么:CTS(Compliance Test Suite) 在 PCIe 6.0 时代的重要性, 远远超过过去几代 PCIe。而 SerialTek 此次正式获得 PCI-SIG 官方批准,意味着:PCIe 6.0 官方协议兼容性测试生态,已经开始真正成熟。对于:AI服务器SSDGPUSmartNICCXL高速互连研发团队来说,这绝对是一个值得重点关注的重要行业事件。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2026.1.6最新更新的白皮书15.1版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-05-07 15:03:32
  • 【每日一题】如果你没有测过NAND,就不要说你懂SSD

    昨天读到一篇文章读《NAND闪存技术》:从 Vt、disturb 到 SSD 系统约束,我想在该文章的基础上,结合Saniffer公司在这方面的经验,对于文中谈到的中文版《NAND闪存技术》,英文版为《NAND Flash Memory Technologies (author: Aritome, Seiichi)》书中涉及到的大量的NAND FLASH的各种特性,来介绍一下业内是如何来测试这些特性并进行分析的,对于这本书感兴趣的也可以买来看看,对于业内从事涉及闪存NAND FLASH相关产品研发、测试、应用、支持的朋友拓展知识面有很多帮助,不过这本中文版是2025.2发售的,不知道它是翻译的英文版本的哪个年份的,亚马逊只有这本英文版的较早2015年的paperback 纸面书,我买的中文版《NAND闪存技术》还在运输途中,了解的朋友可以本文底部留言说一下。从《NAND闪存技术》讲起:为什么 NAND 需要被认真测试?这篇文章《读〈NAND闪存技术〉:从 Vt、disturb 到 SSD 系统约束》,里面有一句话非常值得 SSD、存储系统、硬件测试工程师反复咀嚼:很多 SSD 系统层的问题,本质上并不是从 FTL、ECC 或固件策略才开始的,而是早已埋在 NAND cell、阈值电压 Vt、隧穿氧化层、电子注入、读写扰动和 3D NAND 结构差异之中。Seiichi Aritome 所著的 NAND Flash Memory Technologies,中文版《NAND闪存技术》,正是一本从器件底层解释 NAND 行为的书。它并不是一本 SSD 控制器开发手册,而更像一本帮助工程师理解“为什么 SSD 会有这些限制”的底层地图。书中覆盖 NAND 发展历史、cell 结构、读写擦原理、多位单元、scaling 挑战、可靠性、3D NAND 以及未来趋势等内容;作者在前言中也特别说明,这本书不仅面向 NAND 器件开发人员,也适合 NAND 用户、SSD 工程师、应用工程师、技术经理、新工程师和研究生阅读。这也正是今天这篇文章想讨论的问题:当 NAND 已经进入 3D TLC / QLC 主流时代,尤其是 QLC 正在大量进入企业级 SSD、AI 存储、数据中心和消费级 M.2 SSD 市场时,我们如何用测试手段把 NAND 的“不可见特性”变成可测、可分析、可优化的数据?一、读懂 NAND,首先要读懂 VtNAND Flash 存储信息,本质上是通过 floating gate 或 charge trap 中的电荷改变 cell 的阈值电压 Vt。SLC 只需要区分 2 个状态,MLC 区分 4 个状态,TLC 区分 8 个状态,而 QLC 要区分 16 个状态。状态越多,单位容量越高,但每个状态之间的 read window margin 就越窄。这就是为什么 QLC 容量大、成本低,但对 SSD controller、LDPC、读重试、读阈自适应、磨损均衡、数据保持和温度补偿提出更高要求。表面上看,SSD 工程师面对的是 RBER 上升、读延迟变长、读重试次数增加、性能 QoS 波动、寿命缩短;再往下看,其实是 Vt 分布在 P/E cycling、retention、read disturb、program disturb、温度变化和层间差异下发生了漂移。换句话说,SSD 固件算法不是在管理一个理想的数字介质,而是在驯服一个持续漂移、老化、受温度影响的模拟物理系统。二、QLC 热潮背后:低成本每 TB 与高可靠性之间的拉扯过去十多年,NAND 从 SLC、MLC、TLC 走到 QLC,核心动力一直是降低 bit cost。3D NAND 又通过垂直堆叠继续提高容量密度。Aritome 书中也提到,3D NAND 的量产推动了基于 NAND 的高性能、低功耗 SSD 持续发展。但是,QLC 的工程难度也非常现实。已有资料中总结得很直白:QLC NAND 的使用不仅出现在数据中心、云计算中心和 AI 智算中心,也会因为价格、良率和市场供需等因素进入普通 M.2 SSD;但 QLC 的 endurance、RBER 和可靠性压力,要求 SSD controller 厂商必须做更深入的 NAND 特性分析,否则容量和成本优势很容易被读写错误、性能波动和寿命问题抵消。所以,QLC 时代真正关键的问题不是“能不能点亮 NAND”,而是:能不能知道不同 P/E 次数后 Vt 分布如何移动? 能不能知道高温保持后 RBER 如何变化? 能不能知道 read disturb 在哪些 page、WL、layer、plane 上更明显? 能不能知道 2.4 GT/s 实速下 DQS timing margin 还剩多少? 能不能知道 P/E/read 操作的电流尖峰会不会影响 SSD 供电设计? 能不能把这些数据转化成 LDPC、read retry、media management、功耗策略和筛选策略?这就是 NAND Characterization 的价值。三、NanoCycler:把 NAND 的“器件行为”变成可测数据NplusT 是一家位于意大利的公司,成立于 2002 年,创始人为 Tamás Kerekes。公司长期聚焦非易失性存储测试、NAND user mode characterization、可靠性测试和 burn-in,并具备硬件、FPGA、嵌入式软件、数据库、统计分析和用户体验等研发能力。NplusT 的 NanoCycler 被官方定义为 One Stop NAND Characterization 平台,目标是帮助高性能 SSD 和其他基于 NAND 的存储设备完成 NAND 探索、SSD 设计所需的核心数据提取,以及 NAND 器件在装配前的可靠性、功能和性能筛选。它的价值可以概括成三句话:第一,按真实应用速率测试 NAND。NanoCycler 支持最高 2.4 GT/s 的 at-speed characterization,让被测 NAND 在接近实际 SSD 应用的环境中运行。第二,把错误学、功耗、时序和温度放在同一个平台里看。它支持 aging/endurance、retention、working window、RBER monitor、distribution analysis、optimal read conditions、DQS timing margin analysis、power profiling、timing characterization 等功能。第三,用并行架构提高统计意义和测试效率。NanoCycler 每个 package 可以独立运行测试,在 test flow、温度、电压、频率等条件上互不影响;系统可从单 package 扩展到 84-site rack,多机还可级联并共享中央数据库。四、NanoCycler 能对应测试《NAND闪存技术》中的哪些核心问题?如果把《NAND闪存技术》当作一本 NAND 机理地图,那么 NanoCycler 就像是一套把这些机理“落到实验数据”的工具。书中强调多位单元需要 tight Vt distribution,因为 Vt 分布宽度直接决定 read window margin;NanoCycler 可做 distribution analysis、optimal read conditions、RBER monitor,用于分析不同状态分布、读阈选择和原始误码率变化。书中把 P/E cycling、data retention、read disturb、program disturb、erratic over-program 等可靠性问题作为核心章节;NanoCycler 对应支持 aging/endurance、retention、disturb 相关测试和 error recovery flow trigger rates,帮助 SSD 团队将这些器件层退化机制转化为可量化指标。书中讨论 3D NAND 带来的 RC delay、poly-Si channel、层间差异和功耗等新约束;NanoCycler 和 BarnieMAT 可以结合整页 bitmap、fail distribution per layer、topologic view of fails、Vt distribution、BER trend 等方式观察 3D NAND 在 layer、WL、page、block 维度上的差异。这就形成了一条非常清晰的链路:书中讲 Vt、disturb、retention、endurance、3D NAND 约束;NanoCycler 负责把这些现象测出来;BarnieMAT 负责把海量测试数据变成工程师看得懂、能决策的图。五、NanoCycler 适合哪些工程场景?对于 SSD controller 公司,NanoCycler 可用于 LDPC/ECC 算法优化、读阈策略、read retry 策略、media management 策略、坏块坏页筛选、QLC 适配和供应商 NAND 横向比较。对于 SSD drive 厂商,它可用于来料评估、批次差异分析、温度/电压容限、实速接口 margin、功耗尖峰分析、失效复现和量产筛选策略制定。对于高校和研究院所,它可以把 NAND 研究从“现象描述”推进到“可重复实验”:例如 RBER vs P/E cycle vs retention time vs temperature,层间差异、读扰模式、Vt shift、tail bit 位置追踪、3D NAND topology fail map 等。已有资料也明确指出,寿命期错误学、整页位图、0→1/1→0 错误方向分离,可以支撑 3D 层间与平面内差异、邻近耦合与读扰机制研究。对于失效分析工程师,NanoCycler 的价值不只是“测坏了没有”,而是帮助回答:为什么坏?坏在哪个层?哪个 WL?哪个 page?是 retention 造成的,还是 disturb 造成的?是 NAND cell 本身的问题,还是接口 timing margin、供电尖峰、温度条件诱发的问题?六、功耗与高速接口:NAND 测试不只是 RBER很多工程师谈 NAND 测试,第一反应是 BER、RBER、ECC、Vt distribution。但在现代 3D NAND 和高速 SSD 中,功耗和信号完整性同样关键。NanoCycler 官方资料显示,它可以在每路电源上以 50 ns 采样率、1 mA 分辨率捕获功耗波形,并可统计长时间操作过程中的平均电流和峰值电流;同时,它还支持 1 ns edge placement、20 ns response time detection,以及 ps 级 DQS alignment window 信息。这对于 SSD 硬件工程师很重要。因为 NAND 的 program、erase、read 操作会产生电流尖峰;多个 die、LUN、plane 并行操作时,尖峰可能叠加,进一步影响 PMIC、去耦、电源轨设计和整机稳定性。上传资料中也特别指出,理解 NAND timing 和 current profile 对于电源调节器设计、仿真、校准,以及避免电流尖峰对齐非常关键。所以,一套真正有价值的 NAND Characterization 平台,不应该只看错误率,也要同时看:RBER 怎么变; Vt 分布怎么移动; 读阈怎么选; 功耗尖峰在哪里; DQS window 还剩多少; 温度、电压、老化和并行操作会如何共同影响结果。七、BarnieMAT:从“测到数据”到“看懂数据”NAND 测试最大的难点之一,不是没有数据,而是数据太多。一个 NAND array 的数据天然带有空间结构:block、page、WL、BL、layer、plane、die、LUN。只看一串 CSV 或平均 BER,很多关键信息会被抹掉。NplusT 的 BarnieMAT 正是为这类 array-based component 数据分析设计的软件。官方介绍中提到,BarnieMAT 可将大量测试数据转化为人脑可以理解的信息,提供图形化框架、快速 array processing、适配多级单元和 3D 结构、Python 自动化分析、API、Python library、remote control port 和 SDK 等能力。它内置大量分析功能,包括 map-to-distribution、cell-by-cell differential map、fail count from multiple arrays、Vt average per wordline、block fail density、fail count per page、neighbor bit failure、distribution tail cell trace-back,以及 SQL-like table processing。展示能力则包括 array topologic view、2D/3D distribution、关键 cell 标记、实时分布统计和丰富图表。在 NanoCycler + BarnieMAT 的组合里,NanoCycler 更像“显微镜 + 实验平台”,BarnieMAT 则像“数据解剖台”。前者把 NAND 的真实行为测出来,后者把这些行为以 Vt distribution、BER trend、fail map、layer distribution、read retry option analysis、power profile 等方式呈现出来。八、推荐阅读:《NAND闪存技术》如果你是 SSD 固件、硬件、验证、测试、失效分析工程师,或者是高校、研究院所从事存储、半导体、计算机系统研究的老师和学生,强烈建议读一读 Seiichi Aritome 的 NAND Flash Memory Technologies,或者中文版《NAND闪存技术》。这本书最有价值的地方,不是教你某一个 SSD 算法,而是让你理解:为什么 NAND 必须按页写、按块擦;为什么 P/E cycling 会影响 retention 和 disturb;为什么 QLC 更依赖读阈优化和 ECC;为什么 3D NAND 不是简单叠层,而是引入了新的电气、工艺和可靠性约束。读完这本书,再看 NanoCycler 这类 NAND Characterization 设备,会更容易明白:这不是一台“普通 NAND 测试仪”,而是一套把 NAND 器件物理、可靠性、SSD 算法和系统设计连接起来的研发平台。结语:更好的 SSD,来自更早看见 NAND 的真相今天的 NAND,尤其是 3D QLC NAND,已经不是“能读能写”就够了。真正的问题是:在高温、低温、老化、保持、读扰、写扰、高速接口、电源尖峰、多 die 并行和真实 SSD 工作负载下,它还能不能稳定、可预测、可管理?这也是 NanoCycler 和 BarnieMAT 这类工具的价值所在:它们让 NAND 的 Vt、RBER、disturb、retention、endurance、timing margin、power profile 和 topology fail pattern 不再停留在论文、书本或经验判断中,而是变成可以测量、可以分析、可以指导产品决策的数据。如果您正在从事 NAND Flash、3D NAND、QLC NAND、SSD controller、SSD 固件、LDPC/ECC、SSD 验证测试、来料筛选或失效分析相关工作,欢迎访问 saniffer.cn,或关注 Saniffer 公众号,留言交流 NanoCycler、BarnieMAT 以及 NAND Flash 特性测试解决方案。我们也欢迎高校、研究院所和企业研发中心一起探讨 NAND 测试、QLC 可靠性分析和 SSD 研发验证中的真实工程问题。对于NAND FLASH以及各类新型存储技术的测试,NplusT公司提供了非常成熟的各类测试方案,如果大家下周去比利时参加IMW 2026 (international memory workshop)国际会议的话,不要忘记访问一下NplusT公司展位。更多关于PCIe, NVMe, SATA, SSD, CXL等的测试工具和技术,请下载Saniffer公司2026.2.24最新更新的白皮书15.1版本,其中针对NAND和各类新型存储技术NVM请参见chapter 7.1&7.2 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-05-06 10:55:53
  • 【经验分享】为什么你的SSD会掉盘?99%工程师忽略了这个问题

    我们Saniffer公众号前面几年经常提到业内碰到的SSD掉盘的问题,有些影响面和波及面非常广,各种各样的问题,这其中有些我们通过PCIe协议分析仪串在链路中间抓取双向流量进行分析得到原因,有些则通过一些工具主动“激发”出问题从而推测出问题的所在。我们今天在这里总结一下SSD掉盘到底有哪些原因,还有哪些原因是工程师不怎么想得到的。什么是“掉盘”?“掉盘”在工程上几乎从来都不是一个单点故障名词。它通常是控制器固件、PCIe/NVMe 协议状态机、低功耗链路状态、热插拔/复位时序、供电完整性、背板或 retimer、中间管理通道,以及 BIOS/OS 驱动策略共同作用后的外在现象。NVM Express 规范明确给出了 APST、Keep Alive、CSTS.CFS 等机制;Linux 内核与 微软 StorNVMe 文档又说明了主机侧是如何参与这些状态转移的。这意味着:很多“盘坏了”的现场,根因其实并不在 NAND(当然,如果真的是NAND Flash坏了,我们可以通过NplusT公司的NanoCycler做一些失效和特性分析),而在盘能不能被重新枚举、能不能按预期退出低功耗、能不能在异常电源与复位序列下完成链路训练。公开案例显示,掉盘高发的根因并不神秘,反而很集中:深度低功耗/APST 唤醒失败、电压处理/电源时序缺陷、背板/retimer/sideband 通讯异常、控制器/HBA 固件异常或异常恢复路径不健壮、平台 BIOS/驱动与 SSD 固件组合不匹配。从 戴尔 的 Micron 2200S “No Drive Detected/STOP Error”,到 联想 的 Kioxia BG5 永久不可见,再到 慧与 UBM6 背板“Removed/Inserted”抖动,以及 思科 对 NVMe/SATA SSD“improper voltage handling”的现场通报,模式都非常一致:先掉枚举,再谈介质。真正被 99% 团队忽略的,不是“有没有升级过 firmware”,而是有没有把协议、sideband、功耗、拓扑、管理面日志在同一时间轴上对齐。单看 SMART 不够,单跑 fio 不够,单盯协议抓包也不够。最短诊断路径通常是:协议抓包 + sideband 采样 + 电源扰动复现 + 主动工作负载四线并举。以 SerialTek、Quarch、SanBlaze、Serial Cables 这四类工具组合为例,已经足以把绝大多数掉盘问题压缩到某一层:协议、链路、供电、热插拔、还是平台软件。可以先记住五个结论。其一,低功耗最危险:APST、ASPM L1/L1.2、CLKREQ#、PERST#、WAKE# 的组合,是最容易被误判为“随机坏盘”的区域。其二,热插拔不是插上能认盘就算过:必须在 I/O 压力、管理面轮询、固件升级、异常掉电与 retimer/backplane 参与时验证。其三,控制器异常恢复路径必须当正式功能测试,而不是靠线上用户替你回归。其四,上线前测试一定要覆盖真实拓扑,包括 M.2、U.2/U.3、EDSFF、直连、经 switch、经 retimer、单口/双口。其五,生产监控必须先盯“枚举与链路健康”,再盯温度与 SMART。说明:本文提到的相关产品均来源于网络公开信息。掉盘真正发生在哪里把 SSD 掉盘拆开看,本质上是在问:它死在了哪一层。NVMe 规范说明,主机可以通过 APST 让控制器自动转入非工作电源状态;如果控制器在唤醒时不能按它自己宣称的延迟返回,主机就会把它视为超时、失联或需要 reset。规范还明确写到:Keep Alive Timer 过期会记录 Error Information Log,并把 CSTS.CFS 置位;而 CSTS.CFS 代表严重错误,主机应尝试 Controller Reset,如果再不清,再考虑更激进的 NVM Subsystem Reset。更麻烦的是,规范同时警告:Subsystem Reset 可能导致 PCIe 链路掉下去,一些 OS 或 hypervisor 甚至会因此崩。这也是为什么“低功耗掉盘”如此隐蔽。金士顿 A2000、Solidigm P44 Pro,以及中国市场常见的京东上可以买到的某款M.2 SSD,公开内核修复都直指最深电源状态退出失败:盘在最深 sleep state 之后变得 whole disk unresponsive,修复方法不是换 NAND,而是先禁止最深 power state或更新固件/内核 quirk。换言之,工程上首先要怀疑的是ENLAT/EXLAT 报告、APST 配置、L1/L1.2 sideband 协议、以及 PERST#/CLKREQ#/WAKE# 时序,而不是先宣判“闪存寿命完了”。主机侧同样是因子,而不是背景板。StorNVMe 文档明确说明,Windows 会根据 ENLAT+EXLAT 与当前容忍延迟来挑最深可接受 power state;微软给现代待机场景的建议甚至明确到:StorNVMe 不支持 APST enabled 的设备用于 Modern Standby。Linux 则把 ASPM 的 L0s/L1/L1.1/L1.2 暴露成 sysfs 开关,并提供 per-device reset/remove/rescan 接口用于排障。这说明:同一块 SSD 在 A 平台不掉、在 B 平台掉,并不奇怪;主机 BIOS、ACPI、电源策略、驱动与内核 quirk 会直接改变你看到的现场。更容易被忽略的是“盘外掉盘”。联想公开的控制器/适配器变更记录里,直接写过“NVMe drive missing after few Lane/Phy glitches between PCIe switch downstream port and Endpoint”“drive missing status even when drive is present”“FW exception during reboot of a server with PCIe gen5”“heavy IO + NVMe passthru from OOB after 5–8 hrs hit KA”这类问题。也就是说,盘从 OS 视角消失,根因可以在switch、retimer、HBA/RAID FW、OOB 管理、MCTP/NVMe-MI 通道,甚至恢复路径本身。把掉盘只当 SSD 介质问题,是许多团队的第一层误判。下面这张图,是本文建议的分层思维框架。它不是规范原图,而是对公开案例和工具链能力的工程抽象。全球真实案例库公开证据主要来自 镁光、英睿达、铠侠、三星 等 SSD/存储厂商,和 戴尔、联想、惠普、思科 等平台/OEM 的官方支持公告;下表还补充了开源内核公开修复记录。需要坦诚说明的是:绝大多数公开案例不会披露厂内实验室到底用了哪台仪器。因此,表中的“诊断工具”分成两层:公开诊断线索与建议复盘工具。后者是基于故障机理给出的最佳最短路径,不代表厂商公开确认使用过这些品牌设备。除了表中的“显性掉盘”,还要特别留意那些还没真正消失、但已经在边缘的征兆。较新的公开发布件里,Solidigm P44 Pro 被 Linux 内核加入 “NODEEPESTPS” quirk;联想控制器变更记录则记载了“lane/phy glitch 后 drive missing”“MCTP request failed with drive missing status even when drive is present”“PCIe gen5 reboot 时 FW Exception”“bad Phy/链路降速”等问题;戴尔某些企业 NVMe 固件发布说明则把“thermal shutdown behavior”“PERST handling”“invalid command handling”“OOB command during shutdown”列为修复项。这些都说明:掉盘不是突发事件,而是很多边缘征兆长期未被监控后的最终形态。工具化诊断流程工作流一:怀疑 APST、ASPM L1/L1.2、resume/idle-wake 导致的间歇性掉盘。第一步,不要一上来“更新到最新再看”,而是先冻结现场:记录 BIOS、SSD FW、OS、驱动/内核、ACPI/电源计划、是否启用 Modern Standby、当前 ASPM/L1.1/L1.2 配置。第二步,用 SerialTek 在“进入空闲—触发唤醒—重新训练—掉盘/恢复”的窗口抓LTSSM、DLLP/TLP、Config Space 历史变化;Quarch 同步抓电源轨迹与 sideband,重点盯 CLKREQ#、 PERST#、 WAKE#、SMBus/NVMe-MI 活动。第三步,分别做 A/B 试验:关闭最深 APST、限制 power-state latency、关闭可疑 L1.x、再与原始配置对照。如果关掉最深 PS 后现象消失,你就基本锁定了“盘或平台在低功耗退出路径上不成立”,而不是“盘体随机坏”。工作流二:怀疑热插拔、背板、retimer、switch 或 sideband 交互。第一步,把问题从“某台机器偶发掉盘”重构成“某个拓扑下可复现的枚举失效”:直连、经 retimer、经 switch、不同槽位、不同线缆/背板、不同双口/单口配置都要分开。第二步,用 Serial Cables 的测试底座把每槽上电顺序、presence、热插拔、slot telemetry、NVMe-MI/MCTP纳入自动化矩阵;Hydra 一类平台本身就支持 per-slot power sequencing、hot-plug simulation、温度与功耗遥测、NVMe-MI/MCTP 访问。第三步,用 Quarch 做brownout、glitch、ramp、fault injection、pin timing 复现;如果问题只在“高 I/O + 热插拔”“高 I/O + OOB 轮询”“重启 + firmware flash”“功率波动 + presence bounce”这几种组合下出现,那么根因多半已不在纯协议层,而在协议层与平台电源/sideband/拓扑的交界面。工作流三:怀疑控制器固件 assert、exception handling 或 OOB/Keep Alive 路径。第一步,用 SanBlaze 主动加载工作负载,而不是只等用户业务复现。它的 PCIe Gen5 RM5/DT5 平台本身就具备read/write/compare、error injection、custom opcode、NVMe-MI over SMBus、power on/off、hot-plug 与 drive presence under software control、per-drive voltage/power measurement能力,适合把“边干活边出错”的路径系统化复现。第二步,把前台 I/O 与后台管理动作用矩阵化方式并发:命名空间操作、Firmware Download、sanitize、NVMe-MI 轮询、日志抓取、OOB passthrough。第三步,SerialTek 负责看哪一拍开始偏离规范,Quarch 负责看那一拍前后有没有 rail、reset、sideband 异常,SanBlaze 负责保证故障并不是随机流量造成的偶然现象。第四步,一旦怀疑进入 CSTS.CFS 或 Keep Alive 失效,恢复梯度要保守:先 Controller Reset,再评估是否值得做更激进的 NVM Subsystem Reset;不要把 NSSR 当成通用治疗手段,因为规范已经明确说过它可能让 PCIe links go down,并对某些 OS/hypervisor 造成不良影响。最有价值的采集物不是更多日志,而是更好的时间轴。建议所有实验都固定输出同一套证据包: SSD FW、 BIOS/driver/kernel、 IdentifyControllerpower-state table、 AER/PCIeerror、 NVMeerror log、 OOB logs、 SerialTek PCIe trace、 Quarchpower+sideband、 SanBlazeworkload script、 SerialCablesslot topology。如果一轮实验结束后,你还不能回答“先掉的是链路、还是电源、还是侧带、还是主机先 reset 了盘”,那就说明这轮实验设计得还不够好。预部署测试计划现实中最贵的掉盘,不是实验室重现不了的那个,而是根本没被纳入预部署验证矩阵的那个。公开资料已经足够说明这件事:SanBlaze 的 NVMe 平台面向 development、QA、qualification、manufacturing test;支持 NVMe-MI、conformance、error injection、power control、per-drive measurement;Quarch 提供 margining、power loss、brownout、glitch、sideband capture;Serial Cables 提供多槽位、热插拔、每槽供电与 NVMe-MI/MCTP;SerialTek 则负责把 LTSSM/TLP/DLLP/config 变化一次抓全。把这四者组合起来,已经能覆盖大多数“上线前就该发现”的问题类型。要特别强调三条实施原则。第一,用真实拓扑做测试,不要只在开发板或直连 AIC 上测完就宣布通过。第二,把管理面流量当成工作负载的一部分,因为 MCTP/NVMe-MI/OOB 与前台 I/O 并发时,恰恰最容易把边界状态打出来。第三,把固件升级路径当成一级功能测试;公开案例已经反复证明,很多掉盘并不是业务负载首发,而是升级、重启、resume 或 power-cycle 首发。如果团队需要一个最小可执行配置,我建议是:一台 Serial Cables 多槽测试底座(例如Gen5 switch卡) + 一套 Quarch PAM/PPM/热插拔模块 + 一台 SanBlaze RM5/DT5 + 一台 SerialTek 协议分析仪。这样你能同时做真实主机下的枚举、工作负载、power margining、热插拔、NVMe-MI/MCTP、以及协议/sideband/功耗三线对齐。对于企业盘,若涉及双口、U.2/U.3、EDSFF、OOB 管理与 OCP 规范,则应继续把 UNH-IOL 和 Open Compute Project 的测试思路纳入脚本与验收口径。修复、监控与行动建议修复掉盘,最忌讳“统一关掉所有低功耗、省事就行”。这只能暂时把问题藏起来,却不能告诉你是谁在低功耗退出时失配。更正确的做法是分层修。协议/固件层,修 ENLAT/EXLAT 报告、修 APST/Keep Alive/reset state machine、修 invalid command/OOB/shutdown 处理、修 thermal shutdown 行为;公开发布件已经反复把这些列为正式修复项。平台软件层,把 BIOS、驱动/IRTS/StorNVMe 或内核 quirk 与 SSD FW 做成套验证,不要相信“只刷盘固件就够”。热插拔与背板层,校正 presence debounce、retimer FW、OOB 管理路径以及 reset sequencing。供电层,对 brownout、rail droop、ramp 与 power-chirp 做边界收敛,而不是仅测 steady-state 功耗。对机械与装配问题,我建议比大多数团队更保守。若故障与特定槽位、温区、弯折、插拔次数、运输/振动、按压动作强相关,就要把 U.2/M.2/EDSFF 连接器接触与焊点当成一等嫌疑。电子封装与焊点可靠性研究早已确认,热循环和机械应力会显著影响焊点微结构与疲劳寿命;而平台发行说明里也不断出现 lane/phy glitches、bad phy、drive present 但被上层判断 missing、链路降速后异常等征兆。工程上应把 AOI、X-ray、温循前后复测、槽位轮转与链路余量问题并行推进,而不是等软件团队“继续跟一版 firmware 试试”。推荐修复动作可以压缩成一个简表:生产监控上,不要只看 SMART。最有效的告警体系,应该先覆盖“有没有开始丢枚举”。Cisco 与 HPE 的公开案例都表明,带外管理面往往比 OS 更早看到 inoperable、 removed、 inserted、 missing;Linux 文档则说明了链路电源状态、ASPM 开关、reset/rescan 等都可被纳入平台可观测面。建议把下面这些对象放进生产告警与值班剧本里。最后,建议把“协议、sideband、功耗、拓扑”这四条证据链,变成平时SSD掉盘的标准排障模板。 只靠替换硬件,你会在同一类故障上反复交学费;只靠改一版 firmware,你会在线上把另一个边界条件放出来。真正能把掉盘率打下来的团队,靠的不是运气,而是复现实验设计。对经常看我们公众号的朋友来说,Saniffer 已公开过一批很有价值的中文资料:包括 Quarch 的 NVMe 热插拔/电压拉偏/功耗测试讲座、PCIe Gen4/5/6 协议分析讲座,以及 SanBlaze NVMe 测试平台介绍,想把本文变成日常SSD失效分析/掉盘培训的一个素材,请关注微信公众号 Saniffer。更多关于PCIe, NVMe, SATA, SSD, CXL等的测试工具和技术,请下载Saniffer公司2026.2.24最新更新的白皮书15.1版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.1-low resolution.pdf(低分辨率版本,file size: 63MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 204MB)链接: https://pan.baidu.com/s/1R-tJEqwBlzBaDR0WLuMU0Q?pwd=9av3 提取码: 9av3如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-04-28 11:16:50
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 39
    • 电话:(021)5080-7071; 131-2785-6862

      在这里输入描述
    • www.saniffer.cn

      在这里输入描述
    • 邮箱:sales@saniffer.com

      在这里输入描述
    • 地址:上海市浦东新区张江路505号1号楼1605-1单元

      在这里输入描述

    关注微信公众号

    上海森弗信息技术有限公司 备案号:沪ICP备2024076352号-1

    版权所有 © 上海森弗信息技术有限公司 技术支持:竹子建站