用“可测的真相”做更好的 SSD:从 QLC 热潮到 NanoCycler 的一站式 NAND 特性分析
2025-08-22 10:04:13

我们最近这周的两篇文章《 对NAND闪存特性开发、验证和测试感兴趣的看过来!和《FMS 2025闪存峰会参会情况和技术趋势会后分析》讲述了今年FMS 2025上面QLC NAND的热度。其实,QLC NAND的使用不仅体现在传统数据中心,例如云计算中心、AI智算中心对于大容量SSD的需求上,因为价格、良率(包括使用ink die)、性能等导致某些QLC NAND也流入普通的M.2 SSD市场,由于QLC NAND的擦除次数的限制等endurance等各方面的原因,特别是对于开发SSD controller的公司普遍需要对于QLC NAND进行特性分析,需要极大努力提高LDPC等ECC纠错算法,否则尽管QLC NAND容量很大,单位成本很低,但是如果SSD产品读写经常出错无法使用,也是没有大批量部署使用的。

我们今天的文章就来分析一下业内SSD controller用来分析、测试QLC NAND的必要性以及如何来测试。

读者对象:SSD 固件/硬件工程师、验证工程师、失效分析工程师、研究人员 关键词:QLC、RBER、读阈分布、功耗波形、2.4 GT/s、ONFI 5、DQS 窗口、温控与电压扫、产线筛选


1) NAND 技术脉络:从 SLC/MLC/TLC 到 2025 年 FMS 上“热度猛增”的 QLC

过去十余年,NAND 单元比特数从 SLC→MLC→TLC 持续提升,伴随的是阈值电压窗口被等分为更多等级、RBER 自然上扬、对读阈自适应与 ECC/LDPC 的依赖加深。2025 年,QLC 在 FMS(Flash Memory Summit)上成为显学:厂商把超高容量产品与平台推到台前,例如 SanDisk 公布基于 UltraQLC 平台的 128/256 TB 企业级 NVMe SSD(计划 2026 年上半年出货),进一步点燃超高密度、低成本每 TB 的想象空间。议程侧同样能看到以 “QLC 单元特性、失效分析与优化” 为题的报告,反映了行业对 如何驾驭 QLC 物理与统计特性的工程方法论 的强关注。

这股趋势给 SSD 厂商带来两项硬挑战:

  • 阵列可控性:阈值分布更拥挤、温度/老化/扰动下的漂移更显著,需要数据驱动的读阈策略与纠错策略;

  • 系统可实现性:接口速率迈入 GHz 量级(到 2.4 GT/s),功耗尖峰、供电与信号完整性问题更尖锐,必须在研发阶段就按实速验证并量化边界。


2) 为什么研发阶段必须做 NAND “Characterization”(特性分析)

目标不是“测个能用就行”,而是把“可变的物理世界”抽象成你固件可控的参数集,并在真实接口速率与环境下验证这些参数如何影响最终 QoS、可靠性与功耗。以 NplusT 的 NanoCycler 为例,它把研发所需的三大类关键信息在同一平台闭环产出:

  • 阵列与错误学特性:在线 RBER 监测、阈值分布扫描与最优读电平搜索、位翻转方向分离(0→1 / 1→0),并支持整页位图上传,便于后期做版图/层间差异与空间相关性分析(“尾部页/尾部位”识别)。这些能力直接映射到读阈自适应、读重试、LDPC 参数整定等固件算法。

  • 功耗与电源完整性:对 Vcc/Vccq/Vpp 各路电源以 50 ns 采样、1 mA 分辨率采集波形,既存储动态曲线,也统计长时段的平均/峰值,帮助你识别编程/擦除/读出的电流峰、找出导致掉电/复位/链路不稳的“罪魁”操作序列。

  • 接口时序与信号完整性:按 最高 2.4 GT/s 的“实速” 表征,提供 1 ns 级边沿摆放、ps 级 DQS 对齐窗与 20 ns 响应检测分辨率,直接量化时序边际 vs I/O BER 的关系,避免把问题留到板级/系统集成阶段才暴露。

此外,NanoCycler 在温度与电压维度也给足自由度:逐包可独立控温(室温至 125 °C,精度约 1 °C),并可编程地扫 Vccq/Vcc/Vpp,对“高温初期保持”“低温冷启动”“欠压”与“过压”容限进行系统化拉网。



3) “落到指标上”:用 NanoCycler 可测可调的项目清单(工程视角)

  • 速度档:覆盖 800 MT/s、1.6 GT/s 直至 2.4 GT/s 的接口速率区间,用于验证不同速率下的错误学、功耗与时序边际变化;支持 NV-SDR/NV-DDR/NV-DDR2/NV-DDR3 以及 LP-NVDDR4(按产品版本)。

  • 阵列/错误学:在线 RBER阈值分布最优读电平搜索、坏块/坏页标注、方向性错误分离、整页位图采集。

  • 功耗50 ns 采样、1 mA 分辨率的电流波形存储与峰值/平均统计,支撑电源设计与热设计闭环。

  • 时序/链路1 ns 级边沿放置、ps 级 DQS 窗、2.4 GT/s 条件下的 I/O BER vs Timing Margin 评估。

  • 协议/脚本ONFI 5 命令集与供应商自定义命令,Python(可选 C++)API 组合复合操作序列,快速搭建你自己的“实验”。

  • 资源形态:从单座开发站到 6-socket 桌面、再到 最多 84-socket 机架,可多机串联、共享中央数据库,每个 socket 独立温度/流程/频率/电压,支持异步起停与“多实验并行”。

  • 封装与接触:BGA132/152/154 等主流封装位支持,适配现代 ONFI/LP-NVDDR4 器件。


上述条目均出自 NanoCycler 官方资料与规格书要点整理(含“按速 2.4 GT/s 特性化”“50 ns/1 mA 功耗捕获”“ONFI5 + 自定义命令”“84-socket 可扩展与中央数据库”等)。具体也可以下载本文底部的saniffer发布的测试白皮书chapter 7.1


4) 研发验证与失效分析中的可复用“案例框架”

案例 A:QLC 阈值漂移与读阈自适应 用内置 Aging / Retention / Disturbs 功能让介质按真实使用路况受“老化—保持—干扰”,周期性扫描多级读电平,生成每页/每 WL 的期望错误数与最优读阈,把策略直接喂给固件的读重试/自适应模块。官方 Demo 就是围绕阈值分布迁移展开的。同时结合规格中“分布与最优读电平”与“在线 RBER”的测量通道,可把策略→结果闭环打通。

案例 B:功耗尖峰导致 Brown-out/复位 在 P/E、读、擦流程中,NanoCycler 按 50 ns 采样抓取 Vcc/Vccq/Vpp 的波形并自动统计峰值与平均值;将“峰值-时间位置-操作阶段”对齐到命令序列,定位导致电源下沉、主控掉速或链路训练失败的关键步骤,从而指导 PMIC/去耦/电源轨时序 设计与写入算法调参。

案例 C:2.4 GT/s 下的 DQS 窗与 I/O BER 在 实速 2.4 GT/s 进行 DQS/边沿 探头和 I/O BER vs Timing Margin 曲线拟合,明确“稳定读写”区域。把环境温度、电压各自做 ± 扫,快速构建“Speed × Temp × Volt”立体边际模型,避免把错误根因误判为“媒管算法”,而实际是 PHY/时序窗过窄

案例 D:供应商专用指令序列引发的读扰 通过 ONFI5 + Vendor-Specific 命令与自定义时序,复现控制器在“搬移/后台整理/垃圾回收”组合序列下的读扰场景;用方向性错误分离 + 位图揭示空间相关性与易感页分布,为“跨 Plane/LUN 的数据布局”与“后台节奏”提供实证依据。


5) 对科研(高校/研究所)的价值:把“现象学”变成可验证的模型

  • 寿命期错误学:系统化采集 RBER vs P/E 循环数 vs 保持时间 vs 温度,将“早期保持(early retention)”与“长时保持”分离建模,为 LDPC 码率与读阈策略提供可回归的输入数据。可依赖平台的温控/电压扫/按速接口数据分析环境快速出图。

  • 层间/位点差异:整页位图与 0→1/1→0 分离,支撑“3D 层间与平面内”差异、邻近耦合与读扰机制验证。

  • 极端环境研究:NanoCycler 提供扩展温度与功耗/时序联动分析的资料与方案,用于任务关键型存储研究(如车规、工业控制)。


6) 走向量产:如何扩展/定制 NanoCycler 满足“产线筛选”

产线筛选关注点(可据此配置门限/脚本):

  1. 来料一致性:RBER 初值分布、坏块/坏页、页级尾部;

  2. 读阈与重试能力:默认/优化读电平下的页错误率,重试阶数与触发率;

  3. 接口可训练性:不同速率(800 MT/s/1.6 GT/s/2.4 GT/s)下 DQS 窗/边际;

  4. 功耗画像:关键操作的峰值电流、平均功耗与持续时间分布(用于电源设计余量核查);

  5. 温度与电压容限:按批次做 Temp×Volt 小矩阵抽检,剔除边界不稳样品;

  6. 供应商差异化:同一流程脚本在跨厂商 NAND 上的统计差异,形成 binning 策略。

NanoCycler 的量产化抓手:

  • 架构扩展:1→6→24/48→84-socket 的可伸缩系统,每 socket 独立流程/温度/频率/电压,并行跑不同“实验/筛选程式”;多机共享中央数据库,支持批量溯源与 SPC/趋势图。

  • 流程与脚本:GUI 流程 + Python API(可选 C++),调用 ONFI5 与 Vendor-Specific 指令,复合操作一键复用;结合数据分析环境,把“判退/降档”规则固化为自动化报表。

  • 按速特性化:在实际目标速率(最高 2.4 GT/s)与应用相似的工作方式下进行筛选,避免“慢速测试、上线翻车”的错配。

  • 工程规格映射:将 PDF 规格中的电源可编程范围(Vccq/Vcc/Vpp)、温控范围与精度、数据收集与时序分析等,转化为产线 SOP 的“可测项与合格线”。


7) 推荐的一套“可落地流程”(可直接抄用)

  1. 搭台:选定目标速率与温度/电压窗口,在 NanoCycler 建立项目骨架(器件定义、封装治具、测试工况、数据库 Schema)。

  2. 建模:用小样本在研发阶段跑 Aging-Retention-Disturb 基线,产出 RBER/读阈/功耗/时序四维画像,形成初版门限。

  3. 扩面:迁移到 24–84 socket 并行,做批次/厂商/层号维度的统计对比;把不合格规则落入 Python/GUI 流程自动判定。

  4. 闭环:将“最优读阈/读重试阶数/功耗峰值位置/时序窗”配置导出,回灌到主控固件与系统电源设计;同步把产线统计回写研发数据库,持续迭代。


关于QLC NAND特性分析和测试的总结

QLC 的价值 = 容量密度 × 成本优势,但要把它变成稳定、可预期的产品体验,关键在于用按速、按环境、按序列的系统化特性分析把“物理不确定性”消解在研发阶段。NanoCycler 把阵列错误学、功耗与时序完整性三条链路统一在一台设备与一套数据工作流里,既能给固件算法提供“会变的真值表”,也能把产线筛选变成“跑得快、判得准”的工程化流程。


参考与延伸阅读(选)

  • NplusT 官方 NanoCycler 产品页与资源(按速 2.4 GT/s、ONFI5、功耗/时序/温控、84-socket、中央数据库等)。

  • NanoCycler Demo:阈值分布随老化/保持/干扰迁移与最优读电平搜索。

  • NanoCycler 规格要点(速度档、协议、数据收集、温控、电压与时序能力等)。

  • FMS 2025:QLC 相关动态与大容量产品动向。

FMS 2025 相关动态

Tom's Hardware, Sandisk unveils colossal new 256TB SSD with new UltraQLC flash memory - enterprise-grade SSDs for high density storage also come in 128TB

14天前

Tom's Hardware, Silicon Motion reportedly prepping SM8466 SSD controller witha PCIe 6.0 x4 - leak claims it will be unveiled at FMS 2025, sporting speeds of up to 28GB/s

更多关于PCIe Gen6的测试工具和技术,请下载我们Saniffer公司2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。本文介绍的NplusT公司的NanoCycler请参考chapter 7.1。
白皮书下载链接 (或者点击下面的二维码直接下载):

https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y

图片

如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。

图片