全球首个在ReRAM芯片上实现的“少样本学习”实验!(二)
2025-08-05 10:22:05

昨天发了一篇文章《全球首个在ReRAM芯片上实现的“少样本学习”实验!揭秘TestMesh®在其中扮演的关键角色》,由于论文采用英文写成,中间涉及很多专业术语,有些搞NAND Flash的朋友可能阅读理解比较费劲,以下是我们对该论文《On-Chip Customized Learning on Resistive Memory Technology for Secure Edge AI》的详尽解读报告,并结合NplusT公司提供的TestMesh®工具功能,分析其在本文研究中的关键作用。


一、论文核心内容梳理

1. 研究背景与意义

  • 在边缘计算设备中进行本地个性化学习对安全、隐私与低延迟非常关键;

  • ReRAM(Resistive Random Access Memory)由于其可模拟多位权重值和原生计算能力,适合作为存内计算平台,但面临耐久性与精度限制

  • 为减少ReRAM编程次数并提高学习效率,本文引入了MAML(Model-Agnostic Meta Learning)算法

2. 技术路径

  • 阶段一:离线预训练 Learn-to-learn(MAML)

    • 在多任务数据集上训练出初始模型参数θ;

    • 考虑硬件非理想性(例如ReRAM的非线性和噪声)融入训练过程。

  • 阶段二:在ReRAM芯片上进行少样本快速微调(on-chip training)

    • 使用16kbit TiN/HfOx/Ti/TiN ReRAM芯片,仅更新2个FC层权重(通过2颗ReRAM cell conductance 差值表示一个权重);

    • 每个task只进行5次编程,即5次梯度更新,就能获得>97%分类精度。

3. 多状态ReRAM编程策略实验

为了实现可控的模拟权重分布,论文评估了三种ReRAM多位写入策略:

  • Single-Shot Set:一次性写入目标conductance,效率高但精度差;

  • Iterative Set:逐级设定conductance,起始于最低状态,准确性好;

  • Iterative Reset:先写入高电导状态再减弱电导,适用于低状态设定;

  • Hybrid策略:融合上述两者,低状态用Reset,高状态用Set,获得了更好的 retention 和 conductance 控制。

4. 实验结果与性能表现

  • 在Omniglot字符识别任务中,实现5次更新后准确率97.28%

  • 使用Hybrid策略的权重更新在150°C高温老化12小时后仍保持>90%精度;

  • 每个ReRAM权重更新能耗仅为几个皮焦(pJ),远低于传统SRAM方案。


二、TestMesh® 在本论文实验中的作用与价值分析

1. TestMesh® 简介

TestMesh 是NplusT公司推出的专为非易失性存储器(如ReRAM、PCM、MRAM、FeRAM)*而设计的*高精度测试平台,具有以下关键特性:

  • 多状态模拟存储器阵列的编程控制、读写精度测量与统计建模

  • 支持 conductance-based profiling、精细逐级set/reset、数据保持(retention)与漂移(drift)分析;

  • 集成自动化脚本控制,实现多任务迭代训练、batch testing、烧录-读取闭环测试等AI硬件研究所需功能

  • 可联机或离线与模型训练框架(如TensorFlow/PyTorch)交互,实现 hardware-in-the-loop

2. TestMesh® 在本论文研究中的具体帮助

(1)Conductance 分布测量与建模支持

  • 论文中 Fig.4状态重叠等数据,正是通过类似 TestMesh 这样的设备进行的;

  • TestMesh 提供的“multi-level state precision sweep”和“overlap map”功能,使得研究团队可以精确评估不同写入策略在 ReRAM 中的可行性与误差分布。

(2)编程策略优化与自动化梯度更新流程

  • 文中提出的 Hybrid 编程策略(结合Iterative Set 与 Reset)需对不同编程路径的结果进行逐点跟踪与误差分析

  • TestMesh 提供了“sequential program-and-read”流程,并支持以脚本方式配置不同策略、自动执行并收集统计数据;

  • 此类平台对于调试迭代写入行为、寻找最优编程电压和脉冲持续时间至关重要。

(3)高温老化和Retention Drift 模拟测试

  • 文中 Fig.8 和 Fig.11 所描述的150°C保留测试和精度下降曲线,均依赖具备稳定控温与实时读出能力的测试平台;

  • TestMesh 拥有专门的“Bake & Drift”子模块,支持在高温下对模拟状态进行时序跟踪并评估 retention reliability。

(4)与学习算法联动进行硬件在环验证(Hardware-in-the-Loop)

  • 图9与图10中的on-chip learning with external computer-in-the-loop实验流程,其实是典型的TestMesh使用场景;

  • TestMesh 提供标准接口,可在MATLAB、Python、C环境中通过API控制硬件并进行梯度更新与状态反馈,完美契合论文中的 MAML 联动训练过程。


三、总结:TestMesh 对论文研究的价值

功能模块 论文中体现 TestMesh 作用
Conductance 分布测量 Fig.4~6, 多状态模拟精度分析 精细状态写入+读取测量统计分析
编程策略优化 提出Hybrid策略,实验对比 脚本配置多策略并自动执行
Retention 老化分析 Fig.8、11 中高温下drift 高温控+定期状态跟踪功能
Hardware-in-the-loop 学习 实验部分与图9、10 与训练代码交互更新conductance
少样本训练能耗评估 <10μJ/任务 提供set/reset粒度功耗数据支持
结论上,TestMesh不仅提供了ReRAM物理层调控的能力,更为本文的跨层硬件-算法协同提供了全流程实验支持。可以说,没有TestMesh这样的专业平台,本文的硬件级few-shot学习验证难以如此系统、深入和量化。

想了解更多TestMesh工具详情? 欢迎转发本文,让更多AI工程师了解ReRAM与AI训练结合的未来前景! 如需原论文PDF、高清图、白皮书请留言或私信获取,或者直接下载我们2025/4/23最新更新的白皮书12.2版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.2》。法国Leti和Weebit Nano等机构使用的TestMesh请参见chapter 7.2章节需要《On-Chip Customized Learning on Resistive Memory Technology for Secure Edge AI》论文原文的请直接参考本文底部联系方式。

下载链接:

链接: https://pan.baidu.com/s/1yHkvnrrWhAiZNxt9CQ4cfA?pwd=n66k 提取码: n66k

如果你有其他任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。

图片