logo
  • 首页
  • 产品中心
  • 解决方案
  • 技术专栏
  • 关于我们
  • 首页
  • 产品中心
  • 解决方案
  • 技术专栏
  • 关于我们
  • 【招聘】Saniffer在成都、深圳、北京招聘技术销售类岗位(home office)

    Saniffer计划2026/1月份在成都、深圳、北京招聘home office办公的“技术销售”职位,有感兴趣的或者有推荐的朋友可以按照本文底部的联系方式联系我们,具体岗位有高级岗位和初级岗位两个。一、技术销售经理岗位职责负责公司高端测试与诊断类产品(PCIe、NVMe、SAS/SATA、USB、SerDes、CXL、网络与电源测试等)在目标行业的销售与市场拓展。独立开发、维护和深化重点客户关系,包括:芯片设计公司(CPU/GPU/ASIC)存储与SSD厂商服务器与AI算力平台厂商高端系统集成商与测试实验室理解客户在研发、验证、量产测试阶段的真实痛点,推动解决方案型销售而不是简单卖货。推动Demo、PoC、商务谈判、合同签署和回款全过程。收集市场与竞争情报,协助公司优化产品定位与行业策略。在重点项目中,与FAE、原厂及公司技术团队协同作战。任职要求年龄不限,男女不限,形象气质专业可靠。5年以上B2B技术型销售经验,有高端芯片、半导体、服务器、存储、通信或测试仪器行业背景。必须具备真实客户资源,优先来自以下领域:高性能芯片(CPU/GPU/AI ASIC)SSD / 存储控制器 / NAND服务器、AI训练平台PCIe / SerDes / 高速互连相关生态熟悉至少一种高速接口或系统架构:PCIe、NVMe、SAS、SATA、USB、Ethernet、CXL 等。英语可用于商务和技术沟通,能够与海外原厂、FAE协同工作。具备独立开拓市场、锁定关键人、推进复杂项目的能力。有较强的抗压能力和结果导向,习惯用“项目额和回款”说话。能适应频繁客户拜访、出差和现场支持。二、技术销售工程师岗位职责在公司系统培训与导师指导下,学习并理解公司代理及自研的高端测试设备与解决方案(涉及 PCIe、NVMe、SAS/SATA、USB、CXL、SerDes 等高速接口)。协助资深销售或技术专家完成客户需求调研、技术方案整理、产品选型与报价支持。跟进客户测试、Demo、PoC 过程,参与技术交流与现场支持。参与行业会议、展会、线上技术活动,获取潜在客户线索并建立初步联系。维护客户资料,整理项目进展、销售预测及市场反馈。随着能力提升,逐步独立负责部分客户与项目,向“解决方案型销售”发展。任职要求应届生,或工作5年以内男女不限,形象气质良好,沟通表达自然自信。985/211 高校本科及以上学历,计算机硬件、电子工程、集成电路、通信工程、网络工程等相关专业优先。对半导体、高性能计算、服务器、存储、网络设备等领域有浓厚兴趣。英语读写熟练,能够阅读英文技术资料,并进行基础技术交流。具备良好的学习能力和技术理解力,不要求一开始就“会卖”,但必须愿意深入理解技术。对销售、市场拓展或解决方案型工作有明确兴趣,能够接受目标与压力。具备自驱力,愿意主动寻找线索、预约客户、跟进项目。有实验室、服务器、芯片、测试设备相关实习或项目经验者优先。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2026.1.6最新更新的白皮书15.0版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.0 (低分辨率版本,file size: 62MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 210MB)链接: https://pan.baidu.com/s/1ACT-mFPUizQUD2fowqoNHg?pwd=svhx 提取码: svhx如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-01-12 14:26:54
  • 【高清视频】基于Broadcom PCIe 5.0 交换芯片的8盘位SSD测试卡

    我们之前的文章中介绍了SerialCables公司研发的广泛用于研发测试实验室的4-盘位PCIe 5.0 SSD主机卡,以及可以同时9个甚至12个PCIe 6.0 SSD的PCIe 6.0 SSD主机卡,感兴趣的可以查询saniffer公众号阅读之前的文章和拍摄的高清视频,上述两张卡分别参见下面的图片。 PCIe 5.0 host card (左边支持4颗SSD) PCIe 6.0 host card (左边支持4颗SSD,右边支持4颗,顶部根据使用转接卡或者其它4*ssd adapter分别支持1颗或者4颗SSD) 另外,随着PCIe 5.0 SSD的成熟,有些用户希望可以有更具性价比、同时可以测试8块PCIe 5.0 SSD的主机卡。我们今天的视频就是演示了这张卡。 下面是一份基于我们拍摄的演示视频整理而成的文字总结。 我在原视频内容顺序与技术事实的前提下,对表达做了一定的整理,让逻辑更清晰、衔接更自然,仅供感兴趣的朋友快速阅读。 基于 Broadcom Gen5 Switch 的可接8个SSD的测试方案演示总结 一、视频背景与演示目的 本视频主要展示了一套基于 Broadcom PCIe Gen5 Switch 芯片的多盘 SSD 测试解决方案,重点演示该 Switch 卡在真实系统环境中: 是否能够正确枚举多块 NVMe SSD 是否能够在 PCIe Gen5 速率下稳定工作 在 短时间压力测试后是否出现掉盘或降速问题 整体目标非常明确: 验证这套 Gen5 Switch + MCIO 线缆方案在实际 SSD 测试场景中的可用性与稳定性 二、Switch 硬件架构与接口配置说明 1. Switch 芯片与整体架构 该方案采用的是 Broadcom PCIe Gen5 Switch 芯片,属于当前服务器与测试环境中较为主流、成熟的 Gen5 交换方案之一  上行(Uplink): 16 lanes PCIe 接收 下行(Downlink): 4 个 MCIO x8 Gen5 接口 这种架构非常适合用于: 多盘 SSD 功能测试 Gen5 SSD 稳定性与兼容性验证 MCIO 到 U.2 / EDSFF 的灵活拓展测试 2. MCIO 接口与线缆拓展方式 视频中特别强调了 MCIO x8 接口的灵活性: 每一个 MCIO x8 端口都可以通过不同类型的线缆,适配不同测试需求 在本次演示中,采用的是: MCIO Gen5 x8 → 2 × Gen5 x4 U.2 的 Y 型线缆 每根线缆可连接 2 块 U.2 NVMe SSD 因此: 4 个 MCIO x8 共可挂载 8 块 Gen5 x4 SSD(理论最大) 本次实际演示挂载了 4 块 SSD,用于稳定性与枚举验证 三、供电方式与实际接线说明 视频中特别点出了一个非常工程化、但常被忽略的细节: 两块 U.2 SSD 共用一个标准 4-Pin 电源接口供电 这在测试环境中非常常见,也意味着: 供电完整性 电流瞬态 多盘同时启动 都会成为 潜在影响稳定性的关键因素,因此也是测试时需要重点关注的部分 四、上电与系统级验证流程 1. 开机后的第一步:设备枚举检查 演示中明确指出,开机的首要目的不是跑性能,而是验证枚举是否正确: 系统启动后 首先确认: Switch 是否被正确识别 下挂的 4 块 SSD 是否全部被枚举 这是任何 PCIe Switch 测试中最基础、但也是最关键的一步 2. 关于板卡状态指示的说明 该 Switch 卡: 没有明显的 LED 状态指示灯 板载风扇: 并非上电即转 而是由温度传感或温控逻辑触发 因此: 无法通过肉眼或指示灯判断当前状态是否正常,必须进入系统检查 这一点在真实测试与运维环境中非常重要,也凸显了系统级软件检查的必要性。 五、Linux 系统下的实际验证过程 1. PCIe 枚举检查(lspci) 进入系统后,演示者通过: lspci 确认: Broadcom Gen5 Switch 已被系统识别 下游设备正确显示 能看到 4 块 NVMe SSD 其中包括: 2 块三星 SSD(明确为 Gen5) 1 块英特尔 1 块西数 2. NVMe 设备节点确认(nvme list) 随后通过: nvme list 确认: 所有 SSD 都被正确挂载 设备节点存在且状态正常 这是验证 PCIe + NVMe 协议层协同是否正常 的关键步骤 六、短时间压力测试与稳定性验证 1. FIO 压力测试设置 演示中选取了一块 三星 Gen5 SSD 进行简单压力测试: 测试工具:fio 测试模式:随机读写 队列深度(QD):32 测试时长:约 10 秒 该测试的目的并非跑极限性能,而是验证: 在 IO 压力下 SSD 是否会: 掉盘 报错 发生链路降级 2. 压力测试后的状态检查 测试结束后,结果显示: IO 过程正常完成 未出现异常报错 SSD 仍保持在线状态 这说明: Switch + MCIO + U.2 + SSD 的组合在该测试条件下是稳定的 七、速率与链路状态确认 在完成压力测试后,演示者进一步确认: 该三星 SSD 仍然维持在 PCIe Gen5 x4 速率 没有发生: 降速 Link Retrain 后退级 这一步非常关键,因为在高代际 PCIe 中: “能跑”和“持续跑在正确速率”是两回事 八、整体结论与工程意义 1. 本次演示的结论 从视频演示结果来看: Broadcom Gen5 Switch 架构工作正常 MCIO x8 → U.2 的线缆方案可行 多盘 SSD: 枚举正常 压力下稳定 速率未退化 在“简单但真实”的测试条件下,该方案具备实际使用价值 2. 从测试与验证角度的补充说明(拓展) 结合工程实践,这套方案非常适合用于: PCIe Gen5 SSD 功能验证 多盘并发稳定性测试 MCIO 线缆与转接方案验证 后续扩展到: EDSFF 更高功耗 SSD 更长时间压力与热测试 但如果进入更严苛的验证阶段,还建议进一步增加: 长时间 FIO 压力 多盘同时满载 温度与功耗监控 PCIe 协议级分析(错误注入、重传观察) 九、总结性一句话 该视频展示了一套结构清晰、工程合理、适合 PCIe Gen5 SSD 测试的 Switch + MCIO 解决方案,并通过实际系统验证证明了其在多盘场景下的基本稳定性与可用性。 更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2026.1.6最新更新的白皮书15.0版本 - PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver15.0 (低分辨率版本,file size: 62MB);需要高清图片pdf版本的请参见本文底部的联系方式联系我们获取(file size: 210MB) 链接: https://pan.baidu.com/s/1ACT-mFPUizQUD2fowqoNHg?pwd=svhx 提取码: svhx 如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。  
    2026-01-09 10:44:42
  • 【每日一题】PCIe Gen6 EDSFF SMPM Fixture Set是个啥东西?

    我们昨天的文章谈到了为什么PCIe 6.0 SSD要采用EDSFF接口 - 面向 PCIe Gen6 及下一代数据中心的 SSD 形态演进,今天我们接着来谈一下研发测试领域针对PCIe 6.0 EDSFF接口测试经常要用到一个Gen6 EDSFF SMPM Fixture Set,我们先看一下下面的由英国Quarch公司开发的这个产品图片有个感性认识,然后我们今天特别围绕SMPM来展开讲讲围绕该测试板卡的一些知识。注意:在 “Gen6 EDSFF SMPM Fixture Set” 这个语境里,SMPM 是一个射频同轴接口标准,它的全称是:SMPM = SubMiniature Push-on Micro一句话先定性SMPM 是一种比 SMP 更小、密度更高、适合 40–110 GHz 高频测试的推插式射频同轴连接器。在 PCIe Gen6 / EDSFF 的测试夹具(fixture)里,SMPM 通常用于把超高速差分信号“引出到测试设备(示波器 / BERT / 协议分析链路)”。SMP / SMPM / SMPS 的关系Gen6 明确偏向 SMPM 或更高级别,SMP 在很多场景已经不够了。为什么 Gen6 EDSFF Fixture 要用 SMPM?从工程角度,原因非常明确:PCIe Gen6 已进入 56–64 GT/s PAM4 + FLIT有效频谱远高于 Gen5对 插损、反射、stub、回波损耗 极其敏感普通测试接口会直接“拖垮链路”EDSFF 空间受限 + 信号密度极高E1 / E3 形态每条 lane 都很宝贵需要:小尺寸高一致性可重复插拔SMPM 正好是 “尺寸 / 频率 / 工程可行性” 的平衡点测试夹具本身不能成为“最差一环”在 Gen6 中:被测系统 ≠ 最大不确定性测试夹具本身常常是 信号劣化源使用 SMPM 是为了:降低 stub控制 return loss提高测试可信度在 “Gen6 EDSFF SMPM Fixture Set” 中,SMPM 通常指什么?一般意味着这个 Fixture Set 包含:SMPM Launch(板端射频接口) SMPM-to-SMA / SMPM-to-2.92 mm 转接 对应 Gen6 lane 的差分引出 已建模 / 去嵌(De-embedding)支持这不是“随便焊个探针”,而是可量产级别的高速测试结构。一句话总结SMPM 是 “SubMiniature Push-on Micro” 的缩写, 是专为 PCIe Gen6 / 高速 SerDes 测试设计的高密度、超高频推插式射频接口。 在 Gen6 EDSFF 测试夹具中,SMPM 的作用是: 确保“测到的是真实系统,而不是夹具的失真”。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。白皮书下载链接 (或者点击下面的二维码直接下载):https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2026-01-08 10:28:31
  • 【高清视频】面向 PCIe Gen6 及下一代数据中心的 SSD 形态演进

    昨天看到一篇介绍未来PCIe SSD接口的文章,《这就是存储的未来:EDSFF技术分析》,介绍了为什么PCIe 6.0在SSD接口上全面转向了EDSFF,并配了详细的解说和高清视频。其实,PCI SIG在2024年3-4月份的时候已经决定未来PCIe 6.0 SSD仅保留EDSFF接口,例如E3, E1等,但是大概一年后的2025年中,有些最终用户可能还希望保留U.2, M.2等接口一段时间,但是这个也仅能是延缓U.2, M.2接口一些时日而已,目前支持U.2, M.2的connector都还在等待过程中。 我们今天下面的文章综合了上面文章的主要内容,对于想了解为什么未来SSD会转向EDSFF的朋友提供一个快速参考。 以上视频来源于Bilibili博主HOMOLAB 一、引言:为什么需要 EDSFF? EDSFF(Enterprise & Datacenter SSD Form Factor --> EDSFF 这个单词的缩写已经前几年从早期的 Enterprise and Data Center SSD Form Factor 更名为 Enterprise and Data Center Standard Form Factor,感兴趣的可以看saniffer公众号之前的文章:EDSFF 缩写更名背后的故事)并不是一次简单的接口升级,而是在 PCIe Gen6 及之后时代,对企业级 SSD 在容量、性能、电气、散热和系统集成方面进行的系统性重构。 传统 2.5 英寸 U.2 SSD 的物理尺寸和电气设计,源自机械硬盘时代的历史包袱,在当下已经难以支撑: 更高通道数的 NVMe 主控 更高的链路速率(PCIe Gen5/Gen6) 更高功耗(20–25W 乃至更高) 更高密度(TLC / QLC / 未来 PLC) EDSFF 正是在这一背景下,被业界视为 U.2 与 M.2 的下一代替代方案。 二、历史背景:从 HDD → SATA SSD → NVMe U.2 的路径依赖 1. 2.5 英寸规格的历史成因 1956 年 IBM 发明机械硬盘,奠定了 HDD 的物理尺寸体系 随后形成 1.8 / 2.5 / 3.5 英寸等规格 早期 SATA SSD 为了兼容生态,沿用了 2.5 英寸 HDD 规格 2. NVMe 时代的结构性矛盾 随着 NVMe 与多通道主控出现: 7.5mm 厚度无法容纳: 双层 PCB 大容量电容(PLP) 高功耗主控散热 企业级 SSD 功耗从 ~5W 上升到 15–25W 3. U.2 的阶段性解决方案 2014 年左右,企业级 SSD 转向 15mm U.2 使用 SF8639 连接器 维持了约 6 年的“相对稳定期” 但 U.2 的根本问题并未解决。 三、U.2 的核心瓶颈(为何“已经力不从心”) 1. 连接器与电气性能 SF8639 源自 SATA / SAS 时代 体积大、插损高、串扰严重 难以支撑 PCIe Gen6 及以上的信号完整性要求 2. 结构与容量矛盾 要么使用刚柔板折叠(增加成本、降低可靠性) 要么浪费空间(限制最大 NAND 密度) 不利于 QLC 超大容量,也限制 TLC 的空间利用率 3. 散热设计先天不足 2.5 英寸外形未为 20W+ SSD 设计 PCB 位于中间,限制散热鳍片与热交换面积 单位气流下散热效率低 结论是: U.2 要小不够小,要大不够大,既无法极致 mini,也无法极致 scale。 四、EDSFF 的诞生:从 Intel “Ruler” 到行业共识 1. Ruler 的起点 2017 年:Intel 推出 Ruler(尺子)规格,容量直接拉到 8TB 2019 年:P4326 达到 30.72TB 2. EDSFF 的正式形成 Intel 将 Ruler 与 Gen-Z 连接器整合 形成 EDSFF(Enterprise & Datacenter SSD Form Factor) EDSFF 的核心定位: 为 SSD 而生 面向企业级与数据中心 从设计之初即考虑高功耗、高速率、高密度 五、EDSFF 的规格体系:E1 / E3 + 长度 + 厚度 1. 横向宽度 E1:窄型(“竹竿”) E3:宽型(“胖子”) 2. 长度 Short(S) Long(L),例如 E1.L 长度可达 318.75mm 3. 厚度(高度) 1T / 9.5mm / 15mm / 2T 等 厚度越大,散热潜力越强 4. 连接器与兼容性 统一使用 Gen-Z 风格连接器 通过接口对齐实现系统级兼容 六、电气层面的决定性优势(EDSFF 的“胜负手”) 1. PCIe Gen5 / Gen6 的挑战 Gen5:全链路插损 ≤ 36dB Gen6:插损目标进一步降至 ~32dB PAM4 带来: 更窄的眼图 更高 BER 更低噪声容忍度 2. U.2 拓扑的先天劣势 CPU → PCIe Slot → 转接卡 PCB → SF8639 母座 → SF8639 子座 → SSD 多一次连接器 ≈ +1dB 插损 FR4 上每 2.5cm ≈ +2dB 系统裕量被迅速吃光。 3. EDSFF 的结构性改进 使用 Gen-Z 连接器 子端由 PCB 直接延伸,无需额外座子 减少一个连接器 = ~1–1.25dB 插损回收 RX / TX 不再交错,大幅降低串扰 结论: 在 Gen6 / Gen7 时代,EDSFF 是唯一现实可行的 SSD 形态。 七、形态灵活性:能屈能伸,覆盖多种应用 1. 小体积(Boot / Cache) E1.S 5mm 类似 M.2,但面积更大 可实现 PLP + 热插拔 2. 极致容量 E1.L / E3.L 可达 122TB 甚至 256TB 无需刚柔板,降低 BOM 与布线复杂度 3. 中庸之选(主流) E1.S 15mm / E3.S 1T 在性能、密度、散热之间取得平衡 当前最受厂商青睐 八、线缆、背板与转接:系统集成的新问题 1. 服务器主流方案 MCIO → EDSFF 线缆 直连方式减少 PCB 插损 2. 混合正交背板(SNIA / Molex) 信号走线缆 背板只负责供电 降低成本与信号风险 3. 风险与警示 Gen-Z 连接器 无防呆 反插 = 100% 损坏 SSD DIY 场景风险极高 九、未来展望与挑战 1. 技术问题而非设计缺陷 厚度选择(9 / 15 / 25mm) 超长 E1.L 的 SI 约束 与 CXL.Memory / Gen-Z 4C 的协同 2. 行业趋势 OEM 已明确放弃 Gen6 U.2 主流厂商全面转向 EDSFF Gen6 时代将加速完成替换 十、总结:EDSFF 为何是“不可逆的未来” EDSFF 以更优的电气性能、更强的散热能力、更高的存储密度,以及高度可定义的形态,彻底摆脱了 U.2 的历史包袱。 在 PCIe Gen6 及之后的时代: U.2 没有船票 EDSFF 是唯一方向 更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。 白皮书下载链接 (或者点击下面的二维码直接下载): https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y 如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。  
    2026-01-06 10:17:41
  • 【每日一题】以GPU为中心的Scale up和Scale out技术简介

    前几天写了篇AI时代和GPU互联相关的总线技术,有读者说当今应该重点落在以GPU为中心,讲讲如何进行Scale Up和Scale Out,以及这些技术涉及的产品如何在研发阶段和生产交阶段端进行测试和验证。今天在之前的文章基础上重新打乱重组,不过不少内容仍会重合,当然,也增加了一些新的内容,尤其是国产方面的产品和技术介绍,有兴趣的可以再读一下。概述随着人工智能模型规模的爆炸式增长,单个GPU已无法满足训练和推理的算力与存储需求,需要多个GPU协同工作。这催生了GPU之间高速互连总线技术的发展,以实现“scale-up”(单台服务器内部多GPU互联)和“scale-out”(多台服务器GPU集群互联)的性能扩展。在scale-up场景中,GPU–GPU直接互连总线可绕过传统经过CPU内存的通信路径,大幅提升带宽、降低延迟;在scale-out场景中,则需高速网络将不同服务器的GPU连接成集群。本文聚焦GPU与GPU直接互连(即GPU-GPU之间,而非GPU-CPU之间)的主要总线技术,包括NVIDIA的NVLink、通用的PCI Express、以太网以及其他新兴互连(如XLink、CXL、Infinity Fabric等)。我们将介绍各技术当前的协议代际、速率(speed)、通道宽度(width)及理论最大带宽,并分析其发展趋势、技术优劣、主要推广厂商以及部署占有率排序。此外,报告将梳理这些总线技术在研发、测试到量产各阶段的测试要点(涵盖物理层、协议层、兼容性、互操作、性能、功能、可靠性等),提供清晰的测试项目、技术方法、工具和业界方案示例。最后,我们讨论Ultra Ethernet Consortium(UEC)和Ultra Accelerator Link(UALink)两个组织及其以太网改进技术的异同、未来融合可能性,并介绍AI训练服务器集群(scale-out)间互连的主流技术、产品方案及其优劣势。GPU–GPU直接互连的主要总线技术目前业界在单机多GPU互连(scale-up)方面,已经发展出多种高速总线与协议,旨在提供远超传统总线PCI Express的带宽和更低的延迟。以下列出了全球范围内主流的GPU-GPU直接互连技术:NVIDIA NVLink高速互连NVLink是NVIDIA开发的高带宽GPU互连总线和通信协议,自2016年推出以来已迭代多代,广泛应用于NVIDIA数据中心GPU产品中。NVLink采用高速度差分SerDes点对点链路连接GPU,最初设计用以超越PCIe带宽,满足GPU之间大量张量数据交换的需求。NVLink的主要代际规格如下:NVLink 1.0(Pascal P100时代):每链路带宽约20GB/s,典型GPU有4条NVLink,总带宽可达80GB/s级别。NVLink 2.0(Volta V100时代):带宽提升,每链路约25GB/s(双向),V100 GPU提供6条NVLink 2,总互连带宽最高约300GB/s。NVLink 3.0(Ampere A100时代):进一步提升链路数量和速率。A100(80GB SXM4版)支持12条第三代NVLink链路,总GPU对GPU带宽约600GB/s。这相比PCIe Gen4 x16(32GB/s单向)高出一个数量级。NVLink 4.0(Hopper H100时代):链路速率大幅提高至100Gbps/通道,单GPU支持18条NVLink 4链路,总双向带宽达900GB/s。每通道100Gbps意味着NVLink 4单lane速度是PCIe Gen5的3倍以上。NVIDIA通过NVLink 4在8卡HGX系统内实现了每GPU 900GB/s的惊人带宽,比PCIe Gen5 x16(约128GB/s)快约7倍。NVLink 5.0(Blackwell架构):Blackwell GPU将支持18条NVLink,每条链路100GB/s(即800Gbps),单GPU总带宽可达1.8TB/s,是H100的2倍。这表明NVLink带宽仍在迅猛增长。NVLink除了点对点直连,还配套NVSwitch交换芯片用于构建多GPU全互连拓扑。在NVIDIA DGX等系统中,NVSwitch可看作具备大量NVLink端口的交叉开关,使得8颗或16颗GPU形成无阻塞互连。例如,DGX-2(16×V100)借助NVSwitch实现任意GPU间直接通信,总互连带宽达每GPU 300GB/s量级。DGX A100则通过第二代NVSwitch将8×A100 GPU完全互联,每GPU维持600GB/s直连带宽。NVSwitch还支持跨节点的NVLink拓展:NVIDIA最新的NVLink Switch系统(代号SGXLS)是一种1U机架交换机,内含NVSwitch芯片并提供32个外部端口,可通过OSFP电缆连接多台服务器。借助两级NVLink交换,最多可将256颗GPU互联成一个统一高带宽域,实现跨节点的GPU直连通信。这种架构使多机GPU集群几乎表现为“数据中心级GPU”,具备高吞吐、低延迟的优势。优势:NVLink为GPU设计,具有超高带宽和极低延迟,支持GPU直接交换大数据块而无需经过CPU内存。NVLink还通过NVIDIA的CUDA和通信库(如NCCL)深度优化,支持GPU统一虚拟地址空间和高效的张量互传。例如NVLink 4每lane 100Gbps的速率,使GPU间通信速度远超标准总线。NVSwitch的加入实现了大规模GPU无阻塞互连,并带有SHARP原语支持在交换芯片上完成All-Reduce等聚合操作,从而加速分布式训练。劣势:NVLink是NVIDIA的封闭技术,仅用于NVIDIA自家GPU及少数合作CPU(如IBM Power)的互连,生态局限于NVIDIA体系。此外,NVLink接口通常只在高端数据中心GPU(SXM模块)上提供,PCIe卡版GPU多数不支持NVLink或仅支持双GPU桥接(带宽有限),这使得采用NVLink需要特定硬件形态和更高成本。NVLink布线距离也有限,一般用于同服务器或机架内互连,扩展到全机房需结合其他网络。尽管如此,凭借NVIDIA在AI加速领域的主导地位,NVLink已在全球众多AI训练服务器中部署,是当前实际应用中最主要的GPU互连之一。PCI Express总线PCI Express(PCIe)是通用高速串行扩展总线,也是GPU最基本的连接总线标准。几乎所有GPU都通过PCIe与主板和CPU相连,因而PCIe的部署覆盖率接近100%。当前数据中心GPU主要使用PCIe 4.0或PCIe 5.0接口:PCIe 4.0速率16 GT/s每lane,x16链路单向理论带宽约32GB/s(实际有效约31.5GB/s);PCIe 5.0速率32 GT/s,x16单向带宽提升到约63GB/s,双向约126GB/s。例如NVIDIA H100 PCIe卡采用PCIe Gen5 x16,与CPU通信峰值128GB/s。即便如此,PCIe带宽仍大幅低于NVLink等专有互连——H100 GPU的NVLink带宽900GB/s,约为PCIe Gen5的7倍。目前领先的常见正在实现的PCIe 6.0(64 GT/s,采用PAM4编码)将再次翻倍带宽,x16双向理论可达~256GB/s,但相较GPU内部数百GB/s的需求仍是瓶颈。PCIe总线以标准化和兼容性见长,其物理层和协议也成为许多衍生技术的基础(如CXL就基于PCIe物理接口)。在多GPU服务器中,没有专用互连时GPU之间通常通过PCIe交换数据。例如一台4卡服务器,GPU之间可以通过PCIe switch连接或经由CPU内存进行数据传输。然而,这种路径的带宽和延迟相对较差:PCIe共享总线易形成瓶颈,且如果需要借助CPU参与通信会增加额外延迟。因此纯PCIe互连的多GPU系统在大规模并行训练时性能伸缩性受限。针对这些问题,NVIDIA推出GPUDirect RDMA等技术,允许GPU通过PCIe直访对方或NIC缓冲内存,绕过CPU参与,以降低开销。但总的来说,PCIe在GPU直连通信方面属于“不得已而为之”的方案,其表现明显不如NVLink等定制总线。优势:PCIe作为行业标准,通用性极强,任何厂商的GPU/加速卡都支持PCIe接口,互操作良好。它采用集中式交换架构,易于通过成熟的PCIe交换芯片扩展(例如PLX/Broadcom的PCIe switch可将多GPU连接到同一Root Complex)。PCIe还具有丰富的软件支持,几乎所有操作系统和驱动默认支持PCIe设备,使得基于PCIe的系统集成最为便利。劣势:PCIe并非为GPU大规模并行设计,带宽有限且多设备共享,总线易拥塞;延迟较高,PCIe事务需经过分层协议处理,远不及GPU专用直连来的简洁。另外PCIe默认是非缓存一致的,总线上的GPU各自内存独立(CXL出现前需要软件参与管理内存共享)。当多个GPU通过PCIe通信时,往往需要经过主存或中介,有效带宽打折且延迟进一步增加。因此,虽然PCIe无处不在,但在高端AI服务器中往往被NVLink/Infinity等更高效的直连所补充。当前部署来看,PCIe依然是基础通信框架:即使使用NVLink的系统,GPU也通过PCIe与CPU通信。因此从占有率看,PCIe是所有GPU服务器都具备的底层总线。PCIe 6.0、7.0将持续提升速率以及未来PCIe 8.0并使用PAM4等新技术,但也面临信号完整性挑战和功耗增加的问题。在GPU直连领域,PCIe正逐渐演进出缓存一致和内存语义的新形态(即CXL),以期在通用性与性能之间找到更好平衡。AMD Infinity Fabric(XGMI)互连Infinity Fabric是AMD开发的片上/片间高速互连架构,广泛用于AMD CPU和GPU内部。针对GPU间互连,AMD采用Infinity Fabric的外部版本称为XGMI(External Global Memory Interconnect),用于连接多块Instinct加速器(MI系列)GPU。XGMI提供与NVLink类似的高速直连,但更强调缓存一致性和内存共享:AMD的多GPU方案构建“hive”(蜂巢)架构,使多GPU共享统一的分布式HBM显存池,实现单一内存空间下的协同计算。这类似于把多GPU当作一个统一内存的计算单元,简化并行编程模型。在最新的MI300系列GPU中,AMD大幅增强了Infinity Fabric互连能力。MI300X GPU据报道集成了多达7个Infinity Fabric链路,每条链路为16通道、速率32Gbps/通道,提供128GB/s双向带宽/每链路。7条XGMI链路总计可达896GB/s的跨GPU总带宽,接近NVLink 4的水平。值得注意的是,第四代Infinity Fabric的单通道速率32Gbps已经超过PCIe Gen6(每通道约16Gbps有效速率)的两倍。这意味着AMD Infinity在物理层上非常激进,采用了先进的PAM4高速SerDes技术(如112Gbps/lane)的潜力,以提供卓越的互连性能。AMD MI250等早期产品则通过两个GPU芯片之间的Infinity Fabric互连(片上+片间),也实现了GPU分布式计算的高带宽需求。优势:Infinity Fabric/XGMI最大的优势是原生缓存一致性和异构内存共享。XGMI不仅传输数据,还携带缓存协议,使多GPU可以像多CPU那样保持内存一致,实现更灵活的编程模型(例如直接执行Load/Store访问远端GPU内存)。在AMD的ROCm软件栈中,XGMI结合RCCL通信库,可高效实现GPU的集合通信和一致内存操作。此外,AMD正推动Infinity Fabric的开放化。2024年成立的UALink联盟中,AMD贡献了其XGMI协议作为基础,使之工作在开放标准的物理层上。。甚至PCIe交换芯片厂商Broadcom宣布其下一代PCIe switch将支持直接通过XGMI连接GPU,形成类似于NVSwitch的多GPU拓扑。这种与第三方合作的策略有助于扩大Infinity Fabric生态。劣势:目前AMD GPU在AI加速市场份额较低,Infinity Fabric的实际部署量远不及NVLink。其性能虽强,但只适用于AMD自家GPU,加之软件生态相对薄弱,使许多AI系统仍倾向NVIDIA方案。此外,XGMI需要较复杂的协议支持一致性,潜在协议开销可能在某些场景下增加延迟。不过随着MI300等产品在超算和云服务中的应用增长,以及开放标准UALink的推进,Infinity Fabric有望被更多厂商和系统采用,成为对抗NVLink的一支重要力量。华为 Ascend UB 互连华为的Ascend系列AI加速器(如Ascend 910、Ascend 310等)也采用了专有的高速互连,总线名称在业内常简称为UB(可能代表Ultra Broadband或Unified Bandwidth等)。Ascend UB旨在连接多颗华为昇腾AI处理器,实现类似NVLink/Infinity的高带宽互联。据报道,Ascend 910处理器支持直接的芯片间高速连接,使多个Ascend芯片组建大规模训练集群。例如,华为曾构建Atlas 900集群,由数百颗Ascend 910通过高速互连组成,被用于AI模型训练。据推测,Ascend UB的物理层技术与其他高端互连类似,采用高速PAM4 SerDes,速率在112 Gbps/车道级别,提供每链接数十GB/s的传输能力。在阿里巴巴Panjiu超节点架构的描述中,就提到支持Ascend的UB协议,并指出行业主流GPU的高效互连(NVLink、UB等)都使用了112 Gbps甚至224 Gbps速率的SerDes技术。优势:作为专门为华为AI芯片设计的互连,UB可以充分结合Ascend架构特点,提供高吞吐、低延迟的数据交换能力,满足大规模分布式训练对通信的需求。华为的解决方案往往软硬件协同优化,UB可能也针对其AI框架做了传输协议上的定制,加速AllReduce等操作。另外,由于Ascend主要在中国市场推广,UB互连为本土AI基础设施提供了一个自主可控的高速网络选项。劣势:UB属于华为内部技术,封闭生态,只有Ascend系列芯片可用。相对于全球主流(NVIDIA/AMD)的方案,UB的第三方支持很少,生态体系局限。同时其性能参数公开有限,行业认知度较低。总体而言,Ascend UB目前主要在华为及合作伙伴的数据中心中部署,在全球范围的AI服务器互连技术占比较小。但在特定区域市场,UB代表了国产AI加速互连的最高水平之一。XLink 等其他专有互连除上述主流方案外,一些公司和研究机构也推出了各自的GPU/AI加速器互连技术,这里以“XLink”为代表进行介绍。“XLink”并非一个正式标准名称,而是业内对某些自定义高速芯片直连技术的泛称。例如,阿里巴巴在其Panjiu AI超大规模服务器中,采用了一种xLink C2C(Chip-to-Chip)接口将CPU直接与GPU相连,以替代传统的PCIe总线。阿里巴巴未公开xLink的细节,但可以推测其速率和带宽远超PCIe,例如可能采用了更宽的链路或更新的PHY,以提升CPU–GPU之间的缓存和数据交换能力。再如,Graphcore公司的IPU采用专有的IPU-Link将多达数百颗IPU相连形成大型加速矩阵;谷歌TPU使用ICN(Inter-Chip Network)互连数千TPU芯片。这些都可以视作各家公司版本的“XLink”。针对GPU–GPU互连,一些新创公司也推出有竞争力的方案。例如Enflame、寒武纪等中国厂商的AI芯片也各自支持多芯片互联技术,用于构建大算力训练机。虽然名称不同,但核心思想都是通过定制协议充分利用硬件特性,实现直连高带宽和低延迟,绕开通用总线的性能瓶颈。优势:这类专有互连通常针对特定产品优化,性能潜力大;设计灵活,可以根据需要定义链路宽度、拓扑(环形、网格等)和协议层,未必受限于标准。劣势:显而易见是通用性差,不同厂商的“XLink”彼此不兼容,难以形成统一生态。此外,由于缺乏行业标准约束,有些私有互连在可靠性、容错等方面成熟度需要长期验证。总的来说,XLink类技术目前在市场占有率上非常有限,多存在于单一厂商的封闭系统中。但它们代表了创新的方向,也为行业提供了宝贵的经验教训,推动着后续开放标准的诞生(如UALink的出现就是为了避免各家各搞一套的碎片化局面)。CXL(Compute Express Link)缓存一致互连CXL是近年兴起的一项开放互连标准,全称Compute Express Link。它建立在PCIe物理层之上,提供了缓存一致(Cache-Coherent)和内存共享的协议,旨在高效连接CPU与加速器、内存设备等。虽然CXL最初聚焦于CPU–设备互连,但其最新规范(CXL 3.0)已经支持多头设备(Multi-Head)和互联拓扑,意味着多个处理器/加速器可以通过CXL构成复杂的交换网络。对于GPU而言,CXL有望成为跨CPU/GPU之间共享内存、横向扩展加速器的一种通用方式。例如,服务器厂商计划通过CXL将多块GPU连接到同一内存池,实现GPU对大容量主存的直接访问,或多GPU之间共享缓存一致的内存视图。这在异构计算和内存瓶颈方面具有重大意义。目前CXL 2.0基于PCIe 5.0(32GT/s),支持一对一的加速器–主机连接以及一个主机对多个设备的“Type-2/3”连接。CXL 3.0则兼容PCIe 6.0(64GT/s),引入交换架构,可构建类似PCIe switch的CXL交换,以允许多主机共享多设备资源。带宽方面,由于沿用PCIe PHY,一条CXL链路x16在PCIe5下理论带宽与PCIe相同(~128GB/s双向),在PCIe6下可翻倍至~256GB/s。CXL主要的价值在于三个子协议:CXL.io(类似PCIe IO空间)、CXL.cache(设备与主内存缓存一致交互)和CXL.mem(直接访存),其中cache和mem协议让加速器可以高效读写主机内存甚至互相访问,打破了GPU内存独立的限制。优势:CXL由业界联盟推动(成员包括Intel、AMD、ARM、谷歌、微软等众多企业),采用开放标准,兼容PCIe生态,具有广泛的支持面。它的缓存一致性支持使异构计算编程简化,例如GPU可以直接访问CPU内存中的数据结构而无需拷贝。对于多GPU系统,未来若GPU具备CXL.cache功能,则彼此间也能通过共享内存进行通信,从软件上看仿佛大GPU一样(类似AMD目前通过Infinity实现的效果)。CXL还支持内存池化,这对GPU利用主存扩展容量、多个GPU共享高速存储器都有潜在好处。劣势:目前CXL的带宽受限于PCIe标准,远低于NVLink等专用方案,而且由于协议更复杂(涉及一致性维护),延迟开销可能会偏高,不一定适合需要极致低延迟的GPU梯度交换。CXL产品生态尚在起步阶段,GPU厂商对于直接采用CXL进行GPU互连持观望态度(现有GPU尚未公开支持CXL缓存一致)。因此短期内,CXL更多用于CPU和加速/内存设备间的灵活连接,在GPU–GPU直连高性能通信方面并非主要方案。然而,随着CXL 3.0硬件逐步推出(如支持CXL 3.0的PCIe 6.0交换芯片),我们有望看到GPU开始兼容CXL,用于内存协同和跨主机互连的新模式。例如未来某系统中,多块GPU通过CXL交换实现共享内存的大模型推理,这将是对NVLink/Infinity架构的一种补充而非完全替代。小结:以上介绍了当今主要的GPU–GPU互连技术。表面看来,各技术的物理速率都在朝着112 Gbps乃至224 Gbps per lane的方向演进,以太网标准IEEE 802.3dj也已制定200/400/800Gbps PHY供这些互连参考采用。例如NVLink 4和Infinity采用100~112Gbps级SerDes,UALink 1.0明确基于200Gbps/lane的以太PHY。但在链路宽度、协议层设计上,各方案有所差异,导致性能特性和应用场景各有侧重。下一节我们将从市场部署角度,对这些总线技术的现状和趋势进行对比。部署现状与市场占有率比较在全球AI训练服务器中,不同互连总线的采用情况差异较大。以下按照当前实际部署的广泛程度,对主要GPU互连技术作一个大致排序,并分析其应用现状:PCI Express(PCIe) – (普及率:☆☆☆☆☆):PCIe是所有GPU都会用到的基础总线。无论是采用NVLink的高端系统,还是多GPU直连欠奉的经济型服务器,每块GPU至少通过PCIe与主板/CPU通信。因此就硬件覆盖面而言,PCIe无处不在,是当之无愧的“占有率第一”。不过,PCIe通常充当GPU与主机的连接,对于GPU–GPU直接高速通信则力有不逮。因此在高性能训练集群内部,PCIe往往被更高阶的互连所补充或替代。NVIDIA NVLink – (普及率:☆☆☆☆):由于NVIDIA在AI加速市场的主导份额,其专有的NVLink/NVSwitch互连被广泛部署于各大AI超级计算机和云厂商高端GPU服务器中。例如,NVIDIA DGX系列(A100、H100等)全部采用NVLink互连8~16块GPU;主要云服务商的高性能GPU实例(如AWS P4d、Google TPU VMs GPU版本等)也多使用HGX板(8×A100/H100带NVSwitch)组成节点。可以说,当前绝大多数大型AI训练集群的单机节点内部都通过NVLink实现GPU直连,这使NVLink成为实质上的行业标准之一。即使在节点间需要InfiniBand/以太网络(见下文),节点内部的NVLink仍然承担主要通信流量。需要指出的是,小规模GPU服务器(如4卡PCIe服务器)以及消费级GPU并不具备NVLink互连,这部分市场NVLink未覆盖。因此若按机器数量计算,NVLink并非每台多GPU服务器都有;但按GPU总算力或大规模部署来看,NVLink覆盖了最关键的高端算力设备。高速网络互连(以太网 / InfiniBand) – (普及率:☆☆☆☆):对于跨服务器的GPU集群(scale-out),网络是必需的。当前主要有以太网和InfiniBand两大技术路线(详见下文),二者在市场上平分秋色。InfiniBand传统上主导HPC和许多AI超级计算集群;例如微软、NVIDIA等打造的大型AI集群常使用400Gb/s HDR/NDR InfiniBand交换网。而超大规模数据中心和云厂商则越来越倾向于以太网方案,利用100~400Gb以太网结合RDMA(RoCE)构建GPU集群网络。像Meta等公司追求开放标准,已有从InfiniBand转向以太方案的趋势。总体而言,如果从GPU集群整体角度,基本每个GPU训练集群都会部署至少一套高速网络,不是InfiniBand就是等效的以太方案。因此按节点间通信占有率来看,高速网络技术可以和NVLink并列成为AI训练系统不可或缺的组件。需要区分的是,网络互连主要用于跨服务器通信,在单机内部仍需要NVLink/PCIe等。因此将网络与NVLink作简单高低之分并不精确——两者在典型AI系统中往往是层次互补关系:节点内用NVLink,节点间靠网络。无论如何,考虑到几乎所有大型AI训练都需要多机,高带宽网络互连在实际部署中同样具有举足轻重的地位。AMD Infinity Fabric (XGMI) – (普及率:☆☆):AMD的GPU互连目前仅应用于AMD Instinct系列加速卡。虽然AMD在超算(如Frontier超算采用了MI250)中有所斩获,但总体市场占比相对NVIDIA仍较低。保守估计,采用XGMI互连的GPU节点数量不到采用NVLink节点的十分之一。然而,值得关注的是,AMD正凭借MI300等新产品积极拓展AI市场,并推动开放标准UALink把自家Infinity变成行业通用方案。如果这一努力成功,未来几年Infinity Fabric的采用率可能上升,有潜力打破NVLink一统高端的局面。目前来看,XGMI互连主要部署在少数超算和云试点中,普及度有限但在特定领域具有战略意义。华为 Ascend UB / 其他专有互连 – (普及率:☆):这些方案由于厂商和地域的局限,整体市场占有率很小。Ascend UB基本仅在华为自有或合作的数据中心使用,尚未形成国际化影响。Graphcore、寒武纪等的互连亦属各自产品闭环,数量级上远低于上述主流。同样,CXL在GPU间直接互连上的应用还处于起步和示范阶段,目前难言有实际占比。未来若CXL广泛用于GPU内存共享,才可能在占有率上升。总之,此类“其他”互连技术当前更多是战略储备和探索性质,离规模化还有距离。综上所述,PCIe因其基础性无可动摇地位列首位;NVLink紧随其后,在高性能训练节点中几乎是标配;跨节点网络(以太/IB)则与NVLink共同构成AI集群通信的骨干;AMD Infinity处于挑战者地位,仍在努力扩大份额;其他互连技术目前更多是补充。在技术趋势上,开放标准和以太网生态正变得越来越重要(详见下文UALink、UEC等),这可能改变未来排名格局。但就当前(2025年)的实际部署看,上述排序基本反映了业界的应用现状。研发、测试与量产阶段的互连验证高性能互连总线从开发到产品,需要经历严苛的测试验证环节,以确保物理信号质量、协议功能正确、跨厂商兼容,以及大批量生产时的质量一致性。下面从研发阶段到量产阶段,层次分明地列出各类测试项目、技术手段、所用工具和相关厂家实例。研发阶段测试在研发设计阶段,工程师需要对互连总线的各个层面进行深入测试验证:物理层信号完整性测试:高速总线首先要保证电气信号质量。研发中通常会进行信号完整性(SI)仿真和实测,包括插损、回损、抖动等参数。使用示波器采集高速串行链路的眼图,确保在目标比特误码率(BER)下眼图张开度符合规范要求(例如BER 1e-12或更严)。例如UEC规范引入了基于FEC码字的误码率监控指标UCR(无法纠错码字率)和MTBPE(平均包错间隔)来评估链路传输可靠性。对于112 Gbps PAM4这种超高速链路,会采用实时示波器或采样示波器进行PAM4眼图分析,并利用抖动分解、噪声分析工具了解信号裕量。时域反射/透射TDR/TDT测试用于检查阻抗匹配和插损曲线。信号发生器与误码率测试仪(BERT)结合,用PRBS等伪随机码型在链路上跑,统计误码情况,以验证物理层的误码率性能。常用设备供应商包括Keysight是德科技(如Keysight Infiniium系列示波器、M8040A/BERT等)、Tektronix泰克、Rohde & Schwarz罗德与施瓦茨和Anritsu安立等,这些厂家提供完整的高速数字链路测试解决方案。通过物理层测试,可以发现设计中的信号质量隐患,如PCB走线过孔不良、连接器串扰等并优化改进。协议层功能和一致性测试:在确保电信号能可靠传输后,需要验证协议层的实现是否正确健壮。这包括链路培训和协商过程是否正常(例如PCIe的LTSSM状态机是否按规范状态转换),数据包格式和时序是否符合协议标准,以及错误处理机制(如重传、流控)是否有效。工程师会使用协议分析仪和协议发生器/一致性测试工具来捕获链路上的报文并注入特定测试序列。以PCIe为例,有Saniffer公司销售的SerialTek的PCIe协议分析仪,可以拦截并解析PCIe Gen5交易层/数据链路层包,检视是否有违规序列;也可以使用SerialTek的CTS协议一致性测试软件按照PCI SIG标准规范进行测试,或者使用SerialTek协议训练器定制发送异常序列验证设备响应。以太网方面,有专门的以太网协议测试仪(如Spirent、IXIA等)用于验证RDMA、PFC等网络协议行为。对于NVLink、Infinity这类专有协议,NVIDIA和AMD内部也有各自的仿真器和分析工具来进行功能验证。一项关键测试是兼容性/互操作测试:确保新实现的接口可以与既有标准设备通信。例如新设计的PCIe设备应能在不同主板上Link Up、不论对方是Intel或AMD主机;InfiniBand网卡需通过IBTA一致性测试;以太网需在plugfest上与各厂家设备互通。这方面通常通过加入行业互操作性测试活动(如PCI-SIG Compliance Workshop、以太网联盟Plugfest等)来实现,或者邀请主要合作厂商提前联调。通过协议和兼容性测试,可以发现协议栈实现中的bug,确保最终产品在各种环境下都能稳定通信。性能和功能测试:当硬件和基本协议稳定后,需要评估互连的实际性能和功能是否达到设计目标。带宽测试是重头戏——例如测量GPU通过NVLink传输连续大块内存时的实际吞吐量是否接近理论值600GB/s;测量PCIe链路在DMA传输、RDMA场景下的有效带宽;以太网或InfiniBand则跑MPI Benchmarks看延迟和AllReduce性能等。常用方法是在实际系统上运行微基准测试:如使用NVIDIA的NCCL测试程序测AllReduce带宽来评估NVLink/NVSwitch效率,使用IBM Perftest或RDMAcore的工具测试RoCE/IB延迟和吞吐。延迟测试则用ping-pong延迟测量或发出特殊标记包测一跳来回时间,评估接口的单向/双向延迟。除了原始带宽,还要测试扩展性能,如多个GPU同时通信时总带宽的伸缩性、拓扑中不同路径的公平性等。功能测试则检查互连的特色功能:比如Infinity Fabric的一致性操作是否正确(多GPU对同一数据的读写结果是否符合缓存一致预期);NVSwitch的广播/归约硬件引擎是否按要求工作;以太网的PFC、ECN拥塞机制在高负载下是否有效防止丢包等。性能测试需要软硬件配合,有时会开发专门的驱动或固件测试模式。例如配置GPU持续互相发送数据流以测饱和吞吐;或构造极端场景(如大量小包突发)测试网络的尾延迟。常见的工具和框架包括:Intel MPI Benchmarks、OSU Micro-Benchmarks(OMB)、NCCL Tests、iperf/netperf(网络吞吐测试)等。一些芯片自带性能计数器,也可用来验证诸如重传次数、利用率等指标是否在合理范围。通过性能和功能测试,能够验证设计是否真正满足了AI训练应用的需求,并发现潜在的瓶颈或不合理之处。可靠性与稳定性测试:高性能互连在各种运行条件下都必须保持稳定可靠。研发阶段会进行一系列压力测试和健壮性测试。例如让互连在环境极限下工作:高温(接近上限,比如50~70℃环境)和低温、不同电压波动条件,验证误码率是否升高、链路是否掉线。长期稳定性测试方面,可能会让系统连续跑重负载(如长时间的深度学习训练任务)来观察是否出现链路错误、中断等。对于网络互连,会测试大规模通信时交换机和NIC是否出现拥塞放大或崩溃。错误注入测试也是重要环节:通过调试接口或故障注入工具,有意制造单个比特错误、丢包、链路闪断等,检查协议的错误处理机制——例如看以太网UEC的Link Level Retry是否能快速恢复丢包而不引发大范围重传;PCIe的LTSSM能否正确重新训练链路等。硬件层面,还会进行EMC/EMI测试,确保高速链路不会因外部干扰产生异常(或不干扰其他设备),以及功耗测试,确认高速总线的电源稳定和散热可控。可靠性测试也包括机械可靠性:像OAM模块的高速连接器需要测试插拔N次后信号衰减有没有超标,连接器的锁紧机构在振动冲击环境下是否依然连接牢靠等等。这些都属于研发验证的一环。许多大厂还会有专门的压力测试集群,在上面不断跑典型AI训练以验证新互连设计在真实工作负载下的稳定性。通过一系列严苛的可靠性测试,工程团队可以提升互连的鲁棒性,发现在极端条件下才暴露的问题,为量产部署打下基础。生产及量产阶段测试经过研发验证定型后,进入批量生产阶段(包括芯片量产和服务器组装),仍需要一系列测试措施来保证产品质量的一致性并降低不良率。由于量产测试面向每一片/每一台出厂产品,必须讲求高效率、低成本,因此策略上与研发阶段有所不同,更偏向快速筛查性的测试。晶圆/芯片级测试(ATE测试):对于互连芯片(如NVSwitch、NIC芯片)或GPU本身,在晶圆和封装测试阶段会使用自动化测试设备(ATE)进行功能和速度筛选。ATE会跑预先定义的测试向量,验证每条高速SerDes链路是否通畅、误码率是否在目标范围。由于ATE测试时间宝贵,一般不可能完整测试每个协议特性,但基本的BIST(内建自测)模式会被触发,比如让收发器进入环回模式发送PRBS31码型,快速测算BER。如果有问题的芯片会在此阶段被筛出。主要的ATE供应商有Teradyne、Advantest等,他们提供专门的高速接口测试模块,可以在量产测试中以并行方式测试多通道,高效产出结果。电路板级生产测试:当GPU和交换芯片被安装到服务器主板或加速卡上后,需要确认焊接和组装过程中没有产生连接故障,且高速通道质量满足要求。生产线上常用的方法包括ICT(电路在线测试)和AOI(自动光学检查)来发现开短路和焊接缺陷。但对于高速差分信号,最佳手段是利用设备自身的功能进行测试。例如很多高速PHY支持内建环回和BER计数。生产测试可以通过软件命令让每个端口进入内部环回模式,发送一定量测试数据,并读取错误计数寄存器。如果某通道存在焊接不良或严重反射,其误码计数会显著不为零,从而迅速定位问题。对于PCIe接口,主板厂商常用PCIe插卡式环回适配器:这是一种将插槽的发送对直连到接收对的特殊测试卡,插入每个PCIe槽后,上位机可以发出PCIe训练序列并检测是否能正确Loopback。如果某槽没训练到目标速率(比如Gen5降速到Gen3)或无法连通,则该板子存在问题需返修。同理,针对于OAM加速模块连接器这样的特殊互连,一些厂家如Saniffer上海公司设计了“假OAM 2.0”测试治具。这种治具形状尺寸模拟真实OAM模块,内部使用高速PCIe芯片,用于测试底板上的OAM插座连接是否完好。这样做的好处是避免使用昂贵的真实GPU模块进行反复插拔测试,以防止损坏并降低成本浪费——据悉,有服务器厂商在量产测试环节发现用真的OAM 2.0卡不断插拔来验证接口可靠性非常不经济,改用dummy治具后大幅节省了材料和维护费用(这一经验已在业内传播)。在高速网络布线方面,也可以采用线缆回环模块来测试交换机端口或NIC端口的基本功能。总之,量产阶段的板级测试追求快速覆盖主要故障,比如连通/不良焊点/器件DOA等,用最少的时间判断产品是否可以出厂。系统级功能抽测:并非每台出厂服务器都跑完整性能测试(那将耗费过多时间),但通常厂商会对抽样的整机做一定的系统验证,确保批量生产没有引入系统性问题。例如抽取一定比例的新机运行实际GPU通信测试程序(如多GPU跑一个AllReduce看性能是否达标),或者在整机上进行简短的Burn-in(老化测试)。Burn-in通常让服务器高负载运行数小时,以捕捉早期失效元件以及观察高温下互连是否稳定。一些厂商也会在产线对每台机器进行基本性能跑分,记录下带宽/延迟等指标,用于后续品质追溯。如果发现某批次指标异常,则能及时调查生产环节的问题。另一方面,量产测试也包括可靠性抽检,例如每N台中抽1台去做温循(温度循环)和振动,验证互连模块在运输和恶劣环境下不会松动或性能衰退。这类测试一般由专门的品质保证团队执行,不在每台设备上都做,但能保证交付给客户的产品总体质量可靠。测试设备和供应商:在生产测试环节,许多传统仪器由于速度慢或成本高,不适合对每件产品使用,因此更多依赖专用测试工装和被测设备自身的诊断能力。不过也有一些厂商提供了量产测试解决方案,例如BitifEye、Keysight等提供高速接口Production Test软件,可以结合较少通道的仪器,在批量中抽检高速链路参数。一些连接器/线缆供应商也提供测试插件,用于在不借助示波器的情况下快速判断信号通路通断。还有厂商设计了所谓板边环回连接器,在主板上预置跳线,使某些高速通道开机自环回,用以简化工厂测试流程。总之,在量产阶段,测试的宗旨是“早发现、快筛选”。通过研发阶段和试产阶段积累的经验,厂家会制定严格的测试SOP,确保每条GPU互连链路在出厂前都经过充分验证,同时尽量降低测试成本和对产品的损伤。比如上文提到的使用假模块进行接口测试,就是一个典型的量产测试优化案例。这些测试手段的有效实施,最终保证了大规模交付的GPU服务器依然能够保持高可靠、高一致性的互连性能。UEC vs UALink:融合前景与以太网改进之异同近年来,面对AI超大规模集群对网络和互连提出的新要求,业界涌现出两个重要的开放组织:UEC(Ultra Ethernet Consortium)和UALink Consortium。二者分别着眼于以太网的演进和加速器直连互连的标准化。下面我们详细比较它们改进以太网协议的异同,并探讨二者未来是否会走向融合。Ultra Ethernet Consortium (UEC):UEC由AMD、Arista、Broadcom、Meta、谷歌等多家业者于2023年发起,目标是优化以太网架构以满足AI/HPC网络需求。UEC着重于从链路层到传输层对现有以太网协议进行升级改造,同时保持与现有以太网的兼容。其1.0规范(2024年底发布)引入了一系列关键技术:链路层改进:提出LLR(Link Level Retry)机制,用链路级自动重传取代传统端到端的PFC无丢包方案,从而在发生丢包时快速重传受影响帧,避免高层大量重试。这样解决了RoCE网络中PFC停顿造成的HoL阻塞和丢包重传开销问题,提高链路利用率并降低尾部延迟。报头压缩:引入PRI(Packet Rate Improvement),对以太网/IPv6报头进行压缩,去除不必要字段,以降低小报文开销,提升每秒报文发送数。因为AI通信多是小包(比如梯度压缩后的数据包),提高包率对性能很重要。拥塞控制和多路径:UEC定义了先进的拥塞控制算法,包括快速拥塞反馈、incast管理、包喷洒(Packet Spraying)等。Packet Spraying允许在网络中对流分拆多路径、乱序发送,从而充分利用多路径带宽并减少拥塞热点对单一路径的影响。另外Selective Retransmit等机制允许乱序重传丢包帧,提高RDMA效率。安全和可管理性:UEC也考虑了数据中心安全,利用IPsec和PSP(Per-Session Protocol)实现传输层的作业隔离和低开销加密。并设计了扩展的LLDP用于协商UEC特性以实现逐跳渐进部署。简言之,UEC是在保留以太网PHY和基本框架前提下,大幅增强其高性能计算适用性,让以太网在性能上逼近InfiniBand,同时保持以太网的开放和成本优势。UEC得到AMD、HPE、Arista等公司积极推动,AMD更将UEC视为其GPU集群的首选方案之一。UALink Consortium:UALink(Ultra Accelerator Link)成立于2024年,由阿里巴巴、AMD、Intel、Meta、微软等十余家成员共同开发开放的加速器直连互连标准。其目标是在节点内部乃至跨节点,实现数百上千颗AI加速芯片的高带宽、低延迟互联,打破GPU间通信的厂家壁垒。UALink 1.0规范(又称UALink_200)于2025年发布,主要特点包括:200 Gbps/lane的PHY:UALink 1.0采用IEEE 802.3dj的200Gb/s物理层技术,每“lane”速率高达200Gbps。实现上可能是每端口若干车道(例如4 lane合成800Gbps端口),可提供远超PCIe的带宽。专用交换和拓扑:UALink设计了ULS(UALink Switch)芯片用于互连,支持多达1024颗加速器组成单一“加速集群(pod)”。每个加速器有唯一的10-bit地址,通过多级开关可路由通信。初始拓扑侧重单层交换,以降低延迟。所谓1级交换即可实现最多1024节点的全互联(假设每开关128端口,两级可覆盖更大,但增加延迟)。在阿里巴巴Panjiu架构中,就规划通过单级ALink Switch无阻塞互连64~128颗GPU,实现超低延迟的Scale-Up网络。轻量高效的协议:UALink并非直接套用TCP/IP或RDMA,而是为加速器通信设计了精简协议,支持读/写/原子等内存语义操作在网络中传递。其目标是在数百GPU间实现类似共享内存的工作模式,软件将这些GPU视作一个“超大GPU”来编程。这需要协议具备极低的处理开销(sub-microsecond级延迟)和硬件的直接内存寻址能力。AMD的Infinity架构提供了一部分支持(如一致性),因此UALink初期预计采用AMD的开放内存协议作为基础。开放标准与互操作:UALink强调开放性和避免厂商锁定。它的成员覆盖云计算公司、CPU/GPU厂商、交换芯片厂商等,旨在让不同厂商的加速器都可以通过UALink互连。这意味着,将来可能出现第三方UALink交换机、适配不同厂商GPU的UALink接口,从而建立一个统一的加速器互连生态。这一点类似于以太网之于网络的角色。UEC vs UALink 异同:两者都源于AI大规模训练的需求,都涉及改良以太网技术,但定位有明显不同:定位与层级:UEC针对scale-out集群网络,也就是传统意义上的多服务器互联,其改进主要在网络的链路/传输层,提升大规模多跳以太网的性能。UALink则聚焦scale-up加速器直连,即在单个加速pod内构建一跳或少跳的专用高带宽网络。可以说,UEC解决GPU出服务器后的通信问题,UALink解决服务器内/机柜内GPU直连问题。协议层次:UEC仍然是在以太网范式内演进——保留MAC/IP层,只是修改/增强其实现。网络上的设备(交换机、NIC)需要支持UEC的新特性,但对于应用层来说依然是套IP或者Verbs接口。UALink则是重新定义了一套协议,不基于IP或传统以太转发,而更类似存储总线或共享内存协议在网络中的扩展。因此UALink的数据包格式、路由方式和操作语义都独立于以太网,仅物理层借鉴以太规范。实际应用中,GPU通过驱动直接操纵UALink通道进行读写操作,这与通过Socket发送IP包的模型很不一样。性能侧重:UEC关注高吞吐+低尾延,通过拥塞控制、多路径让成千上万个流在大型网络上高效传输。UALink更关注极致低延迟和内存级操作,其通信延迟目标是亚微秒级,这相当于传统网络几十甚至上百微秒延迟的两个数量级提升。UALink要做到这点,需要硬件直通、高度并行的交换结构,以及简单的路由协议。此外,UALink专门支持硬件级的同步和一致(如原子操作) —这些都是以太网传统协议所不具备或效率低的。可以认为UALink提供的是“数据中心范围的计算内存互连”,而UEC提供的是“优化过的以太网络传输”。互补性:尽管目标不同,但UEC和UALink并非孤立,反而可能在架构上互补。UALink构建的加速器pod(例如1024 GPUs)仍需要通过某种网络与其他pod或存储系统通信。这时候,UEC优化过的以太网就可以作为pod间互联的理想选择。Synopsys的报道也指出,UALink与UEC是配套协作关系,UALink负责节点内扩展,UEC负责更大范围的网络,两者结合可实现真正大规模、端到端优化的AI集群。甚至在一些会员公司(如AMD、阿里)看来,未来的AI集群架构可能是:“节点内通过UALink组成超大GPU,节点间通过UEC网络连接超大GPU与超大GPU”,从而达到既高带宽低延迟,又具备以太网可扩展性的“理想网络”。融合前景:鉴于两组织关注点不同,短期内组织层面合并的可能性不大。UEC归属Linux基金会旗下,UALink则是独立的行业联盟,各自已有明确的路线图。不过技术上,两者已有紧密关联:UALink采用的PHY正是UEC推动的802.3dj(200Gbps/lane),未来UALink可能提升到800Gbps/lane时也会跟随以太PHY进步。可以设想,将来UALink交换芯片也许会内置部分UEC的运输功能,以在多跳环境中支持路由容错;反之,UEC网络或许会支持承载UALink流量的隧道。这些属于潜在的技术融合方向。更值得注意的是,两者拥有重叠的成员公司(如AMD、Intel、阿里、微软等都参与了双方),因此战略目标是一致的——即打破NVIDIA在GPU互连和网络上的双重垄断,用开放标准构建跨厂商的AI基础设施。这个大方向上,UEC和UALink实际上是在不同战线上协同作战:一个从网络协议入手,一个从加速器直连入手。最终愿景很可能是让基于UEC+UALink的解决方案形成闭环生态,对用户而言无缝使用。从用户角度看,这两者是否“合并”并不重要,重要的是能否共同塑造一个开放、高性能的AI互连体系。目前来看,他们正在朝这个方向努力且各有所长:UEC继承了以太网的开放和灵活,UALink则针对AI计算作了极致优化。若干年后,我们或许会看到一个既包含UALink规模内互联又通过UEC连接跨数据中心的融合网络,但那时二者的概念边界可能已变得模糊。综上,UEC和UALink分别改进了以太网不同层面的能力,一个改良网络栈,一个重塑直连总线。二者立足点不同但目标一致,并不存在直接竞争关系,因此不大可能简单地合并成一个标准。不过,它们已经在技术上紧密合作(如共享物理层、成员协同等),未来更可能以协同标准的形式共同构建AI网络新生态,而非彼此割裂。对于以太网协议的改进,UEC走的是逐层优化、保留兼容性的路线,UALink则是针对加速器场景重新定义协议。两种思路各有侧重,但殊途同归——最终都为了让AI分布式计算中的数据流动更加高效、顺畅。AI训练服务器的Scale-Out网络技术与方案除了服务器内部的GPU总线,跨服务器的“横向扩展”(scale-out)网络同样是AI训练系统的关键组成。大型AI模型往往需要数百上千颗GPU协同,这超出了单机所能容纳的GPU数量,必须通过高速网络将多台服务器连接成集群。与传统数据中心网络不同,AI训练对网络带宽和延迟有极高要求——节点间通信频繁、数据量大、同步要求高。因此,过去几年专为AI/HPC设计的网络技术蓬勃发展。下面介绍当前主流的几类GPU集群互连技术、代表产品/方案,以及它们的优劣势。InfiniBand 网络InfiniBand (IB)是一种面向高性能计算的专用互连网络标准,问世于2000年前后,经过长期发展已成为HPC集群通信的中坚。NVIDIA于2020年收购Mellanox后,InfiniBand技术继续快速演进,并融入其AI网络产品线。当前主流的InfiniBand代际有:HDR InfiniBand:速率200 Gbps(每端口4x50G PAM4),单向带宽25GB/s左右。NVIDIA Mellanox ConnectX-6 NIC和Quantum HDR交换机支持HDR。许多AI集群采用双端口HDR NIC,总带宽可达400 Gbps。NDR InfiniBand:最新一代,速率400 Gbps(每端口4x100G PAM4),单向带宽50GB/s以上。对应的硬件是ConnectX-7/BlueField-3 NIC和Quantum-2交换机。NDR交换机每端口400G,可通过48或64端口交换芯片构建大规模Fat-Tree拓扑。XDR InfiniBand:规划中的下一代,将提升至800 Gbps端口速率,采用更高速SerDes(例如112G PAM4)。NVIDIA已展示了1.6Tbps(双端口800G)概念产品。InfiniBand的显著特点是端到端的硬件RDMA和通信加速。IB使用verbs接口,让应用直接读写远端内存而无CPU介入,实现低延迟通信。更高级的是,IB网络设备具备In-Network Computing能力,例如NVIDIA的交换机集成SHARP技术,可在交换机上直接完成AllReduce等聚合运算,大幅加速像梯度求和这样的操作(据NVIDIA称,可将AllReduce效率提升数倍)。IB还支持GPUDirect RDMA,GPU可以直接通过IB NIC访问远端GPU内存,减少拷贝开销。延迟方面,InfiniBand网络的小包延迟可低至几微秒量级,比传统以太网快一个数量级。这些特性使InfiniBand成为众多超算中心和AI训练集群的首选网络。优势:InfiniBand是为极致性能打造的封闭体系,具有无可比拟的低延迟和高消息吞吐。其链路层采用信用流控避免丢包,保证网络无丢包运行,无需复杂拥塞管理。专有的交换架构和拓扑算法(如fat-tree或Dragonfly+)搭配自适应路由,让IB在大规模情况下也能提供接近线性的性能扩展。InfiniBand的软件栈成熟、优化充分,MPI、NCCL等都对其有专门优化,开销极低。另外,由于IB生态相对统一(主要NVIDIA一家提供),版本兼容和调优由厂商一体解决,用户可以获得开箱即用的性能。劣势:主要是成本和封闭。IB设备昂贵,交换机和NIC只能从NVIDIA购买,价格较同速率以太设备高。同时因为其封闭,难以融入现有数据中心以太架构,对于云厂商来说可管理性和通用性较差。此外,IB虽然强大,但在极大规模(如上万节点)下也存在挑战,尤其在多租户和复杂工作负载混合情况下,IB的静态路由和信用机制可能出现效率下降。NVIDIA近年也推出了基于以太的Spectrum-X方案(见下节),可以看作对IB的补充。在一些案例中,如Meta的新AI集群,已能看到以太网方案在性能上开始逼近InfiniBand。尽管如此,就当前而言,InfiniBand仍是在HPC和部分AI超级集群中最可靠高效的选择,特别是在用户愿意为顶级性能支付溢价的场景下。高速以太网 (RoCE及增强型以太方案)以太网是数据中心中无处不在的网络技术。传统以太网因其高灵活性和多供应商生态,成本低廉且易于拓展。但以前AI/HPC领域很少用以太网,因为标准TCP/IP协议栈开销大、软件延迟高。然而,近年来以太网通过RoCE (RDMA over Converged Ethernet)引入RDMA能力,加上网络硬件速度飞跃式提升,使其逐渐成为AI训练集群的可行方案。典型配置如100Gb、200Gb、400Gb、800Gb以太网网卡和交换机已经商用,并部署在一些AI集群中。例如阿里云据报道在其GPU集群中使用每台服务器8块GPU配9个100Gb以太网端口直连交换机的架构,实现各GPU节点互联。这种架构利用以太网组建大规模低直径网络,在大型AI训练中取得了可观性能,同时成本相对可控。以太网方案主要包括以下几种形式:RoCE v2 标准以太:使用标准以太交换机(支持DCQCN拥塞控制和PFC流控)和RDMA网卡(常见如Mellanox ConnectX系列、Broadcom/BITNIC等),在IP网络上运行RDMA协议。RoCE v2对网络要求是无丢包(通过PFC保证),但PFC可能导致死锁和拥塞传播,需精细配置。大规模下DCQCN算法也有局限。这种方案实现简单(在IP网基础上配置即可),例如微软早期的AI集群就使用RoCE + Fat-Tree网络。无损以太增强:为改善RoCE性能,厂商推出一系列改进,比如Broadcom的Congestion Isolation功能、Cisco的动态队列限制等,缓解PFC问题。一些超算采用定制的拓扑和路由(如龙型Dragonfly)配合以太网交换芯片,以降低直径和拥塞。专用AI以太方案:NVIDIA于2023年发布Spectrum-X,将其Spectrum-4以太交换机与BlueField-3 DPU搭配,提供端到端优化的以太网络。Spectrum-X包括硬件级的拥塞检测、广播优化,以及“SuperNIC”架构(在DPU上卸载GPU通信)。据报道,Spectrum-X网络可在多租户云环境中实现媲美InfiniBand的延迟和吞吐。另一家HPC厂商HPE则推出Slingshot交换机(用于Frontier、Aurora超算),其特点是在标准以太网PHY下引入自适应路由、拥塞控制,并支持混合HPC和IP流量。这些都算是以太网的特化版本。Ultra Ethernet (UEC):前文介绍的UEC规范正是对以太网的全面增强方案。虽然UEC设备尚在开发中,但它预示了未来以太网网络针对AI负载的设计方向:无丢包、高利用率、低尾延迟,且保持与现有协议兼容。AMD已宣布其Pensando系DPU下一代产品将支持UEC的特性。一旦产业链完善,UEC很可能成为AI以太网络的新的事实标准。优势:以太网方案最大的优势在于开放性和成本效益。多家厂商(如Broadcom、Cisco、Intel等)生产兼容设备,竞争带来价格下降,也避免锁定某一家供应商。对于已有大规模以太基础设施的云厂商来说,使用以太网络连接GPU集群可以复用现有网络管理和运维工具,降低部署复杂度。另外,以太网易于扩展到超大规模,互联网企业对大规模Clos网络的管理驾轻就熟,可直接套用于GPU集群。随着400G乃至800G以太的推出,带宽瓶颈也逐步缓解。同时,新技术(如UEC)的加持将显著缩小与InfiniBand在延迟和负载管理上的差距。因此,以太网让AI网络既能享受高性能,又能保持与普通数据中心网络的一致性,这是非常具有吸引力的。劣势:目前标准以太方案若无定制优化,在一些极端场景下性能不够理想。比如PFC配置复杂且有死锁隐患,RoCE对丢包极其敏感导致调优困难。当网络规模增大时,拥塞热点可能导致尾延迟飙升,多租户环境中链路争用也可能带来不可预知的抖动。这些都需要通过更智能的算法和更强大的NIC/交换芯片配合解决(这正是UEC等致力的方向)。总的来看,以太网正在迅速赶上AI网络需求曲线,特别在云和互联网公司那里已成为首选方案之一。从占有率看,近年来新建的大型AI集群采用以太的比例在提高,InfiniBand逐渐从绝对主角变为与以太平分秋色。如果UEC等取得成功,我们有望看到以太网彻底主导AI训练网络的局面。NVIDIA NVLink跨节点互连除上述两大主流外,值得一提的是NVIDIA在最新H100架构中推出的NVLink Switch System,它使NVLink这种原本节点内部的互连延伸到了节点之间。NVLink Switch是一种专用交换机(前文提及,每台包含2颗NVSwitch芯片),通过有源光缆连接多台GPU服务器。在典型配置中,可将若干台8-GPU服务器组成为一个多机一体的NVLink域。例如NVIDIA官方资料提到,通过两级NVLink Switch,可以将256颗H100 GPU互联形成统一集群。这实际上把NVLink网络的规模从单机8或16卡扩展到了32台服务器的规模,相当于一个小型数据中心都在同一个NVLink全局地址空间下运行。NVLink跨节点互连的优劣势非常明显:优势是性能无敌——带宽远超以太或IB,延迟极低(因为基本还是NVLink级别的跳数)。对于需要极高通信密集度的作业(如超大模型的Tensor并行,需要GPU间频繁同步),NVLink网络提供了梦寐以求的通信能力。而且GPU可以直接进行一致内存操作(NVLink支持GPU内存的统一寻址),这使编程简化、效率提升。缺点在于适用范围有限:NVLink Switch系统成本极其高昂,而且距离受限(通常一两个机架内)。要部署这样网络的用户基本只可能是购买整套NVIDIA解决方案(如DGX SuperPOD)的客户。对更广泛的用户来说,可复制性不高。此外NVLink网络扩展到256 GPU虽然强大,但更大规模(上千GPU)仍需多组NVLink域再通过传统网络相连。因此NVLink Switch不是通用集群互连的解决方案,更像NVIDIA提供的一种高端选项,服务于那些愿意投入重金打造顶尖性能集群的场景。其他方案和未来趋势在scale-out互连领域,还有一些其他值得一提的方案:谷歌TPU互连:虽然TPU不是GPU,但其互连网络技术代表了另一种思路。谷歌为TPU定制了高速ICN(Inter-Chip Network),采用2D Torus拓扑把每个TPU板上的芯片连接,再通过超级POD拓扑(更高层交换)连接数千TPU。这种torus结构延迟更低,但需要模型特别拆分以适应。GPU目前没有采用环形或网格拓扑互连节点的先例,大多用Fat-tree网络,但随着NVLink网络扩展,这种可能性也在被探索。光互连:无论InfiniBand还是以太,目前都面临电铜介质信号衰减瓶颈。未来的GPU集群很可能更多依赖光通信。近年来兴起的CPO(共封装光学)、硅光交换等,将有望将网络延迟进一步降低并提高能效。在GPU直接互连上,实验室已经出现用光纤直接连GPU的尝试。阿里巴巴等也提到在Scale-Up互连中引入光互连作为减小延迟的方向。因此可以预见,光技术将在下一代AI网络中扮演更大角色,带来新的产品形态。软件定义及拓扑优化:除了硬件,软件方面如Facebook发表的HPC-Y拓扑优化,或者微软研究的特别路由算法,都在尝试通过调度和路由层改善大规模AI通信。NVIDIA推出的NCCL Swift、微软的DeepSpeed等框架也整合了对网络的优化。虽然这不是“总线技术”本身,但与硬件互连相辅相成,共同提升性能。总结比较:InfiniBand vs Ethernet的争论可概括为“专用高性能”对“开放灵活”。InfiniBand当前依然在最高性能上占优,适合需要极致低延迟的规模适中集群;以太网凭借强大的迭代速度和生态,已经在大规模AI训练中证明了自己,将随着UEC等增强方案而更加强大。NVIDIA的NVLink网络提供了第三种路径,在特定范围内性能秒杀前两者,但受限于生态和距离,只能作为特殊场合补充。对于构建AI训练集群的用户,一般会考虑混合使用:例如节点内NVLink,节点间Ethernet或IB;或者小规模用NVLink,扩展用Ethernet等。关键是根据工作负载特性和预算进行取舍:带宽/延迟敏感的大模型训练:优先考虑NVLink域(如果预算允许)或InfiniBand网络,因为这类任务通信占比高,需要最低延迟保障。规模超大的互联网级集群:倾向Ethernet方案,因其可扩展性和经济性,在万级GPU规模时容易管理和部署,且可利用云厂商已有设施。异构/通用数据中心:以太网胜出,可以统一承载存储、训练、推理等流量,通过QoS区分,而InfiniBand只能专网专用。未来展望:随着以太网不断改进和GPU直连标准化(UALink)的出现,我们可能迎来统一的架构:小范围内加速器通过UALink形成超级计算单元,大范围通过UEC优化的以太网互连这些单元。那时,我们或许不再纠结选IB还是Ethernet,因为开放以太将足以满足几乎所有场景,同时提供跨厂商互通性和更低成本。NVIDIA方面,可能也会将NVLink与其以太产品更紧密结合(例如未来BlueField DPU整合NVLink,AMD已计划在DPU上集成XGMI)。总之,AI训练网络技术正朝着更高速、更智能、更开放的方向发展,各种总线技术在其中扮演不同角色。掌握并测试好这些互连,将使我们能够建造更大更强的AI计算集群,为下一代AI应用奠定基础。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。白皮书下载链接 (或者点击下面的二维码直接下载):https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。
    2025-12-31 09:50:37
  • 【高清视频】笔记本电脑出现蓝屏、死机、慢、不稳定是这样连接分析M.2 SSD的

    我们之前多期视频介绍了如何使用SerialTek PCIe 5.0和6.0 协议分析仪分析各类接口,包括常见的大概16、17种PCIe接口的各种问题。经常有一些朋友可能没有机会使用这类PCIe协议分析仪,所以对于如何将分析仪串接在PCIe链路中间抓取双向数据没有一个感性认识。 我们今天的视频就是从这个非常简单的诉求出发,介绍一下PCIe分析仪如何串接在我们大家每天都在使用的笔记本电脑的CPU和M.2 NVMe SSD之间来解决各种蓝屏、死机、慢、不稳定的问题,尤其是分析各类L1.2低功耗进、出导致的各类问题。(受制于拍摄时候没有笔记本可用,所以使用台式机的M.2做演示,大家可以将台式机主板的M.2槽想象成笔记本电脑后盖打开后的M.2 SSD插槽即可) 为了方便工程师观看,我们针对本期视频并处理添加了中文字幕供大家参考。如果想看高清视频建议要在电脑上打开上面的视频链接进行观看!创作不易,欢迎分享到朋友圈或者与朋友讨论!如果想搬运我们的视频请告知我们。 PCIe / NVMe 协议分析仪在 M.2 SSD 场景下的串接方法与原理说明 (基于视频的实物演示总结) 一、为什么很多人“不理解”PCIe 分析仪如何串在 CPU 和 M.2 SSD 之间? 视频一开始点出了一个非常典型的认知差异: 研发/验证工程师 熟悉协议分析仪、Interposer、POD 这些概念 普通用户 / 非底层测试背景的人 很难想象: “PCIe 是高速直连的,分析仪是怎么插进去的?” 因此,本视频的目的并不是讲协议细节,而是: 通过一台真实的台式机 + 实物设备, 直观展示 PCIe / NVMe 协议分析仪是如何“无侵入式”地串接在 CPU 与 M.2 SSD 之间的。 二、关于低功耗测试场景的一个重要前提说明 视频中明确强调了一个常被忽略的事实: PCIe 低功耗(如 L1.2) 笔记本 手机 Pad 等消费类设备 主要存在于: 台式机主板 尤其是 PCIe 5.0 x4 的 M.2 插槽 通常并不支持完整的低功耗状态 因此: 本视频使用台式机进行演示,重点在于“连接方法是通用的”, 而不是为了验证低功耗本身。  三、PCIe / NVMe 协议分析仪的基本定位 1. 协议分析仪的本质 视频中给出了非常准确的定义: PCIe 协议分析仪: 是一个旁路(passive)设备 不参与链路训练、不修改数据 只做: 抓包,解码,分析,展示 它既可以被称为: PCIe 协议分析仪 也可以称为 PCIe / NVMe 协议分析仪 因为: PCIe 是底层协议 NVMe 是其上的上层协议 分析仪天然可以解析 NVMe。 四、为什么需要 Interposer?——“串接”的核心原理 1. 分析仪不能直接插在主板上 协议分析仪本身: 没有 M.2 金手指 也不是 SSD 不能直接插在主板和 SSD 之间 因此,需要一个中间插卡: Interposer(中介板 / 夹具)  2. SerialTek 的模块化 Interposer 架构 视频中展示的 SerialTek 方案具有一个关键特点: 中间:POD 母板(固定) 两侧:可更换的 Adapter(俗称“小翅膀”,adapter wing) 也就是说: 中央高速信号处理结构不变 通过更换两侧 Adapter 适配不同接口形态 例如: M.2 插卡 U.2 / U.3 E1.S / E1.L E3.S / E3.L 小结:接口变了,但分析原理完全一致。 五、以 M.2 SSD 为例的完整串接步骤 1. 原始状态(无分析仪) CPU → 主板走线 → M.2 插槽 → SSD 本视频使用的是: AMD CPU PCIe 5.0 x4 的 M.2 插槽(Blazing M.2) 2. 拆下 SSD,插入 Host Side Adapter 关键步骤: 将原本插在 M.2 插槽中的 SSD 取下 插入 M.2 Host Side Adapter(蓝色小板) 该 Adapter: 提供多种长度规格: 2230 / 2232 / 2240 / 2260 / 2280 / 22110 可覆盖: 笔记本 台式机 不同尺寸 M.2 SSD 3. Host Side Adapter → POD → Device Side 信号路径在插入分析仪后,变为: SSD → CPU 的回程路径同理,只是方向相反。 六、高速信号与边带信号的分流方式 1. 高速差分信号(PCIe 主体) 分为两个方向: Downstream:CPU → SSD Upstream:SSD → CPU 在分析仪侧: 明确区分 Upstream / Downstream 端口 对于 M.2: 单端口(Single Port) 一路 x4 使用 U0/U1 与 D0/D1 对应连接 2. Sideband(边带)信号 CPU 与 SSD 之间的: CLKREQ# PERST# WAKE# 等sideband边带信号 通过专用 Sideband 线缆 从 Interposer 引出 连接到分析仪的 Sideband 接口(如 SB0) 小结:这使得低功耗状态、唤醒行为等都可以被完整捕获。 七、分析仪在系统中的角色再强调 视频最后再次强调了一个核心认知: 协议分析仪: 不改变链路行为     只是把:PCIe 双向高速信号,Sideband 信号,分流出来 抓到的数据包括: Ordered Set Packet 协议状态变化 工程师据此进行: 解码 分析 问题定位 八、方法的可扩展性 一旦理解了 M.2 的连接方式, 其他所有 PCIe 存储/扩展形态, 只是“换 Adapter”, 原理完全一致。 包括但不限于: 插卡 U.2 / U.3 E1 / E3 系列企业级形态 九、总结 PCIe / NVMe 协议分析并不是“把分析仪插进去”, 而是通过 Interposer + POD 架构, 在不破坏链路的前提下, 把 CPU 与设备之间的高速与边带信号完整引出并分析。 更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。 白皮书下载链接 (或者点击下面的二维码直接下载): https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y 如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862,sales@saniffer.com。  
    2025-12-30 10:22:06
  • 【每日一题】AI时代大家都要了解的GPU互联相关的总线技术

    周六早上一个间接的搞投资的朋友可能因为要需要看一些AI底层技术的项目,想访谈一下涉及PCIe和NVLink相关的技术提前准备一下功课。我突然想起来之前之前想搞这么一篇文章,介绍介绍和AI加速、GPU互联相关的底层总线技术。今天把之前的素材找出来重新总结了一下,放在这里供大家参考。GPU互联的各类总线技术引言随着AI训练集群的规模不断扩大,GPU之间高速互联成为性能瓶颈突破的关键。当前在全球范围内,业界采用了多种GPU“纵向(scale-up)”互联总线技术,包括NVLink、PCI Express(PCIe)、以太网(Ethernet)等标准,以及新兴的Compute Express Link(CXL,底层打底是PCIe 5.0速度,预计将从PCIe 6.0开始加速部署)和其它专有/开放互联(如AMD的Infinity Fabric/XGMI、Ultra Accelerator Link 等)。本文将系统总结这些GPU互联涉及的大家经常听说的各类总线技术的协议代际规格(速度、通道数和理论带宽)、各自的发展趋势、技术优劣势,以及主要厂商的采用和推广情况。同时,我们将按照当前实际部署的占有率对这些技术进行排序。本文后半部分将阐述各类互联总线在研发、测试到量产阶段需要进行的测试项目、测试技术和使用的测试工具/厂家,并以实例说明如何在量产环节确保产品质量。最后,我们将详细讨论Ultra Ethernet Consortium(UEC)与Ultra Accelerator Link(UALink)这两个组织的技术走向,以及二者在以太网协议改进方面的异同,评估它们未来融合的可能性。主流GPU互联总线技术概览当今GPU加速服务器中主要的互联总线技术包括PCIe(基础IO总线,更多详细介绍可以参考、下载本文底部Saniffer发布的”白皮书“)、专用高速GPU互联(如NVIDIA NVLink、AMD XGMI/Infinity Fabric)、基于标准网络的互联(以太网及InfiniBand),以及新兴的开放标准(如CXL和UALink)。下面分别介绍各技术的原理、代际规格和性能指标。PCI Express(PCIe)PCIe是通用高速串行总线,也是GPU与主板/CPU连接的基础接口。每一代PCIe将速率翻倍:PCIe 3.0每通道8 GT/s(约1 GB/s有效带宽),PCIe 4.0每通道16 GT/s(≈2 GB/s),PCIe 5.0提升至32 GT/s(≈4 GB/s),PCIe 6.0使用PAM4调制达到64 GT/s(有效约7.5 GB/s)。典型配置下,PCIe x16插槽提供的理论带宽如下:PCIe 3.0 x16:单向约16 GB/s,双向合计≈32 GB/s。PCIe 4.0 x16:单向约32 GB/s,双向合计≈64 GB/s。PCIe 5.0 x16:单向约64 GB/s,双向合计≈128 GB/s。PCIe 6.0 x16:单向约121 GB/s,双向合计≈242 GB/s(引入前向纠错FEC,编码开销后有效带宽约7.5 GB/s/通道)。PCIe 7.0 x16:单向约242 GB/s,双向合计≈484 GB/s说明:上述带宽为理论最大值,实际有效负载吞吐受编码开销和协议开销影响略低。PCIe 8.0已在规划中(目标256 GT/s,即再翻倍带宽)以满足未来需求。技术特点:PCIe作为通用标准,具有广泛兼容性和成熟的生态。所有GPU(无论NVIDIA、AMD或国内GPU)在与主机CPU通信时都支持PCIe。因此PCIe的部署率几乎是100%。优点是标准开放、支持热插拔和拓扑灵活(可通过PCIe交换芯片扩展设备数)。但PCIe相对而言延迟较高,且缺少跨设备的内存一致性(直到CXL出现之前)。在多GPU直连通信方面,PCIe必须通过共享PCIe交换机或CPU内存转发,带宽和延迟都不理想。因此,在大型GPU系统内部,厂商引入了专用高速直连总线来补强PCIe的带宽和延迟不足。NVIDIA NVLink 和 NVSwitchNVLink是NVIDIA开发的专用高速GPU互联总线,支持GPU-GPU以及GPU-CPU直接通信。NVLink采用多条高速差分信号对组成链路,提供远高于PCIe的传输带宽和较低延迟。各代NVLink的速率和带宽如下:NVLink 1.0(2016,Pascal架构):每对差分线速率20 GT/s,8对为一方向子链路,双向链路总带宽20 GB/s。Pascal每GPU支持4条NVLink 1.0链路,总双向带宽可达160 GB/sNVLink 2.0(2017,Volta架构):速率提升至25 GT/s,8线构成单方向25 GB/s带宽,双向链路50 GB/s。Volta V100 GPU支持6条NVLink 2.0链路,总带宽达300 GB/s(双向)NVLink 3.0(2020,Ampere架构):信号速率翻倍至50 GT/s,但每链路所需差分对减半(4对/方向),因此单链路带宽仍为50 GB/s双向。Ampere A100每GPU配备12条NVLink 3.0,合计双向带宽600 GB/sNVLink 4.0(2022,Hopper架构):采用PAM4调制在50 GT/s速率下传输,单链路维持50 GB/s双向。Hopper H100每GPU增加到18条NVLink 4.0,总带宽达900 GB/s(双向)NVLink 5.0(2024+,Blackwell架构):进一步提升为100 GT/s,单链路带宽翻倍至100 GB/s双向,若仍采用18条链路则总带宽可达1.8 TB/sNVLink在少数GPU间可直接全连通;在GPU数量更多时,引入专用交换芯片NVSwitch构成星型/集群拓扑。NVSwitch提供NVLink端口集中交换,实现每GPU对等互连。例如,H100的NVSwitch芯片拥有64个端口,可支持多达64块GPU互连,整机总交换带宽高达7.2 TB/s@ 900 GB%2Fs)。NVSwitch还支持硬件直通的集合通信加速(如SHARP,用于GPU间规约运算)优劣势:NVLink/NVSwitch是目前带宽最高、延迟最低的GPU互联方案之一,使NVIDIA GPU可以组成大规模共享内存域(如DGX系列系统)。它的劣势在于专有封闭:NVLink仅适用于NVIDIA自家GPU/CPU,不兼容第三方硬件。这种锁定生态使系统灵活性受限,且NVLink需要特殊物理接口(如NVIDIA SXM模块)和交换芯片支持,增加成本。尽管如此,依托NVIDIA在AI市场的主导地位,NVLink的部署占有率在专用GPU互联中位居第一。所有基于NVIDIA A100/H100等GPU的高端服务器一般都启用了NVLink互联,而使用PCIe插卡的中低端GPU服务器则可能仅靠PCIe通信。AMD Infinity Fabric / XGMIInfinity Fabric是AMD的片上互连架构,扩展用于芯片间高速通信。针对GPU对GPU互联,AMD提供了XGMI(External Global Memory Interconnect)协议,构建在Infinity Fabric之上,实现多GPU共享统一内存地址空间的一致性互连。XGMI主要用于AMD Instinct加速器(MI系列)以及GPU与CPU的直连通信。例如,MI50/MI60 GPU之间就通过XGMI桥接,AMD最新的MI300X GPU也采用Infinity Fabric 4代技术连接多Chiplet和多GPU。性能规格:以MI300系列为例,每块MI300X GPU具有最多7条Infinity链路,每条链路为16通道,第四代Infinity Fabric速率约32 Gbps/通道,折合每条XGMI链路双向带宽约128 GB/s(单向约64 GB/s)。这比PCIe Gen5 x16的64 GB/s单向带宽高出一倍。多个MI300 GPU可以通过XGMI组成所谓“hive”架构,所有GPU共享各自HBM组成的统一内存池。早期的MI100等GPU也支持双GPU间的XGMI直连,其带宽据报告单向可达几十GB/s量级(例如双MI100测得双向~70–92 GB/s性能,接近理论值)。发展趋势:AMD正将Infinity Fabric拓展到交换拓扑,以超越单机限制。如Broadcom的下一代PCIe交换芯片Atlas 3将支持直接转发XGMI流量,并号称可通过36 dB信道驱动数米铜缆,这意味着XGMI可以用直连线缆扩展到机箱间连接[。这类似于NVIDIA通过NVSwitch和LinkX电缆扩展NVLink的做法。未来AMD GPU有望借助外部交换芯片,在机柜级实现类似NVSwitch的多GPU互连规模。此外,AMD还计划将XGMI接口集成到智能网卡DPU上,构建所谓“AI NIC”,使NIC可以直接与GPU缓存一致连接。这一策略将结合以太网络进行跨节点扩展(见下节),形成AMD自己的GPU互连+以太网络的分层解决方案。优劣势:XGMI提供了缓存一致性和内存直访能力,这是NVLink目前尚未完全提供(NVLink支持统一虚拟内存但非完全硬件缓存一致)。因此在AMD CPU+GPU平台上,GPU可直接参与统一内存编址,减少数据拷贝开销。不过XGMI的生态普及率较低:仅AMD Instinct加速卡和配套平台支持,AMD在AI加速器市场份额相对有限,因此XGMI部署量远不及NVLink。目前XGMI主要出现在像Frontier超算这类全AMD系统中,尚未形成跨厂商的通用标准。随着AMD推动开源生态(ROCm、RCCL库等)以及携手Broadcom等伙伴推动开放互连(见UALink),XGMI技术可能在联盟规范下获得更广泛应用。以太网 & InfiniBand(GPU集群网络互连)以太网(Ethernet)是使用最广泛的网络互连技术,在GPU服务器和集群中主要担当“横向(scale-out)”通信职责,即跨服务器节点的数据交换。近年来,随着高速以太网的发展,不少AI训练集群开始直接采用以太网作为GPU节点互联的高性能网络。在高端HPC和部分AI集群中,NVIDIA的InfiniBand也是重要的网络互连,其定位与以太网类似,但针对HPC通信优化。性能演进:数据中心以太网链路速率不断提升,当前主流高速以太网标准包括100 Gbps、200 Gbps、400 Gbps,800 Gbps,1.6Tbps端口也已推出。以太网速率常通过增加通道数和提高单通道速率实现,例如100G可由4×25 Gbps通道组成,400G可采用4×100 Gbps PAM4通道,800G则通过8×100 Gbps或4×200 Gbps实现。最新IEEE 802.3dj标准正定义单通道200 Gbps(212.5 GT/s)的以太网PHY,用于800G和更高速率网络。延迟和协议:传统以太网采用TCP/IP协议栈,软件开销大而延迟相对高。然而在GPU集群中,通常使用RDMA技术(如RoCE以太网RDMA)绕过内核,提高吞吐并降低延迟。现代400G以太网卡配合RDMA的一端对端延迟可低至数微秒量级,但仍高于NVLink这类总线级互连(纳秒级)。InfiniBand是另一种HPC网络标准,提供类似RDMA的功能和硬件调度,延迟比以太网略低且抖动小。当前InfiniBand NDR速率为400 Gbps,与400G Ethernet相当,下一代HDR 800G也在规划中。许多传统超算使用InfiniBand作为GPU节点互联,但在云和AI公司数据中心,以太网正成为主流选择。NVIDIA自身也提供两种方案:InfiniBand用于经典HPC集群,而针对新兴AI超级集群推出了基于以太网Switch和BlueField DPU的Spectrum-X方案。目前迹象表明,InfiniBand在AI领域的领先地位受到挑战,高性能以太网因其通用性正迅速崛起。优劣势:以太网兼容性强、成本相对低,可与企业现有IT架构融合,这是其一大优势。通过UEC等组织的推动(后述),以太网正引入新机制改善大规模AI通信的效率和可靠性。InfiniBand则在技术上略胜一筹(成熟的硬件RDMA、极低延迟的交换体系),但它是专有标准(由Mellanox/NVIDIA主导),设备费用高且生态相对封闭。总体而言,就部署占有率看:千兆及以上以太网接口存在于几乎每台服务器上,以太网网络的普及率最高。在高性能GPU集群中,InfiniBand曾占相当比例,但如今大型AI集群更多转向以太网(配合RDMA)或Ethernet/InfiniBand并存。因此,综合AI/HPC领域,以太网网络的节点覆盖率要高于InfiniBand。两者在GPU互联市场形成并存局面:NVIDIA自身统计其数据中心GPU出货中有约75%伴随网络产品,其中InfiniBand和以太网均占相当部分,但最新趋势是以太方案增长更快。Compute Express Link(CXL)CXL是近年来崛起的开放标准互连协议,旨在利用PCIe物理接口实现CPU与设备(GPU/FPGA等)以及内存之间的高速、缓存一致互连。CXL由业界联盟于2019年发起(成员包括Intel、AMD、ARM、IBM、阿里巴巴、华为等)。它在PCIe 5.0及以上总线上运行,提供三种子协议:CXL.io(PCIe等价的IO通信)、CXL.cache(共享缓存一致性)、CXL.mem(内存直访)。这使加速器能够像CPU一样缓存访问主内存,甚至多个设备共享内存池。代际性能:CXL沿袭PCIe带宽演进,带宽随底层PCIe翻倍:CXL 1.1/2.0:基于PCIe 5.0(32 GT/s),x16链路单向最高约64 GB/s,双向128 GB/s。CXL 2.0引入内存池化和热插拔支持,但仍局限于点对点或切换式拓扑(类似PCIe Switch)。CXL 3.0:基于PCIe 6.0(64 GT/s),x16单向带宽提升至约121 GB/s(双向≈242 GB/s)。CXL 3.0在2022年公布,增加了多层交换、多主机共享内存、一致性域扩展等特性,使得多个CPU和加速器可以通过CXL交换架构构成大规模一致内存系统。CXL 4.0:于2025年11月发布,基于PCIe 7.0(128 GT/s),再次将带宽翻倍至x16单向约242 GB/s(双向近500 GB/s) 。CXL 4.0继续增强一致性和内存共享能力,让异构计算资源更高效协同。技术特点和趋势:CXL最大的价值在于开放统一:它整合了此前多个竞争规范(如Intel的OPA、Gen-Z、IBM OpenCAPI、CCIX等为一体,成为业界公认的CPU-设备一致性互连标准。未来服务器处理器(如Intel Sapphire Rapids、AMD Genoa)都已支持CXL 1.1/2.0,用于连接内存扩展模块(CXL Memory Expander)或高速存储级内存。对于GPU等加速卡,目前NVIDIA和AMD也加入了CXL联盟。然而截至2025年底,GPU直接通过CXL互连的部署还非常有限。NVIDIA尚未让其GPU支持CXL模式(仍用NVLink),AMD则有概念演示但产品未普及。CXL最大的短板在于高延迟:因叠加在PCIe之上,协议层级深且FEC纠错带来额外延迟,比NVLink/Infinity直连高不少。另外,CXL目前更多用于CPU主导的内存池化场景,尚未在多GPU互联中扮演主要角色。但长远看,CXL有潜力成为不同厂商加速器与CPU共享内存的标准接口,特别是在需要大量统一内存的AI推理和数据中心应用中。优势:开放标准、广泛支持、提供内存一致性,未来可简化异构系统设计。劣势:现阶段带宽和延迟不如专用GPU互连,产业成熟度有待提高。CXL的现实部署占有率目前主要体现在高端服务器内的内存扩展上,在GPU互联市场影响力还处于起步阶段。Ultra Accelerator Link(UALink)UALink是2024年发起的全新开放互连规范,全称“Ultra Accelerator Link”,旨在为AI加速器提供厂商中立的高带宽、低延迟互联解决方案。它由AMD、Broadcom牵头,与Cisco、谷歌、Intel、Meta、微软等共同成立联盟制定。UALink的目标是直接对标NVIDIA的NVLink/NVSwitch,为多GPU(或其它加速芯片)构建大规模共享内存互连,并以开放标准降低成本、促进多厂商互通。技术规格:根据2025年4月发布的UALink 1.0规范:高速SerDes:采用修改的以太网PHY,信号速率212.5 GT/s,考虑64B/66B编码和FEC开销后,每通道净数据率200 Gb/s。这相当于每通道单向200 Gb/s(双向合计400 Gb/s)的吞吐。链路配置:UALink可按x1、x2、x4聚合通道,一个x4链路由4个通道组成,总带宽高达800 Gb/s单向(即800 GT/s双向,每方向约100 GB/s)。相比之下,NVLink 4.0单GPU总带宽900 GB/s双向,但需要18条链路;UALink则倾向于每GPU一个端口即可提供≈100 GB/s单向带宽,通过集中交换扩展。扩展规模:单个UALink互连系统最高支持1024个加速器端口,通过多级UA Switch实现扇出,采用10比特设备ID路由。链路设计针对机架/机柜范围,线缆长度优化为<4 米,64B小包往返延迟<1 微秒,实现跨1–4机架的确定性低延迟通信。这意味着UALink可将多达千片GPU组成一个低延迟互联域,规模远超当前NVSwitch单机架72–144 GPU的连接能力。协议层:UALink定义了4层硬件协议栈(Physical、Data Link、Transaction、Protocol)。物理层使用标准以太网组件(如200G BASE-KR/CR)并简化FEC降低延迟[;数据链路层以64 Byte微帧(flit)为基本单位,组合成640 Byte帧传输,并提供CRC校验与重试机制,支持链路管理消息等;事务层实现地址压缩和直接远程内存读写/原子操作,保证本地和远程内存访问顺序一致[。协议层支持直接的内存负载/存储语义,使GPU间可直接读写彼此内存(类似统一虚拟地址空间),这正是与NVLink/Infinity一致性内存的同类能力。安全与虚拟化:UALink内置硬件安全机制UALinkSec,支持链路数据全加密和认证,防范物理窃听篡改,适配机密计算环境(如AMD SEV、Intel TDX等)。支持虚拟Pod划分:通过交换层配置,可在单个互连域内将若干GPU划分隔离给不同租户/任务,实现多租户并行训练且保障带宽和安全。管理方面,提供标准接口(如通过PCIe、以太网的控制通道)进行设备监控、遥测、故障定位等,联盟提供参考管理软件栈。优势展望:UALink由众多行业巨头支持(AMD、Intel、谷歌、苹果等),力图成为“加速器互连的de facto标准“。其技术设计充分利用了最新以太网SerDes的发展,方便现有硅工艺和材料复用(降低开发难度和成本)。相较NVLink的封闭生态,UALink有望让更多厂商参与GPU互联,实现异构系统的互操作和规模化(比如未来AMD、Intel的GPU都使用UALink端口,可连接统一交换网络)。安全隔离和多租户支持也贴合云计算AI集群需求,这是NVLink目前未完全覆盖的场景。劣势与挑战:UALink规范虽已发布,但实际产品尚需时间推出,实现超过NVLink的性能也取决于交换芯片和协议栈成熟度。NVIDIA作为市场主导者短期内不大会主动采用UALink;因此UALink初期生态可能主要由AMD等推动,需要证明其性价比和性能优势以吸引广泛采用。总的来说,UALink目前处于研发初始阶段,实际部署占有率接近0,但未来2-3年内随着联盟成员推出支持UALink的GPU、交换芯片,可能逐步形成对NVLink的有力竞争。技术部署占有率排序基于以上分析,按照当前实际部署和应用的广泛程度,可以粗略将主要GPU互联技术的市场占有情况排序如下:PCIe总线:所有GPU服务器都离不开PCIe,与CPU通信100%依赖PCIe,因此PCIe无疑是最普及的基础互联总线。每块加速卡至少提供PCIe x16连接主板,即使有专用高速链路,PCIe仍用于控制及数据补充通道。以太网网络:从单机到大规模集群,以太网覆盖率极高。几乎所有服务器节点都有千兆/万兆以太端口用于集群管理或存储网络,而在AI训练集群中,100G/200G/400G以太网(结合RDMA)正成为主流节点互联方案。特别在互联网公司和云厂商的数据中心,采用以太网构建GPU集群(如Facebook、微软的AI集群)带来了良好的灵活性和成本优势。InfiniBand网络:在高性能计算和部分AI超级计算中心,InfiniBand仍然扮演重要角色,许多GPU集群通过InfiniBand 200G/400G网络实现低延迟通信。NVIDIA的大型DGX SuperPOD方案往往配置InfiniBand HDR/NDR交换机。但相对于以太网,InfiniBand部署主要集中于传统HPC和部分高端AI场景,总体节点覆盖数略低于以太网。目前有迹象表明NVIDIA将InfiniBand更多定位于HPC市场,而推动以太网方案用于AI训练(Spectrum-X等)。NVIDIA NVLink:作为专用GPU互连,NVLink在所有多GPU NVIDIA系统中已经广泛应用(如每台含4/8张A100、H100的服务器内部都用NVLink通信)。据NVIDIA透露,其数据中心出货的GPU中相当大比例采用NVLink SXM模块而非PCIe卡,由此推断NVLink连接的GPU数量已相当可观。然而相比PCIe和网络,NVLink受限于NVIDIA生态圈,在所有GPU(包括消费卡)总体占比并非绝对多数。但就AI训练用的高端GPU而言,NVLink几乎成为标配。因此按加速集群算,NVLink部署率可以说名列前茅,仅次于基础IO和网络。AMD Infinity Fabric (XGMI):AMD GPU在数据中心市场占比有限,导致XGMI实际部署数量不大。只有像Frontier超算(搭载约数万颗MI250X GPU)这样全部采用AMD GPU的系统里,Infinity互连占主导。在更广泛的AI训练领域,AMD GPU节点远少于NVIDIA,因此XGMI当前占有率较低,主要存在于少数AMD平台。随着MI300等产品和ROCm生态的发展,未来XGMI有机会进入更多AI系统,但目前仍属小众。Compute Express Link (CXL):截至2025年,CXL更多地出现在CPU与内存扩展卡、内存池化设备的部署中,大规模GPU间通过CXL直接互连尚无成熟商用案例。因此在GPU互联上下文,CXL实际部署占有率可以认为刚起步。一些服务器已具备CXL 2.0功能(用于内存拓展),但GPU利用CXL进行一致性共享还在验证阶段。未来若Intel/AMD GPU全面支持CXL 3.0,这一格局可能改变。Ultra Accelerator Link (UALink):作为新发布标准,当前无商用部署。预期联盟成员将在2026年前后推出支持UALink 200G 1.0的GPU和交换芯片,在那之后才会出现实际占有率。因此目前UALink还停留在规范纸面和样片研制阶段。(注:上述排序以定性分析为主,不同环境下排名会有差异。例如InfiniBand在Top500超算中占有率很高,但在云数据中心则以太网占优。本列表着眼于AI训练服务器这一大环境。)GPU互联技术的测试验证方案要确保上述互联总线技术在产品中可靠运行,需要贯穿研发、验证、量产各阶段的一系列测试。在研发阶段,重点在于物理信号和协议功能的验证;在系统集成和量产阶段,则侧重兼容互通、性能,以及通过高效测试保障大规模产品质量。下面分阶段列出主要测试项目、所用技术和工具。研发阶段测试(物理层 & 协议层验证)信号完整性(SI)和物理层测试:高速总线首先要确保物理信号质量达标。这包括眼图测试、抖动分析、插损和反射测量、误码率(BER)测试等。常用工具有高带宽示波器(如Keysight是德、Tektronix泰克等提供的25–70 GHz示波器)用于眼图和抖动测量,误码率测试仪BERT(如Keysight、安立 Anritsu等的高速BERT)用于发送PRBS码型检测误码。还会采用矢量网络分析仪(VNA)测量通道S参数确保走线/连接器满足损耗指标。物理层测试通常在实验室完成,是研发设计环节不可或缺的一步。协议层和功能验证:在确保信号通畅后,需要验证协议逻辑和功能正确性。使用PCIe协议分析仪(PCIe protocol analyzer)和协议发生器(PCIe protocol tester or exerciser)对总线上的上层交易(transaction)进行捕获和解析。例如,SerialTek PCIe协议分析仪可监视PCIe/CXL链路的握手和数据包,当然该SerialTek也支持NVMe协议分析。测试内容包括链路训练(如PCIe链路协商速度和通道数是否按预期)、协议握手序列(如CXL的缓存一致性消息交换)、错误处理机制(如注入错误帧验证纠错流程)等。通过协议一致性测试套件(如PCI-SIG发布的PCIe一致性测试规范、CXL联盟提供的测试用例)可以验证设备是否满足标准协议要求。这些测试通常需要专业协议测试仪配合软件自动执行,并由SerialTek等厂商提供解决方案,用于验证协议层符合标准规范。(感兴趣的可以参考本文底部saniffer发布的“白皮书”的相关章节获得更多针对PCIe 6.0 Pre-FYI CTS兼容性测试的信息)兼容性和互操作性测试:对于开放标准尤为重要,需确保不同厂商设备间能正确协作。例如不同品牌的PCIe主板与GPU是否兼容、CXL内存扩展卡在不同CPU上是否都能正常运作、以太网NIC是否能与主流交换机互通并启用RDMA等。这类测试往往通过多厂商互通测试活动(Plugfest)完成,比如PCI-SIG和USB-IF经常举办互通性测试周,CXL联盟也会组织成员一起验证兼容性。测试手段包括将被测设备与各种参考设备组合反复测试基本功能,使用协议分析工具抓取异常。互操作性测试有时由第三方实验室提供服务(如UNH-IOL等),国内也有相应测试机构如Saniffer上海公司,可出具兼容性报告,确保产品大规模部署时不会出现协议兼容问题。性能和吞吐量测试:验证互联技术在各种典型负载下的性能表现。这包括带宽测试(如使用大型持续数据流测定最大GB/s)、延迟测试(如测量端到端RTT延时,特别对以太网/InfiniBand重要)和拓扑扩展测试(如NVSwitch/UALink在多节点场景下性能随GPU数量扩展的变化)。工具方面,网络类常用专门的流量发生/分析仪(如Spirent、Keysight的40/100/400G以太网测试仪)来产生线速流量并统计丢包和延迟;GPU互联则可以编写显存Ping-Pong测试或借助NVIDIA NCCL、AMD RCCL等通信库的测试程序评估多GPUAll-Reduce、All-to-All的有效带宽。性能测试要在不同报文大小、并发流数下进行,以找出吞吐和延迟瓶颈,必要时借助协议分析工具观察是否有拥塞或流控问题。对于新协议(如UET、UALink),需要特别验证其在极端流量模式下(如同步大流、多点汇聚incast)能否维持稳定低延迟。稳定性和可靠性测试:包括长期压力测试和故障注入测试。通过让互联链路在长时间高负载下运行,观察是否出现错误(如PCIe链路降速、以太网端口FEC纠错次数增加等)从而评估可靠性。可使用专业压力测试工具或自编测试脚本反复进行数据校验传输。故障注入则指有意制造错误情形,验证系统反应:例如用Quarch的故障注入卡插入随机的各类bit error, CRC error, code violation等,观察链路是否触发重传;或者模拟单条通道失效,看多通道链路是否能降级工作。还有电气层面的毛刺、sideband信号例如RefClk故障注入测试等。这些测试可以配合环境实验——在高温高湿等条件下测,以及上电下电反复扰动测试,确保互连的抗干扰和容错能力达标。仪器方面,很多协议分析仪具备错误注入功能(如SerialTek协议分析仪可以模拟、仿真各类错误,Quarch公司的故障注入工具可插入随机的错误序列),环境测试则需使用温控箱、电源扰动器等设备。经过一系列严苛测试后,研发阶段才能确认设计在信号、协议、性能上均达到了量产要求。量产阶段测试(生产测试 & 质量保障)当进入批量生产,测试需要兼顾效率和成本。每台服务器/每块板卡都要经过测试以筛除不良,但不可能逐一用研发阶段昂贵仪器去全面检测,因此采用快速自动化测试和抽样验证相结合的策略。板级制造测试:在PCB制造和组件焊接完成后,会进行ICT(在线测试)和AOI/X-Ray(光学与X射线检查)。ICT利用测试针床对电路节点测通断和基础元件值,但对于高速差分线,传统ICT无法覆盖带宽性能,只能检查连通性。因此厂家通常确保高速接口的走线在设计和PCB制造时就通过仿真和工艺控制,ICT主要验证没有短路断路。X-Ray用于检查BGA封装(如高速连接器或芯片)的焊接质量。通过这些工序,保证基本硬件装配无误。功能测试(FCT):在产线搭建自动化功能测试台(ATE),对组装好的服务器或加速器卡进行端到端功能验证。测试项包括:接口端口的连通和训练、设备识别、基本读写功能、性能简测等。例如,在主板上插上GPU后,上电检查PCIe链路是否训练到预期速度(如PCIe Gen5 x16);有NVLink的系统检查GPU间NVLink链路是否全部连通且速率正确。同时测试NIC端口:插入环回模块,发送测试报文验证以太网收发正常等。为了提高效率和保护昂贵器件,厂商常使用专用测试夹具/治具。案例:OAM 2.0 假负载测试夹具 – OAM(开放加速模块)是一种高带宽GPU模块标准,新一代OAM 2.0 GPU非常昂贵且反复插拔易损。在生产线上,有些服务器厂商不会用真GPU去测试底板上的OAM插座是否良好,而是通过Saniffer定制设计的“假OAM 2.0”模块作为测试治具进行产线PCIe等的信号和连通性测试。这个假GPU具有与真GPU相同的连接器和电气特性,但内部只是环回电路或简单负载,用于模拟GPU的基本握手和供电。将其插入主板OAM插槽后,可以测试接口的管脚连通、电源供给是否正常,以及NVLink等高速链路是否能成功训练连通(假模块会把发送通道直接环回接收通道,从而测试主板信号完整性)。这样做避免了真GPU在流水线上不断插拔,既保护了昂贵器件也降低了测试成本。测试通过后再在最终装配时插入真GPU即可,确保每个接口都已验证。性能抽测与验证:并非每台量产设备都跑满负载测试,但通常会抽样一定比例(比如每批次随机抽几台)进行较深入的性能验证。在抽测样品上运行标准测试工具,例如用iperf测试网络带宽、延迟,用厂家提供的诊断程序测试GPU显存通信带宽等。如果发现性能偏差较大,就需要追查生产工艺或物料问题。部分厂商也会对所有设备做简短的压力测试(Burn-in),如让服务器跑几小时GPU矩阵运算+网络IO,看是否出现错误或不稳定,再出厂。这样的烧机通常利用设备自带的算力和通信能力,不额外占用仪器,只需架设足够的负载(可能使用专门开发的Burn-in软件)。自动测试设备与工具厂家:生产线上大量使用定制的自动测试系统。大型仪器厂商(Keysight是德、NI等)提供可编程的开关矩阵、数据采集卡,用以构建ATE。但很多测试工序需要专用治具和本地定制方案。例如,PCIe插槽可能使用一个高速环回卡(将Tx/Rx短路)来测试; QSFP网络口使用光环回模块或载板连接到测试交换机。国内也有不少厂家专门生产这些测试配套工具和提供集成服务,例如Saniffer公司提供的针对100G/200G/400G/800G/1.6Tbps的BERT测试机台。例如,也有公司定制整套治具板卡,让其同时插入服务器的所有高速插槽,自动完成并行测试,然后由软件判定结果。测试厂家在这里发挥的作用包括提供可靠的连接器模块、负载板,和控制软件界面等,以便生产线工人一键运行整机测试。国际厂商如Keysight、Tektronix、SerialTek等在生产测试领域也提供仪表和方案,但考虑成本,产线更倾向于简化/加速测试而非全面测量。国内一些测试公司、治具供应商,为华为、浪潮等服务器厂商提供过类似OAM假载板、PCIe Gen5环回卡、光模块环回适配器等解决方案,帮助提升测试效率。质量控制和追溯:最后,量产测试都建立了严格的质控流程。每个互联接口的测试结果都会记录在MES系统,若发现某批次有异常(比如某端口训练失败率偏高),可以追溯问题源头(连接器批次不良或焊接问题等)。对于不合格产品,分门别类进行维修或报废分析。通过上述流程,厂家在量产阶段能保证出货产品的互联总线质量可靠,同时避免过度测试浪费时间成本。总结而言,研发阶段强调详尽和严苛(用高端仪器逐项验证),而生产阶段讲究快速和批量(用简化方法覆盖关键功能)。两者相辅相成,确保GPU互联技术既达到尖端性能,又在实际产品中稳定可靠地发挥作用。Ultra Ethernet Consortium(UEC) vs. UALink:融合前景与以太网改进之比较Ultra Ethernet Consortium(UEC)和UALink Consortium分别是近年兴起的两个业界组织,都着眼于满足AI/HPC时代的新型互联需求,但着力点不同:一个从网络协议层面改进以太网,一个从硬件互连层面设计加速器直连方案。以下将比较二者针对以太网协议改进的异同,并分析它们未来的关系。定位与目标:UEC成立于2022年,由Arista、AMD、Intel、华为等100多家公司参与,旨在增强以太网以支撑AI/HPC工作负载。它关注于在现有以太网/IP基础上,引入新的传输层(称为Ultra Ethernet Transport, UET)和交换机制,提升大规模AI通信的性能、伸缩性和安全性。。简单说,UEC想打造“一张更聪明的以太网”,超越现有专有高性能网络(如InfiniBand)的性能,同时保持以太网通用生态。UALink则聚焦于GPU等加速器的横向直连,提供类似NVLink的内存直访型互连。在实现上,UALink并非传统意义上的网络协议,而更像是一种片间总线,但可扩展跨服务器。它部分借用了以太网的物理层技术(200 Gbps SerDes), 但并没有使用以太网的IP/TCP协议栈,而是自定义了一套针对共享内存和一致性的协议。因此,二者解决的问题层次不同:UEC解决“如何让成千上万GPU节点通过网络高效通信(主要在OSI第3-4层及以上)”,UALink解决“如何让上千个GPU构成一个大规模共享内存池(主要在第1-2层到片间事务层)”。对以太网的改进方式:UEC选择继承并革新以太网。它并未抛弃以太网框架,而是在其之上增加新机制。例如UET把RDMA变成原生以太功能,设计了一系列改进:支持海量端点(从传统RDMA的几万扩展到上百万节点)、加入分组级多路径喷发(packet spraying)避免大流量倾斜、支持乱序投递和选择性重传减少丢包开销,,提供组密钥加密保障多租户安全通信等。所有这些改进都是在以太网帧和IP分组的范式上进行的,即保留标准以太物理和基本协议格式,但增强传输层和控制算法。。换言之,UEC的方案使以太网+IP栈本身更高效智能,让AI应用直接受益而无需采用另一套网络。相比之下,UALink对以太网的“改进”主要在物理层使用。UALink利用IEEE 802.3dj的高速电接口,实现了与以太网相当的每通道速率,但其链路层、事务层完全自定义。UALink没有IP或TCP头,也不兼容普通以太网交换机。它需要专门的UASwitch进行路由转发。可以说UALink是一种新的互连架构,只是借用了以太网的电信号技术,并没有试图改善以太网协议本身——它绕过了传统网络协议,以追求极致的专用性能。共同点:尽管方式不同,UEC和UALink有一些共同理念:两者都充分利用200G/800G时代以太网SerDes的进步,为HPC/AI提供更高带宽/更低延迟的通信。两者都非常关注降低延迟和提高吞吐:UEC通过减少协议开销和更优算法(如无握手快速建立连接、细粒度拥塞控制等)降低网络延迟,UALink则通过缩短链路物理距离(<4 m)和精简转发层级,将GPU间延迟压到亚微秒。另外,两者都意识到安全与资源隔离在AI时代的重要性,因此均在各自方案中引入了硬件级安全(UEC的UET支持端到端加密,UALink有链路加密和Pod隔离)。可以说,UEC和UALink都反映出AI基础设施的新需求:更快、更大规模、可多租户共享且安全可靠的通信。差异与互补:UEC改善的是通用以太网络,受益范围广,可以应用于任意需要高性能通信的场景,包括CPU-CPU、CPU-GPU以及存储系统等。其成果可能包括新的交换机算法、新型NIC(比如Broadcom已推出符合UEC规范的800G “Thor Ultra”以太网网卡)等。这些改进仍可服务于任意厂商的设备(只要接入以太网)。UALink则更专注加速器直连,且需要硬件专门支持。它并非通用网络接口,而更像计算机内部总线的延伸。从应用层面看:UEC方案下,跨服务器GPU通信仍通过IP网络完成,不过网络更快更聪明;UALink方案则希望在多服务器之间架设起一张专用直连网,把分属不同服务器的GPU变为“同一机架内”一样来互联。这两种思路其实可以并行存在,甚至上下互补:例如,AMD的战略就是GPU内部用Infinity/UALink构建一致性大节点,节点之间通过Ultra Ethernet网络互联。在AMD的MI300架构中,每服务器通过XGMI实现4块GPU一致内存,而跨服务器通信则交由Pensando DPU通过UEC优化的以太网完成。这种组合发挥了两者所长。NVIDIA当前则主要依赖NVLink+InfiniBand/Ethernet;未来如果UALink普及,Intel或AMD完全可能采用“UALink + Ultra Ethernet”的组合架构来对抗NVIDIA。是否会融合:鉴于上述差异,短期内UEC和UALink不会合并为一个。UEC属于Linux基金会项目,侧重网络协议标准;UALink是独立联盟,制定硬件接口规范。两组织有许多共同成员(AMD、Intel、Broadcom等),会确保各自标准在物理层等方面兼容互惠,但目标不同使其组织架构和产出并不重叠。目前看,UEC提供的是广域网络层解决方案,UALink提供机架内部署方案——二者更多是协同而非重叠关系。例如,将来UALink Switch可能通过网关连接到Ultra Ethernet交换机,实现更大规模跨Pod通信,但UALink内部运行的仍是自己的协议,并不会因为有UEC就废弃。同样,UEC并不会制定GPU一致性共享的规范,那仍留给UALink/ CXL之类完成。因此,预计UEC和UALink会各自推进各自的标准,在生态上相互支持而不是互相取代。尤其考虑到很多公司同时参与两边,完全有动力让它们兼容友好。例如,UALink采用以太物理层就是一种“握手”,使得现有高速以太硬件可以较容易地转用为UALink设备。未来某些芯片可能同时支持UET报文和UALink事务,但这更像多模支持,而非标准融合。综上:UEC和UALink分别代表从网络层和互连层革新AI基础架构的两条路径。两者都以以太网技术为基础,但UEC是在常规以太网上打造更智能的传输,UALink是利用以太物理实现新型直连总线。它们的改进有相似的出发点(提高带宽、降低延迟、支持大规模与安全),但作用层级和实现方式迥异。短期内不会互相替代或直接融合,而可能作为互补技术共同构建未来AI网络:内部采用像UALink这样的专用加速器互连,外部采用UEC优化的以太网络连接不同加速器集群。对于终端用户和整个行业而言,这两种努力都朝着一个方向:解除GPU计算集群的通信瓶颈,让“算力”和“帯宽”两条曲线齐头并进。未来几年,我们将看到UEC 1.x协议在交换机和网卡中实现,以及UALink 1.0产品的问世。它们能否成功,还有待市场和应用的检验。但可以肯定的是,无论路径如何,以太网作为通用互联架构的基础地位不会动摇,而UEC和UALink正是为了让以太互联能够胜任AI时代最严苛的需求,各自在各自层面上对以太网进行了创新性的增强。相信随着技术演进,GPU互联将变得更加开放、高效,推动AI训练集群规模和性能再上新台阶。更多关于PCIe 6.0/CXL的测试工具和技术,请下载Saniffer公司2025.6.16最新更新的白皮书12.3版本 - 《PCIe5&6.0, CXL, NVMeNVMoF, SSD, NAND, DDR5, 800GE测试技术和工具白皮书_ver12.3》。白皮书下载链接 (或者点击下面的二维码直接下载):https://pan.baidu.com/s/18_c11aeFhSBe2qa-jUFs_Q?pwd=mm9y 提取码: mm9y如果你有其任何关于PCIe5&6.0, CXL, NVMe/NVMoF, NAND, DDR5/LPDDR5以及UFS测试方面的我问题想咨询,请访问:访问www.saniffer.cn / www.saniffer.com 访问我们的相关测试工具和产品;或者添加点击左下角“阅读原文”留言,或者saniffer公众号留言,致电021-50807071 / 13127856862(微信),sales@saniffer.com。
    2025-12-29 10:17:47
  • 1
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 39
    • 电话:(021)5080-7071; 131-2785-6862

      在这里输入描述
    • www.saniffer.cn

      在这里输入描述
    • 邮箱:sales@saniffer.com

      在这里输入描述
    • 地址:上海市浦东新区张江路505号1号楼1605-1单元

      在这里输入描述

    关注微信公众号

    上海森弗信息技术有限公司 备案号:沪ICP备2024076352号-1

    版权所有 © 上海森弗信息技术有限公司 技术支持:竹子建站