9 月 26 日,在 2025 人工智能计算大会上,浪潮信息(000977)公布,基于元脑 SD200 超节点 AI 服务器,DeepSeek R1 大模型 token 生成速度仅需 8.9 毫秒,创造国内大模型最快 token 生成速度;而最新发布的元脑 HC1000 超扩展 AI 服务器,实现每百万 token 成本首次击破 1 元。浪潮信息对 AI 计算架构的持续创新,旨在解决智能体产业化面临的交互速度和 token 成本两大瓶颈,为多智能体协同与复杂任务推理的规模化落地,提供高速度、低成本的算力基础设施。
随着 Scaling Law 持续推动模型能力跃升,以 DeepSeek 为代表的开源模型极大的降低了创新门槛,加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限,交互速度决定了智能体的商业价值,token 成本决定了智能体的盈利能力。
仅需 8.9 毫秒!元脑 SD200 引领 token 生成速度率先进入“10 毫秒时代”
浪潮信息最新公布,基于元脑 SD200 超节点 AI 服务器运行 DeepSeek R1 大模型,单 token 生成速度低至 8.9 毫秒,带动国内 AI 服务器 token 生成速度率先进入“10 毫秒时代”。
元脑 SD200 基于创新研发的多主机低延迟内存语义通信架构,在单机内实现了 64 路本土 AI 芯片的高速统一互连,单机可承载 4 万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用,实现多模型协同执行复杂任务。为实现极低的通信延迟,元脑 SD200 采用精简高效的三层协议栈,原生支持多种内存语义操作,避免冗余数据拷贝,将基础通信延迟降至百纳秒级,硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。
元脑 HC1000,推理成本首次击破 1 元 / 每百万 token
浪潮信息重磅发布元脑 HC1000 超扩展 AI 服务器,基于全新开发的全对称 DirectCom 极速架构,无损超扩展设计聚合海量本土 AI 芯片、支持极大推理吞吐量,推理成本首次击破 1 元 / 每百万 token,为智能体突破 token 成本瓶颈提供极致性能的创新算力系统。
元脑 HC1000 通过全面优化降本和软硬协同增效,创新 16 卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。据测算,元脑 HC1000 通过算网深度协同、全域无损技术,实现推理性能相比传统 RoCE 提升 1.75 倍,单卡模型算力利用率最高提升 5.7 倍。
未来,智能体带来的推理算力需求将呈现出指数级的爆发式增长。浪潮信息将通过软硬件协同设计与深度优化,持续推动 AI 计算架构的创新与突破,不断实现 token 生成“提速降本”,积极促进大模型、智能体等人工智能技术与实体经济的深度融合,让人工智能成为千行百业的生产力和创新力。