2025年8月21日,DS正式发布V3.1版本,宣布采用UE8M0 FP8 Scale参数精度。这一技术专门针对下一代国产芯片设计,能显著提升计算效率并降低内存占用。次日,国产芯片板块迎来爆发式增长,寒武纪、海光信息单日涨停。
DeepSeek-V3.1使用了一种名为UE8M0 FP8 Scale的参数精度格式。这是一种专为国产AI芯片优化的超低精度数值格式,通过减少数据位宽,能显著降低显存占用和计算资源需求。与传统FP16或FP32格式相比,FP8能实现算力密度倍增、功耗大幅下降和延迟极致压缩。这使得国产AI芯片在运行大模型时效率得到大幅提升。
尽管前景广阔,但大模型与国产芯片的适配之路并非一帆风顺。DeepSeek曾在研发R2模型时,就遇到了在华为昇腾芯片上训练的困难。
二者兼容性挑战主要体现在三个方面:硬件架构差异、软件生态薄弱和框架支持不足。
国产AI芯片与主流大模型之间,过去常常因为硬件架构差异(如不同的指令集)和软件生态薄弱(缺乏类似CUDA的成熟生态)而“互不认识”,导致性能无法充分发挥。
解决国产芯片与大模型的兼容性问题,对于建立自主可控的AI算力生态具有重大战略意义。它不仅能降低对国外高端GPU的依赖,还能大幅减少企业部署大模型的成本,提升国产芯片的竞争力。
1)首都在线在2025年中报中指出:通过搭建国产GPU算力测试与适配平台,攻克了这些兼容性难题。该平台现已完成对智谱、千问、零一万物等国产大模型,以及国外Lama、GPT、Bloom等所有主流大模型的部署,并完成了与国内GPU头部厂商燧原、华为等的适配调优。
平台能够实现“一云多芯”异构调度管理,显著提升了云端算力的使用效率和性价比。目前,该平台可覆盖国内80%以上的芯片兼容性服务测试场景。
2)首都在线与清华大学翟季冬教授团队合作,双方合作开展国产GPU与大模型及相关应用的适配工作,提高国产GPU在智能算力场景下的性能表现和稳定性,降低对国外GPU产品的依赖,加速国产 GPU 的产业化应用进程,共同推动国产智能算力产业链的完善和发展。 推理模型开源降低了开发门槛,吸引更多企业和开发者进入AI领域,推动更多行业模型及AI应用场景的产生,从而进一步激发市场对算力的需求。
而翟季冬教授团队开发的赤兔大模型推理引擎首次实现了FP8和FP4精度模型在英伟达非Hopper架构GPU国产芯片上的高效运行打破硬件生态绑定技术藩显著降低了对国外高端硬件的依赖篱,展现出卓越的算力效率。
NV只有一家,但是国产芯片目前看是百花齐放,HW、寒武纪后面跟着估计不少于十家,算力适配的工作量非常大。
首都在线实锤是国内独树一帜的国产异构算力适配平台,提供了从芯片适配、模型优化到部署运维的全栈式服务,解决兼容性难题,让国产芯片和国产大模型“流畅对话”,已成为推动中国AI产业自主可控发展的关键一环。这条赛道刚刚开启,市场前景广阔无垠。