从R1沉寂到V3.1破局:FP8是国产AI算力/应用侧「商业化奇点」?

用户头像
景云鹏CapitalAI
 · 广东  

【前言】

各位朋友久等了,好久不见。这段时间稍微休息了下,也在整理投资思路。

英伟达及北美AI硬件涨到几无便宜货的情况下,投资该何去何从?继续炒液冷和电源到“醉生梦死”?其实市场也在等待或需要变盘的“奇点”。

笔者这种在过去两轮周期中挨打过的选手,在市场持续非理性时,理性上总是高兴不起来,如履薄冰。

只有在4月份那种沪电、博创等优质公司跌出确定性价值时,才兴奋不已。

如果市场一味炒题材,我们这种选手就望而却步了。比如液冷如果炒到把理论上的未来1-2年业绩都透支之后,再谈我们看好的是千亿规模的市场,就显得“荒诞”了。

那么,DeepSeek V3.1的问世,仅仅一个V3的小升级,仅仅一个FP8标准的“低配”适配,这次对AI产业端的影响,应如何看待?

是短期的题材炒作,如R1惊艳后的沉寂?鬼故事再讲一次?

还是说,对产业端的实质性影响的开始?

笔者个人观点,本文聊聊。

{内容落脚点以投资人视角审视,非技术科普文章。如有技术观点修正,欢迎理性讨论,不欢迎非理性二极管思维}

「风险提示:本文企业投研结论系个人投资笔记,个人观点仅供参考,不构成投资建议」

【正文】

一、R\V战略并行、大市场+多场景 国产算力新战略

1、用户反馈V3.1“更快但精度变差”

从这一两天V3.1的网络上的舆情反馈的实际体验效果来讲,V3.1的实际体验一般,甚至逊色于R1,实际体验让部分用户“失望”。

实际上,Scale浮点精度为FP8,实际推理出的逻辑精度当然下降。

战略上,V3.1压根没说过是R1的进化版,官方也没这么表述过吧?

一直说的是,为了适配下一代国产算力芯片。

2、FP8对V3.1的实际影响

A.速度优势:

DeepSeek V3.1更新:增加训练token数量、优化Agent支持、增强Function Calling(如Anthropic Code API接入)

DeepSeek V3.1采用FP8标准后,显存需求降低50%-75%,推理吞吐量提升3倍(对比FP16),响应延迟显著缩短。

B.精度牺牲:

用户反馈“逻辑跳跃”“中英混杂”“简化回答”等问题,部分源于FP8的尾数位不足(如E5M2仅2位尾数),导致小数值截断误差累积,影响语言连贯性和复杂推理的严谨性。

FP8在Softmax等敏感层误差可达1%(FP16仅0.01%),导致生成质量下降。

展开说差距:

语言模型的推理是层层递进的(当前输出是下一时刻输入),FP8的误差在每一步被放大,尤其对需要多步逻辑推导的任务(代码生成、数学证明)影响显著;

在SWE代码修复任务中,FP8的误差比FP16高1.8%,但在开放对话中用户感知差异可能达5倍。

C.官方优化:

V3.1通过混合精度架构(关键层保留FP16)和动态路由(简单任务用FP8,复杂任务切FP16)缓解精度损失,但未完全消除。

D.V3.1优势

V3.1相比V3和R1,达到同样效果需要的token数明显减少;

注意这是提效而不是通缩,因为后续可以通过加算力获得额外性能;

通过后训练,增强了工具使用能力,Agent任务提升显著;

DeepSeek V3.1为应用厂商再次提供了一把利剑,给了产业界再一次快速发展的机会;

E.国产AI芯片正处于技术突破与生态落地的关键窗口期,UE8M0 FP8助力国产芯片加速追赶;

F.结论——效率优先、务实选择、AI智能体产业机遇

FP8精度的意义:降低推理存储占用(100B模型从200G压缩至100G),提升吞吐量,但需与国产芯片(如华为、寒武纪)深度适配;

R1作为纯推理模型,全程使用FP16/BF16,逻辑严密但响应慢;

V3.1为兼顾效率,对部分模块(如对话生成层)强制FP8量化,导致在长链推理、数学证明等场景表现不稳定。

实测数据:在SWE代码修复等复杂任务中,V3.1精度仍超R1;但在开放对话中,用户更易感知“敷衍式回答。

3、DeepSeek-V3.1对AI应用侧的显著优势

1)V3.1开源大模型高效支持长文本处理与智能推理。

V3.1采用创新的Mixture-of-Experts 架构,在总参数量 671B 的情况下,每token仅激活37B参数,兼顾强大性能与计算效率;

特别优化了表格/列表生成的能力,并有效降低了幻觉现象,同时增强了对100+语言(尤其是亚洲语言和小语种)的支持能力;

V3.1以MIT许可证完全开源,支持本地部署和商业修改,配套提供 API、在线体验和 Hugging Face Space,凭借“长文一次读、推理一键做、接入零门槛”的三大特性,成为长文档分析、复杂代码开发、科研写作及教育辅导等场景的理想选择。

2)代码与视觉能力领先且成本优势显著。

V3.1在SVGBench视觉代码生成基准中,其成绩仅次于GPT-4.1-mini,展示了更强的图形化编程能力;

在通用的MMLU 多任务语言理解评测中,V3.1的表现与GPT-5未显明显差距;

完成一次完整编程任务的成本仅为1.01 美元,约为专有系统的六十分之一,凸显其“性能-成本”优势;

2025年,开源大模型迈入“万亿时代”,发展重点从“参数竞赛”转向稀疏化、低成本的全场景落地,将加速AI应用侧落地。

4、R2还有吗?

个人基于目前浅显的内容的逻辑判断,预计R2不会消失,未来与V系列并行。

形象说,R为纵向攀登AGI路线,不会放弃,但短期受制于高端算力差距,整个国内AI产业不能卡在这不动;

因为事实上,大部分AI应用端和端侧,也压根不需要高成本、超高推理能力的大模型,它们需要的是低部署成本、低使用成本、快速响应且好用的【小模型】;

所以,V3.1是为AI应用侧大规模落地部署而研发的模型,也是中国AI产业的战略,以大市场+多场景拉动AI产业的战略;

战略本质是最大限度发挥现有力量,打造“比较优势”,实现“非对称打击”;

你玩高度(AGI),我玩宽度(AI应用侧大规模落地及创新);

你卡我高度,我用产业带芯片慢慢追(反正短期也追不上、我们承认、因为涉及物理能力),只要保证算力底座在我们手上即可;

算力底座是什么?是UE8M0 FP8。

二、昇腾910X PK 英伟达B30A,FP8标准能否救赎国产算力芯片?

从投资人的角度,国产高端算力芯片的国产替代逻辑,已经讲过太多次,以至于这次V3.1远没有R1惊艳的情况下,很多投资人认为再一次“鬼故事”罢了。

笔者倒觉得这里有点“狼来了”故事的意味,这次可能有点不一样。

1、V3.1动摇英伟达高端GPU逻辑吗?

这次即使这么讲,市场应该不会再信了吧。答案当然是不会动摇。

纵向路线通往AGI的路上时,前文说了,我们自己也不会放弃R2,也不会放弃攀登AGI,NV的高端GPU依旧是全球紧俏。

无论多少算力,AI应用都会消耗干净。

所以英伟达成长逻辑不会有问题。问题只会出在再过两年,随着Rubin下一代产品,单卡算力提升边际越来越小的情况下,AI推力侧需求为行业主要矛盾时,达子的PE会不会受影响,也许会,但那是几年后的事情。

2、H20停产,B30A国内会如何对待?

1)B30A核心参数与设计

架构:基于Blackwell架构的单芯片(Single-die)设计,非旗舰B300的双芯片配置。

性能:算力约为美版B300的50%,优于H20但显著弱于国际旗舰。

内存与互联:搭载高带宽内存(HBM)和NVLink技术,优化数据传输效率。

精度支持:英伟达B30A支持FP16/FP32精度,但受美国出口管制限制,其FP16理论峰值性能(TPP)≤4800 TOPS,性能弱于国际旗舰B300。

2)进度时间表

计划2025年9月:向阿里云、腾讯等中国客户交付首批工程样品。

计划2026年Q1:启动量产,定价区间2.8万-3.2万美元/卡(较H20溢价15%,但单位算力成本降22%)。

3)国产替代成熟度

我们此前明确质疑H20存在“后门风险”(如远程关闭、追踪定位功能),B30A存在无法通过安全审查的风险;

华为昇腾910B及下一代产品、寒武纪思元590、壁仞BR100、海光DCU等国产芯片性能已接近或超越H20;

DeepSeek-V3.1等模型主动适配上述国产芯片的下一代产品(如UE8M0 FP8格式),削弱对英伟达的依赖。

4)投资人角度看法

未来让卖B30A,进一度利好英伟达,增加增量,也不影响V3.1路线;

不让卖B30A,也不影响英伟达,进一步利好V3.1路线。

三、国产算力产业端逻辑,“这次不一样”?

1、技术破局:FP8精度打通国产芯片任督二脉

效率跃升:

UE8M0 FP8格式使国产芯片推理效率提升300%,专家模块利用率从30%飙升至85%,显存占用降50%。

生态协同:

华为昇腾910X(下一代产品)、寒武纪思元下一代产品等全面适配V3.1。

【个人看法】

这里的关键点不是“战狼式”口号式突破,产业有产业的发展逻辑,这是科学,不是喊几嗓子,先进制程就能喊出来;

这里的关键意义在于,没让你产业界短期去技术攻关,因为过去几年的效果也看到了;

统一到FP8标准,用V3.1来适配并带动,未来升级的事我们慢慢来;

但V3.1先大规模在B端、C端部署下去,正好成本低、效率高、性能够用,这不就足够吗。

所以笔者认为,这才给了国产算力芯片真正规模订单放量的可能。这是务实且智慧的战略选择。

2. 商业闭环:从“实验室玩具”到“量产工具”(重要)

成本临界点突破:

龙芯3A6000搭配国产AI加速卡能高效运行70亿参数模型,企业私有化部署成本降低90%。

规模化验证:

•国家电网故障响应从分钟级压缩至秒级(海光DCU+V3.1);

金融行业DCU市占率28%,日均模型调用量4.7亿次

【个人看法】

这里核心逻辑也是“低要求”+“规模部署可行性”,昇腾、沐曦、龙芯、思元等,都适配到FP8标准上;

实质上是规划出了“统一战线”或“保护地”给你们用;

V3.1+产业扶持促进AI应用侧的应用,再用产业带动保护地的规模化产出;

AI产业端本来升级的需求也是刚性的,尤其是B端,C端受制于经济环境有波动,B端尤其国企B端的AI应用侧部署需求是刚性的。

“这次不一样”的关键点是,商业化落地,商业闭环,说白了这玩意得好用,这太重要了。

当然,未来国内大厂大概率是NV的卡继续用,如果有B30A也会继续买,这不影响,因为纵向战略也要继续;

同时,横向的AI应用侧需求只要大规模铺开,V3.1下的国产算力足够用,不需要NV的卡,需要的便宜好用;

比如医院部署AI基因测序、AI病例筛查,用那么高算力干嘛,要的是快速准确响应+便宜好用。

四、投资人如何看待FP8、V3.1的产业影响

其实聊到这,投资人角度看待,就不应该焦虑了,反正笔者是这样,反而有开新窗之感。

FP8、V3.1,本质就是数学补物理、电子补算力。是符合实际的务实战略,对国内AI产业的发展是具有现实意义的。

1、对AI产业进度的再理解

本来25年上半年的AI应用侧大机会,受制于高端算力卡脖子,25年至今产业端进展缓慢;

NV因GB200良率及产能,导致AI硬件主升晚约一个季度;

国产算力芯片因先进制程物理限制、910B不理想等因素,迟滞不前;

DS因高端算力卡脖子+国产算力芯片不理想,迟滞不前;

改变开始于GB200规模量产,达链高歌猛进4个月,但树不会涨到天上;

当下,纵向突围不理想就横向突围,农村包围城市,主动降低至FP8标准,以产业发展反哺国产高端算力,采用“非对称打击”战术;

那么,必然爆发的AI应用侧,是不是奇点临近?

2、投资机会在哪里?

笔者认为,接下来的AI投资,万类霜天竟自由,不再是达链一枝独秀。

1)达链Alpha机会继续

上个月笔者总结中说过,达链Beta行情没有了,看Alpha能力。然后市场挖掘了GB300的液冷和电源。

但由于大水牛,流动性太过充裕,几周时间把液冷未来1-2年业绩透支了,炒概念的更是透支不知道多少年。

客观讲,全球AI产业链细分龙头,如光模块龙头、PCB龙头,PE也着实不低了。

得益于AI产业高景气和流动性充裕,达链仍有Alpha机会可挖掘,考验投资者的行业研究深度,以及估值的不用角度的看待。

2)国产算力

基于前文分析,国产算力机会就简单了。

国产AI芯片正处于技术突破与生态落地的关键窗口期,UE8M0 FP8助力国产芯片加速追赶;

机构调研反馈的实际产业界进度包括:(不保证准确、仅供参考)

寒武纪:580及下一代产品690均支持FP8,当前690已顺利流片并进入到云商测试,反馈较好,预计整体出货25年20W,26年50W张。

昇腾:910D及920系列支持FP8,当前910D已成功回片进入到云商测试,预计910D系列26年30W张出货。

芯原股份:国内ASIC龙头,ZJ项目目前设计进展顺利,一批40-50万颗,后续有望提升至百万颗量级,同时二期ASIC启动设计。

FP8搭建起的新方舟,装得下的核心玩家是哪些,真正有基本面且估值能看的,NPU、CPU核心,如昇腾、中科曙光、海光、寒武纪等;

如果V3.1商业化应用顺利,大厂适配顺利,那么26年国产算力的核心公司,订单应该是确定性增量显著的,这次可能真有业绩,逻辑前文阐述过了;

如果国产算力芯片真能放量,那么国产液冷也会受益,光模块受益于全光方案,也会受益;

实际产业端上,25H2至26年,设备、材料、芯片全链条或受益于政策+需求驱动(如算力采购补贴倾斜国产)。

这里着重说的是估值,国产算力以前两大问题:估值高、业绩差;

那么业绩上如果开始兑现,具体估值上,投资者也要仔细辨别斟酌,比如82倍PE的中科曙光尚可的话,动态PE365的寒武纪如何看待,就见仁见智,因为理论空间确实也比较大。

3)AI应用侧、智能体及端侧

这部分可能是本文最大的题眼,是FP8标准的最大产业意义。

笔者一再强调投资的风格是产业投资。

25Q1本来就预计应用侧爆发,结果多种原因导致沉寂数月,最后还是不得已围绕着AI北美链做。

但AI投资的大机会一定在应用侧,尤其是C端的爆款何时能有?

FP8标准+高效率快反馈+低成本,就是为AI端侧及应用侧全面铺开打造的标准;

未来几年应该发生的是,家用电器、小到台灯、大道电视冰箱,会全部AI改造一遍,那么端侧SOC芯片,肯定要爆发,逻辑星辰大海;

应用侧里,由于部署及使用成本的绝对低,AI医疗、AI营销、AI基因测序、AI金融、AI教育等;

部分参考范围如下:(仅供关注范围的指引、具体企业要投资者具体评估、不作建议)

企业服务:1)办公:金山办公福昕软件;2)编程:卓易信息;3)ERP:金蝶国际用友网络鼎捷数智;4)多模态:快手万兴科技美图公司虹软科技当虹科技;5)营销:迈富时明源云

应用场景:1)金融:东方财富、大智慧、同花顺;2)教育:科大讯飞;3)医疗:阿里健康卫宁健康;4)电商:焦点科技;5)安全:深信服;6)工业:中控技术等。

AI应用的细分非常多,企业情况、生意模式、基本面和成长逻辑差异巨大,这就完全考验投资者的投研能力了;

这里提醒的还是基本面和估值,大部分企业还是BUG非常多,C端的AI应用企业,太少,也许真正的C端AI大牛还没出现,但一定会有;

B端的要仔细分辨,同时要注意,并不是AI赋能了,企业EPS就一定提升,比如AI可能给蓝色光标这种企业降本增效,但EPS持续提升需要需求侧持续发力,这点就与宏观复苏相关联;

端侧SOC的应用产品,比如消费电子、家用电器、AI手机、AI笔记本电脑等,也与需求侧关联,这些都要把握;

但逻辑上,以上这些细分是必然要爆发的产业趋势,当下的V3.1+FP8,催化作用多大,能否是商业化临界点,还要观察,但产业逻辑上是真实闭环的。

V3.1+FP8终于给AI产业投资带来了变化,带来了新增量,也给AI多点开花投资的局面提供了底层准备。

接下来观察V3.1实际对国产算力订单的影响、对AI产业端实际影响,如果过阵子再次“沉寂”,投资者就继续聚焦少数高景气即可。

如果一系列政策推动+商业落地+订单反馈,如果形成了正反馈,那么AI产业大潮中,对孕育非常多的投资机会,将会是AI投资者的盛宴。

以上仅为笔者基于投资者角度的个人思考,一家之言,不作投资建议。

云鹏 25.8.24

「风险提示:本文企业投研结论系个人投资笔记,个人观点仅供参考,不构成投资建议。数据基于公开数据和行业及券商研究报告。市场有风险,决策需谨慎」

「版权声明:原创内容未经许可禁止转载,侵权必究。如需使用,请联系作者获取许可,并注明来源」

$中科曙光(SH603019)$ $寒武纪-U(SH688256)$ $海光信息(SH688041)$

#英伟达# #AI算力# #DS-V3.1针对国产芯片设计,引爆算力行情#