
先把结论讲明白:
如果你现在拿着科技股、算力股,或者正犹豫要不要上车AI,接下来几年,持续赚钱能力最强的,未必是那块显卡本身,而是围绕“Token大爆炸”这条链路上,几个看着枯燥但越来越值钱的环节。
一句话概括:
前两年大家炒的是“卡有多贵”,接下来几年要看的是“每一度电能换出多少Token”。谁掌握这条链上的“水、电、冷却和管道”,谁更有定价权。
先不说英伟达,也不说华为,先从身边一个小事说起。
春节前,一个在互联网大厂做产品的表妹,给我发了个截图。
她说:
“你看,这个月部门的AI账号又超额了,我一个人就刷掉三千多万 Token。”
截图里是调用记录列表:
白天,她用大模型写PRD、做竞品分析;
晚上回家,用 Seedance 2.0 给客户做十几条 10 秒 1080P 的视频 demo。后台统计显示——一条视频消耗 35 万 Token。
她半开玩笑地说:
“以前上班摸鱼刷短视频,现在是我帮AI刷短视频,钱还是公司的。”
这几句话背后,变化挺集中:
以前她只是和模型“聊几句”,写写文案,一天也就几千、几万 Token;
现在是“看几秒”,做视频、多模态,一条内容就是几十万 Token;
再过一阵子,部门准备上 OpenClaw 这类 Agent,让AI自己翻库、拉数据、填表、发邮件,一个任务可能要跑几十轮调用。
人干的活没有暴增,但每个任务消耗的 Token 数量,已经完全换了一个量级,这就是这里说的——Token 大爆炸。
这里的“大爆炸”,不是指某个平台的 Token 变得不值钱,而是:
做同样一类业务,现在需要多烧几十倍、几百倍的 Token,才算把活干到位。
围绕这个现象,往下看有三条比较清晰的投资线索,咱们拆开讲。
你可能会想:
“听起来就是服务器忙一点,真有那么夸张吗?”
如果只是多跑一点,那确实不必上纲上线。但近两年有三个关键变化。
过去大多数人用AI干什么?
打开对话框,敲一段文字:“帮我写个年终总结”。
模型读几百字,回你几千字,这一来一回消耗的 Token,大概也就是几千到一两万。
这两年情况完全变了。
你看这两年最常被转发的视频应用:
字节的 Seedance 2.0、快手的可灵 2.0。
生成一条 10 秒的 1080P 视频,后台统计——一条 35 万 Token。
同样是“做一条内容”,从几千 Token 一下子跳到几十万 Token,中间起码差两级。
再叠加多模态的使用方式:
以前模型只看文字;
现在要看你上传的 PPT、Excel、合同扫描件、产品照片,甚至监控视频。
一个任务下来,涉及多种数据,调用次数拉长,最终消耗的 Token 很容易翻倍再翻倍。
从“聊几句”到“看几秒”,本质变化是:
每个任务在模型那边占用的算力时间和资源,已经完全不一样了。
第二个变化,是很多人最近亲眼看到的:像 OpenClaw 这类 Agent 工具突然火起来。
你可以把 Agent 理解成:有人把一个“会聊天的大脑”,真正装进了你的电脑里。
它不只会回话,还会:
自己打开浏览器搜资料;
自己操作 Excel;
自己登录你公司内部系统;
自己发邮件跟客户沟通。
关键对比在这里:
以前你对着 ChatGPT 说:“帮我生成一个小程序的代码。”
模型思考一次,返回一份结果,消耗大概 2000~10000 个 Token。
现在你对 Agent 说:“帮我做一个小程序,上线到某某平台。”
它的工作流程是:
先拆解步骤:查 API 文档、创建项目、写前端、写后端、联调、打包、上传、测试;
每一步都要调用模型;
中间出错,再调试、再重构、再分析日志。
我们和一些团队粗算过一笔账:
人工写提示词、用聊天式模型完成一个简单 App,全程 Token 消耗大约 1万 个;
换成 Agent 全自动跑,同样的结果,起步就是 20 万 Token,高的时候能到 200 万。
中间差了三个数量级。
以前是一句话指挥一个实习生,现在是一句话调动了一支数字化团队。
每一个“任务指令”,背后是一个持续运转的长链条,模型被反复调用,算力消耗被放大。
这也是为什么不少机构会预测:
到 2026 年底,Agent 大概率能独立完成相当于人类半周的工作量,对应的算力消耗提升一个数量级以上,在估算中直接用“千倍级增长”来预期,并不算夸张。
第三个变化有点反直觉。
这两年,国产模型做了很多听起来更“省算力”的优化:
MLA、多头潜在注意力,把单个 Token 的算力成本压下来;
MoE(混合专家),一次推理不是让所有参数都参与,而是只激活其中一小部分“专家”。
听上去总算力压力应该减轻,但现实是:总消耗被推上去了。
原因很简单:价格降低后,使用习惯就变了。
以前模型贵,企业只敢在几个试点业务上试一试;
现在费用下来,很多原来犹豫要不要用 AI 的环节,干脆全部交给模型处理。
这就是经济学里常说的“杰文斯悖论”:
提高效率之后,资源反而被用得更多。
就像打车一样:
一公里要 10 块钱时,很多人还是挤地铁、挤公交;
一夜之间打车变成每公里 1 块钱,反而是大家开始放弃公共交通,出门就叫车。
算力也是类似逻辑:单价跌,使用频次、使用深度一起上升,总 Token 消耗继续往上推。
理解了“为什么会大爆炸”,下一步要看的是:
在哪些环节,这些额外消耗会变成企业收入和利润?
整体看,有三块可以重点盯:
互联、散热、供电这些基础设施;
有定价能力的大模型;
真正吃透行业知识的 Agent 应用。
先从最底层,也是最容易被忽略的硬件讲起。
很多人炒AI,只盯着“哪种算力卡涨价了”。
但你真把一台 AI 服务器拆开看,会发现卡只是最显眼的那块芯片,旁边一大圈“配套零件”的价值,正悄悄上来。
先看光模块。
训练大模型时,英伟达的 GPU 需要通过高速网络和大量同伴同步参数。
网络从 400G 升到 800G,现在向 1.6T 推进。
部分拆机数据里提到:
一张 B200/B300 级别的卡,对应的光模块价值已经进入“千美元”级别;
Rubin 下一代方案,相关配置下的光模块价值有可能接近 4000 美元。
再看高阶 PCB 材料。
从 GB200 到 GB300,再到 Rubin NVL 系列,机柜里:
算力板、交换板、背板的层数增加,从 22 层堆到 30 多层;
材料从普通板升级到 M8、M9 等高端材质。
有拆解报告估算:
GB200 一柜服务器的 PCB 总价值在二十多万人民币;
Rubin 新架构下,一柜 PCB 价值可能直接翻倍,折算到单块 GPU,对应的 PCB 成本会从三千多提高到接近八千。
所以你会在各类报告里经常看到“光互联升级”“高阶背板材料”这些关键词:
芯片性能往上走,只是第一层;
配套的光、电连接系统,也在不断变贵。
再往下是散热。
Vertiv 的数据给了一个很直观的变化:
2024 年,典型 AI 机柜的峰值功率密度大约在 130kW;
向 2029 年看,目标已经指向接近 1MW 一柜。
一柜接近一座小型变电站的功率。
这种情况下,靠风扇已经扛不住,只能上液冷。
以英伟达 GB200/GB300 液冷方案为例:
一柜液冷系统的设备价值在 8 万~10 万美元之间;
折算到单块 GPU,对应的散热成本大约在 1110~2400 美元。
再看供电。
传统数据中心,是一间机房放一排排普通服务器,插在 220V 供电系统上,配几套 UPS 和变压器就够用。
AI 数据中心则是在一栋楼里堆满高功率机柜,一柜就是上百千瓦甚至接近兆瓦。
为了喂饱这些机柜,供电方式开始改变,你会经常听到几个缩写:
HVDC:高压直流;
SST:固态变压器。
可以简单理解为:
HVDC 把原本的数据中心内部交流供电,改成高压直流,减少多级转换带来的损耗;
SST 是一套新的电力设备,既像变压器,又像可编程电力路由器,一端接 10kV 市电,另一端直接输出接近 800V 的直流给机柜,中间可以省掉多级传统设备。
有电力设备厂的公开测算提到:
按传统方案,一个 1GW 级别数据中心,供配电建设需要几十亿元投入;
如果大规模采用 SST,一方面设备单价更高,另一方面可以压缩部分环节,所以单 1GW 级数据中心,对应的“新型能源路由设备”自身市场空间就能达到十亿元级别。
整体看,AI 算力从“买几块卡”这件事,扩展成了“建设整套高功率机房”的工程。
显卡供应紧不紧张是一件事,能不能拿到地、电力指标、散热环境和高速互联能力,是另一件事。
对投资者来说,判断可以收拢成一个简单逻辑:
只要 Token 的使用量还在持续增加,掌握光互联、散热、供电这些环节的厂商,就有机会长期涨价和持续接单。
从硬件往上一层,就是模型和软件。
这两个月,很多人盯住了同一家公司:智谱。
2 月 12 日,智谱做了两件事:
发布新模型 GLM-5;
同时把 GLM Coding Plan 整体涨价,核心套餐上调大约 30%,之前首月“五折优惠”直接取消。
结果是——涨价之后,Coding Plan 依然卖完。
Coding Plan 可以简单理解为“大模型的包月卡”:
个人开发者或小团队按月付费,在额度内不限次调用;
对用量很大的用户,比按 Token 计费更可控。
这轮调价,至少说明了几件事:
第一,高价值场景对 Token 单价不敏感。
写几行普通文案,免费模型或低价模型已经够用;
但写复杂代码、做金融研究、跑长链 Agent 时,一个任务确实能替代几个人的时间,这时模型涨价 30% 对用户来说不是关键问题。
第二,模型厂商开始按“解决问题的能力”提价,而不是简单贴着算力成本定价。
之前大家比参数规模、比价格谁更便宜;
现在,有厂商开始按“我能帮你多做多少事”来定价——能力强一点,就敢贵一点。
第三,Token 逐渐变成一个真实的“计量单位”。
不再只看 DAU 或访问次数,而是看“每天有多少 Token 被调动起来”。
这个数据,向下决定了显卡和电力消耗,向上决定了模型和应用的收入。
海外也有相似例子。
Anthropic 的 Claude 在代码、文档场景落地后,外界预期其年度经常性收入从十亿美元级别走向百亿美元级别,就是因为在高价值任务里堆出了可观的 Token 使用量。
国内的 MiniMax M2.5 在 OpenRouter 上调用量排在前列,公开信息里提到约七成收入来自海外,这种“国内用更低电价+算法优化,生成 Token 卖给海外开发者”的模式,已经开始跑通。
你可以把它想成这样一条链:
电厂建在中国,本地电费较低;
电力变成算力,算力变成模型推理,最终产出 Token;
海外开发者付费调用 API,把钱付回来。
电没有跨境流动,但附着在电上的“智能服务”在全球流动。
在这条链路里,有一个环节最近也越来越受关注:向量数据库。
向量数据库,可以粗略理解成大模型的“外部长时记忆”,负责:
存储大量向量化后的文本、图片等信息;
在推理时,帮助模型快速检索相关内容,再喂回给模型。
现在很多 AI 应用采用“RAG + 大模型”的方式。
有实测数据称,这样一套系统可以把推理阶段的算力消耗减少 30%~70%。
同样一度电,通过更好的检索和记忆结构,可以完成更多有效推理,输出更多有价值的答案。
在 Token 使用量越来越大的阶段,谁能让“每度电产出更多有效 Token”,谁就更重要。
再往上,是普通用户和企业最熟悉的软件层。
很多人担心:
“传统软件、SaaS 会不会被 AI 一刀切掉?”
可以先把软件公司分成两大类来看。
第一类是很轻的工具,比如:
简历润色插件;
基础合同审阅工具;
只调用一次模型就能完成的简单文本处理工具。
这类产品,本质是把通用大模型包了一层简单界面,没有太深的行业理解。
未来企业上自己的一套大模型 + Agent 时,可以直接调用底层模型,接入自己内部数据,不一定需要这些中间环节。
这种软件,确实容易被替代。
第二类是贴着业务流程跑、堆了很多年经验的系统,比如:
把企业财务、供应链、生产、审批全装在系统里的 ERP 厂商;
长期为银行、券商写业务系统的金融 IT 公司;
深入工厂生产线、积累工艺参数和质量数据的工业软件公司。
它们了解的是:
某个行业多年来形成的规则;
某类客户的业务细节;
合规要求和风险点。
等企业开始弄自己的大模型和内部 Agent 时,真正要打通的,其实是这些系统里的数据和规则。因此,更有机会的,是那些能把这些数据整理好、暴露出可供 AI 读取和调用接口的软件供应商。
从披露数据看,部分办公软件和企业软件在接入 AI 后,付费用户的平均收入确实有提升:
在一些企业案例中:
代码自动生成比例可以占到 30% 左右;
代码评审效率提升 30% 左右;
新人熟悉系统的时间缩短一大截。
对于软件厂商来说,这些都可以用来支持“从原来的订阅价往上加一档”的做法。
长期看,软件会被 AI 重做一遍,但过程不会一夜完成。
较轻的工具可能被整合进更大的平台,或者直接被 Agent 取代;
承载关键业务流程的软件,有机会在原有基础上,叠加一层 AI 能力,反而变得更难替代。
回到大家关心的国产算力和本土材料。
“先进制程受限制”这件事,大家耳朵里已经听了很多次。那在这个前提下,国内是如何尽量跟上 Token 使用大幅增长这股潮水的?
一个发展方向,是所谓的“超节点”。
过去我们习惯用一张 A100、H100 的指标来衡量性能,关注:
单卡算力;
单卡显存。
华为昇腾、中科曙光等厂商最近几年在尝试另一条路径:
单卡制程短期内追不上最新节点;
那就多堆卡、多拉互联,把多块 GPU 通过高速网络连接起来,当成一台更大的“整体机器”使用。
比如 384 卡、640 卡的 SuperPoD。
一整柜、一整排甚至一整间机房的卡,用专门设计的高带宽、低延时互联网络串联,把整体性能抬上去。
这种方式确实能补一部分短板,但代价也摆在那:
单卡性能不占优势;
想达到同样训练效果,需要更多卡;
对应多出更多光模块、PCB、电源、散热需求。
有测算认为,在限制进口高端 GPU 后,要达到原本同等水平的训练效果,集群规模至少要放大 20%~50%。
这意味着:互联、供电、散热、机房建设的投入都会明显增加。
对本土产业链上游来说,这反而是一种机会——尤其是IC 载板、高端玻纤布等材料和部件。
全球高端玻纤布主要由几家日企供应,扩产节奏比较谨慎;
ABF 载板也多次出现“供不应求”的情况。
在这个背景下,国内相关企业在某些环节开始有了更多话语权,产品单价和订单量都有机会提升。
这和当年新能源汽车的路径有些相似:
早期电池材料被日韩企业牢牢占据;
国内从隔膜、正极、负极、电解液逐项追赶;
每一次外部供给收紧,反过来都会推一把本土替代。
算力相关材料、互联和载板的故事,可能会大致沿着类似方向展开。
风险也要摆出来。
有几种情况,会让上述逻辑遇到阻力:
资本开支明显降速。
如果海外云厂商、国内大型互联网公司在宏观压力、监管要求或股东诉求下,开始收紧 AI 相关资本开支,上游光模块、PCB、电力设备厂的订单确认节奏就会拖后,收入和利润表现会变慢。
AI 在关键场景迟迟落不了地。
医疗、工业、金融这些场景,单个项目价值高,但对可靠性、合规要求也更高。
如果因为幻觉率、责任界定、监管等问题,迟迟不能放量使用,Token 增长就会更集中在娱乐、轻办公等低客单价场景,对模型和应用公司的付费能力会打折。
地缘政治风险进一步加码。
如果对先进制程设备、高端封装材料的限制进一步加强,国内算力方案需要投入更多“物理层成本”来弥补,这会削弱部分企业的盈利能力。
所以这条线不能闭着眼梭哈,更需要挑那些“资源条件相对刚性、有明确盈利模式”的环节。
把上述内容压缩成几个可操作的配置建议:
如果目标是分享“Token大爆炸”的长期收益,同时控制周期波动,可以分三块考虑:
1)在组合底层,配足“基建成本上升相关”的资产。
重点不在宽泛的“服务器概念股”,而是在互联、电力、散热环节拥有议价能力、且供应集中、扩产周期长的公司。
PCB/覆铜板、800G/1.6T光模块、液冷CDU+冷板、SST+HVDC这几块值得花时间细看。
逻辑是:Token消耗上升,本质是算力和电力的消耗上升,而这些环节恰好连接算力和电力,需求一旦固化,上游涨价很难绕开它们。
2)在成长层,挑少数有机会掌握“技术定价权”的模型公司。
筛选标准可以简化为:
开始尝试提订阅或API价格,提价后客户留存没有明显下滑;
收入结构从一次性大单向订阅和API迁移,有可观察的毛利率改善;
至少有一两个可以反复引用的高ROI落地场景。
智谱、MiniMax这类,如果估值阶段出现明显低估,可以考虑作为长期看涨期权配置,前提是能接受中间几年亏损和市场情绪波动。
3)在应用层,尽量集中在“行业深度型”的垂直厂商,而不是通用工具。
重点看三个问题:
行业范围是否清晰(金融、制造、医疗、ERP等);
是否有长期积累的数据和业务知识;
AI功能是否已经在收入指标上有所体现(ARPU提升、付费用户增加等)。
金蝶、赛意、汉得、卫宁、恒生、同花顺、万兴等,可以逐一拆开,看谁真的在用AI改产品结构,而不是只在宣传里加“AI版”。
同时,给自己留出动态调整空间。
一旦CapEx节奏或地缘因素出现明显变化,要敢在硬件链条调整节奏——例如从周期性更强的服务器整机和加速卡,部分转向电源、光互联这类更接近“基础消耗品”的环节。
从投资视角看,Token大爆炸背后是一套可以量化的算力经济学。
只要盯住两个问题:“谁控制资源约束”“谁把Token稳定换成现金流”,很多表面热闹的概念,就能分出轻重缓急。