小龙虾OpenClaw只是开始!Tokens大爆炸时代,投资机会全解析!

用户头像
老李信息差
 · 上海  

小龙虾OpenClaw只是开始!Tokens大爆炸时代,投资机会全解析!

先把结论讲明白:
如果你现在拿着科技股、算力股,或者正犹豫要不要上车AI,接下来几年,持续赚钱能力最强的,未必是那块显卡本身,而是围绕“Token大爆炸”这条链路上,几个看着枯燥但越来越值钱的环节。

一句话概括:

前两年大家炒的是“卡有多贵”,接下来几年要看的是“每一度电能换出多少Token”。谁掌握这条链上的“水、电、冷却和管道”,谁更有定价权。

先不说英伟达,也不说华为,先从身边一个小事说起。

一、从表妹写年终总结,看出“Token大爆炸”的苗头

春节前,一个在互联网大厂做产品的表妹,给我发了个截图。

她说:
“你看,这个月部门的AI账号又超额了,我一个人就刷掉三千多万 Token。”

截图里是调用记录列表:
白天,她用大模型写PRD、做竞品分析;
晚上回家,用 Seedance 2.0 给客户做十几条 10 秒 1080P 的视频 demo。后台统计显示——一条视频消耗 35 万 Token

她半开玩笑地说:
“以前上班摸鱼刷短视频,现在是我帮AI刷短视频,钱还是公司的。”

这几句话背后,变化挺集中:

以前她只是和模型“聊几句”,写写文案,一天也就几千、几万 Token;

现在是“看几秒”,做视频、多模态,一条内容就是几十万 Token;

再过一阵子,部门准备上 OpenClaw 这类 Agent,让AI自己翻库、拉数据、填表、发邮件,一个任务可能要跑几十轮调用。

人干的活没有暴增,但每个任务消耗的 Token 数量,已经完全换了一个量级,这就是这里说的——Token 大爆炸

这里的“大爆炸”,不是指某个平台的 Token 变得不值钱,而是:

做同样一类业务,现在需要多烧几十倍、几百倍的 Token,才算把活干到位。

围绕这个现象,往下看有三条比较清晰的投资线索,咱们拆开讲。

二、为什么 Token 会“大爆炸”?——从“聊几句”变成“干一摊活”

你可能会想:
“听起来就是服务器忙一点,真有那么夸张吗?”

如果只是多跑一点,那确实不必上纲上线。但近两年有三个关键变化。

1. 任务变了:从“打几行字”到“处理几秒视频”

过去大多数人用AI干什么?
打开对话框,敲一段文字:“帮我写个年终总结”。
模型读几百字,回你几千字,这一来一回消耗的 Token,大概也就是几千到一两万。

这两年情况完全变了。

你看这两年最常被转发的视频应用:
字节的 Seedance 2.0、快手的可灵 2.0。
生成一条 10 秒的 1080P 视频,后台统计——一条 35 万 Token

同样是“做一条内容”,从几千 Token 一下子跳到几十万 Token,中间起码差两级。

再叠加多模态的使用方式:
以前模型只看文字;
现在要看你上传的 PPT、Excel、合同扫描件、产品照片,甚至监控视频。
一个任务下来,涉及多种数据,调用次数拉长,最终消耗的 Token 很容易翻倍再翻倍。

从“聊几句”到“看几秒”,本质变化是:
每个任务在模型那边占用的算力时间和资源,已经完全不一样了。

2. 角色变了:从“聊天对象”到“能自己干活的 Agent”

第二个变化,是很多人最近亲眼看到的:像 OpenClaw 这类 Agent 工具突然火起来。

你可以把 Agent 理解成:有人把一个“会聊天的大脑”,真正装进了你的电脑里。

它不只会回话,还会:

自己打开浏览器搜资料;

自己操作 Excel;

自己登录你公司内部系统;

自己发邮件跟客户沟通。

关键对比在这里:

以前你对着 ChatGPT 说:“帮我生成一个小程序的代码。”
模型思考一次,返回一份结果,消耗大概 2000~10000 个 Token。

现在你对 Agent 说:“帮我做一个小程序,上线到某某平台。”
它的工作流程是:

先拆解步骤:查 API 文档、创建项目、写前端、写后端、联调、打包、上传、测试;

每一步都要调用模型;

中间出错,再调试、再重构、再分析日志。

我们和一些团队粗算过一笔账:

人工写提示词、用聊天式模型完成一个简单 App,全程 Token 消耗大约 1万 个;

换成 Agent 全自动跑,同样的结果,起步就是 20 万 Token,高的时候能到 200 万

中间差了三个数量级。

以前是一句话指挥一个实习生,现在是一句话调动了一支数字化团队。
每一个“任务指令”,背后是一个持续运转的长链条,模型被反复调用,算力消耗被放大。

这也是为什么不少机构会预测:
到 2026 年底,Agent 大概率能独立完成相当于人类半周的工作量,对应的算力消耗提升一个数量级以上,在估算中直接用“千倍级增长”来预期,并不算夸张。

3. 算法降了成本,却推高了总消耗

第三个变化有点反直觉。

这两年,国产模型做了很多听起来更“省算力”的优化:

MLA、多头潜在注意力,把单个 Token 的算力成本压下来;

MoE(混合专家),一次推理不是让所有参数都参与,而是只激活其中一小部分“专家”。

听上去总算力压力应该减轻,但现实是:总消耗被推上去了。

原因很简单:价格降低后,使用习惯就变了。

以前模型贵,企业只敢在几个试点业务上试一试;

现在费用下来,很多原来犹豫要不要用 AI 的环节,干脆全部交给模型处理。

这就是经济学里常说的“杰文斯悖论”:
提高效率之后,资源反而被用得更多。

就像打车一样:

一公里要 10 块钱时,很多人还是挤地铁、挤公交;

一夜之间打车变成每公里 1 块钱,反而是大家开始放弃公共交通,出门就叫车。

算力也是类似逻辑:单价跌,使用频次、使用深度一起上升,总 Token 消耗继续往上推。

三、涨的不光是 Token,还有互联、散热和电力成本

理解了“为什么会大爆炸”,下一步要看的是:
在哪些环节,这些额外消耗会变成企业收入和利润?

整体看,有三块可以重点盯:

互联、散热、供电这些基础设施;

有定价能力的大模型;

真正吃透行业知识的 Agent 应用。

先从最底层,也是最容易被忽略的硬件讲起。

1. 显卡只是“核心零件”,旁边那圈“配套”越来越贵

很多人炒AI,只盯着“哪种算力卡涨价了”。
但你真把一台 AI 服务器拆开看,会发现卡只是最显眼的那块芯片,旁边一大圈“配套零件”的价值,正悄悄上来。

先看光模块

训练大模型时,英伟达的 GPU 需要通过高速网络和大量同伴同步参数。
网络从 400G 升到 800G,现在向 1.6T 推进。

部分拆机数据里提到:

一张 B200/B300 级别的卡,对应的光模块价值已经进入“千美元”级别;

Rubin 下一代方案,相关配置下的光模块价值有可能接近 4000 美元。

再看高阶 PCB 材料

从 GB200 到 GB300,再到 Rubin NVL 系列,机柜里:

算力板、交换板、背板的层数增加,从 22 层堆到 30 多层;

材料从普通板升级到 M8、M9 等高端材质。

有拆解报告估算:

GB200 一柜服务器的 PCB 总价值在二十多万人民币;

Rubin 新架构下,一柜 PCB 价值可能直接翻倍,折算到单块 GPU,对应的 PCB 成本会从三千多提高到接近八千。

所以你会在各类报告里经常看到“光互联升级”“高阶背板材料”这些关键词:
芯片性能往上走,只是第一层;
配套的光、电连接系统,也在不断变贵。

再往下是散热

Vertiv 的数据给了一个很直观的变化:

2024 年,典型 AI 机柜的峰值功率密度大约在 130kW;

向 2029 年看,目标已经指向接近 1MW 一柜。

一柜接近一座小型变电站的功率。
这种情况下,靠风扇已经扛不住,只能上液冷。

英伟达 GB200/GB300 液冷方案为例:

一柜液冷系统的设备价值在 8 万~10 万美元之间;

折算到单块 GPU,对应的散热成本大约在 1110~2400 美元。

再看供电

传统数据中心,是一间机房放一排排普通服务器,插在 220V 供电系统上,配几套 UPS 和变压器就够用。
AI 数据中心则是在一栋楼里堆满高功率机柜,一柜就是上百千瓦甚至接近兆瓦。

为了喂饱这些机柜,供电方式开始改变,你会经常听到几个缩写:

HVDC:高压直流;

SST:固态变压器。

可以简单理解为:

HVDC 把原本的数据中心内部交流供电,改成高压直流,减少多级转换带来的损耗;

SST 是一套新的电力设备,既像变压器,又像可编程电力路由器,一端接 10kV 市电,另一端直接输出接近 800V 的直流给机柜,中间可以省掉多级传统设备。

有电力设备厂的公开测算提到:

按传统方案,一个 1GW 级别数据中心,供配电建设需要几十亿元投入;

如果大规模采用 SST,一方面设备单价更高,另一方面可以压缩部分环节,所以单 1GW 级数据中心,对应的“新型能源路由设备”自身市场空间就能达到十亿元级别。

整体看,AI 算力从“买几块卡”这件事,扩展成了“建设整套高功率机房”的工程。
显卡供应紧不紧张是一件事,能不能拿到地、电力指标、散热环境和高速互联能力,是另一件事。

对投资者来说,判断可以收拢成一个简单逻辑:

只要 Token 的使用量还在持续增加,掌握光互联、散热、供电这些环节的厂商,就有机会长期涨价和持续接单。

四、谁把 Token 真正换成收入?——模型提价和软件重做

从硬件往上一层,就是模型和软件。

这两个月,很多人盯住了同一家公司:智谱

1. 智谱涨价反映了什么:从“压价格”到“看能力”

2 月 12 日,智谱做了两件事:

发布新模型 GLM-5;

同时把 GLM Coding Plan 整体涨价,核心套餐上调大约 30%,之前首月“五折优惠”直接取消。

结果是——涨价之后,Coding Plan 依然卖完。

Coding Plan 可以简单理解为“大模型的包月卡”:

个人开发者或小团队按月付费,在额度内不限次调用;

对用量很大的用户,比按 Token 计费更可控。

这轮调价,至少说明了几件事:

第一,高价值场景对 Token 单价不敏感
写几行普通文案,免费模型或低价模型已经够用;
但写复杂代码、做金融研究、跑长链 Agent 时,一个任务确实能替代几个人的时间,这时模型涨价 30% 对用户来说不是关键问题。

第二,模型厂商开始按“解决问题的能力”提价,而不是简单贴着算力成本定价
之前大家比参数规模、比价格谁更便宜;
现在,有厂商开始按“我能帮你多做多少事”来定价——能力强一点,就敢贵一点。

第三,Token 逐渐变成一个真实的“计量单位”
不再只看 DAU 或访问次数,而是看“每天有多少 Token 被调动起来”。
这个数据,向下决定了显卡和电力消耗,向上决定了模型和应用的收入。

海外也有相似例子。
Anthropic 的 Claude 在代码、文档场景落地后,外界预期其年度经常性收入从十亿美元级别走向百亿美元级别,就是因为在高价值任务里堆出了可观的 Token 使用量。

国内的 MiniMax M2.5 在 OpenRouter 上调用量排在前列,公开信息里提到约七成收入来自海外,这种“国内用更低电价+算法优化,生成 Token 卖给海外开发者”的模式,已经开始跑通。

你可以把它想成这样一条链:

电厂建在中国,本地电费较低;

电力变成算力,算力变成模型推理,最终产出 Token;

海外开发者付费调用 API,把钱付回来。

电没有跨境流动,但附着在电上的“智能服务”在全球流动。

在这条链路里,有一个环节最近也越来越受关注:向量数据库

向量数据库,可以粗略理解成大模型的“外部长时记忆”,负责:

存储大量向量化后的文本、图片等信息;

在推理时,帮助模型快速检索相关内容,再喂回给模型。

现在很多 AI 应用采用“RAG + 大模型”的方式。
有实测数据称,这样一套系统可以把推理阶段的算力消耗减少 30%~70%。

同样一度电,通过更好的检索和记忆结构,可以完成更多有效推理,输出更多有价值的答案。
在 Token 使用量越来越大的阶段,谁能让“每度电产出更多有效 Token”,谁就更重要。

2. 软件:哪些会被取代,哪些会被重新“加一层 AI”

再往上,是普通用户和企业最熟悉的软件层。

很多人担心:
“传统软件、SaaS 会不会被 AI 一刀切掉?”

可以先把软件公司分成两大类来看。

第一类是很轻的工具,比如:

简历润色插件;

基础合同审阅工具;

只调用一次模型就能完成的简单文本处理工具。

这类产品,本质是把通用大模型包了一层简单界面,没有太深的行业理解。
未来企业上自己的一套大模型 + Agent 时,可以直接调用底层模型,接入自己内部数据,不一定需要这些中间环节。
这种软件,确实容易被替代。

第二类是贴着业务流程跑、堆了很多年经验的系统,比如:

把企业财务、供应链、生产、审批全装在系统里的 ERP 厂商;

长期为银行、券商写业务系统的金融 IT 公司;

深入工厂生产线、积累工艺参数和质量数据的工业软件公司。

它们了解的是:

某个行业多年来形成的规则;

某类客户的业务细节;

合规要求和风险点。

等企业开始弄自己的大模型和内部 Agent 时,真正要打通的,其实是这些系统里的数据和规则。因此,更有机会的,是那些能把这些数据整理好、暴露出可供 AI 读取和调用接口的软件供应商。

从披露数据看,部分办公软件和企业软件在接入 AI 后,付费用户的平均收入确实有提升:
在一些企业案例中:

代码自动生成比例可以占到 30% 左右;

代码评审效率提升 30% 左右;

新人熟悉系统的时间缩短一大截。

对于软件厂商来说,这些都可以用来支持“从原来的订阅价往上加一档”的做法。

长期看,软件会被 AI 重做一遍,但过程不会一夜完成。

较轻的工具可能被整合进更大的平台,或者直接被 Agent 取代;

承载关键业务流程的软件,有机会在原有基础上,叠加一层 AI 能力,反而变得更难替代。

五、国产算力和材料:在受限条件下“多堆一点物理层”

回到大家关心的国产算力和本土材料。

“先进制程受限制”这件事,大家耳朵里已经听了很多次。那在这个前提下,国内是如何尽量跟上 Token 使用大幅增长这股潮水的?

一个发展方向,是所谓的“超节点”。

过去我们习惯用一张 A100、H100 的指标来衡量性能,关注:

单卡算力;

单卡显存。

华为昇腾、中科曙光等厂商最近几年在尝试另一条路径:

单卡制程短期内追不上最新节点;

那就多堆卡、多拉互联,把多块 GPU 通过高速网络连接起来,当成一台更大的“整体机器”使用。

比如 384 卡、640 卡的 SuperPoD。
一整柜、一整排甚至一整间机房的卡,用专门设计的高带宽、低延时互联网络串联,把整体性能抬上去。

这种方式确实能补一部分短板,但代价也摆在那:

单卡性能不占优势;

想达到同样训练效果,需要更多卡;

对应多出更多光模块、PCB、电源、散热需求。

有测算认为,在限制进口高端 GPU 后,要达到原本同等水平的训练效果,集群规模至少要放大 20%~50%。
这意味着:互联、供电、散热、机房建设的投入都会明显增加。

对本土产业链上游来说,这反而是一种机会——尤其是IC 载板、高端玻纤布等材料和部件

全球高端玻纤布主要由几家日企供应,扩产节奏比较谨慎;
ABF 载板也多次出现“供不应求”的情况。
在这个背景下,国内相关企业在某些环节开始有了更多话语权,产品单价和订单量都有机会提升。

这和当年新能源汽车的路径有些相似:

早期电池材料被日韩企业牢牢占据;

国内从隔膜、正极、负极、电解液逐项追赶;

每一次外部供给收紧,反过来都会推一把本土替代。

算力相关材料、互联和载板的故事,可能会大致沿着类似方向展开。

六、哪些因素可能打断这条“Token 大爆炸逻辑线”

风险也要摆出来。

有几种情况,会让上述逻辑遇到阻力:

资本开支明显降速。
如果海外云厂商、国内大型互联网公司在宏观压力、监管要求或股东诉求下,开始收紧 AI 相关资本开支,上游光模块、PCB、电力设备厂的订单确认节奏就会拖后,收入和利润表现会变慢。

AI 在关键场景迟迟落不了地。
医疗、工业、金融这些场景,单个项目价值高,但对可靠性、合规要求也更高。
如果因为幻觉率、责任界定、监管等问题,迟迟不能放量使用,Token 增长就会更集中在娱乐、轻办公等低客单价场景,对模型和应用公司的付费能力会打折。

地缘政治风险进一步加码。
如果对先进制程设备、高端封装材料的限制进一步加强,国内算力方案需要投入更多“物理层成本”来弥补,这会削弱部分企业的盈利能力。

所以这条线不能闭着眼梭哈,更需要挑那些“资源条件相对刚性、有明确盈利模式”的环节。

七、普通投资者怎么用这些信息?选什么、怎么配

把上述内容压缩成几个可操作的配置建议:

如果目标是分享“Token大爆炸”的长期收益,同时控制周期波动,可以分三块考虑:

1)在组合底层,配足“基建成本上升相关”的资产。
重点不在宽泛的“服务器概念股”,而是在互联、电力、散热环节拥有议价能力、且供应集中、扩产周期长的公司。
PCB/覆铜板、800G/1.6T光模块、液冷CDU+冷板、SST+HVDC这几块值得花时间细看。
逻辑是:Token消耗上升,本质是算力和电力的消耗上升,而这些环节恰好连接算力和电力,需求一旦固化,上游涨价很难绕开它们。

2)在成长层,挑少数有机会掌握“技术定价权”的模型公司。
筛选标准可以简化为:

开始尝试提订阅或API价格,提价后客户留存没有明显下滑;

收入结构从一次性大单向订阅和API迁移,有可观察的毛利率改善;

至少有一两个可以反复引用的高ROI落地场景。
智谱、MiniMax这类,如果估值阶段出现明显低估,可以考虑作为长期看涨期权配置,前提是能接受中间几年亏损和市场情绪波动。

3)在应用层,尽量集中在“行业深度型”的垂直厂商,而不是通用工具。
重点看三个问题:

行业范围是否清晰(金融、制造、医疗、ERP等);

是否有长期积累的数据和业务知识;

AI功能是否已经在收入指标上有所体现(ARPU提升、付费用户增加等)。
金蝶、赛意、汉得、卫宁、恒生、同花顺、万兴等,可以逐一拆开,看谁真的在用AI改产品结构,而不是只在宣传里加“AI版”。

同时,给自己留出动态调整空间。
一旦CapEx节奏或地缘因素出现明显变化,要敢在硬件链条调整节奏——例如从周期性更强的服务器整机和加速卡,部分转向电源、光互联这类更接近“基础消耗品”的环节。

从投资视角看,Token大爆炸背后是一套可以量化的算力经济学。
只要盯住两个问题:“谁控制资源约束”“谁把Token稳定换成现金流”,很多表面热闹的概念,就能分出轻重缓急。

$智谱(02513)$ $长飞光纤(SH601869)$ $网宿科技(SZ300017)$