小龙虾OpenClaw只是开始！Tokens大爆炸时代，投资机会全解析！

老李信息差

2026-03-10 17:45 · 上海

小龙虾OpenClaw只是开始！Tokens大爆炸时代，投资机会全解析！

先把结论讲明白：
如果你现在拿着科技股、算力股，或者正犹豫要不要上车AI，接下来几年，持续赚钱能力最强的，未必是那块显卡本身，而是围绕“Token大爆炸”这条链路上，几个看着枯燥但越来越值钱的环节。

一句话概括：

前两年大家炒的是“卡有多贵”，接下来几年要看的是“每一度电能换出多少Token”。谁掌握这条链上的“水、电、冷却和管道”，谁更有定价权。

先不说英伟达，也不说华为，先从身边一个小事说起。

一、从表妹写年终总结，看出“Token大爆炸”的苗头

春节前，一个在互联网大厂做产品的表妹，给我发了个截图。

她说：
“你看，这个月部门的AI账号又超额了，我一个人就刷掉三千多万 Token。”

截图里是调用记录列表：
白天，她用大模型写PRD、做竞品分析；
晚上回家，用 Seedance 2.0 给客户做十几条 10 秒 1080P 的视频 demo。后台统计显示——一条视频消耗 35 万 Token。

她半开玩笑地说：
“以前上班摸鱼刷短视频，现在是我帮AI刷短视频，钱还是公司的。”

这几句话背后，变化挺集中：

以前她只是和模型“聊几句”，写写文案，一天也就几千、几万 Token；

现在是“看几秒”，做视频、多模态，一条内容就是几十万 Token；

再过一阵子，部门准备上 OpenClaw 这类 Agent，让AI自己翻库、拉数据、填表、发邮件，一个任务可能要跑几十轮调用。

人干的活没有暴增，但每个任务消耗的 Token 数量，已经完全换了一个量级，这就是这里说的——Token 大爆炸。

这里的“大爆炸”，不是指某个平台的 Token 变得不值钱，而是：

做同样一类业务，现在需要多烧几十倍、几百倍的 Token，才算把活干到位。

围绕这个现象，往下看有三条比较清晰的投资线索，咱们拆开讲。

二、为什么 Token 会“大爆炸”？——从“聊几句”变成“干一摊活”

你可能会想：
“听起来就是服务器忙一点，真有那么夸张吗？”

如果只是多跑一点，那确实不必上纲上线。但近两年有三个关键变化。

1. 任务变了：从“打几行字”到“处理几秒视频”

过去大多数人用AI干什么？
打开对话框，敲一段文字：“帮我写个年终总结”。
模型读几百字，回你几千字，这一来一回消耗的 Token，大概也就是几千到一两万。

这两年情况完全变了。

你看这两年最常被转发的视频应用：
字节的 Seedance 2.0、快手的可灵 2.0。
生成一条 10 秒的 1080P 视频，后台统计——一条 35 万 Token。

同样是“做一条内容”，从几千 Token 一下子跳到几十万 Token，中间起码差两级。

再叠加多模态的使用方式：
以前模型只看文字；
现在要看你上传的 PPT、Excel、合同扫描件、产品照片，甚至监控视频。
一个任务下来，涉及多种数据，调用次数拉长，最终消耗的 Token 很容易翻倍再翻倍。

从“聊几句”到“看几秒”，本质变化是：
每个任务在模型那边占用的算力时间和资源，已经完全不一样了。

2. 角色变了：从“聊天对象”到“能自己干活的 Agent”

第二个变化，是很多人最近亲眼看到的：像 OpenClaw 这类 Agent 工具突然火起来。

你可以把 Agent 理解成：有人把一个“会聊天的大脑”，真正装进了你的电脑里。

它不只会回话，还会：

自己打开浏览器搜资料；

自己操作 Excel；

自己登录你公司内部系统；

自己发邮件跟客户沟通。

关键对比在这里：

以前你对着 ChatGPT 说：“帮我生成一个小程序的代码。”
模型思考一次，返回一份结果，消耗大概 2000～10000 个 Token。

现在你对 Agent 说：“帮我做一个小程序，上线到某某平台。”
它的工作流程是：

先拆解步骤：查 API 文档、创建项目、写前端、写后端、联调、打包、上传、测试；

每一步都要调用模型；

中间出错，再调试、再重构、再分析日志。

我们和一些团队粗算过一笔账：

人工写提示词、用聊天式模型完成一个简单 App，全程 Token 消耗大约 1万个；

换成 Agent 全自动跑，同样的结果，起步就是 20 万 Token，高的时候能到 200 万。

中间差了三个数量级。

以前是一句话指挥一个实习生，现在是一句话调动了一支数字化团队。
每一个“任务指令”，背后是一个持续运转的长链条，模型被反复调用，算力消耗被放大。

这也是为什么不少机构会预测：
到 2026 年底，Agent 大概率能独立完成相当于人类半周的工作量，对应的算力消耗提升一个数量级以上，在估算中直接用“千倍级增长”来预期，并不算夸张。

3. 算法降了成本，却推高了总消耗

第三个变化有点反直觉。

这两年，国产模型做了很多听起来更“省算力”的优化：

MLA、多头潜在注意力，把单个 Token 的算力成本压下来；

MoE（混合专家），一次推理不是让所有参数都参与，而是只激活其中一小部分“专家”。

听上去总算力压力应该减轻，但现实是：总消耗被推上去了。

原因很简单：价格降低后，使用习惯就变了。

以前模型贵，企业只敢在几个试点业务上试一试；

现在费用下来，很多原来犹豫要不要用 AI 的环节，干脆全部交给模型处理。

这就是经济学里常说的“杰文斯悖论”：
提高效率之后，资源反而被用得更多。

就像打车一样：

一公里要 10 块钱时，很多人还是挤地铁、挤公交；

一夜之间打车变成每公里 1 块钱，反而是大家开始放弃公共交通，出门就叫车。

算力也是类似逻辑：单价跌，使用频次、使用深度一起上升，总 Token 消耗继续往上推。

三、涨的不光是 Token，还有互联、散热和电力成本

理解了“为什么会大爆炸”，下一步要看的是：
在哪些环节，这些额外消耗会变成企业收入和利润？

整体看，有三块可以重点盯：

互联、散热、供电这些基础设施；

有定价能力的大模型；

真正吃透行业知识的 Agent 应用。

先从最底层，也是最容易被忽略的硬件讲起。

1. 显卡只是“核心零件”，旁边那圈“配套”越来越贵

很多人炒AI，只盯着“哪种算力卡涨价了”。
但你真把一台 AI 服务器拆开看，会发现卡只是最显眼的那块芯片，旁边一大圈“配套零件”的价值，正悄悄上来。

先看光模块。

训练大模型时，英伟达的 GPU 需要通过高速网络和大量同伴同步参数。
网络从 400G 升到 800G，现在向 1.6T 推进。

部分拆机数据里提到：

一张 B200/B300 级别的卡，对应的光模块价值已经进入“千美元”级别；

Rubin 下一代方案，相关配置下的光模块价值有可能接近 4000 美元。

再看高阶 PCB 材料。

从 GB200 到 GB300，再到 Rubin NVL 系列，机柜里：

算力板、交换板、背板的层数增加，从 22 层堆到 30 多层；

材料从普通板升级到 M8、M9 等高端材质。

有拆解报告估算：

GB200 一柜服务器的 PCB 总价值在二十多万人民币；

Rubin 新架构下，一柜 PCB 价值可能直接翻倍，折算到单块 GPU，对应的 PCB 成本会从三千多提高到接近八千。

所以你会在各类报告里经常看到“光互联升级”“高阶背板材料”这些关键词：
芯片性能往上走，只是第一层；
配套的光、电连接系统，也在不断变贵。

再往下是散热。

Vertiv 的数据给了一个很直观的变化：

2024 年，典型 AI 机柜的峰值功率密度大约在 130kW；

向 2029 年看，目标已经指向接近 1MW 一柜。

一柜接近一座小型变电站的功率。
这种情况下，靠风扇已经扛不住，只能上液冷。

以英伟达 GB200/GB300 液冷方案为例：

一柜液冷系统的设备价值在 8 万～10 万美元之间；

折算到单块 GPU，对应的散热成本大约在 1110～2400 美元。

再看供电。

传统数据中心，是一间机房放一排排普通服务器，插在 220V 供电系统上，配几套 UPS 和变压器就够用。
AI 数据中心则是在一栋楼里堆满高功率机柜，一柜就是上百千瓦甚至接近兆瓦。

为了喂饱这些机柜，供电方式开始改变，你会经常听到几个缩写：

HVDC：高压直流；

SST：固态变压器。

可以简单理解为：

HVDC 把原本的数据中心内部交流供电，改成高压直流，减少多级转换带来的损耗；

SST 是一套新的电力设备，既像变压器，又像可编程电力路由器，一端接 10kV 市电，另一端直接输出接近 800V 的直流给机柜，中间可以省掉多级传统设备。

有电力设备厂的公开测算提到：

按传统方案，一个 1GW 级别数据中心，供配电建设需要几十亿元投入；

如果大规模采用 SST，一方面设备单价更高，另一方面可以压缩部分环节，所以单 1GW 级数据中心，对应的“新型能源路由设备”自身市场空间就能达到十亿元级别。

整体看，AI 算力从“买几块卡”这件事，扩展成了“建设整套高功率机房”的工程。
显卡供应紧不紧张是一件事，能不能拿到地、电力指标、散热环境和高速互联能力，是另一件事。

对投资者来说，判断可以收拢成一个简单逻辑：

只要 Token 的使用量还在持续增加，掌握光互联、散热、供电这些环节的厂商，就有机会长期涨价和持续接单。

四、谁把 Token 真正换成收入？——模型提价和软件重做

从硬件往上一层，就是模型和软件。

这两个月，很多人盯住了同一家公司：智谱。

1. 智谱涨价反映了什么：从“压价格”到“看能力”

2 月 12 日，智谱做了两件事：

发布新模型 GLM-5；

同时把 GLM Coding Plan 整体涨价，核心套餐上调大约 30%，之前首月“五折优惠”直接取消。

结果是——涨价之后，Coding Plan 依然卖完。

Coding Plan 可以简单理解为“大模型的包月卡”：

个人开发者或小团队按月付费，在额度内不限次调用；

对用量很大的用户，比按 Token 计费更可控。

这轮调价，至少说明了几件事：

第一，高价值场景对 Token 单价不敏感。
写几行普通文案，免费模型或低价模型已经够用；
但写复杂代码、做金融研究、跑长链 Agent 时，一个任务确实能替代几个人的时间，这时模型涨价 30% 对用户来说不是关键问题。

第二，模型厂商开始按“解决问题的能力”提价，而不是简单贴着算力成本定价。
之前大家比参数规模、比价格谁更便宜；
现在，有厂商开始按“我能帮你多做多少事”来定价——能力强一点，就敢贵一点。

第三，Token 逐渐变成一个真实的“计量单位”。
不再只看 DAU 或访问次数，而是看“每天有多少 Token 被调动起来”。
这个数据，向下决定了显卡和电力消耗，向上决定了模型和应用的收入。

海外也有相似例子。
Anthropic 的 Claude 在代码、文档场景落地后，外界预期其年度经常性收入从十亿美元级别走向百亿美元级别，就是因为在高价值任务里堆出了可观的 Token 使用量。

国内的 MiniMax M2.5 在 OpenRouter 上调用量排在前列，公开信息里提到约七成收入来自海外，这种“国内用更低电价+算法优化，生成 Token 卖给海外开发者”的模式，已经开始跑通。

你可以把它想成这样一条链：

电厂建在中国，本地电费较低；

电力变成算力，算力变成模型推理，最终产出 Token；

海外开发者付费调用 API，把钱付回来。

电没有跨境流动，但附着在电上的“智能服务”在全球流动。

在这条链路里，有一个环节最近也越来越受关注：向量数据库。

向量数据库，可以粗略理解成大模型的“外部长时记忆”，负责：

存储大量向量化后的文本、图片等信息；

在推理时，帮助模型快速检索相关内容，再喂回给模型。

现在很多 AI 应用采用“RAG + 大模型”的方式。
有实测数据称，这样一套系统可以把推理阶段的算力消耗减少 30%～70%。

同样一度电，通过更好的检索和记忆结构，可以完成更多有效推理，输出更多有价值的答案。
在 Token 使用量越来越大的阶段，谁能让“每度电产出更多有效 Token”，谁就更重要。

2. 软件：哪些会被取代，哪些会被重新“加一层 AI”

再往上，是普通用户和企业最熟悉的软件层。

很多人担心：
“传统软件、SaaS 会不会被 AI 一刀切掉？”

可以先把软件公司分成两大类来看。

第一类是很轻的工具，比如：

简历润色插件；

基础合同审阅工具；

只调用一次模型就能完成的简单文本处理工具。

这类产品，本质是把通用大模型包了一层简单界面，没有太深的行业理解。
未来企业上自己的一套大模型 + Agent 时，可以直接调用底层模型，接入自己内部数据，不一定需要这些中间环节。
这种软件，确实容易被替代。

第二类是贴着业务流程跑、堆了很多年经验的系统，比如：

把企业财务、供应链、生产、审批全装在系统里的 ERP 厂商；

长期为银行、券商写业务系统的金融 IT 公司；

深入工厂生产线、积累工艺参数和质量数据的工业软件公司。

它们了解的是：

某个行业多年来形成的规则；

某类客户的业务细节；

合规要求和风险点。

等企业开始弄自己的大模型和内部 Agent 时，真正要打通的，其实是这些系统里的数据和规则。因此，更有机会的，是那些能把这些数据整理好、暴露出可供 AI 读取和调用接口的软件供应商。

从披露数据看，部分办公软件和企业软件在接入 AI 后，付费用户的平均收入确实有提升：
在一些企业案例中：

代码自动生成比例可以占到 30% 左右；

代码评审效率提升 30% 左右；

新人熟悉系统的时间缩短一大截。

对于软件厂商来说，这些都可以用来支持“从原来的订阅价往上加一档”的做法。

长期看，软件会被 AI 重做一遍，但过程不会一夜完成。

较轻的工具可能被整合进更大的平台，或者直接被 Agent 取代；

承载关键业务流程的软件，有机会在原有基础上，叠加一层 AI 能力，反而变得更难替代。

五、国产算力和材料：在受限条件下“多堆一点物理层”

回到大家关心的国产算力和本土材料。

“先进制程受限制”这件事，大家耳朵里已经听了很多次。那在这个前提下，国内是如何尽量跟上 Token 使用大幅增长这股潮水的？

一个发展方向，是所谓的“超节点”。

过去我们习惯用一张 A100、H100 的指标来衡量性能，关注：

单卡算力；

单卡显存。

华为昇腾、中科曙光等厂商最近几年在尝试另一条路径：

单卡制程短期内追不上最新节点；

那就多堆卡、多拉互联，把多块 GPU 通过高速网络连接起来，当成一台更大的“整体机器”使用。

比如 384 卡、640 卡的 SuperPoD。
一整柜、一整排甚至一整间机房的卡，用专门设计的高带宽、低延时互联网络串联，把整体性能抬上去。

这种方式确实能补一部分短板，但代价也摆在那：

单卡性能不占优势；

想达到同样训练效果，需要更多卡；

对应多出更多光模块、PCB、电源、散热需求。

有测算认为，在限制进口高端 GPU 后，要达到原本同等水平的训练效果，集群规模至少要放大 20%～50%。
这意味着：互联、供电、散热、机房建设的投入都会明显增加。

对本土产业链上游来说，这反而是一种机会——尤其是IC 载板、高端玻纤布等材料和部件。

全球高端玻纤布主要由几家日企供应，扩产节奏比较谨慎；
ABF 载板也多次出现“供不应求”的情况。
在这个背景下，国内相关企业在某些环节开始有了更多话语权，产品单价和订单量都有机会提升。

这和当年新能源汽车的路径有些相似：

早期电池材料被日韩企业牢牢占据；

国内从隔膜、正极、负极、电解液逐项追赶；

每一次外部供给收紧，反过来都会推一把本土替代。

算力相关材料、互联和载板的故事，可能会大致沿着类似方向展开。

六、哪些因素可能打断这条“Token 大爆炸逻辑线”

风险也要摆出来。

有几种情况，会让上述逻辑遇到阻力：

资本开支明显降速。
如果海外云厂商、国内大型互联网公司在宏观压力、监管要求或股东诉求下，开始收紧 AI 相关资本开支，上游光模块、PCB、电力设备厂的订单确认节奏就会拖后，收入和利润表现会变慢。

AI 在关键场景迟迟落不了地。
医疗、工业、金融这些场景，单个项目价值高，但对可靠性、合规要求也更高。
如果因为幻觉率、责任界定、监管等问题，迟迟不能放量使用，Token 增长就会更集中在娱乐、轻办公等低客单价场景，对模型和应用公司的付费能力会打折。

地缘政治风险进一步加码。
如果对先进制程设备、高端封装材料的限制进一步加强，国内算力方案需要投入更多“物理层成本”来弥补，这会削弱部分企业的盈利能力。

所以这条线不能闭着眼梭哈，更需要挑那些“资源条件相对刚性、有明确盈利模式”的环节。

七、普通投资者怎么用这些信息？选什么、怎么配

把上述内容压缩成几个可操作的配置建议：

如果目标是分享“Token大爆炸”的长期收益，同时控制周期波动，可以分三块考虑：

1）在组合底层，配足“基建成本上升相关”的资产。
重点不在宽泛的“服务器概念股”，而是在互联、电力、散热环节拥有议价能力、且供应集中、扩产周期长的公司。
PCB/覆铜板、800G/1.6T光模块、液冷CDU+冷板、SST+HVDC这几块值得花时间细看。
逻辑是：Token消耗上升，本质是算力和电力的消耗上升，而这些环节恰好连接算力和电力，需求一旦固化，上游涨价很难绕开它们。

2）在成长层，挑少数有机会掌握“技术定价权”的模型公司。
筛选标准可以简化为：

开始尝试提订阅或API价格，提价后客户留存没有明显下滑；

收入结构从一次性大单向订阅和API迁移，有可观察的毛利率改善；

至少有一两个可以反复引用的高ROI落地场景。
智谱、MiniMax这类，如果估值阶段出现明显低估，可以考虑作为长期看涨期权配置，前提是能接受中间几年亏损和市场情绪波动。

3）在应用层，尽量集中在“行业深度型”的垂直厂商，而不是通用工具。
重点看三个问题：

行业范围是否清晰（金融、制造、医疗、ERP等）；

是否有长期积累的数据和业务知识；

AI功能是否已经在收入指标上有所体现（ARPU提升、付费用户增加等）。
金蝶、赛意、汉得、卫宁、恒生、同花顺、万兴等，可以逐一拆开，看谁真的在用AI改产品结构，而不是只在宣传里加“AI版”。

同时，给自己留出动态调整空间。
一旦CapEx节奏或地缘因素出现明显变化，要敢在硬件链条调整节奏——例如从周期性更强的服务器整机和加速卡，部分转向电源、光互联这类更接近“基础消耗品”的环节。

从投资视角看，Token大爆炸背后是一套可以量化的算力经济学。
只要盯住两个问题：“谁控制资源约束”“谁把Token稳定换成现金流”，很多表面热闹的概念，就能分出轻重缓急。

$智谱(02513)$ $长飞光纤(SH601869)$ $网宿科技(SZ300017)$