2023年至2024年,全球科技产业经历了以大语言模型(LLM)预训练为核心的第一波浪潮。这一阶段的特征是“大力出奇迹”,各大模型厂商通过穷尽互联网上的公开数据(Common Crawl, Wikipedia, GitHub等)来提升模型的通用推理能力。
然而,进入2025年,随着 GPT-4o、Claude 3.5 等前沿模型对公网数据的“吞噬殆尽”,边际效应递减规律开始显现。通用模型的同质化竞争加剧,单纯依赖参数量的提升已难以带来颠覆性的商业价值。
AI 产业的竞争重心正从“模型层”下沉至“数据层”,特别是那些不对外公开、高价值、经过清洗的垂直行业私有数据(Proprietary Data)。
在 AI Agent(智能体)时代,AI 不再仅仅是一个被动回答问题的聊天机器人(Chatbot),而是具备规划、推理、工具调用能力的自主行动者。当一个金融 Agent 需要撰写一份IPO招股书,或者一个医疗 Agent 需要给出一份确诊方案时,它们无法依赖充满幻觉和过时信息的公网数据。它们必须通过 API 接口,访问实时、权威、结构化的私有数据库。
这一范式转移将引发商业模式的根本性变革:
资产属性的重估:拥有独家垂类数据的公司,其护城河将从“软件功能”转变为“数据资产”。它们是新时代的“矿主”,也是 Agent 必须“缴税”才能运行的“地主”。
收费模式的跃迁:传统的 SaaS 模式(按人头/席位收费,$/Seat/Month)面临“席位收缩”的风险,因为 AI 将替代初级员工。
未来的增长引擎在于 DaaS(数据即服务)和 MaaS(模型即服务),即按 Token 量、API 调用次数或任务结果收费。
这一转变打破了以“人类员工数量”为分母的营收天花板,将收入与“AI 生产力”直接挂钩。
本报告将深入调研美股、港股及A股市场中具备极深数据护城河,且已率先布局 Agent 接口化(API-ification)的龙头企业,通过对其数据资产质量、Agent 技术架构及商业模式演进的详尽分析,为投资者构建一份“AI 数据资产”的投资图谱。
大模型的训练依赖于海量文本数据。然而,互联网上的高质量文本是有限的。根据 Epoch AI 的预测,高质量的公网语言数据在2026年前后将面临枯竭。更关键的是,公网数据缺乏解决企业级复杂问题所需的“上下文”和“真实性”。
公网数据(Public Data):如维基百科、Reddit 评论。特点是通用、免费、但充满噪音和幻觉,且缺乏实时性。
私有数据(Proprietary Data):如 S&P Global 的实时交易流水、Thomson Reuters 的法律判例库、上海钢联的大宗商品库存数据。特点是结构化、权威、实时、且由于版权保护无法被通用大模型爬取。
在 Agent 时代,这些私有数据构成了互联网的“暗物质”。
AI Agent 若要完成企业级任务(如审计、信贷审批、供应链优化),必须通过 RAG(检索增强生成)或 Tool Learning(工具学习)的方式挂载这些私有数据库。
此时,数据不再是用于“训练”模型权重的燃料,而是 Agent 在“推理”过程中实时调用的知识库。
结论:掌握私有数据的公司,实际上掌握了 AI Agent 的“认知外挂”。没有这些数据,通用大模型在垂直领域就是“白痴天才”——能说会道,但由于缺乏事实依据,无法处理专业任务。
过去二十年,B2B 软件的主流商业模式是 SaaS(Software as a Service),即:收入 = 企业员工数 × 每人每月的订阅费。
然而,AI Agent 的普及带来了一个悖论:如果 AI 能让1个人完成10个人的工作,企业将会裁员,导致 SaaS 厂商的“席位”收入下降(Seat Compression Risk)。
为了对抗这一风险并捕获 AI 创造的新价值,领先的数据公司正在通过 API 接口化,将收费模式转向“按用量付费”(Usage-Based Pricing)。
这种模式的优越性在于:
解耦人力限制:AI Agent 可以24小时不间断工作,其调用的数据量是人类员工的成千上万倍。
价值锚定:按 API 调用或 Token 收费,直接反映了 Agent 产生的业务价值,客户付费意愿更强。
天花板打开:随着 Agent 渗透率的提高,数据调用的边际成本接近于零,而收入随算力扩张呈指数级增长。
根据 BCG 和 McKinsey 的研究 ,这种从“基于席位”向“基于消耗”或“基于结果”的定价转移,是 AI 时代软件估值体系重构的核心驱动力。
与美国市场由私营巨头垄断不同,中国市场的 AI 数据逻辑受到国家政策的强力驱动。“数据要素”(Data Element)被中国政府定义为继土地、劳动力、资本、技术之后的第五大生产要素。
4.1 政策红利:数据资产入表
2024年1月1日起,中国财政部颁布的《企业数据资源相关会计处理暂行规定》正式施行,允许企业将数据资源作为无形资产或存货计入财务报表(“数据资产入表”)。这一政策直接利好拥有大量行业数据的 A 股上市公司,不仅改善了资产负债表,更鼓励企业将数据打包成产品(DaaS)进行交易 。
4.2 数据主权与本地化壁垒
由于《数据安全法》和《个人信息保护法》的实施,以及生成式人工智能服务的管理办法,国外的大模型(如 OpenAI)和数据商(如 Bloomberg)在中国市场的落地受到严格限制。这为中国本土的垂直行业数据公司创造了天然的“行政护城河”。本土 Agent 必须连接本土的数据源。
上海钢联 (Mysteel, 300226.SZ)
数据资产护城河: 作为全球最大的大宗商品资讯服务商之一,上海钢联拥有中国钢铁、矿石、能源化工等100多条产业链的实时价格、库存、开工率数据。其数据采集团队深入港口、钢厂一线,这种“人肉采集”形成的数据壁垒是纯互联网公司无法逾越的 。
Agent 接口化战略:“小钢”数字助手与“钢联宗师”大模型
垂直大模型:上海钢联推出了基于开源模型微调的“钢联宗师”行业大模型,专门训练了对大宗商品术语、逻辑的理解能力。
Agent 应用:“小钢”数字助手不仅能回答价格,还能生成深度的市场分析报告(如“分析唐山环保限产政策对螺纹钢期货的影响”)。
数据资产入表先行者:公司积极推进数据资源入表,将庞大的数据库转化为可计量的资产。
变现潜力:
订阅升级:从单纯卖数据终端,升级为卖 AI 生成的定制化策略报告。
API 经济:量化私募(Quant Funds)和供应链金融机构需要通过 API 实时调用其库存和价格数据,用于程序化交易和风控。这部分的接口调用费是巨大的增量。
广联达 (Glodon, 002410.SZ)
数据资产护城河: 中国建筑行业的“数字底座”。其造价软件(Costing Software)垄断了中国工程预算市场。广联达拥有最全面的建筑材料价格库(广材网)和工程定额库。
Agent 接口化战略:AI 开放平台
自动算量 Agent:广联达的 AI 能够通过识别 CAD 图纸或 BIM 模型,自动生成工程量清单(BOQ)并进行计价。这是一个典型的 Agentic Workflow,将几天的人工工作压缩到几分钟。
PaaS 模式:广联达构建了建筑行业的 PaaS 平台,开放 AI API 给建筑设计院和施工方。
变现逻辑:
从“卖软件狗”(License)转向“云+数据+AI”服务。特别是 AI 自动算量功能,极具按项目规模或按调用次数收费的潜力。
同花顺 (Hithink RoyalFlush, 300033.SZ)
数据资产护城河: 拥有中国最大的散户投资者行为数据,以及深度的 Level-2 市场行情数据。
Agent 接口化战略:问财 (iFinD AI)
Hie 大模型:同花顺自研了大模型,并将其深度嵌入到“问财”产品中。“问财”是目前 A 股市场最成熟的 AI Agent 形态,支持自然语言选股(“选出ROE大于15%且北向资金连续净买入的股票”)。
开放平台:同花顺开始向机构客户开放 AI 接口,允许券商和基金将同花顺的数据和 AI 能力集成到自己的投研系统中。
卫宁健康 (Winning Health, 300253.SZ)
数据资产:作为 HIS(医院信息系统)龙头,数据停留在医院内部,但卫宁通过 WiNEX 平台实现了数据的互联互通。
WiNGPT:专为医疗垂直领域训练的模型,能够生成电子病历、辅助临床决策(CDSS)。这是典型的将医疗知识数据化、接口化的案例
拓尔思(TRS信息技术,SZ: 300229) – 开源情报及行业大数据
数据资产:拓尔思深耕NLP和搜索技术30年,在媒体融合、公共安全等领域积累了稀缺的自有数据资源。公司通过自主爬取和数据治理,构建了海量中文文本与多媒体数据库,涵盖新闻资讯、网络舆情、法律法规、公安情报等非公开或非结构化数据。例如,其开源情报(OSINT)产品“TRS天目”已汇聚全球190多个国家2,000亿+互联网开源数据,日更新过亿条。这些数据经过异构整合、知识图谱沉淀,形成特定领域的结构化情报库。拓尔思的数据资产还包括多年为政府、媒体服务过程中积累的行业知识库和语料库,具有高度垂直价值。通过“数据+智能”战略,公司将高质量数据融入大模型应用,实现比通用数据源更精确的行业AI效果。
数据壁垒来源:拓尔思的数据护城河主要来自长期深耕和独特渠道。一是时间积累:30年技术沉淀令其掌握了中文全文检索和语义分析核心技术,持续爬取存档的中文互联网数据形成规模壁垒。二是独占渠道:公司与政府机关、媒体建立了稳固合作,为公安情报、舆情监测提供服务,获取了一般企业不易获得的行业数据和反馈。例如,其公安业务多年服务全国多地公安系统,沉淀了海量案件情报数据并形成知识图谱。三是场景绑定:拓尔思在公共安全、金融、数字政府等垂直领域有头部客户资源和深厚Know-how,数据与业务高度融合。这种数据与场景的绑定提高了进入门槛:除非同时具备客户和技术基础,否则难以复制同等数据深度。最后,公司通过数据治理和知识抽取将原始数据变为高价值情报,提高了数据附加值,进一步巩固护城河。
API/接口化现状:拓尔思将数据资产作为产品直接提供给客户。其盈利模式已包括数据服务(数据集、API接口、订阅账号)。这意味着公司不仅卖软件,也通过接口向客户输出数据。例如,拓尔思的情报平台允许客户按账号订阅情报数据,或通过API获取实时舆情和知识图谱查询结果。在某些合作中,公司可能提供专线或私有云接口,让公安等客户系统自动调用TRS情报数据。面向公众开发者,拓尔思暂无开放平台,但在行业客户合同内提供定制API是常态。另外,公司今年全面转型“拓天大模型+智能体”平台,也预示着未来其数据和模型能力将通过标准接口供客户系统集成使用。因此可以说,拓尔思已做好了接口化的技术准备,其高价值数据可以灵活地通过API按需分发给不同应用。
商业模式重构可行性:目前拓尔思的数据服务多以项目或套餐形式收费,未来可进一步转向按调用量收费。例如,媒体客户按每月API调用新闻分析次数付费,公安客户按查询情报条目数量计费等。这种模式有助于拓宽用户基础,将数据卖给更多中小智能体开发者,而不仅是大客户。一旦Agent经济兴起,拓尔思可推出面向AI助手的情报查询接口商品,将过去订阅制的人机服务转化为机器对机器的即时计费服务。考虑到拓尔思数据高度专业且实时性强,许多Agent开发者(比如舆情监测AI、投资情报AI)愿意为每次查询付费以获取可靠结果。拓尔思已有提供订阅+API双模式的经验,因此在商业上适应按量付费并不困难。挑战可能在于计费策略和防滥用技术,但这些可以通过成熟的API网关来解决。总体而言,以拓尔思的数据独特性,完全具备从账号制向按次服务延伸的可能,一旦成功其数据变现效率将提升。
未来LLM/Agent系统中的潜在重要性:在未来的中文行业AI生态中,拓尔思扮演数据供应商+垂直AI解决方案提供商的双重角色。其OSINT情报数据对国家安全、军事推演类智能体来说是不可或缺的“情报源”。同时,金融领域的智能投研Agent也可借助拓尔思媒体大数据获取实时资讯和舆情分析。随着“万物皆Agent”,每个专业场景的AI都需要高质量知识库支撑,拓尔思的行业知识图谱和语义检索技术正好满足这点。在定价方面,拓尔思由于掌握高质量中文数据且在垂直领域率先落地,具有一定议价能力。比如,政府智能助手愿意付溢价获取拓尔思安全情报,因为准确及时是第一位的。可以预见,拓尔思的数据将成为许多国产LLM的知识插件,而公司通过数据接口在AI产业链中占据重要一环。凭借持续的技术和数据积累,拓尔思有望在Agent时代获得相当的定价话语权和生态地位。