海天瑞声,AI时代的数据卖水人

用户头像
除以零
 · 陕西  

随着大模型技术不断突破AI应用的边界,高质量训练数据的需求呈现指数级增长。海天瑞声作为国内AI训练数据服务领域的领军企业,近期受到市场高度关注。

1月12-15日,公司接待了204家机构的集中调研,大幅领先第二名,成为近期公募机构调研第一股。这一现象凸显了AI赛道的高景气度,也反映出资本市场对AI产业链核心环节,高质量训练数据服务商的空前关注。

作为国内AI训练数据服务领域的领军企业及稀缺的上市公司,海天瑞声的动向一定程度上反映了AI数据服务行业的发展趋势。

全球化产能布局:东南亚基地进入收获期

海天瑞声在东南亚的产能布局已进入实质性收获期。公司在2024年整合了东南亚一个超过1000人的标注基地,该基地主要提供内容审核和数据标注服务。

更值得关注的是,公司预计该基地2025年将贡献千万级美元收入,标志着其境外交付能力建设进入了新阶段。

对于2026年,海天瑞声已制定明确规划:在东南亚地区建设第二个本地化交付基地,预计到2026年底,境外基地总人数将再新增500人左右。

这一布局为公司承接中国一线科技公司的出海业务及北美头部客户的定制化大型订单提供了关键保障。

境外业务驱动因素:多语种多模态数据需求旺盛

全球化AI应用场景的快速落地,推动了对高质量、多语种、场景化训练数据的持续需求。

海天瑞声境外传统训练数据业务的驱动因素主要来自三个方面:智能助手、客服机器人等产品全球化部署带来的多语种语音识别数据需求;金融票据识别等应用催生的多语种手写体数据需求;以及自然语言理解、内容审核、机器翻译等任务所需的多语种文本数据。

公司凭借在多语言、多模态数据处理领域长期积累的全球供应链管理能力和技术专长,持续获取并交付此类项目。2024年,公司境外收入同比增长89.53%至1.14亿元,成为业绩增长的重要引擎。

具身智能数据:高增长新赛道的战略布局

具身智能数据业务被海天瑞声视为高增长的新兴赛道。公司已组建专项团队开展相关业务,并开始在全国多个城市启动专项公司的选址。

这一布局基于两大判断:一方面,国家已将具身智能列为未来产业重点培育;另一方面,机器人“大脑”仍处于发展早期,实现规模化落地需要大量高质量、细颗粒度的训练数据。

目前,海天瑞声已与多家机器人本体厂商展开合作,并与若干家头部科技大厂及地方政府启动订单需求对接,正在推进相关样例数据交付与训练场方案的设计与落地。

部分地方政府也在积极规划建设具身智能训练场,旨在工程化生产高质量具身数据,赋能科研与产业应用。

政府业务合作模式:清晰路径与全国布局

与地方政府的合作已成为海天瑞声业务增长的重要一极。公司已形成清晰的四种合作模式:

一是基于地方特色数据,如农业、文旅等建设行业高质量数据集;二是搭建可信数据空间,保障数据安全;三是参与建设数据交易平台,促进数据流通;四是向下游延伸,开展场景化模型开发与应用落地。

在项目进展方面,公司已与成都、长沙等国家级数据标注基地试点城市建立合作,同时与广西、呼和浩特等地政府已启动具体项目推进。2025年第三季度,公司已完成呼和浩特首批高质量行业数据集及首批广西东盟语料库数据的交付。

海天瑞声的战略布局凸显了AI产业链的专业化分工趋势。随着大模型开发从通用知识向专业知识延伸,高质量垂直数据的需求将持续爆发。

数据是AI应用扩张的卖铲子人,AI应用的爆发最先受益的就是卖铲子的,随着Agent应用从通用向医疗、GEO营销等专业化场景渗透,高质量对齐数据及多模态数据需求呈指数级增长。作为国内训练数据服务龙头,公司在AI应用繁荣期具备确定性与不可替代性。

海天瑞声是AI数据标注稀缺上市公司,当前AI数据标注需求非常旺盛,机构预测,公司2025-2027年营收分别达3-4亿、5亿左右和7亿左右。在AI应用繁荣期内,作为卖铲人的海天瑞声凭借其在多模态、多语种数据方面的积累,有望持续受益于AI产业的快速发展。考虑到AI应用的大爆发以及业务增速,按30-50倍PS估算,中长期可以看到150亿-300亿市值,建议密切跟踪业务进展及订单落地。