11月8日,2025年世界互联网大会“互联网之光”博览会·数据市场价值共创主题活动在浙江桐乡乌镇举办。活动上,杭州数据集团正式发布了“杭州国家语料库”计划,拓尔思(300229)作为首批数据合伙人应邀参与。
杭州国家语料库是国家数据基础设施建设的先行先试项目,其将充分发挥公共数据价值和数据产业发展优势,建设、汇聚高质量数据集,按照模型企业需求定制高质量语料,构建技术自主可控、数据安全可信、交易流通便捷的语料生产流通体系,为模型训练提供易获取、高质量、规模化、低成本的语料资源。
拓尔思己构建起规模超5000亿条、主题覆盖多场景的稀缺数据资源体系,并拥有资讯、舆情、产业、开源情报、全球资讯五大数据资产平台,形成了“高质量数据治理一高密度数据挖掘一高价值场景赋能”的完整数据闭环,为大模型迭代与行业数智化升级提供核心支撑。公司高质量数据得到业界的广泛认可,先后入选了“北京市通用人工智能产业创新伙伴计划”“北京市人工智能大模型高质量数据集”等,并作为核心共建方积极参与了中国互联网安全协会数据集、CCI中国互联网语料集两大重要行业语料集的建设。
此前,拓尔思还入驻了全球数源中心打造的首个国家试点“数场平台”,作为其生态伙伴计划的首批生态伙伴,上架覆盖宏观经济、中观产业与微观企业三大维度的产业数据API服务;同时以“数据合伙人”的身份,积极参与数据深加工与创新服务开发,提供包括联合定制解决方案、共建垂直行业数据产品、支持大模型训练语料合作等多元化服务。
此次作为杭州国家语料库计划的首批数据合伙人,拓尔思将依托在大数据与人工智能领域三十余年的技术积累,以及十五年来高质量数据资源的持续沉淀,充分发挥其全栈数据服务能力,积极推动数据资源的高效流通与价值释放,助力构建安全、可信、高效的语料数据生态,为我国数据要素市场发展注入新动能。