11月8日,2025年世界互联网大会“互联网之光”博览会·数据市场价值共创主题活动在浙江桐乡乌镇举办。活动上,杭州数据集团正式发布了“杭州国家语料库”计划,拓尔思(300229)作为首批数据合伙人应邀参与。
杭州国家语料库是国家数据基础设施建设的先行先试项目,其将充分发挥公共数据价值和数据产业发展优势,建设、汇聚高质量数据集,按照模型企业需求定制高质量语料,构建技术自主可控、数据安全可信、交易流通便捷的语料生产流通体系,为模型训练提供易获取、高质量、规模化、低成本的语料资源。
拓尔思己构建起规模超5000亿条、主题覆盖多场景的稀缺数据资源体系,并拥有资讯、舆情、产业、开源情报、全球资讯五大数据资产平台,形成了“高质量数据治理一高密度数据挖掘一高价值场景赋能”的完整数据闭环,为大模型迭代与行业数智化升级提供核心支撑。公司高质量数据得到业界的广泛认可,先后入选了“北京市通用人工智能产业创新伙