数据启元计划 | 精选高质量 AI 数据集第四弹

用户头像
聚合数据
 · 未知  
本文包含AI生成内容

由聚合数据与苏州市人工智能有限公司联合举办的高质量 AI 数据集征集活动「数据启元计划」升级版本正在持续进行中。欢迎开发者们积极提供高质量数据集,诚邀大家加入这场从入驻到变现的双向奔赴之旅~

目前,通过我们的严格筛选及权威审核,保证数据集具备权威性、时效性与合规性。精选数据集正在聚合数据官网持续上架中,为开发者、科研机构及企业提供"即取即用"的数据集燃料。

接上期,我们继续挑选了五大高质量数据集,作为精选合集第四弹。它们覆盖金融财税、机械制造、轨道交通等多个行业领域,分别是:

机械图纸数据集海外社媒平台数据集K12 教学课件数据集

苏州轨道交通出行 OD 统计数据集

金融领域及非金融领域中文对话数据集

机械图纸数据集

数据集概述

本数据集涵盖各类机械加工图纸,整合多难度 QA 问答、整图结构化解析、元素定位三类核心数据。有效解决了机械图纸数据稀缺、标注专业度高、整合成本高的行业痛点,通过 LLM+人工双重校验保障数据精准规范,可适用于工业 AI 模型训练、机械图纸智能解读等场景,助力提升图纸解析效率与模型专业适配性。

数据集特色

提供递进式数据标注:集合了问答、解析、定位三种不同类型的标注。

AI+人工校验机制:通过 LLM 预处理加专业人员审核的双重验证。

覆盖不同层次:多难度 QA 问答设计,从基础元件识别到复杂装配关系理解。

图纸全景式解析:注重元素间的关联关系,提供完整的机械系统理解框架。

应用场景

智能制造质检

通过图纸中的尺寸标注、公差要求等信息,实现产品质量自动化检测和控制。

智能设计辅助

基于对图纸的理解,AI 可以为工程师提供设计改进建议、材料优化方案。

数字化工厂建设

为工厂的设备管理、工艺规划、生产调度等提供图纸理解能力。

供应链协同

帮助供应链各环节快速准确理解技术图纸,减少因误读导致问题和沟通成本。

海外社媒平台数据集

数据集概述

本数据集涵盖 FacebookInstagram、X(Twitter)、Linkedln、YouTube、Tik Tok等平台对应账号的发布内容、点赞数、标签、转发、评论情感,适用于舆情分析、多模态训练、内容审核模型训练。

数据集特色

平台覆盖全面

FacebookInstagram、X、LinkedIn、YouTube、TikTok 六大海外平台。

字段维度丰富

提供文本内容,还包含点赞、转发、评论等互动指标并附带情感倾向标签。

多模态支持

涵盖文本、图片、视频等多媒体内容,满足多模态 AI 训练需求。

实时更新机制

数据持续采集更新,确保舆情分析和模型训练都能用最新语料。

合规预处理

原始数据已做脱敏和清洗,可直接用于商业场景,降低客户合规风险。

应用场景

AI 模型基础训练

图片、文本、视频等多类型结构化数据加速 AI 数据准备。

舆情监控

实时获取社媒帖文、评论等内容,为品牌舆情管理、广告投放优化作数据支撑。

自然语言处理

丰富语言样本库,有效提升模型多语言适配性。

多模态模型的训练

优化图像生成与识别效果,完善音视频相关处理能力。

K12 教学课件数据集

数据集概述

该数据集包含上万套 K12 全学段优质课件资源,链接 C 端教师与 B 端教育企业。可解决教师常规课、公开课备课效率低的问题,助力教育机构快速搭建资源库,支撑教育平台资源集成,推动优质教学资源普惠,高效服务 K12 教育教学与数字化转型需求。

数据集特色

规模覆盖:上万套课件无缝覆盖 K12 十二年级。质量优势:所有资源均经一线名师打磨。生态连接:C 端教师即时共享,B 端企业一键集成。平台支撑:标准格式+元数据标签。数据合规:脱敏处理+版权溯源,内容版权与数据安全双重合规。

应用场景

1.K12 常规课备课

为小学、初中、高中各学段教师提供对应学科常规课课件。适配日常课堂教学节奏,帮助教师快速完成备课方案。

2.公开课 / 示范课准备

提供经过打磨的优质公开课课件。涵盖重难点突破、互动设计、课件视觉呈现等优化内容。助力教师提升公开课展示效果。

3.教育平台资源集成

互联网大厂教育资源库、教育 SaaS 企业通过 API 接口接入课件资源。完善自身平台的备课资源生态,为平台用户提供一站式教学资源服务。

苏州轨道交通出行 OD 统计数据集

数据集概述

该数据集统计了苏州轨道交通各站点间的出行 OD(Origin-Destination)排名信息,包括进站、出站车站名称、客流量、排名及交易日期。核心价值在于揭示乘客出行规律与热点路径,可用于优化线路规划、调度资源配置、提升运营效率,适用于交通管理、商业选址分析等场景。

数据集特色

实时性统计:包含交易日期信息,反映不同时间段下的客流变化。

全网络覆盖:覆盖苏州轨道交通网络的全部运营站点,形成完整的 OD 矩阵。

排名结构化:不仅包含绝对客流量,还提供排名信息。

双向流动记录:完整的 OD 配对数据能够准确追踪乘客的完整出行链。

商业级精度:数据精度达到商业应用标准。

标准化格式:采用统一的数据格式和编码标准。

应用场景

运营调度与智能排班通过实时的 OD 矩阵,运营方可以精准识别早晚高峰的“潮汐客流”方向。城市规划与线网设计通过分析长距离的 OD 对,规划师可以识别出主要的通勤走廊。应急管理与安全保障在节假日或恶劣天气期间,模型可以预测特定站点的客流聚集风险。商业化服务与体验提升基于对乘客历史出行模式的挖掘,APP 可以提供定制化的拥挤路线规避。

金融领域及非金融领域中文对话数据集

数据集概述

本数据集是一个大规模、多领域、高质量的中文商业对话语音数据集。核心内容为真实或高度仿真的业务场景下,领域专家(业务人员)与消费者(C端用户)之间的对话录音及其转写文本。

数据集特色

真实脱敏处理在保留金融语义和业务特征的前提下,对敏感信息做脱敏。多轮对话结构语料中包含大量多轮场景、对话交互。领域术语标准化对“年化收益率”“T+0赎回”等术语归一化标注。情感标签隐含对话中自然携带抱怨、焦急、满意等情绪信号。口语化书面语并存既有电话客服的口语化表达,也有在线打字的书面短句。

时间跨度完整横跨多个季度,包含营销活动、年末冲量、节假日等高峰与低谷。

应用场景

语音识别模型训练与优化用于训练在高噪音、多口音等环境下仍保持高准确率的语音识别模型。

对话系统与智能客服基于此数据训练模型,使其能够处理用户的业务咨询、办理业务、查询状态。情感分析与语音情绪识别通过分析对话中的文本和语音语调,训练模型识别用户的情绪状态。语音合成用于训练专业、亲切的客服语音合成模型。

「数据启元计划」正在努力打造开放、创新、安全的数据共享生态。我们期待更多合作伙伴参与进来,共同书写数据赋能产业的崭新篇章。如果对以上数据集感兴趣,欢迎访问聚合数据官网了解更多!大量精选数据集请持续关注本公众号内容~

END

【更多精选内容】

天聚地合中标得尔达“智慧物流平台生成式AI功能模块”项目

AI加速度!天聚地合接入DeepSeek,数据服务能力再提升!

入选国家数据局优秀项目案例:天聚地合“基于工业模型的数据要素流通交易平台”项目

天聚地合×阿里云:赋能云端网络安全,共筑可信生态

天聚地合与江苏跨境数科强强联合,聚合数港创新启航

天聚地合(苏州)科技股份有限公司(股票代码:2479.HK/天聚地合)。成立于2010年,总部位于苏州,是国内领先的AI数据科技公司,公司致力于为客户提供数据处理技术服务和数据AI应用服务,先后荣获首个国家大数据产业发展试点示范项目、国家级“专精特新”企业认定、吴文俊科技进步奖等奖项。截至目前,公司已开发超1000个API及数据集,赋能阿里百度腾讯美团、字节跳动等超过200万企业客户,年调用超1800亿次。公司为国内第一家上市的AI数据科技公司。

点击【阅读全文】,了解聚合↓↓