
$海天瑞声(SH688787)$ 作为A股上市的AI数据服务龙头企业,近年来在数据处理与数据清洗领域持续加大技术创新与场景应用投入,通过平台化、自动化、智能化升级,以及行业定制化解决方案,推动数据处理效率与质量显著提升,为AI模型训练、行业数字化转型提供了坚实的数据支撑。以下从核心技术创新、平台能力升级、行业场景应用、合规与生态合作四大维度,详细阐述其最新进展:
数据清洗是数据处理的关键环节,传统方式依赖人工规则或简单脚本,效率低且易出错。海天瑞声于2024年11月获得“一种基于大语言模型的数据清洗方法、装置、产品及介质”发明专利(专利号:CN202410991497.1),通过大语言模型(LLM)实现数据清洗的自动化规则生成与迭代,大幅提升清洗效率。
该专利的核心逻辑是:通过历史清洗数据(第j次清洗的待清洗数据、清洗后数据及规则合集)构建“第一规则数据匹配对”,微调大语言模型;基于微调后的模型生成适配当前待清洗数据的清洗规则,实现“数据-规则”的动态适配。这种方法减少了人工规则的维护成本,同时提升了复杂数据(如多模态、非结构化数据)的清洗精度。例如,在智能语音数据清洗中,该技术可自动识别并去除噪声、纠正语音转文本的错误,效率较传统方式提升约40%。
海天瑞声的核心数据处理平台DOTS(Data Operations and Training Services)于2025年迎来迭代升级,重点提升自动化标注、智能质检、多模态融合能力,覆盖数据采集、清洗、标注、质检、管理全生命周期。
自动化标注:通过算法驱动,实现90%以上场景的自动化标注(如图像目标检测、语音转写、文本实体识别),减少人工标注工作量;
智能质检:引入“人机协同”校验机制,通过模型预标注+人工复核,确保数据精度(如多语种语音标注的准确率提升至98%以上);
多模态融合:支持文本、语音、图像、视频四大模态的深度加工,实现“数据-模态”的协同处理(如东盟语料库建设中的多模态数据标注)。
升级后的DOTS平台已成为海天瑞声服务政企客户的核心工具,支撑了智能驾驶、具身智能、金融科技等多个领域的数据处理需求。
海天瑞声的数据处理与清洗技术并非通用化,而是针对行业痛点定制化开发,重点布局智能驾驶、东盟语料库、政企数字化转型等场景,实现数据价值的最大化。
智能驾驶领域:为应对自动驾驶对“复杂交通场景数据”的需求,海天瑞声通过平台化工具实现交通场景的高效处理(如道路标识识别、行人行为分析),支撑自动驾驶模型的训练与迭代。例如,其数据处理流程可自动筛选高价值交通场景(如暴雨、拥堵路段),并通过清洗、标注生成高质量训练数据,帮助车企提升自动驾驶系统的安全性。
东盟语料库建设:作为中国—东盟信息港的核心合作伙伴,海天瑞声依托高质量语料加工平台,为东盟十国核心语种(如印尼语、泰语、越南语)提供全流程数据处理服务(采集、清洗、标注、质检)。该平台覆盖文本、语音、图像、视频四大模态,通过“人机协同”确保数据精度,为中国—东盟区域大模型训练、智能语音应用(如跨境客服、语言翻译)筑牢“数据根基”。
政企数字化转型:针对政企客户“数据安全与合规”的需求,海天瑞声通过数据清洗与标注技术,处理政务数据(如人口、社保)、企业数据(如客户行为、生产日志),确保数据符合《数据安全法》《个人信息保护法》等法规要求。例如,其为某政府部门处理的人口数据,通过清洗去除了重复、错误信息,标注了“年龄、性别、职业”等结构化字段,支撑了政务数字化系统的精准服务。
数据处理的核心是合规与安全。海天瑞声通过技术手段+生态合作,确保数据处理全流程符合法规要求,同时推动产业协同。
合规保障:其数据处理流程严格遵循ISO/IEC 27001(信息安全管理体系)、ISO27701(个人隐私信息管理体系)等国际标准,以及《数据安全法》《个人信息保护法》等国内法规。例如,在跨境数据传输中,通过“数据脱敏+加密”技术,确保数据不泄露用户隐私。
生态合作:与华为、视觉中国等企业建立生态合作,共同推动数据处理技术的升级。例如,与华为联合发布的“海天瑞声X昇腾DeepSeek数据飞轮智慧体”,整合了海天瑞声的数据处理技术与华为的算力平台,实现“数据-训练-应用”的闭环,提升了企业智慧体部署的效率。
海天瑞声在数据处理与清洗领域的进展,本质是“技术创新+场景应用+合规保障”的综合结果。其通过大语言模型实现数据清洗的自动化,通过DOTS平台强化全链路处理能力,通过定制化解决方案满足行业需求,通过合规与生态合作确保数据安全。这些进展不仅提升了自身的数据处理效率与质量,也为AI产业的高质量发展提供了“数据燃料”。
未来,随着AI模型的进一步复杂化(如多模态大模型、具身智能模型),海天瑞声将继续深化技术创新,拓展应用场景,推动数据处理与清洗技术向更智能、更高效、更合规的方向发展。