多模态 AI:开启智能新时代
在人工智能飞速发展的当下,多模态 AI 已成为引领行业变革的关键力量。简单来说,多模态 AI 是指能够同时处理和理解多种类型数据(如文本、图像、音频、视频等)的人工智能技术 ,就像人类能通过视觉、听觉、触觉等多种感官全方位感知世界一样,多模态 AI 打破了单一数据类型的限制,让机器能够从多个维度理解和处理信息,极大地拓展了人工智能的应用边界和能力范畴。
从发展历程来看,多模态 AI 的崛起绝非偶然。早期的人工智能大多局限于单模态处理,比如计算机视觉专注于图像识别,自然语言处理聚焦于文本理解。但随着深度学习技术的不断突破,以及大数据和强大算力的支持,多模态 AI 开始崭露头角。OpenAI 的 GPT-4V、谷歌的 Gemini 等多模态大模型的发布,更是引发了全球范围内的广泛关注和研究热潮,标志着多模态 AI 进入了一个全新的发展阶段。
如今,多模态 AI 的应用场景正变得越来越丰富。在智能安防领域,它可以通过融合监控视频画面与声音信息,实现对异常行为的精准识别和预警;在医疗健康领域,多模态 AI 能够结合医学影像、患者病历和基因数据,辅助医生进行更准确的疾病诊断和个性化治疗方案制定;在教育领域,它可以根据学生的学习行为、表情变化以及语音反馈,提供个性化的学习辅导和智能教学服务 。多模态 AI 正以前所未有的速度融入我们的生活,改变着各个行业的运作模式。
在这片充满无限可能的多模态 AI 领域中,众多企业奋勇争先,云从科技、当虹科技、易点天下等 10 家公司更是脱颖而出,成为行业内的佼佼者。接下来,就让我们一同深入了解这 10 家公司在多模态 AI 领域的独特优势和创新成果,探寻它们是如何在这场科技浪潮中乘风破浪、引领前行的。
云从科技:多模态融合,引领智能新变革
云从科技,作为一家从中国科学院孵化而来的人工智能平台公司,自 2015 年成立以来,便在人工智能领域崭露头角,如今更是在多模态 AI 赛道上一路高歌猛进。其发展历程堪称一部充满创新与突破的奋斗史。从成立初期专注于计算机视觉技术研发,到逐步构建起从智能感知到认知、决策的核心技术闭环,云从科技始终坚持自主创新,不断攻克技术难题 。
云从科技自主研发的从容大模型更是其在多模态 AI 领域的核心竞争力所在。在国际权威评测平台 OpenCompass 最新全球多模态榜单中,从容大模型以 80.7 分的综合成绩登顶榜首 。这一成绩不仅刷新了国内 AI 模型在国际多模态测评中的最高得分纪录,更超越了谷歌、OpenAI 等全球顶尖团队,彰显了云从科技在多模态技术上的深厚实力。从容大模型聚焦通用视觉语言理解与推理任务,通过多模态对齐、高阶推理、长上下文建模等核心领域的突破性优化,构建起了全球领先的技术壁垒 。例如,在多模态对齐方面,它自建高质量基准数据集,提升了多模态理解与任务指令遵循的推理表现;首创的融合 DPO 与 GRPO 的双重对齐技术,实现了更贴近人类思维的决策方式。
在实际应用中,云从科技的多模态 AI 技术已广泛渗透到金融、电商等多个领域。在金融领域,某银行与云从科技合作打造风控合规案防智能平台,借助从容大模型构建风控 AI 智能体,实现了风险识别自动化和问责标准化,投诉数量大幅压降 50% 以上 。在电商领域,云从科技为正浩创新部署的智能客服平台,通过多模态对齐与知识库精准匹配,将问答准确率提升至 95%,客服月均效率提高 24% 。这些成功案例充分展示了云从科技多模态 AI 技术在提升行业效率、优化用户体验方面的巨大潜力。
当虹科技:视听大模型,重塑内容创作与分析
当虹科技,一家专注于智能视频技术的高新技术企业,在多模态 AI 领域深耕多年,凭借其自主研发的 BlackEye 多模态视听大模型,在视听内容创作与分析领域开辟出一片新天地。
BlackEye 多模态视听大模型是当虹科技面向专业级音视频领域推出的先进 AI 技术方案,专注于通过多模态融合(视觉、听觉、文本等)实现更智能的视听内容分析与生成 。它集成了 Transformer、Diffusion 等深度神经网络组件,具备强大的跨模态理解与处理能力,能够精准分析、理解和生成视频、音频、图像、文本甚至三维模型内容 。例如,在智能内容生成方面,它可以自动生成视频摘要、字幕、海报,或基于文本描述生成视频片段(AIGC) ,还能进行视频超分辨率、画质修复、降噪、老片修复等二次创作;在内容理解与审核方面,它能够快速准确地识别视频中的敏感信息、不良内容等。
为了进一步提升模型性能和应用效果,当虹科技与 DeepSeek 展开深度合作,并于 2 月 21 日重磅发布全新一代 “DeepSeek+BlackEye” 多模态大模型一体机 。这款一体机融合了 DeepSeek 强大的模型推理能力和 BlackEye 先进的视听分析技术,实现了从数据处理到模型部署的全流程优化。融合 DeepSeek 后,BlackEye 引擎全新升级视觉、语音、跨模态分析技术,支持从文生图、图生视频到电影级光影渲染的全流程处理 ,并能将单目 2D 视频转化为高质量双目 3D 效果,加快空间视频落地应用,还能根据大小屏、横竖屏等不同播出场景对 logo、字幕等图文信息进行个性化更新,优化应用体验 。
在实际应用中,当虹科技的多模态 AI 技术已在多个领域取得显著成果。在传媒文化领域,BlackEye 多模态视听大模型集成 DeepSeek-R1 后,能够显著提升内容生产、审核、推荐和用户体验等方面的效率与质量 。例如,它可以在快速生成影视剧本或短视频脚本的基础上,更好地完成文生视频、图生视频等生成式算法,以及 AI 超分、AI 插帧、AI 横竖屏同步制作等,为影视创作带来了更多可能性 。在工业与卫星领域,BlackEye 融合了 DeepSeek Janus Pro,并针对卫星、应急、无人机、机器人等视频压缩回传场景进行模型调优,部署在当虹端侧智能盒,完美兼顾了 “视频超级压缩 + 视觉 AI 识别” 双重业务需求,效果显著,召回率和准确率均超过 98% 。
易点天下:智能营销中的多模态创新者
在竞争激烈的多模态 AI 赛道中,易点天下作为一家以技术驱动的国际化智能营销服务商,凭借其在多模态 AI 领域的创新应用,成功在智能营销领域开辟出一条独特的发展路径。
易点天下自成立以来,始终专注于为出海企业提供全方位的智能营销解决方案。随着多模态 AI 技术的兴起,易点天下敏锐地捕捉到这一技术变革带来的机遇,积极布局多模态 AI 领域,通过持续的技术研发和创新,不断提升自身在智能营销领域的核心竞争力。
在技术研发方面,易点天下通过自研多模态大模型与阿里云、智谱 AI 等合作伙伴的技术协同,已实现电商场景 AI 视频广告的端到端生成能力 。公司已接入 GPT-4、DeepSeek 等领先大模型,形成了符合自身业务场景的多种模型,并搭建了基于 AI 大模型的整体产品技术框架,在此基础上构建了具备多模态能力的 AI 中台 。例如,在底层技术层面,易点天下通过精细化打磨算法体系和垂直领域模型,成功构建了具有强大营销理解力的多模态 AI 能力,使得 AI 系统能够更好地适应各种复杂的营销场景 ;在系统架构层面,搭建了统一的 AI 中台与 EC MCP Server,为公司提供了稳固且具可扩展性的智能框架,确保了系统在多元化需求中的灵活应对 。
这些技术成果在实际应用中取得了显著成效。以电商场景为例,易点天下的智能营销系统能够根据用户的浏览历史、购买行为等多模态数据,精准分析用户需求和偏好,从而生成个性化的 AI 视频广告 。这种端到端的视频广告生成能力,不仅大大提高了广告制作的效率,降低了制作成本,还能显著提升广告的精准度和吸引力,有效促进了电商企业的销售增长 。在游戏、跨境电商等领域,易点天下的 “创意 - 投放 - 优化” 全链 AI 解决方案也取得了良好的应用成果,帮助企业实现了智能洞察、创意生成、自动投放、数据归因的全链路营销 AI 自动化闭环 。
此外,易点天下还与众多全球头部媒体保持长期稳定合作关系,如 Google、Meta、巨量引擎、磁力引擎等 ,广告主客户涵盖阿里巴巴、腾讯、华为、网易、字节跳动等知名企业 。通过与这些合作伙伴的紧密合作,易点天下能够将多模态 AI 技术更好地融入到实际营销场景中,为客户提供更加优质、高效的智能营销服务 。
网达软件:大视频领域的多模态探索者
网达软件(股票代码:603189)作为国内大视频领域的深度参与者和技术服务提供方,始终以视频智能化为核心,致力于为客户提供优质的软件产品及解决方案 。自 2009 年成立以来,网达软件凭借其在视频技术领域的深厚积累和持续创新,在激烈的市场竞争中脱颖而出,并于 2016 年成功上市,开启了公司发展的新篇章 。公司总部位于上海,同时在合肥、杭州、北京、重庆、扬州等地设有 5 家全资子公司,业务覆盖范围广泛,遍布华北、华东、华南、西南、西北等全国各地 。
在多模态 AI 技术的探索与应用方面,网达软件展现出了卓越的创新能力。公司积极推动多模态大模型技术与业务场景相结合,致力于实现垂直类大模型的落地应用 。通过充分利用大模型的通用性、多模态能力和强大的理解能力,并结合微调、压缩和推理优化技术,网达软件不断突破各种视频编转码产品的性能极限,实现了基于扩散模型的视频画质修复和增强技术 ,为提升视频质量和观看体验提供了有力支持。
其中,智能视频检索解决方案是网达软件在多模态 AI 领域的一项重要成果。该方案将多模态大模型技术巧妙运用在监控视频检索中,通过从监控视频流中定期抽取图片并进行编码缓存来构建数据模型 。对每一帧图像进行深入分析,提取出人脸特征向量、人体特征向量、文本向量以及结构化的属性特征,然后将人脸与身体特征相结合,储存于专用向量库中 。这样一来,当需要进行检索时,用户只需输入相对应的图像或文字特征,就可以通过搜索引擎快速获取所需人员在某一时间段内的录像记录 。这种 “跨模态” 检索方式,将深度学习的前沿技术与结构化信息相结合,极大地提升了检索的效率和精确度 。例如,在公共安全领域,警方可以借助这一技术迅速调取某一时段内特定人的所有监控录像,为案件侦破和事件追踪提供关键线索;在商业领域,零售店能够根据顾客的进店特点,提取有效数据来优化产品布局与营销策略 。
此外,网达软件还在 2024 年 12 月向国家知识产权局申请了一项名为 “一种融合人体属性特征与向量嵌入的跨模态检索方法” 的专利,公开号为 CN119829799A 。这一专利的申请,充分体现了网达软件在视频监控人工智能技术领域的持续创新和技术积累,也标志着公司在多模态 AI 技术应用方面又迈出了重要一步 。随着该专利技术的不断完善和推广应用,有望为视频监控行业带来更高效、更智能的数据检索和分析解决方案,推动行业向更高层次发展 。
三六零:全方位布局,多模态赋能安全与生活
在多模态 AI 的赛道上,三六零凭借其强大的技术实力和丰富的应用场景,成为了行业内的一颗璀璨明星。作为一家在互联网安全领域深耕多年的企业,三六零深知技术创新的重要性,积极布局多模态 AI 领域,将其与自身的核心业务相结合,为用户提供更加智能、安全的服务。
三六零的人工智能通用大模型 “360 智脑” 成功入选《AI 多模态大模型企业 20 强》 ,并作为安防领域多模态大模型应用标杆案例被重点引入 。早在 2023 年 6 月,三六零就召开智脑发布会,国内首发 “文生视频” 多模态功能,展现了其在多模态技术上的领先地位 。360 智脑具备跨模态生成能力,涵盖文字、图像、语音和视频处理能力,可实现文生文、文生图、文生表、图生图、图生文、视频理解等多种功能 ,为用户带来了全新的交互体验。
在视觉大模型方面,360 智脑 - 视觉大模型同样表现出色。该模型基于 360 搜索超 10 亿组互联网图文对进行清洗训练,并融合了千亿参数的 360 智脑大语言模型进行训练 。为进一步提高模型训练精度,在一期就结合 360 安防的百万级安防行业精标数据进行对齐微调 。现阶段,360 智脑 - 视觉大模型主要聚焦开放世界目标检测(OVD)、图像内容描述、视觉问答(VQA)三项能力 。其中,开放世界目标检测通过学习互联网上海量的图文数据,让模型能够融会贯通地泛化到未预定义的目标类别 。自 2023 年 5 月 31 日发布以来,经过 5 个月的内测,360 智脑 - 视觉大模型已经在连锁巡店、公共场所安全巡检、物业管理、4S 店库存车管理等多个场景应用落地,并于去年 10 月上线开放公测 。基于 360 的 AI 智能摄像机和简单易用的视觉云 SaaS 平台,已经为超过 5 万家企业提供数字化解决方案 。
除了在安防领域的应用,三六零还将多模态 AI 技术广泛应用于智能硬件产品中。在家庭安防方面,360 智能门锁成功将 360 视觉大模型、360 安全大模型和 360 智脑大模型落地赋能其门锁系列产品,显著提升了智能门锁的性能和用户体验 。通过一个自研通用大模型和两个自研垂直行业小模型的协同作用,360 智能门锁为用户提供了更全面的安防解决方案 。在智能穿戴产品方面,360 儿童手表 11X AI 版基于 360 智脑大模型的加持,增加了 AI 语音助手、翻译小达人、拍照学英文、AI 绘画、AI 卡通头像等 AI 功能,覆盖儿童 20 + 生活学习场景,全方位打造了 “小学生的第一台 AI 智脑手表” 。搭载 360 智脑大模型的 360 儿童手表,在满足安全守护需求的基础上,进一步拓展了儿童手表的功能边界,成为孩子成长路上的好伙伴 。
汤姆猫:娱乐场景下的多模态践行者
汤姆猫作为一家在游戏娱乐领域颇具影响力的企业,近年来积极投身于多模态 AI 技术的探索与应用,致力于将多模态 AI 与自身丰富的 IP 资源相结合,为用户带来全新的娱乐体验。
汤姆猫以 “AI+IP+Agent” 为战略核心,在多模态 AI 技术的研发与应用上取得了显著进展 。公司自主研发的 “汤姆猫情感陪伴垂直模型” 采用了最新的深度学习架构,并结合 MoE(Mixture of Experts)混合专家模型,实现了多任务协同学习和个性化交互 ,显著优于传统的单一模型 。通过引入多模态感知技术,该模型能够精准识别用户情绪状态,结合自然语言处理(NLP)和情感识别算法,提供更为贴心的交互体验 。
基于这一核心技术,汤姆猫推出了一系列创新产品,其中汤姆猫 AI 语音情感陪伴机器人备受瞩目 。这款机器人将语音交互、情绪感知、表情互动、触感反馈等多项前沿技术融合,依托公司自主研发的 MoE 混合专家架构,实现了多模型调度和优化,确保在家庭场景中的高效、稳定运行 。例如,它可以通过语音命令进行娱乐互动,播放歌曲、阅读新闻、进行游戏娱乐等,丰富用户的日常生活 ;还能作为学习工具,为用户提供在线学习辅导,尤其对孩子们的知识拓展大有裨益 。在实际使用中,汤姆猫 AI 语音情感陪伴机器人展现出了强大的情感陪伴能力 。它能够识别用户的情绪状态,当用户情绪低落时,用 “难过的声音” 进行共情并给予安慰;当用户开心时,分享快乐,真正发挥 “会聊天” 的陪伴价值 。同时,该机器人还具备短期和长期记忆能力,能记住用户的点点滴滴,并在持续对话过程中调用记忆内容自学习,越聊越懂用户,成为用户越来越信赖的伙伴 。
除了智能硬件产品,汤姆猫还将多模态 AI 技术应用于游戏领域 。旗下的《Talking Ben AI》手游已在海外测试,通过结合生成式 AI 技术,为玩家带来了更加丰富的互动玩法 。在游戏中,玩家可以与游戏角色进行更加自然、流畅的对话,角色能够根据玩家的语言和情绪做出不同的反应,极大地提升了游戏的趣味性和沉浸感 。例如,当玩家询问游戏角色某个任务的完成方法时,角色会用生动的语言进行解答,并根据玩家的反馈提供进一步的指导;当玩家在游戏中取得胜利时,角色会送上祝贺和鼓励,增强玩家的成就感 。
汤姆猫通过将多模态 AI 技术深度融入娱乐场景,不仅为用户带来了更加智能、有趣的娱乐体验,也为游戏娱乐行业的发展开辟了新的方向 。随着技术的不断进步和创新,相信汤姆猫将在多模态 AI 领域取得更多突破,为全球用户带来更多优质的产品和服务 。
格灵深瞳,作为一家以计算机视觉和人工智能为核心技术的企业,自 2013 年成立以来,便在人工智能领域持续深耕,致力于为各行业提供智能化解决方案,是国内人工智能领域的早期开拓者和实践者 。凭借其在多模态 AI 领域的卓越技术实力和创新应用,格灵深瞳在计算机视觉领域树立了独特的竞争优势。
格灵深瞳在计算机视觉领域拥有深厚的技术积累,掌握了多项自主研发的核心算法 。其研发的 Unicom 系列视觉大模型以 Transformer 架构为基础,在大规模数据上进行创新训练,实现了端到端的学习能力 。基于 Unicom 的深瞳灵感 - 7B 多模态大模型,在业界同等规模的 VLM 模型中居领先地位,在多个权威数据集上的表现超越了 OpenAI ,能够提供语义理解和图像识别的双向支持,显著提升了人工智能在判断和推理方面的能力 。例如,在处理复杂场景时,该模型能够快速准确地识别图像中的物体、人物以及各种行为,并通过语义理解进行分析和判断,为后续的决策提供有力依据 。
在多模态理解方面,格灵深瞳通过融合视觉、听觉、语言等多种感知能力,为具身智能提供了关键的 “感知层” 支持 。例如,在银行安防领域,格灵深瞳的 AI 系统能够通过监控视频画面(视觉)、现场声音(听觉)以及相关文本信息(语言)的多模态融合,精准判断是否存在异常行为,如打架、盗窃等 。以往在判断监控视频中的异常行为时,需要精细的算法和大量人力来进行特征设计,而如今借助多模态技术,AI 只需将视频帧输入并进行语义解读,即可迅速判断出是否存在异常,大大节省了人力物力,同时增加了监控的及时性和有效性 。
在工业质检领域,多模态大模型同样展现出了巨大的价值 。以往针对各种缺陷类型的识别需要进行复杂的样本收集和标注,而现在依靠通用视觉大模型的少样本学习和跨场景泛化能力,再结合语言模型的多模态生成范式,AI 能够快速识别并描述缺陷,为操作人员提供明确的参考建议 。这种从视觉到语言的无缝衔接,极大地提升了工作效率和质检的准确性 。
格灵深瞳的多模态 AI 技术还广泛应用于城市管理、商业零售、体育教育等多个领域 。在城市管理中,其交通治理业务已在 10 余个省市开展试点及落地应用,通过对交通视频、路况信息等多模态数据的分析,实现了智能交通调度和违规行为监测 ;在商业零售领域,智慧案场解决方案已落地全国 20 余省市近 1000 个项目,通过对顾客行为、商品陈列等多模态数据的分析,为商家提供精准的营销建议和运营优化方案 ;在体育教育领域,相关产品方案已在全国多个校园试点应用,为 100000+名在校师生提供日常教学支持与考试服务,通过对学生运动姿态、动作规范等多模态数据的分析,实现了个性化的体育教学和智能评估 。
苏州科达:安防领域的多模态深耕者
苏州科达,作为安防行业的知名企业,自 1995 年成立以来,始终专注于视频监控和安防解决方案领域,经过多年的发展,已成为全球领先的安防产品和解决方案供应商之一 。其产品线丰富多样,覆盖了高清网络摄像机、视频会议系统、智能交通管理系统等多个领域 ,在国内市场占据重要地位的同时,也在国际市场上拥有广泛的客户基础 。
在多模态 AI 技术的研发与应用方面,苏州科达展现出了强大的实力和前瞻性。早在 2023 年,苏州科达就发布了 KD-GPT 大模型,这并非单一的大模型,而是融合了多模态大模型、行业语言大模型和图像视频生成大模型等多个大模型的组合 ,为其在安防领域的多模态应用奠定了坚实的技术基础 。
在视频和图像分析领域,苏州科达的多模态大模型发挥了重要作用 。以异常检测和开集目标检测应用为例,以往小模型在面对复杂场景和未知目标时往往力不从心,而苏州科达的多模态大模型凭借其强大的跨模态信息融合能力和对复杂语义的理解能力,成功解决了这些难题 。在实际应用中,该模型能够同时分析视频中的图像信息和音频信息,以及相关的文本描述(如监控区域的背景信息、事件记录等) ,从而更准确地判断是否存在异常情况 。比如,在某城市的公共场所监控中,多模态大模型通过对监控视频画面中人物的行为动作、表情神态,以及周围环境的声音变化(如争吵声、呼喊声)等多模态信息的综合分析,成功预警了多起潜在的安全事件,大大提高了城市安防的效率和准确性 。
在图像 / 视频结构化的智能分析应用中,苏州科达基于多模态大模型开发的超级结构化智能分析系统,更是实现了重大突破 。传统算法在处理结构化内容时,往往需要将其限制在特定标准或范围内,使用方式较为固定,且在复杂环境适应性、跨模态信息融合、通用语义理解方面存在明显不足 。而苏州科达的超级结构化智能分析系统,通过引入多模态大模型,大幅度提升了视频内容分析和搜索效率 。它能够对视频中的各种元素进行全面、深入的理解和分析,不仅能够准确识别出人物、车辆、物体等目标,还能理解它们之间的关系和行为模式 。例如,在公安刑侦工作中,该系统可以根据犯罪嫌疑人的外貌特征、穿着打扮等图像信息,结合案件相关的文本描述和语音线索,快速从海量的监控视频中筛选出关键信息,为案件侦破提供有力支持 。如今,多模态大模型已经成为苏州科达一个标准的算法服务,广泛应用于智能安防的各个场景 。
除了在技术研发上的卓越成就,苏州科达还积极与各方合作,共同推动多模态 AI 技术在安防领域的应用和发展 。2024 年 10 月 17 日,苏州科达与华为签署了全面合作协议,双方将共同打造多场景联合解决方案 ,充分发挥各自在技术、产品和市场等方面的优势,为客户提供更加优质、高效的安防服务 。此外,苏州科达还与江苏省产业技术研究院成立 JITRI— 科达联合创新中心,着力突破目前行业的 5 大难题 ,包括解决 GPU 服务器集群部署和高效调度的问题,建立新一代 AI 模型训练和数据管理平台 KD-Train;开发基于 RISC-V 架构的 AI 或图像处理芯片;研发并部署 AI 智能体迁移学习算法,解决小众场景下 AI 的识别准确率;突破现代人脸识别系统的局限,进一步提升人脸识别精度;开发基于深度学习的音频处理算法,在复杂场景下获得优质的音频效果 。通过这些合作与创新,苏州科达不断提升自身的技术实力和市场竞争力,为安防行业的智能化发展注入新的活力 。
因赛集团:营销创意的多模态推动者
在多模态 AI 蓬勃发展的时代浪潮下,因赛集团作为营销传播领域的佼佼者,凭借其敏锐的市场洞察力和卓越的创新能力,积极投身于多模态 AI 技术的探索与应用,为品牌营销注入了全新的活力,成为推动营销创意变革的重要力量。
因赛集团在品牌营销领域拥有深厚的底蕴和丰富的经验,多年来一直致力于为客户提供全方位、一站式的营销传播解决方案 。随着多模态 AI 技术的兴起,因赛集团迅速捕捉到这一技术变革为营销行业带来的巨大机遇,果断加大在 AI 技术研发方面的投入,组建了约 30 人规模的人工智能营销技术研发团队,涵盖研发工程师、数据分析、产品经理等关键岗位 ,全力打造具有自主知识产权的多模态营销 AIGC 应用大模型 “InsightGPT” 。
InsightGPT 定位为 AIGC 驱动的营销全链路应用解决方案,致力于将 AIGC 技术与营销策略洞察、内容创意生产、传播投放及效果转化等环节深度融合,助推营销行业生产力的质效提升 。目前,该模型已具备文生文、文生图、图生视频、视频剪辑、文生视频等强大功能 ,并在实际应用中取得了显著成效。例如,在为腾讯游戏、Krafton、魅族等大客户提供服务时,因赛集团利用 InsightGPT 的多模态生成能力,为其快速生成高质量的图片、视频等营销素材,有效提升了营销活动的效率和效果 。同时,因赛集团还与文心一言、Kimi、豆包等知名大模型在 API 接口调用方面展开合作,进一步拓展了模型的应用场景和能力边界 。
除了技术研发,因赛集团还在算力基础设施方面进行了大力投入 。公司在自有机房内部署了多套英伟达 A800、H800、4090 等显卡服务器,构建了一套高性能的算力集群 ,用于模型训练与推理,为多模态 AI 技术的应用提供了坚实的算力支持 。此外,因赛集团还租赁了阿里云的云服务器集群,以实现算力调度、任务管理与分布式计算 ,确保了系统在高并发情况下的高可用性和低延迟响应 。
在营销服务领域,因赛集团的多模态 AI 技术也得到了广泛应用 。以智能交互为例,因赛集团利用文本生成能力与多模态数据结合,使人形机器人能够在视觉、听觉等多个感知维度进行信息交互 ,提升了用户体验 。在智能决策方面,因赛 AI 能够帮助人形机器人更好地理解任务目标和用户需求,从而优化复杂任务的规划与执行策略 。例如,在品牌推广活动中,人形机器人能够根据因赛 AI 的决策快速响应现实环境的变化,调整推广策略,提高推广效果 。
因赛集团还积极探索多模态 AI 技术在短剧等新业务领域的应用 。公司利用文生视频赋能短剧创作及制作,逐步覆盖微短剧内容端、制作端、IP 端、发行端及变现端等关键链路 ,成功出品多部不同题材的微短剧 ,并为腾讯游戏、魅族、途游、iQOO 等品牌出品多部定制微短剧 。通过将多模态 AI 技术与短剧创作相结合,因赛集团不仅为用户带来了更加丰富、新颖的内容体验,也为短剧行业的发展开辟了新的方向 。
佳都科技:交通与安全的多模态赋能者
佳都科技作为一家在智能交通与公共安全领域深耕多年的企业,凭借其在多模态 AI 技术方面的卓越创新和广泛应用,成为了行业内的领军者。公司自成立以来,始终致力于为城市提供智能化、高效化的交通与安全解决方案,通过不断探索和实践,将多模态 AI 技术深度融入到各个业务场景中,为城市的可持续发展贡献了重要力量。
在智能交通领域,佳都科技基于全球首创 IDPS 智慧交通发展理念,通过建设完善的交通基础设施,利用各种技术手段全面采集交通数据,再借助智慧的计算平台对这些数据进行分析处理,最后提供灵活、高效的系统服务,从而实现对交通状况的精准把握和科学管理 。其自研的 IDPS 城市交通大脑目前已迭代至 3.0 版本,AI 大模型深度融入其中,实现了可计算路网、交通运行认知、交通孪生决策三大核心能力的全面开放共享 。在实际应用中,围绕设施设备运维能力提升、道路通行效率提升、非现执法效能提升、降压事故消除隐患、运输源头风险清零以及多部门城市治理协作这六大方向,打造了 23 个主题应用,深入拓展了 200 余个场景,开发出 900 + 项实用功能,真正实现了 “三提升、一下降、一清零、多协作” 的目标 。
佳都科技还积极将多模态 AI 技术应用于公共安全领域 。公司基于多年的公安视频图像综合应用建设经验,提炼出 “建、联、管、用、评” 的大数据治理体系,并通过佳都行业大数据平台,提供异构数据集成接入能力、丰富的数据算子、灵活的算法编排工具、脚本工具以及数据开发、数据服务等符合各级规范的视图库管理应用 。通过夯实视频资产全生命周期管理、建立公安视图数据治理体系以及视图数据组织及分析能力,夯实数据底座的同时强化数据资产价值,加快形成公安新质战斗力 。例如,佳都的 AI 大模型 + 能提供从算法训练、推理到应用的整体解决方案,最快 3 天即可生产一个算法,小样本训练最少仅需 400 张样本,支持各地公安快速定制属于自己的个性化算法 。并提供语义检索服务,实现基于姿态、行为、特征等一句话检索,如多模态检索 “蹲在地上抽烟的男人” 等 。同理,也可以实现语义布控,快速针对具有某种姿态习惯、行为习惯的关注人员快速布控 。
2025 年 3 月 19 日,佳都科技官微宣布,公司基于昇腾 AI 基础软硬件平台发布的三款大模型训推一体机,经过持续的迭代优化,正式发布佳都知行大模型(Deepseek)双模一体机,面向城轨、警务等场景提供 “开箱即用” 的城市轨道交通业务智能体、公安业务智能体,高效驱动行业数智化转型 。这款双模一体机的发布,标志着佳都科技在多模态 AI 技术应用方面又迈出了重要一步 。在城轨场景中,城市轨道交通业务智能体能够实现毫秒级动态调度,根据实时客流和预测客流数据,自动匹配行车运力运能的最优方案并进行调整,提升突发延误的处理效率 。同时,还能为乘客提供更智能的客服系统和更具个性化的出行建议与服务,以自然语言交互的方式,快速响应乘客的咨询和投诉,提供实时的票务信息、线路查询、故障报修等服务 。在警务场景中,公安业务智能体能够通过视频监控、数据分析等手段,实时监测异常行为和安全隐患,及时发现潜在的安全问题并发出预警 。在应急场景中,能够快速生成应急预案,结合实时数据提供最优的应急处理方案 。
佳都科技通过将多模态 AI 技术与智能交通和公共安全业务深度融合,不仅提升了行业的智能化水平,也为城市的安全和便捷出行提供了有力保障 。未来,随着技术的不断进步和创新,相信佳都科技将在多模态 AI 领域取得更多突破,为行业发展和城市建设做出更大的贡献 。
多模态 AI 的未来蓝图
以上 10 家公司在多模态 AI 领域的探索与实践,犹如璀璨星辰照亮了多模态 AI 的发展之路。它们凭借各自独特的技术优势和创新应用,在不同领域展现出多模态 AI 的强大力量,为行业发展树立了标杆,也为多模态 AI 的未来发展奠定了坚实基础。
展望未来,多模态 AI 的发展前景一片光明。随着技术的不断突破和创新,多模态 AI 将在更多领域实现深度应用和融合创新。在智能交通领域,多模态 AI 有望实现更精准的交通流量预测和智能调度,缓解交通拥堵,提升出行效率;在医疗健康领域,它将助力更早期的疾病诊断和个性化治疗方案的制定,为人类健康保驾护航;在教育领域,多模态 AI 将推动个性化学习和智能教育的发展,让每个学生都能享受到最适合自己的教育资源 。
多模态 AI 与其他新兴技术的融合也将为我们带来更多惊喜。例如,与物联网(IoT)的融合将实现设备之间更智能的交互和协作,构建更加智能化的生活环境;与区块链技术的结合将提升数据的安全性和可信度,为多模态 AI 的应用提供更可靠的保障 。
然而,我们也应清醒地认识到,多模态 AI 的发展并非一帆风顺。随着多模态 AI 技术的广泛应用,数据隐私和安全问题日益凸显。如何在保障数据安全的前提下,充分发挥多模态 AI 的优势,是我们必须面对和解决的重要挑战。此外,多模态 AI 的算法可解释性、伦理道德等问题也需要我们持续关注和深入研究,以确保技术的发展符合人类的价值观和利益 。
在这个充满机遇与挑战的时代,云从科技、当虹科技等 10 家公司作为多模态 AI 领域的先锋力量,将继续肩负起推动技术进步和行业发展的重任。相信在它们的引领下,多模态 AI 将不断突破创新,为我们的生活带来更多的便利和惊喜,开启一个全新的智能时代 。让我们共同期待多模态 AI 的美好未来,见证科技改变世界的伟大力量!