从“大模型”到“数据治理”:企业级AI如何落地?

用户头像
江怡曼Emay
 · 上海  

最近跟几个做信息化的朋友聊天,发现一个挺有意思的现象:很多公司砸重金买了顶级大模型,显卡烧得滚烫,员工也在跟风用AI写周报、做PPT。但一动真格的,到了核心业务上,AI常常无能为力、变身“人工智障”。

有个搞制造业的朋友也跟我吐槽说,“我让AI读设备维修手册,结果它连个表格都解析不对,给出的方案根本没法落地。”

这事儿让我琢磨了很久。作为投资者,我们总在看哪家大模型参数更大、跑分更高,但这可能跑偏了。AI在B端的落地,关键不在于算法和模型,而是在于数据。也就是说,AI落地到B端的“最后一公里”:卡点根本不在模型够不够聪明,而是卡在企业那些“沉睡”的文档里。因为,文档就是企业的know how和知识。

WPS365前一阵在上海举办了一场峰会,嘉宾中金首席于钟海判断很精辟:“当模型迭代速度越来越快,企业与其在模型上比拼,不如把数据这个‘护城河’筑得更深更宽。”而企业数据的核心,恰恰是那些散落各处的非结构化数据。

在AI时代,谁能更好地治理和利用企业的文档数据,谁就能在数字化转型中占得先机。

为什么大模型到了企业端就“变傻”?

聊这个问题之前,我们首先得明确一个概念:什么是非结构化数据?其实就是企业里那些不是存放在数据库里的“散装”信息,比如PDF格式的文档、扫描件形式的会议纪要、带手写批注的技术手册、聊天群里的业务讨论、甚至是录音转写的客户访谈记录。这些数据占据了企业数据总量的80%以上,却是最容易被忽视的数据金矿。

先明白了非结构化数据,我们再来看看当前的企业用AI的现状:

第一是,数据“散”:文档存在员工个人电脑、云端硬盘、业务系统等多个地方,形成了信息孤岛,AI根本拿不到完整数据;

第二是,格式“乱”:有扫描件、有图片转PDF、有不同版本的Word文档,AI解析起来要么出错,要么干脆无法识别;

第三是,内容“差”:同一事项在不同文档里表述矛盾(比如未休年假折算比例,一个文档写200%,另一个写300%),还有大量企业内部“黑话”,大模型根本无法理解。

更关键的是,传统大模型依赖的RAG(Retrieval-AugmentedGeneration,检索增强生成)技术,只能解决“语义相似”的问题,解决不了“逻辑相关”的问题。比如一个员工问“笔记本电脑开不了机怎么办”,AI可能会检索到“MacBookPro14寸搭载M3芯片”的相关文档,却找不到“检查电源是否插紧”这样的实用指南。

这些问题叠加起来,就导致大模型在企业里“英雄无用武之地”,要么因为数据缺失无法回答,要么因为数据错误产生幻觉,最终让AI应用停留在表面,无法理解业务逻辑,深入到业务核心。

金山办公助理总裁朱熠锷在峰会上提出了一个关键转变:企业AI正从“以模型为中心”转向“以数据为中心”。这个转变背后的逻辑很简单:现在主流大模型的综合智能已经超越普通员工,无论是开源还是闭源模型,能力差距正在缩小,真正拉开企业AI应用效果的,是喂给模型的数据质量。

正所谓“巧妇难为无米之炊”:同样是顶级厨师,给一个用新鲜食材,给另一个用变质原料,做出来的菜自然天差地别。

那么,如何让“找文档”,变成一场知识治理和生产力的革命?

从“找文档”到“知识治理”的革命

要解决非结构化数据的难题,光靠“检索”是远远不够的。金山办公提出的KAG(Knowledge-AugmentedGeneration,知识增强生成)架构,恰好切中了问题的核心,相比传统RAG只让AI“看到”文档,KAG是让AI真正“掌握”知识,这背后需要一套完整的技术闭环。

首先,把“图片文字”变成“机器能懂的语言”

很多企业的核心数据都锁在扫描件、图片里,比如老合同、纸质报表、现场拍摄的设备照片。要让AI用上这些数据,第一步就是精准解析,让AI先知道这是什么。

华中科技大学刘禹良教授和金山办公联合研发的MonkeyOCR模型,在这方面实现了突破。在3B参数规模下,其复杂文档解析能力超越国际巨头模型,尤其是在复杂表格、手写批注、跨页图表的识别上,准确率达到行业领先水平。

这个技术带来的改变是革命性的:以前AI看扫描件里的表格,可能把行列对应错误,现在MonkeyOCR能精准识别合并单元格、多行表头,甚至表格里嵌入的图片和公式,把图片格式的文档完整转化为结构化数据。

比如在医药行业,WPS365用这项技术提取临床实验数据,表格类信息抽取准确率高达99%,勾选框识别准确率也达到95%,为后续AI生成合规报告打下基础。

东方航空所在的航空行业为例,可以更高效率的审核多语言、易构账单:

东航每天有3000多架飞机起降,涉及全国各地甚至海外机场的各种费用,产生大量异构、多语言的账单,很多还是纸质扫描件。以前这些账单全靠人工审核,不仅效率低,还存在语言障碍(比如阿拉伯语账单)和合规风险,外站站长和财务人员不堪重负。

通过WPS365的多模态文档解析能力,高效处理东航海内外机场的多语言、异构格式账单;将分散的账单统一纳入可治理的文档体系,结合东航文档中台实现标准化管理,为AI审核奠定可靠的数据基础;WPS365的AI解决方案能与东航自研系统深度集成,实现账单审核的智能化处理。

同时结合在线文档管理能力,让账单信息线上化不落地,配合权限管控与操作留痕,这不仅解决了人工审核难的问题,还实现了文档不落地管控,所有操作都有痕迹可查,满足了航空业严格的合规要求。

其次,给知识“体检”,清理垃圾数据

企业文档库往往是“重灾区”:同一个文件有多个版本,不同文档对同一事项表述冲突,还有大量重复内容。这些“垃圾数据”如果直接喂给AI,只会让AI越学越乱。

WPS365的智能知识基座,相当于给知识做了一套“全面体检”:

重复检测:自动识别内容相似度超过95%的文档,保留有效版本,减轻系统负担;

冲突识别:通过知识图谱技术,发现事实冲突(数值、时间差异)、逻辑冲突和关联冲突,准确率能达到80%左右;

缺失检测:基于知识库主题,自动判断哪些知识点没有覆盖,给出补充建议,预测准确率高达85%。

上海信投智能的副总裁刘红对此深有感触:“我们以前从员工电脑上采集的文档,有V1、V2、V3、V5版本,还有各种‘副本1’‘副本2’,根本分不清哪个是最终版。WPS的重复清理功能帮我们解决了大问题,这在以前靠人工根本不可能完成。”

最后,打通逻辑,让知识“活”起来

解决了“能识别”和“高质量”的问题,还要让知识之间产生关联,才能真正发挥价值。WPS365的KAG架构,通过引入知识图谱、业务本体建模等技术,让AI不仅能找到相关文档,还能理解文档背后的逻辑关系。

以券商行业的申万宏源为例:

作为券商龙头,申万宏源的研报、业务文档数量庞大且分散在多个系统,业务人员跨系统检索文件要花费大量时间。通过WPS365智能文档库,他们把分散的文档集中上云并结构化解析,不仅让业务人员知识获取效率提升80%,办公效率整体提升10%,还将智能知识中心接入客服坐席系统。

以前财富经理面对客户咨询,需要人工搜索相关知识,平均对客延时较长;现在通过AI问答替代人工搜索,平均对客延时缩短了3倍以上,客户体验和服务效率都得到显著提升。更关键的是,WPS365的权限防火墙保障了金融行业敏感数据的安全,为AI转型构建了高质量的知识底座。

另一个是船舶行业的案例:

中船动力的核心需求是沉淀专家经验和项目资料,尤其是在船用主机研发这样的复杂场景中,研发笔记、试验数据等知识资产的高效流转至关重要。通过WPS365,他们把原有文档升级为团队知识库,应用于供应链管理、合规风控、财务运营和研发创新等多个领域。

供应链团队用AI实现市场价格分析、政策变动追踪自动化,从海量合同、报表中定位关键信息,缩短了审查周期,降低了人为疏漏风险;财务部通过AI对比分析十多家单位的数十个表格,自动抓取核心数据,减少了重复性工作;研究院则利用AI构建知识图谱,让新人能快速获取专家经验,加速了全球最大功率甲醇双燃料船用主机项目的研发进程。

这种逻辑层面的打通,让非结构化数据从“杂乱的信息堆”变成了“有序的知识网”,AI才能真正用这些知识解决复杂业务问题。

技术好不好,最终要看实际效果。目前WPS365的“企业大脑”已经在金融、航空、制造等多个行业落地,用非结构化数据治理能力带来了实实在在的改变。

文档即资产,治理即竞争力

中金于钟海有个判断:“数据可能是企业唯一可持续的AI护城河。”这句话放在今天的AI竞争格局下,尤为贴切。

在这个算力成本越来越低、模型能力越来越同质化的时代,企业靠什么拉开差距?答案只能是数据。

企业最宝贵的Know-How,都藏在那些看似不起眼的文档里。不治理,它们就是占用存储空间的“电子垃圾”。只有通过有效的治理,把非结构化数据变成结构化的知识,才能真正激活企业的“大脑”。

WPS365的价值,正是在于它用38年深耕文档领域的技术积淀,搭建了从数据归集、智能解析、知识治理到场景应用的全链路解决方案。它没有去跟风卷模型参数,而是聚焦于AI落地的最后一公里,帮企业把“有数据没知识”的痛点变成“数据即资产”的优势。

各位看AI和B端的投资人,可能得换个视角了:数字化转型的下半场,拼的不是谁买的GPU多,而是谁能把自己压箱底的文档治理好。

$金山办公(SH688111)$