从“数据融合”迈向“原生架构”：商汤发布 NEO 架构，重新定义多模态模型效能边界

商汤科技

2025-12-01 18:58 · 北京

商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO，为日日新SenseNova 多模态模型奠定了新一代架构的基石。

作为行业首个可用的、实现深层次融合的原生多模态架构（Native VLM），NEO 从底层原理出发，打破了传统“模块化”范式的桎梏，以“专为多模态而生”的创新设计，通过核心架构层面的多模态深层融合，实现了性能、效率和通用性的整体突破，重新定义了多模态模型的效能边界，标志着人工智能多模态技术正式迈入“原生架构”的新时代。

论文网址：网页链接

Github 开源网址：网页链接

打破瓶颈，告别“拼凑”，拥抱“原生”

当前，业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式。这种基于大语言模型（LLM）的扩展方式，虽然实现了图像输入的兼容，但本质上仍以语言为中心，图像与语言的融合仅停留在数据层面。这种“拼凑”式的设计不仅学习效率低

点击查看全文