用户头像
守株待兔
 · 福建  

$第四范式(06682)$ 第四范式推出「Virtual VRAM」可插入式虚拟显存扩展卡 GPU算力资源利用率大幅提升

在当前GPU架构下,显存容量已成为制约AI大模型运行效率的关键瓶颈。当面对ChatGPT响应延迟或Stable Diffusion因显存不足而中断时,扩展显存已成为众多企业或个人的共性需求。

今天(9月28日),第四范式正式发布「Virtual VRAM」可插入式虚拟显存扩展卡。该产品创新地将物理内存资源转化为可动态调度的显存缓冲池,实现计算资源的弹性扩展。值得关注的是,「Virtual VRAM」可以在不修改现有代码和重新编译的情况下无缝接入当前GPU系统,大幅降低了部署复杂度,不用换显卡就可以解决显卡不足的痛点。第四范式创始人戴文渊,第四范式联合创始人、首席科学家陈雨强出席发布活动。

图片

图片

01 显存不够?内存来凑!

传统GPU的显存如同一方固定的“厨房备菜台”——空间有限,只能容纳当下正在处理的食材(数据),而且扩展成本极高,但它的大小又直接决定了究竟能放多少菜,也就直接影响到最终能炒多大一桌菜(运行多大规模的模型)。

传统模式下,当AI模型过大或并发任务过多时,“备菜台”(即显存容量)便拥挤不堪,工作难以开展。用户往往只能选择购买更高端的显卡或多卡扩展,成本陡增。

「Virtual VRAM」可插入式虚拟显存扩展卡,创新性地为“备菜台”增加了一个“储藏室”——把高速内存虚拟为显存使用,构建起显存与内存之间的高效数据通道,实现容量的弹性扩展。这一机制可以类比为在“备菜台”旁增设“储藏室”:常用的数据、模型就放在手边“备菜台”,不是那么急需的就放置在远一点的“储藏室”里。这样,就算要“炒一桌满汉全席”,也不用担心“各种备菜+调料”放不下了。

陈雨强介绍,这次发布的单张显卡的虚拟显存容量可扩展至最高256GB(以NVIDIA H20显卡96GB显存为例),相当于10张NVIDIA RTX 4090或6张NVIDIA A100的物理显存容量。用户无需更换硬件,即可在接近原生大显存的访问性能下,突破原有显存限制。

这一设计既保持了GPU计算的高效性,又显著提升了显存资源的利用弹性,使单卡也能轻松承载大规模AI训练与推理任务,实现高性能与大容量的统一。

图片

图片

02 双场景破解行业痛点

目前,AI大模型无论从数量还是尺寸,都呈现爆炸式增长,显存容量显然已经成为高效、低成本构建AI服务的瓶颈,第四范式力求破解这一难题,让模型部署不再受限于显存容量。

「Virtual VRAM」可插入式虚拟显存扩展卡正是瞄准这样两大核心场景,应运而生:

在大模型单卡运行场景中:当显存不足时,用户无需购买第二张显卡,只需“借用”适量内存,即可实现模型运行,成本大幅降低

在轻负载场景中:可将数十个模型置于同一张GPU上,按需调用,大幅提升资源利用率,避免“一模型一卡”的浪费现象

03 透明普惠,无缝适配多种环境

「Virtual VRAM」可插入式虚拟显存扩展卡不仅是高性能服务器内存,还能提供无缝、透明的显存扩展能力,其核心优势在于:

完全透明性:现有GPU程序无需任何修改、编译,即插即用

广泛普适性:支持物理机、Docker容器及Kubernetes等云原生环境,避免了对源代码的修改,均可透明化无缝使用

尤为关键的是,产品实现了对现有代码的完全兼容。使用者无需为适配硬件而投入额外开发资源,也无需对原有GPU程序做任何源代码层面的调整,即可直接启用扩展显存。

这意味着,企业能够显著降低因技术迭代带来的人力与时间成本,避免重复开发投入。在享受扩展能力的同时,真正实现“零修改”部署,让研发资源聚焦于业务创新,而非底层适配。

未来,第四范式将持续与市面内存企业达成合作,协同助力企业降本增效,提供AI新选择。