以下是该新闻的核心内容归纳:
2025年8月12日,腾讯Yan团队发布同名AI框架Yan,实现实时交互式视频生成。
该技术标志着AI视频生成从单向输出向双向交互的跨越,为元宇宙生态构建提供了重要技术支撑。腾讯团队通过自动化数据工厂和模块化设计,实现了实时性与画质的双重突破,展现了其在AI研发领域的领先地位。
一、技术突破
1. Yan系统架构
- 由Yan-Sim(实时渲染)、Yan-Gen(多模态生成)、Yan-Edit(实时编辑)三大模块组成
- 支持1080P/60FPS实时交互,延迟<0.07秒
- 基于RTX 4060单卡实现,论文发表于arXiv
2. 核心技术突破
- Yan-Sim:
- 3D-VAE压缩率提升至2×32×32
- 移位窗口去噪推理+KV缓存技术
- 结构剪枝+FP8量化优化
- 单卡实现60FPS实时渲染
- Yan-Gen:
- 分层字幕系统(全局+局部)
- 多模态条件注入机制(文本/图像/动作)
- 后训练流程优化(自回归初始化+因果注意力)
- 支持4卡并行达30FPS
- Yan-Edit:
- 深度图分离技术
- 结构编辑(物理交互)+样式编辑(视觉风格)
- ControlNet技术应用
- 支持实时场景切换(如草地→水彩画)
二、数据与训练
1. 数据来源
- 使用《元梦之星》游戏环境采集
- 覆盖90+场景类型,4亿帧1080P数据
- 动作插值技术实现30FPS数据采集
2. 质量控制
- 三层过滤系统(视觉/异常/规则)
- 智能平衡采样系统
- 时间戳精准对齐技术
三、创新价值
1. 行业意义
- 首次实现AAA级实时交互视频生成
- 突破传统AI视频的"电影片段"局限
- 开创交互式内容生成新模式
2. 应用场景
- 游戏开发(快速原型迭代)
- 教育领域(个性化学习环境)
- 影视创作(实时特效生成)
- 元宇宙构建(虚拟世界原型)
3. 局限性
- 当前依赖高性能GPU
- 长时生成一致性待优化
- 商业化路径尚需探索
四、技术对比
特征 传统AI视频 Yan系统
交互性 无 实时响应
生成方式 预录播片 动态生成
帧率 ≤30FPS 60FPS
编辑能力 后期剪辑 实时编辑
硬件需求 通用设备 高性能显卡