这个有几个原因:
1、单论多模态的数据,全世界字节第一,快手应该可以排第二,这方面openai的sora也无法匹敌,可能meta用instagram,google用youtube可以再去做。但目前这两家还没有专注于多模态的模型;
2、为什么字节的即梦效果上不如快手的可灵,核心我觉得是一开始即梦走的就是一个轻量化的模型,要求的是推理成本低,生成速度快,且生成的多为秒级别的短视频为主。而快手一开始就是打算重资源投入,我猜测他们应该在数据处理上下了大功夫,生成的都是2分钟左右的视频,生成速度慢,但质量高。
3、其实快手一直在视频渲染这块的算力和芯片储备很厉害,多模态的视频训练涉及到更高维度的算力资源和硬件能力。