讯飞的基座模型和大模型应用

用户头像
iFly2023
 · 北京  

这两天我说讯飞基座模型是不太可能成功的,很多人反对,认为我是看空讯飞。恰恰相反,我认为讯飞没必要在基座模型上有太多执念,把精力投入大模型应用,反而大有可为。

基座大模型投入过于巨大,巨头和不缺乏资金有群众基础的初创公司有优势。现在的基座模型性能达到GPT5水平已经能满足很多场景的使用要求,性能提升趋于平缓,意味着十倍的计算量性能提升只有10%(只是推测,大概在这样的水平,主要想表达的意思是,智力会随规模提升,但比较慢)。也就是说,后面的投入会越来越大,对于大部分大模型公司来说,GPT5水平就是上限了,能够继续往下走,至少需要投入大几百亿。这些投入包括两部分:1)集群搭建,这块是大头,训练+大量用户的推理,至少是几十万卡的级别,大几百亿投入是需要的;2)基座模型的训练,规模大了会出现各种意想不到的问题,没谁会公开发表,只能自己摸索,上百亿的训练费用是少不了的。

那大模型基座谁会有机会呢?首先看阿里、字节和腾讯。阿里从芯片、模型和应用都有积累,大模型的开源已经做得很成功,有大量的开发者使用,机会很大。字节投入规模很大,特别是人才上,很早就做了组织架构调整,豆包在商业模式不清楚的情况下,即使犯错也愿意烧钱,字节的场景足够丰富,加上管理层这么大的决心,大概率能走出来。腾讯技术上有点落后,但有钱和场景,能不能做成基座模型得看投入了,但腾讯过于谨慎,投入规模比阿里小,估计比较难。因此,大厂个人是比较看好阿里和字节的。至于初创公司,除了deepseek外,其它几家都不看好。deepseek在国内已经占据了用户心智,在大多数外行人士看来,国内大模型=deepseek,跟国外大模型=OpenAi是一个道理,deepseek要推模型是比较容易的。deepseek作为小公司,有量化投资作为外部资金池,未来两三年投个两三百亿是没问题,再融资个几百亿,基本能够保证deepseek把基座模型做成。其它几家初创公司也有在做基座模型的,比如智谱、kimi和阶越,这几家都靠融资,个人认为是撑不下去的,得尽快商业化。作为创业老兵的王小川、李开复都是早早放弃了基座模型,是看得比较清楚的。deepseek要做成,也是要看梁文峰的选择的,但我认为,deepseek占据这么好的生态位,如果不做实在太可惜。第一点,由于阿里、字节本身有场景,2C用户由于用户心智的问题肯定用deepseek,2B如果deepseek可供选择肯定不用大厂,因为阿里、字节可能会入侵他们的场景。第二点,deepseek容易获得华为等芯片厂商的合作。华为也能看到,和阿里、字节和deepseek合作更能成功,但华为和阿里、字节的合作较难建立,但和deepseek是可以相互成就的,这块也是deepseek的优势。第三,deepseek其实是不缺钱的;目前在跟华为合作,把国产芯片下的大模型做出来,如果融资的话,上千亿市值是下限,融个四五百亿相信很轻松,华为、大厂都愿意参与,买到就是赚到。我看不到deepseek做不成基座模型这件事的障碍,甚至deepseek比阿里、字节更有机会。

基座模型是没有差异化的,就是比谁的智力高,但这种智力是通过堆芯片和数据建立起来的,那资金和用户量就是基座模型的壁垒。目前看来,阿里、字节和deepseek有绝对机会,腾讯得继续看。在基座模型上,讯飞有没有机会?个人认为机会渺茫。讯飞过去两年做的是国产自主可控这件事,但国产芯片限制了大模型的性能,实际上是没有走出来的。如果不是受到芯片限制,若星火大模型能够在2023年5月效果的基础上一直引领的话,现在deepseek的机会就是讯飞的。现实生活没有如果,讯飞走得这条路,使命基本已经完成了,后面的基座模型大概率和讯飞无关了,但讯飞做得这些努力并非没有回报,后面会详细说到。讯飞如果要说有一丝机会的话,需要有以下几个条件:1)国产芯片性能上来,保证讯飞星火在多模态大模型领域做到真正的第一梯队;2)华为和deepseek的适配工作大幅低于预期;3)讯飞市值大涨后完成上百亿的定增,再加上G端的补贴,相当于其它公司三百亿的资金。讯飞在国产大模型上长时间占据重要位置,从而通过2G和2B等应用完成用户数量的积累。第一条我还是相信讯飞的,第三条个人认为倒不是难事,后面再说,第二条要求deepseek的国产训练大模型2027年才出来,个人觉得可能性不大。况且讯飞有大量应用,涉及教育、医疗、政务、汽车、企业服务和2C软硬件,其它公司用讯飞的模型是有负担的,讯飞做基座模型不是顺势而为,反而对讯飞不利。考虑到这么些因素,个人反而认为,讯飞不应该做基座模型,而是转而跟deepseek合作,大量使用deepseek的基座模型,实现两者的共赢。

为什么我认为讯飞大模型应用非常有机会呢。大模型应用的核心并不是基座模型,头部厂商的基座模型差异化都不大,它用阿里通义,你用deepseek,不会带来优势,核心还是走通从模型强化训练、用户体验到数据的闭环。用户使用,获得数据,再通过强化训练提升使用效果,最后再反馈到用户体验。建立了这个闭环的大模型应用,就会形成强大的壁垒。

大模型应用的用户看重的是交付效果。用户对大模型如何使用它是不清楚的,而大模型有各种幻觉,其使用效果是在和用户交互的过程才能发现、改进以及优化。因此,大模型的应用,首先要达到基本使用的门槛,需要做大量冷启动的工作,这样的工作包括收集大量的行业数据、招人进行数据标注、和专家进行大量的沟通等等,一旦越过这个门槛,积累足够用户,再通过数据积累和强化训练,就能达到非常高的水平。这个过程中涉及到许多的脏活和累活,比如,在教育领域,只有和各个学校、教研所建立合作,获得他们的信任和数据,也可以和学而思一样,经过长期的优化教学数据收集,才能达到基本效果门槛,才具备进入教育行业的资格。在大模型应用落地上,相信没有谁比讯飞更有机会。

首先,讯飞在教育行业的积累,已经可以基本保证讯飞可以处于垄断地位。其它家想进入教育行业,需要至少两年的积累,而两年后讯飞的教育大模型已经可以考虑清华北大了,教师大模型已经大面积推广了。其它AI公司想要大面积进入教育领域的唯一办法就是收购像学而思这样的教育培训公司,考虑到还要面对像讯飞这样强大的公司,其中的性价比就是一个考量了。中国20万所中小学,每所学校平均10个班级,以后的教学和评阅肯定是通过机器进行了,做成了以后每个班级每年收2万,每个学校20万,20万所学校就是400亿,占据50%就是200亿。中国2亿中小学生,30%学习机需求就是6000万台,3年一换也就是2000万台/年的销量,占据20%是400万台,3000元一台是120亿。加起来320亿,这些都是高毛利的业务,每年可以至少产生200亿利润。大家别觉得夸张,大模型用于授课和作业评阅绝对是优于人的,被AI代替是必然趋势,这是对大模型未来潜能预判的推断。后面老师的数量会越来越多,而老师的重点并不是教学,而是关心学生的身心和身体健康,这是AI不具备的能力。这个趋势会很快,北京2027年所有学校智能化,2030年超过一半的学校会普及,这块市场足够大,支撑讯飞讯飞成为一家3000亿市值的公司是没问题的。

其次,讯飞在教育行业的能力是可以迁移的,而其它公司还需要摸索。这也是为什么讯飞坚决做2G的原因。大模型坚决做自主可控。医疗领域解决国家的基层医疗问题,获得的信任是无价的,为将来医疗领域2B和2C打基础。语音也是从解决国家层面对外交流的需求出发。办公也是从解决国企企业管理的需求出发。同样的套路、打法,可以确保讯飞沿着自己擅长的路径建立优势。由于其它领域讯飞积累并不像教育一样,相比其它公司只是稍稍领先,最后未必取得垄断地位,但获得一定的市场份额是没有问题的,因为底层逻辑是相通的,国家需求虽不是最大的需求,却也是真实存在的大量需求。最后,讯飞还有一个2030年超脑计划,在家庭服务机器人领域,这块要跟大模型公司、手机公司、汽车公司和机器人公司竞争,这块不太可能会形成垄断,更有可能像家电一样,多家分享这一巨大的市场,最重要的是在场。

总之,我现在是无比看好大模型的应用潜力,也相信讯飞会成为一家至少3000亿市值的公司。现在的讯飞,应该专心把1+N中的N做好,尽早放弃1这个通用大模型的训练,向王小川和李开复看齐,减轻负担,反而更有利于后面的发展。如果能够在教育之外,再建立一个具有垄断地位的根据地,将会大大加大后续机器人领域的成功。

说实话,我目前并不期待讯飞的通用大模型,特别是各种对标和用户数量等。我更期待的是讯飞教育大模型的进展,医疗大模型能在多少个专科领域赶走主任医师,办公大模型能在什么场景下能够解决打工人的重复劳动。做好这些,远比一个通用大模型烧钱来得更实在,也更能符合讯飞人的愿景。这轮牛市,讯飞大概率能够见到上千亿美金市值,让我们拭目以待。

$科大讯飞(SZ002230)$ $阿里巴巴(BABA)$ $百度(BIDU)$