AI改变生活,这只是个开始。
某大厂请喝奶茶直接把app干宕机,所有外卖操作要么系统无回应要么需要不断刷新,而回复都是他们在增加服务器以满足客户需求。
在前面一篇专栏文章中,我提到关于春节期间各大模型营销及可能带来的风险和应对:
“模型春节期间全民测试会带来数据峰值导致应用宕机风险剧增,目前会进行多轮测试提高效率,应对措施:1、多买或租用硬件增加服务器机组和存储等待春节峰值(算力租赁)2、想办法把运算的效率提升,把问题进行分化处理,节省算力消耗(云计算)3、进行网络安全及数据安全测试,做应急预案(网安、容灾)”
当事情真的发生后,大概看了下大家的思路,多数人去吹算力,部分人在讲网优,我们就从另一个视角来看看,这种事件驱动下的投资,底层逻辑到底在哪里。
那么,我们就结合本次事件来分析下原因和解决思路。
AI的核心本质是算力、算法、数据
算力
2月6日上线活动,其推荐好友获得卡券的方式及力度快速让该app的下载和使用量激增,但对比同行,在客户使用量巨大的客观事实下,同类型APP并未出现类似宕机事件,那么是技术不行?投入预算不够?
我们先从大模型本身来找原因,首先当下的热门大模型之一,由于软硬件适配及基于对海外同类产品的模仿,该模型的顶层设计也是基于Transformer架构并在超大规模预训练数据上进行训练得到,这种架构优势是在于并行处理能力,可以通过增加运算层级来提高其复杂性和学习能力,使其适应大规模数据采集和复杂任务,那么同样缺点就非常明显,由于运算层级较多,那么当任务运行时,不论该任务是要解1+1=2,还是要像千问目前这样根据客户的当前位置来推荐对应的奶茶店,后台需要运算的步骤是一样的,消耗的token有差异但都很多,所以这个模型的特点就是会对计算能力(算力)、计算资源(显存)有着极高的需求。
目前我们的大模型发展还在初期,大家靠着大力出奇迹,通过不断增加算力(买、租服务器)来满足计算能力的需求,以及通过增加存储的方式来解决计算资源问题。但这是治标不治本的。
因为算力理论上只要你的资本开支能力足够就能支撑这个成本,但当有海量用户同时开启复杂运算的时候,由于运算模式层级过多带来的瞬时token增加,是当下的计算资源无论如何都没办法满足的,毕竟存储空间是固定的,你需要根据运算量来合理分配内存和显存比例,就像每个人脑子里都能装下左手画圆和右手画方的操作方法,但让你同时左右互搏的话,也只有少数像周伯通一样把显存占比放大的人才能做到。
所以单纯通过阶段性增加计算能力和资源只有理论上是可以解决问题的。
那么,就像我前面帖子里说的,假定你是该业务负责人,你充分了解自家模型的特点和缺陷,那么目前你需要面对这场营销活动,你会怎么办?
最简单的办法临时租用服务器机组,因为活动才两天峰值可能还未出现,这时候直接增加开支去购买服务器对于企业经营的成本考量并不是好的选择。
OK,假定像APP上说的那样增加了服务器机组,按照前面的理论应该是问题解决,大家都能很顺利点到奶茶了,但事实是,这个宕机的状态依然存在。Why?
说明在海量用户的频繁进行复杂任务的时候,由于多层级运算带来的token几何倍数增长,让通过算力增加的方式也不能解决显存占用过载的问题。$润建股份(SZ002929)$
算法:
既然短期增加算力不行,那么能否通过算法调优来解决呢?问题又摆在面前,临时买(租)算力问题依然存在,那么这时候我们去让算法工程师团队,让他们来优化算法,一方面在运算的过程中去尽量减少token的产生和消耗,另外也看能不能通过算法的优化来解决运算复杂带来的爆显存问题,算法工程师告诉我,首先从顶层架构来讲,基于Transformer下的模型运算模式是固定无法改动的,要改不如重新做个APP,那么这个只要用户大量使用复杂任务token就会爆发的点短期无法解决,不仅我们,其他同行也一样,不然豆包当时为啥手机只出货那么点,不就是担心使用过量带来的系统崩塌风险,毕竟下个APP崩了没花钱大不了不用,买个手机系统坏了真会投诉的!
网络优化呢?增加带宽提升网速?可问题出在运算层,数据传输越快堵的不是越快嘛?
我们看看目前的处理办法,系统提示用户的卡券延期?为什么,不就是让用户分散使用时间避免集中运算带来的数据挤占嘛。说白了,解决不了客观问题,你们克服克服今天不喝奶茶过几天也可以喝嘛,都去喝奶茶容易堵,亲,这个卡券还能购物呦~
这说明啥,算法短期是调不了的,改顶层设计比改用户习惯还难,那些指望通过算法进行网优、算力协调、调度来解决问题这个思路行不通。$网宿科技(SZ300017)$
数据:
作为负责人,为什么明明了解自家模型还存在各种问题缺陷,而且非常清楚一旦推出这种活动会带来什么结果,那么为啥还要在这时候搞事呢?
首先肯定是大厂间的资本竞赛,从卡位角度思考,不管好不好先做了才能占据用户心理,就像过年过节送礼领导可能记不住谁送了啥但谁没来送他心里清清楚楚。
另外站在业务发展角度去想,数据才是模型进化的核心,送奶茶看似创意不足但如果当做获客手段通过海量客户获得真实数据比买原始数据库再依赖ai自我合成的数据更真实有效,这对ai智能体发展也是更好的推进。 用数亿人获得的真实数据来催化模型成长比闭门用数据库自己研发好使,ai智能体进化不就是养娃嘛,读万卷书,行千里路。
所以推广模型保证客户使用只是一方面,关键在于如何保住今天产生的所有数据。毕竟这可是花30亿真金白银买来的用户线上消费习惯等核心数据资料
作为负责人,如何保住活动期间客户的所有数据,来确保未来模型成长的基础呢。
当发现预案中的增加服务器、临时修改算法、调整活动方案等措施都不能改变系统宕机的时候,应急预案就要考虑启动了。
服务器数据备份按天?不可能!平均每天一个多亿的真金白银和后台运行的算力电力人工等各种成本不允许做这种浪费,必须给我实时在线备份!我要客户每一个指令每一次下单每一个搜索都完整清楚的保存下来!$英方软件(SH688435)$
数据保护做了吗?服务器防攻击数据链保护,所有网安能上的都给我上,在这个每秒以万计的成本下不允许出现任何数据破坏和丢失,更不要提被他人窃取的一丝可能!
所以,看到了吧,当你是一个大模型团队负责人的时候,面对这种事件一定是有多种预案,当我们能想象到的预案没有起到作用的时候,那些我们没看到的东西就可能已经在发挥作用了。
长期看,算力紧缺是一定的,但对于短期事件驱动来讲,它有帮助但不多;算法是可以优化的,云计算也有更好的发展前景,但指望算法工程师遇到事情直接爱因斯坦牛顿附体不如下楼买俩小菜毕竟干喝没啥味;数据长期是伴随AI成长的核心之一,短期由于其非物质的特点导致多数时间并不在大众的视线中,但作为专业人士一定会认识其重要性并会给予应有的对待。
先瞎编这些吧,不喜欢看可以说你又吹牛逼,但是否有道理见仁见智,不同频就少交流,起码不会亏钱。
就这