聊一些前沿方向和趋势

用户头像
门捷列夫学徒
 · 重庆  

这个春节好像格外的长,对于广大的赌狗来说着实有点无聊了[狗头]

明天就要开盘了,废话不多说,直接进入正题:

NV春节期间说下个月GTC大会要推出一款世界前所未见的革命性芯片,印象中NV很少如此高调(这种发布会前的卫星更像马斯克)。业界普遍推测是下一代Feyman用了groq这种存算一体的极致推理的架构。关于groq的SRAM、LPU等技术分析不再赘述,总之大家记住现在芯片升级的方向都是为了解决存储和能耗这两大难题(这几天talaas出了一个“模型即芯片”的架构,后面再说)以及追求极致的推理性能

我直接讲大家关心的话题,就是怎么抓住技术趋势在A股赚钱(因为很多标的A股没有嘛,美股或者湾湾股才有),先说一个核心结论:现在所有芯片越是追求极致的推理,scale up上的通信就越是指数级倍增的重要,scale up上的3.2T甚至6.4T已经不可避免的来临了

以groq的架构为例,基本上你可以看作是数百块甚至上千块LPUs的scale up,对比现在Blackwell的NVlink72也就是72块Gpu做up。而且lpu为了追求高速推理用了sram的近存计算而不是hbm,这就意味着芯片和芯片之间必须是“连续流”的计算,因此芯片之间的传输必须升级到3.2T甚至6.4T才能有效运作。给大家打个比方,以后的推理任务会越来越复杂,每个芯片就想一个人一样需要团队对话和信息沟通才能解决问题,现在这个团队的人数已经超过上百人甚至上千人了,大家都有一个体会就是当面沟通比打电话效率高(铜缆相当于打电话,用光互连就是当面沟通),而3.2T甚至6.4T采用cpo就类似脑机接口传输信息。而超节点数百块芯片做scale up已经是行业趋势,比如华为超节点384就是384块芯片scale up,阿里的超节点则是128块,基本上这个数量级DAC铜在scale up就逐渐退出历史舞台了。所以关于光入柜这件事情,不是说是供应商有技术决定的,而是需求决定了光必须入柜。

还有个大家关心的话题是scale up上究竟用npo或者cpo的问题,这里仅代表我个人的观点:如果是阿里那种128块asic做up的话,npo就行。而假设NV真用到Groq那种上千块lpu做up的话,还真得是cpo了。这里面的原因是NPO毕竟是一种近封装策略,Asic到光引擎之间还得走5cm左右的pcb铜线,5cm单看是不多,而每一个lpu都需要一个光引擎,大家可以计算一下,如果是上千块lpu的话这里面还得走多少铜,这里面对于整个系统的体积,能耗、信号衰减度而言是非常不划算的,cpo这种直接把swith asic和光引擎的距离压缩到极致才是最优解,npo可能单位制造成本低,但规模化用起来对于整个系统成本却是高nv追求的是每一个单位能源能转化为单位智能的效率比。另外要说的是可拆卸不是区分npo和cpo的标准,决定是否是cpo标准就是一个那就是光和asic是否封装在一起,NV那个socket我理解就是cpo。另外无论是npo还是cpo越看越觉得对于pcb的要求越来越高,有点像明年就要高考了然后突然高考卷子改成奥数卷子的感觉哈哈哈,怪不得一堆pcb正主公司都憋不出来。

我觉得很多事情不能单独来看,比如NV去年创纪录收购groq、pcb憋大招、今年突然xpo加速等等。要全局去理解,它们之间是有深刻的逻辑关系的。

cpo也有自己的问题,那还是在制造端本身。光耦合肯定是难题之一,这种把光纤亚微米级对准肯定只能用自动化设备,这里面良率目前很低。大家比较关心那个设备据我了解目前提高的良率也有限,还没有达到台积电的理想标准,这是除了产能以外另一个痛点,还需要各方工程师共同磨合和努力提升良率,当然如果这两个问题都解决了也不止现在这个市值了。

其他的热点和趋势:

1、国产大模型我最看好字节链,围绕着字节算力做就行了。边际变化主要有两个:自研asic和采购HW。目前Ai爆款我认为就四个生态位:多模态的gemini和seedance、编程、chatbot、openclaw。目前字节至少站住1.5个(seedance的多模态和豆包的chatbot),而阿里想做什么Ai买奶茶这种to C的Agent我相当不看好:因为人类很难描述清楚自己的需求,比如买奶茶这件事情,你需要描述什么口味奶茶、什么温度、什么大小,结果还是得打开app去看一下或者让Ai给你选,这里面交互时长还真不如直接买了算了。

我觉得阿里腾讯还在用上一个移动互联网的思维在做Ai产品:那就是想尽可能多占据人类的心智和时长。而Ai产品我认为应该是想着怎么占据智能体的“心智”,用智能体疯狂用token。

还是那句话,看好字节,以及配套的芯片链和aidc。

2、这两天talaas出了一个模型即芯片的架构,优点不用多说了,极致的成本和速度。缺点很多文章分析说这种把模型封装到芯片里面一旦模型升级芯片就成垃圾了。这个我仔细研究了一下架构我认为还不是主要缺点(因为模型升级放缓是必然趋势)其致命的缺点是这种架构几乎无法用到思维链(Cot)进行推理,因为其完全牺牲了KV Cahe也就是长复杂任务几乎不可能了,也就是极致的速度和极致的幻觉组合,只能用在一些傻瓜式的推理场景上。此外这个芯片太大了,现在才8b模型都这么大,如果真用在人形机器人这种端侧上这种架构做出来估计芯片比机器人都大[绝望]

3、Agent为代表的openclaw这种形态我相当看好,还是做简单题,选择算力和互联就行。

4、如果你因为看了春晚而节后去冲机器人那多半要遭套进去,如果节前就有筹码的无所谓。我认为春晚有点过了,给人一种机器人马上就能走进千家万户感觉。

5、pcb里面的一些上游估计还要继续涨价。不过pcb多说两句:这段时间pcb是最考验交易的天赋、审美和taste的,那么多细分都受益但是钻针才是那个赢家。

最后送给那些喜欢搞二元对立的喷子们一段话:

“你要练习吵架就好好练习吵架,你要练习交易就好好做交易,而你总是喜欢把它们混为一谈,以为架吵赢了股票就能涨,能活到今天而又没爆仓不得不说是一个奇迹”