说实话,看了那么久雪球,现在真的是越来越没营养了,一点没以前的万物生机勃勃竞发的境界,这大概就是劣币驱逐良币吧。
存储到现在已经平均3倍了,但是大多数人都在说套话,什么AI需求啦,什么AI增量啦,没有说到本质,为什么这波存储能在短期内这么猛,本质上是技术的迭代导致的,理解了这个,你才能知道这轮存储周期到底有多长!
实际上从年头deepseek火了以后,出了一堆moe的模型,然后清华kt团队又出了一个拿内存去运行非激活moe专家的算法,可能当时觉得没什么,直到现在新出的模型都是moe,什么qwen3next了,wan2.5了,qwen3image了,都是moe吃内存大户,一吃就是好多的内存。
MOE(混合专家模型,Mixture of Experts)是一种通过将复杂任务分解为多个子任务,并由不同 “专家” 子模型分别处理的 AI 架构。其核心思想是 “术业有专攻”—— 每个专家模型专注于特定类型的输入或任务,最终通过融合模块整合结果。例如,当用户提出问题时,系统会分析问题并分配给最擅长的专家组合,如处理数学推理的专家、分析文本情感的专家等,从而在提升模型能力的同时降低计算成本。
稀疏激活与动态路由MOE 模型采用稀疏激活机制,每个输入数据仅激活部分专家(通常为 1-4 个)。例如,Mixtral 8x7B 模型包含 8 个专家,但每个 Token 仅激活 2 个专家,实际计算量仅相当于 12B 参数的稠密模型。然而,这种动态路由需要频繁在内存中调度专家参数,导致内存访问压力显著增加。特别是对于万亿参数级的 MoE 模型(如 GPT-5),即使稀疏激活,其活跃专家的总参数量仍可能高达数千亿,需要 TB 级的内存支持。
内存密集型推理流程在推理阶段,MoE 模型需要将大量专家参数从硬盘加载到内存,并维护动态增长的 KV 缓存(用于存储历史上下文信息)。以 GPT-5 为例,其推理过程需 26.8 PB 的 HBM(高带宽内存)和 9.1 EB 的 DRAM(系统内存),其中 DRAM 需求主要来自 KV 缓存。若内存容量不足,部分数据需频繁卸载到 SSD,导致推理速度大幅下降。
异构计算与内存优化为缓解显存压力,清华 KT 团队提出了 KTransformers 技术,通过 CPU 与 GPU 协同计算,将非激活专家参数存储在内存中。例如,671B 参数的 DeepSeek-Coder-V3 模型仅需 14GB 显存和 382GB 内存即可运行,预填充阶段加速近 20 倍。这种优化虽然减少了对显存的依赖,但显著增加了对高频内存(如 DDR5 3200MHz 以上)的需求,因为 CPU 需要快速访问内存中的专家参数以保持计算效率。
内存需求的指数级增长随着 MoE 模型规模的扩大(如 Qwen3-Next-80B、Wan2.5 等),其内存需求呈指数级增长。例如,GPT-5 的 DRAM 需求预计占 2025 年全球总供应量的 25%,到 2026 年将升至 43%。与此同时,内存厂商三星、海力士等将产能转向高利润的 HBM 和 AI 服务器专用 DRAM,导致普通 DDR4/DDR5 内存供应减少。供需失衡下,DDR4 3200MHz 16Gx2 套条价格在 2025 年 10 月同比上涨 120%,DDR5 6000MHz 套条涨幅超过 90%。
CPU 与主板的升级压力MoE 模型的高效运行依赖于 CPU 的多线程处理能力和内存通道数量。例如,英特尔第三代至强可扩展处理器(Ice Lake)支持 8 通道 DDR4 内存,AMD 霄龙 7003 系列(Milan-X)最高支持 12 通道 DDR4,这些高端 CPU 能够显著提升内存带宽以满足 MoE 模型的动态调度需求。因此,搭载这些 CPU 的服务器主板需求激增,价格随之上涨。此外,为进一步提升内存容量,数据中心开始采用 “内存扩展卡”(如 Intel Optane DC Persistent Memory),进一步推高硬件成本。
固态存储的连带需求当内存容量不足时,MoE 模型需将部分数据卸载到 SSD。例如,GPT-5 的 RAG(检索增强生成)功能需 200 EB 的 NAND 存储,占 2025 年全球 NAND 总供应量的 22%。云服务商如亚马逊、微软大量采购近线 SSD(如三星 PM1735)用于存储 AI 模型数据,导致 NAND 价格在 2025 年第四季度上涨近 10%,SanDisk、铠侠等厂商股价大幅攀升。
硬件升级的不可逆性随着 MoE 模型成为主流(如 Qwen3-Image、GLM4.5 等多模态模型均采用 MoE 架构),数据中心将持续增加内存、CPU 和 SSD 的投入。预计到 2026 年,全球 AI 相关 DRAM 需求将达 18.26 EB,NAND 需求达 400 EB,远超传统硬件的增长速度。这种趋势短期内难以逆转,内存价格可能维持高位直至 2027 年新产能释放。
技术创新与成本平衡为应对内存瓶颈,研究人员正探索多种优化方案:
量化与压缩:如 Qwen3-Next-80B 通过 IQ2_XSS 量化技术,可在 32GB 内存中运行;
内存池化:利用分布式内存架构(如 CXL 技术)动态分配内存资源;
边缘端部署:通过 4-bit 量化和轻量化模型(如 Mixtral 8x7B)在消费级硬件上运行 MoE 模型。这些技术虽能缓解部分压力,但短期内仍无法替代硬件升级的必要性。
简单总结一下就是,以前用8张A100(150万人民币)干的活,现在用5090+16根64G DDR5(10万人民币)也一样能干,甚至更快。

推荐去看这个视频,一下就能理解了,为什么内存短期是不可能降下来了,以后只会更紧缺,因为本质上就是太便宜了,用内存来跑大模型,性价比太高了,完全能满足推理侧的需求!!!
短期没有任何东西能颠覆MOE这种范式,因为真的太好用了,提高了太高的效率,包括老黄自己都在用,最新的rubin架构里面做出了一个LPDDR 协同:主板集成 32 个 LPDDR 内存插槽,与 HBM4 形成 “内存池”,动态分配数据以降低延迟。
所以简单的说,这波存储的超级周期完全可以对比当年的超级猪周期,非洲猪瘟导致的猪肉短缺肉价飞涨,甚至景气度更高!牧原18年5.2亿利润,19年到61.1亿,2020年274.5亿利润,3年翻了52.7倍,而且存储的增量可比猪的增量大多了,存储需求中AI服务器占比超30%,且需求增速达80%(2025年),而猪周期需求以消费为主,增速稳定在5%-10%。
• 产能释放节奏:存储产能从规划到量产需18-24个月(如长江存储三期2026年Q3投产),而生猪存栏恢复仅需12个月。
江波龙,佰维存储,德明利,希捷等等的三季报利润已经爆炸,验证了周期才刚刚开始,随着Ai服务器的超配,存储的缺货和涨价只会更严重,只到扩产量上来才有降价的可能,上一轮超级猪周期牧原4块涨到89块,2年半,22倍涨幅,正邦2.6到26,10倍,天邦2块到16块,8倍,几乎就是批量10倍,这轮超级存储周期感觉也会批量出10倍股,而且这个位置仅仅是腰部而已。

当年方大炭素(石墨电极龙头)能涨 10 倍,核心是 “钢铁厂不怕涨价,再贵也得买”—— 现在存储也一样:AI 服务器厂商(比如英伟达、浪潮、戴尔)根本不在乎存储涨价,因为:
AI 服务器利润太高:一台英伟达 DGX H100 卖 40 万美元,利润率超 40%,就算存储涨价 20%,单台成本只多 1 万美元,对利润影响很小;
产能太紧张:现在 AI 服务器供不应求,厂商只要能拿到存储,就能组装机器卖高价,根本不会因为存储贵就不买;
项目不能等:AI 企业(比如 OpenAI、百度)抢着要服务器,就算存储涨价,服务器厂商也得硬着头皮买,不然订单就被别人抢了。
这和当年方大炭素的逻辑一样:环保限产导致石墨电极缺货,钢铁厂就算停炉一天损失百万,也得高价买石墨电极,所以方大炭素能随便涨价,利润暴涨。
需求:AI 驱动,增速 80%,比猪周期的 5% 猛 16 倍;
产能:18-24 个月才补得上,比猪周期的 12 个月慢 1 倍,缺货更久;
业绩:已经开始爆赚(江波龙 三季报利润1,994.42%增速,佰维存储利润563.77%增速),像 2019 年的牧原;
股价:才涨 3 倍左右,后面有机会复制猪股的批量 10 倍行情。
简单说:当年猪周期能批量出 10 倍股,现在的存储周期因为有 AI 加持,只会更猛,而且现在这个位置,就是当年牧原 4 块起涨到12块的位置,才涨3个月。
@淡淡的相思林