属于阿里巴巴的AI浪潮:阿里巴巴开源新架构模型Qwen3-Next-80B-A3B

用户头像
ETO参谋长
 · 上海  

$阿里巴巴(BABA)$ $阿里巴巴-W(09988)$ $阿里巴巴概念(BK0515)$ #AIGC概念#

看到这个分析,听起来是一次飞跃型成长

摘录如下:

网页链接 原文链接

今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B,对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新,迎来了自己的DeepSeek时刻。

网页链接 原文链接

相较于Qwen3的MoE结构,Qwen3-Next进行了多项关键改进,包括混合注意力机制、高稀疏性MoE结构、利于训练稳定性的优化手段,以及可实现更快推理的多token预测机制。

在核心特性方面,Qwen3-Next采用门控DeltaNet+门控注意力的混合创新架构。线性注意力虽能打破标准注意力的二次复杂度,更适合长上下文处理,但仅用线性注意力或标准注意力均有局限。