属于阿里巴巴的AI浪潮：阿里巴巴开源新架构模型Qwen3-Next-80B-A3B

ETO参谋长

2025-09-12 07:50 · 上海

看到这个分析，听起来是一次飞跃型成长

摘录如下：

今天凌晨2点，阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B，对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新，迎来了自己的DeepSeek时刻。

相较于Qwen3的MoE结构，Qwen3-Next进行了多项关键改进，包括混合注意力机制、高稀疏性MoE结构、利于训练稳定性的优化手段，以及可实现更快推理的多token预测机制。

在核心特性方面，Qwen3-Next采用门控DeltaNet+门控注意力的混合创新架构。线性注意力虽能打破标准注意力的二次复杂度，更适合长上下文处理，但仅用线性注意力或标准注意力均有局限。