如同 @xzyun2011 所说的,在2B领域,如果限于编程,模型的能力之间的微妙差距变得极为明显。
就我个人感受以及刻意观察的结果,就软件项目而言:
opus 4.5像一个有3~5年优秀职场习惯的985小弟,靠谱,执行力强,知识面极广,是值得信任的工作伙伴。
sonnet 4.5属于扎实的中部211小弟,执行力强,有时候呆一点,或者傻傻的过于勤快,适当分配在他能力范围内的话还是不错的。
chatgpt [codex] 5.2 属于做事慢腾腾的985小弟,有时候能解决点难题。
gemini3-pro 属于散漫的985小弟,但是智力挺高,知识面更高;gemini3-flash笨不少,但是老实很多。
glm-4.7 低端211, minemax2.1 大致是一本,后者老实低端经验较多,前者稍微跳脱知识面广一点,但是都需要掰开来揉碎了管理。
deepseek 3.2 大致纯智力在985,但上下文短(散漫),然后工作经验也一般,编程能力靠泛化得来。
就生产力增幅而言,opus大概增幅5~10倍(看个人精力和项目难度);sonnet 4.5、gemini3、chatgpt [codex] 5.2 大概在 1.5~2.5倍;glm-4.7 / minemax2.1 / deepseek 3.2 在 1.2~1.5倍。
如果有人没看过智谱唐杰、kimi杨植麟、还有Qwen的林和腾讯的姚,上周的那个对话,建议去找来看看。
下面是姚在对话发言的开始部分
“
很核心的一点是,对于 To C 来说,大部分人大部分时候其实不需要用到这么强的智能。可能今天用 ChatGPT 和去年相比,写抽象代数或者去解伽罗瓦理论的能力变强了,但是大部分人感受不到。大部分人其实可能还是在,尤其在中国,更多像是一个搜索引擎的加强版,很多时候你也不知道该怎么样去用,去把它的智能给激发出来。
但是对于 To B 来说,很明显的一点是,智能越高很多时候就代表生产力越高,就代表你可以赚的钱越多,这一切东西都相关联。那对于 To B 来说,还有一个很明显的点:大部分时候其实很多人愿意用最强的模型。可能一个模型它是 200 美元一个月,第二强或者差一些的模型是 50 美元一个月或者 20 美元一个月。我们今天发现很多,起码美国的人,是会愿意花那个溢价去用最好的模型。因为可能他的年薪是 20 万美元,他每天要做 10 个任务,那一个像 Opus 4.5 这样一个非常强的模型,它可能会 10 个任务八九个直接做对了,那差的模型它可能做对五六个。问题是你不知道这五六个是哪五六个的情况下,就要花很多额外精力去监控这个事情。所以在 To B 这个市场上,强的模型和稍微差点的模型,分化会变得越来越明显,这是第一点观察。
”