AI真的有学习能力吗?
尧舜禹真的挺厉害,入职腾讯的第一篇论文,设计了一个数据集,考察AI是否真的具有从上下文学习的能力,结果所有模型都翻车了。
他组织了一批专家,凭空构造了多个平行宇宙和假知识。比如,编造了一部星际法律,在现实中根本不存在,模型不可能在预训练数据里背过相关法条。虚构了一个天网编程语言,里面的函数名、调用规则全是假的,模型如果用它记忆里的Python知识去写代码,必错无疑。还修改了现实世界的内容来创建平行世界,改变历史事件的走向,调整科学定义,纳入极其小众的内容。
平均每个上下文的标注耗时20小时,全部由资深专家制作,巨大的工作量体现了腾讯的野心,他们真的想造出一把衡量模型学习能力的尺子。
在测试中,AI需要基于这些反事实的知识,扮演法官,程序员,科学家等多种角色,解决平行宇宙的问题。结果十分惨淡,十个最先进的模型,平均任务解决率只有17%,表现最好的也只有23%。所有信息都在上