全球顶尖大模型一夜惨遭血洗!最难测试人类拿满分,AI第一名得0.2%分

用户头像
AGI(AGBK)
   

来源:新智元

empty

新智元报道  

编辑:Aeneas 好困

【新智元导读】今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。

就在今天,这条消息把整个AI圈给震了。

众望所归的,全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了,直接血洗了全球顶尖大模型。

在这个测试中,人类得分100%,AI的得分普遍低于1%。

empty

这个差距,比珠穆朗玛峰还高。

最惨烈的是,在上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接现了原形,得分仅为0.2%。

empty

这位曾经横扫各大榜单的「学霸」,连蒙带猜都拿不到1分。

这面镜子,照出了当前AI能力中最深的裂缝。

empty

在最近的采访中,老黄认为我们已经实现了AGI。但是ARC-AGI-3显示,或许如今的AI连

来源:新浪财经

为提升阅读体验,雪球对本页面进行了排版优化

风险提示:用户发表的所有文章仅代表个人观点,与雪球的立场无关。投资决策需建立在独立思考之上。

点击查看全文