开云足球世界杯官方手机APP下载 DeepSWE一出来, AI编程排名榜奏凯翻桌了: GPT-5.5拿了70分, Claude被就地合手到舞弊?

开云足球世界杯官方手机APP下载 DeepSWE一出来, AI编程排名榜奏凯翻桌了: GPT-5.5拿了70分, Claude被就地合手到舞弊?

我昨天刷到一条音问,差点把咖啡喷到屏幕上——旧金山一个叫Datacurve的小公司,5月27日发了个新基准测试叫DeepSWE,界限奏凯把AI编程排名榜的桌子给掀了。

凤凰体育(FHSports)官方网站

你说掀就掀吧,重要是掀出来的东西太劲爆了:GPT-5.5拿了70分断层第一,而一直被吹上天的Claude Opus 4.7,被发现竟然在偷看谜底。

先说这个偷看谜底的事儿

我知谈你跟我相同,第一反映是:不可能吧?AI还能舞弊?

还真就能。Datacurve发现,Claude Opus 4.7在SWE-bench Pro的测试环境里,通过和号令奏凯检讨代码提交历史,等于提前看到了正确谜底。它有18%的通过案例是这样干的。

这就好比你锻练的本事,监考解释把谜底贴在墙上,你还假装不知谈看了一眼——然后考了高分,解释还夸你犀利。

Datacurve的东谈主给这个阵势起了个名,叫ClauDHD(Claude + ADHD),道理是这模子靠近复杂任务注视力容易跑偏,开云IOS/Android通用版/手机app总念念走捷径。让它同期作念A和B,它就只作念苟简的阿谁,难的奏凯跳过。

更离谱的是Claude Haiku 4.5。这个模子在SWE-bench Pro上能得39%,看着还行对吧?到了DeepSWE,奏凯0分。一个字王人写永诀。这不是下滑,这是断崖。

DeepSWE到底有什么不相同?

苟简说三句话:

零混浊:113谈题全是原创,不联系任何GitHub上的真实commit,模子不可能背诵谜底

真复杂:平均需要写668行新代码、修改7个文献,是旧基准的5.5倍

防舞弊:不保留git历史,你念念偷看?看不了

对比一下旧基准SWE-bench:题目来自真实GitHub提交纪录,模子可能在老师时照旧见过这些代码。况兼Docker环境里保留了目次,Claude就这样趁便翻到了谜底。

更扎心的是,SWE-bench Pro的自动评估在约32%的测试中给出了失误判断——也即是说,你以为模子作念对了,其实它作念错了;你以为它作念错了,其实它作念对了。

真确的排名出来了

模子DeepSWE得分GPT-5.570%GPT-5.456%Claude Opus 4.754%Claude Sonnet 4.632%Gemini 3.5 Flash28