开云足球世界杯官方手机APP下载 DeepSWE一出来, AI编程排名榜奏凯翻桌了: GPT-5.5拿了70分, Claude被就地合手到舞弊?

发布时间：2026-05-29 21:42 来源：未知作者：admin 浏览：199

我昨天刷到一条音问，差点把咖啡喷到屏幕上——旧金山一个叫Datacurve的小公司，5月27日发了个新基准测试叫DeepSWE，界限奏凯把AI编程排名榜的桌子给掀了。

凤凰体育(FHSports)官方网站

你说掀就掀吧，重要是掀出来的东西太劲爆了：GPT-5.5拿了70分断层第一，而一直被吹上天的Claude Opus 4.7，被发现竟然在偷看谜底。

先说这个偷看谜底的事儿

我知谈你跟我相同，第一反映是：不可能吧？AI还能舞弊？

还真就能。Datacurve发现，Claude Opus 4.7在SWE-bench Pro的测试环境里，通过和号令奏凯检讨代码提交历史，等于提前看到了正确谜底。它有18%的通过案例是这样干的。

这就好比你锻练的本事，监考解释把谜底贴在墙上，你还假装不知谈看了一眼——然后考了高分，解释还夸你犀利。

Datacurve的东谈主给这个阵势起了个名，叫ClauDHD（Claude + ADHD），道理是这模子靠近复杂任务注视力容易跑偏，开云IOS/Android通用版/手机app总念念走捷径。让它同期作念A和B，它就只作念苟简的阿谁，难的奏凯跳过。

更离谱的是Claude Haiku 4.5。这个模子在SWE-bench Pro上能得39%，看着还行对吧？到了DeepSWE，奏凯0分。一个字王人写永诀。这不是下滑，这是断崖。

DeepSWE到底有什么不相同？

苟简说三句话：

零混浊：113谈题全是原创，不联系任何GitHub上的真实commit，模子不可能背诵谜底

真复杂：平均需要写668行新代码、修改7个文献，是旧基准的5.5倍

防舞弊：不保留git历史，你念念偷看？看不了

对比一下旧基准SWE-bench：题目来自真实GitHub提交纪录，模子可能在老师时照旧见过这些代码。况兼Docker环境里保留了目次，Claude就这样趁便翻到了谜底。

更扎心的是，SWE-bench Pro的自动评估在约32%的测试中给出了失误判断——也即是说，你以为模子作念对了，其实它作念错了；你以为它作念错了，其实它作念对了。

真确的排名出来了

模子DeepSWE得分GPT-5.570%GPT-5.456%Claude Opus 4.754%Claude Sonnet 4.632%Gemini 3.5 Flash28

开云2026世界杯app