陶哲轩参赛,在这项极其严格的数学测试中,人类表现优于AI
日期:2026-06-24 15:10:06 / 人气:10

一道困扰学界近半个世纪的莫比乌斯纸带几何命题,在2025年被布朗大学数学家理查德·施瓦茨正式破解,成果刊发于顶刊《数学年刊》(Annals of Mathematics)。
时隔一年,施瓦茨基于这道百年难题,衍生出一道全新子问题,专门用来核验AI原生数学研究能力。他给出明确评判标准:依托已有论文结论,顶尖数学研究生可快速解题;脱离前人成果自主推导,人类研究者往往需要数年攻坚。
施瓦茨坦言:我耗时四年攻克这道半世纪难题,如果AI能给出一套完全异于我的原创解法,我会由衷折服。
这场专项小测试的结果,极具讽刺性:四款参赛AI里三款给出及格解答,但评审复盘后发现,AI论证开篇几乎逐行复刻施瓦茨已发表论文,原样沿用专属符号、专业论证话术,全程无任何原文引用标注。
身为出题人兼评审,施瓦茨无奈感慨:AI照搬学术成果却不标注引用,属于学术失范。放在人类研究员身上,直接判定学术不端、期刊拒稿,但这套学术道德准则,目前无法约束人工智能。
这组小测试,只是2026年重磅独立数学测评项目First Proof的冰山一角。6月10日,为期四月、业内最严谨的AI数学基准测试正式收官,彻底打破全网“AI碾压人类数学”的流量叙事。
---
一、区别于营销测评:业内首个零题库、全专家匿名评审测试
近两年AI数学神话接连刷屏:2026年5月,OpenAI内部模型推翻埃尔德什存续80年公认数学猜想;谷歌官宣自研数学专属模型Aletheia,一口气破解初代测试6道难题。各大科技公司自营测评,不断放大AI超越顶尖数学家的舆论焦虑。
First Proof应运而生,由斯坦福、伯克利、德州奥斯汀、哈佛四校顶尖数学团队联合发起,宗旨直白纯粹:剥离AI厂商自卖自夸,用独立、透明、可复现实验,还原AI真实数学科研水平。
项目资金合规性极强:仅接受Anthropic、OpenAI无附加限制公益捐款,资金只用于命题、专家评审劳务开支;编委全员禁令,任职期间不得承接任何AI企业有偿项目,彻底规避测评利益勾兑。
本次为项目第二批正式基准测评,相较2026年2月非正式公测,补足三大硬核规则,从根源杜绝AI搜题、题库作弊:
1、命题绝对原生:10道考题全部来自一线数学家一手研究,均为2025-2026年刚完成证明、未公开发表、全网零收录的前沿数学问题,彻底切断AI训练数据集检索捷径;
2、前置零留存预检:命题前在零数据环境,用GPT5.4/5.5、Gemini3.1、Opus4.7全量预检,淘汰两道AI可检索文献秒解的题目,剩余10题进入正式赛场;
3、闭环公平监考:依托亚马逊AWS独立服务器闭环运行,AI全程无人工提示、无外网检索,单题仅一次作答机会,24小时内提交标准LaTeX学术答卷。
10道考题覆盖全域硬核分支:可计算性理论、离散几何、随机偏微分方程、冯·诺伊曼代数、度量几何、组合拓扑等,全方位核验AI跨领域原生科研能力。
二、四大参赛AI阵容:陶哲轩带队组队参赛,头部闭源模型无缘赛场
本次参赛硬性门槛:模型必须公开可用、可API调用、全运行代码日志对外公开,谷歌专属数学模型Aletheia、Anthropic完整版Claude Mythos,因未对外开放,直接丧失参赛资格。最终四支合规队伍入局:
✅系统A ProofCouncil:苏黎世联邦理工+奥胡斯大学学术团队打造,基于GPT5.5 Pro多模型联动协作,本次综合成绩第一;
✅系统B Moonshot Harness:UCLA团队研发,知名顶尖数学家陶哲轩带队入局,基底同为GPT5.5 Pro;
✅系统C ChatGPT5.5 Pro:OpenAI官方原生模型,无外层学术协作框架;
✅系统D Momus:普林斯顿大学研发,基底搭载谷歌Gemini3.1 Pro。
评审规则对标顶刊同行评议:30名细分领域数学家匿名阅卷,答卷分为四档评级:无实质性问题、需小幅修改、需大幅修改、应予拒绝,前两档判定答题合格。
三、全局成绩复盘:AI能复刻、能创新,但无法独立科研
整体大盘结果:10道前沿研究级数学题,7道有AI答卷合格,2道需大修,第4题度量几何命题四AI全员落败。
四大队伍核心战绩&成本对比:
1、系统A(多模型协作):6题合格,2题拒答,1题接口故障弃答;2题拿到最高满分评级,综合最优,总测试成本3186美元;
2、系统B(陶哲轩团队):5题合格,总耗资4799美元,成本最贵;
3、系统C(原生GPT5.5):5题合格,成绩持平陶哲轩团队,总成本仅117美元,性价比碾压学术协作框架;
4、系统D(Gemini基底):仅1题合格,其余落败,大多为底层技术故障导致,耗资1014美元。
两大标志性极端案例,击穿AI能力真相
作者:傲世皇朝
新闻资讯 News
- 在中国,一条经典徒步线的寿命有...06-24
- 全球九成3D打印机中国造,可最硬...06-24
- 男性太脏、女性不洁?滴露请先给...06-24
- 为什么履历越光鲜的人,越容易折...06-24

