这些顶尖数学家正在对人工智能进行测试

大型语言模型在应对研究级别的数学难题时,显得有些力不从心。而要准确评估它们表现得究竟有多差,终究还是得靠人类。

这些顶尖数学家正在对人工智能进行测试
马丁·海雷尔,任职于洛桑联邦理工学院的数学家。他往返于该校与伦敦帝国理工学院之间开展科研工作。

就在几周前,一位高中生给马丁·海雷尔发去了一封邮件。海雷尔以其惊人的创造力在数学界闻名遐迩,而这位少年则是一位对数学充满憧憬的后起之秀。然而,随着人工智能的崛起,少年陷入了迷茫。他在信中写道:“我很难看清现在的局势。感觉这些模型每天都在进化,恐怕要不了多久,我们这些人就会变得毫无用处。”

他提出了一个灵魂拷问:“如果我们拥有了一台解题能力远超人类的机器,数学是否也会随之失去它的一部分魔力?”

海雷尔博士曾于2014年摘得数学界的最高荣誉——菲尔兹奖,并于2021年获得了奖金丰厚的“突破奖”。目前,他在瑞士洛桑联邦理工学院和伦敦帝国理工学院两地任教。在给这位学生的复信中,他观察到,许多行业目前都在为“AI导致职业过时”的前景而感到焦虑。

“但我认为,数学其实是相当‘安全’的,”海雷尔博士宽慰道。他指出,作为聊天机器人核心技术的大型语言模型(LLM),虽然现在非常擅长解决那些人为编造的题目,但是,“我至今还没见过哪个LLM能提出真正具有原创性的想法或概念。”

海雷尔博士在讨论一篇名为《初次发酵》(First Proof)的新论文时,提到了这段往事。这篇论文是由他与几位数学家共同完成的,合作者包括斯坦福大学的穆罕默德·阿布扎伊德、哈佛大学的劳伦·威廉姆斯,以及在旧金山湾区经营MathSci.ai咨询公司的塔玛拉·科尔达。

注:英语 Proof 既有发酵的意思,也有证据/证明的意思。First Proof 在这里显然是一个双关表达。

这篇论文记录了一项近期启动的实验。研究人员从作者们尚未发表的科研成果中,提取出真实的测试题目进行汇总,试图以此为基准,对人工智能的数学能力给出一个真正有分量的评估。

作者们希望,这项研究能为那些宣称数学已被AI“攻克”的夸张言论降降温,增加一些理性的思考。他们也想借此消除过度炒作带来的负面影响——比如吓跑未来的数学苗子,或是让科研资助者望而却步。

“虽然商业化的AI系统确实已经进化到了可以作为数学家辅助工具的水平,”作者们在文中写道,“但在没有专家实时引导的情况下,AI系统独立解决研究级数学问题的真实水平究竟如何,目前还是个未知数。”

一些人工智能公司在评估LLM的脱机表现时,往往会使用一些被数学家称为“刻意设计”或“局限性强”的题目。有时,这些公司也会邀请数学家出题,并支付每题约5000美元的报酬。(值得注意的是,《初次发酵》项目的所有作者均与AI公司没有任何利益往来。)

去年4月,曾在2017年获得“数学新视野奖”的阿布扎伊德博士就拒绝了这样一份邀请。他说:“我觉得,我们需要的是一项更广泛、更独立且更公开的努力。”他补充道,《初次发酵》正是这方面的初步尝试。

“我们的目标,是对人工智能的科研能力进行一次客观的体检,”最近刚获得古根海姆奖学金和麦克阿瑟奖学金的威廉姆斯博士如是说。

相关阅读

迈克尔·波伦:人类正处于革命性巨变的边缘

付费迈克尔·波伦:人类正处于革命性巨变的边缘

从我有记忆起,我就一直在内心里反复琢磨关于“身份”的那些念头和感受。我,大卫,为什么会成为现在的我?这种特质究竟有多少改变的空间?这些想法和情绪到底是从哪儿冒出来的,它们最终又有什么用处?我想,这大概也解释了为什么我一直对“人类意识”这个话题如此着迷。在科学、哲学,乃至整个人类思维的领域里,意识是最能触及这些核心问题的深处,并能给出各种答案的地方——尽管这些答案的满意程度各不相同。 畅销书作家迈克尔·波伦也一直在思考这些命题。在他过往的作品中,无论是探讨饮食行为的经典之作《杂食者的两难》(2006年),还是研究致幻药物科学与用途的《如何改变你的心智》(2018年),波伦都曾触及过心智运作的奥秘。而在这个月,随着新书《世界显现:意识之旅》的出版,他正式进入了这一领域的深水区。这本书既是一次极具个人色彩的探索,也是一场跨学科的广泛调研,它围绕着意识的本质、成因、目的,以及这些答案将如何影响我们的生活方式展开。正如波伦所言,随着人工智能的崛起,加上政治力量对我们注意力(也就是我们的心智)的不断施压,这些原本深奥的问题正变得前所未有的紧迫。 我想先请教一些基础问题,您是如何定义“

· 21 分钟阅读