在当前的大模型测试中,文科领域的表现呈现出一番独特的景象。大模型做文科题,多数情况下犹如一场表演,这其实不足为奇。毕竟“政史地”等科目的得分要点主要依赖信息储备,而这恰是 AI 的擅长之处。
以河南省本科录取线作参照,有 4 个大模型成功跨越文科一本线。一言蔽之,在依靠记忆驱动的科目上,大模型可谓无往不利。此方面,国产大模型已近乎达到 GPT 的水平。
然而,理科领域的情况则截然不同,堪称惨不忍睹。没有任何一家大模型能够触及 511 分的理科一本线,超过半数的大模型甚至连 400 分都难以达到,让人不禁想问它们是否该准备明年复读。不过,在理科测试的集体溃败中,仍能发现一些积极的迹象。
从竞争态势来看,过往外界普遍认为 GPT 难以超越,其原因多从先发优势、算力以及芯片等方面展开。但如今来看,GPT 并未呈现出断层式领先,第一梯队的国产大模型均具备与之抗衡的能力,后续的追赶步伐想必不会太慢。
而且,中外大模型的“长板”颇为相近,“短板”也相差无几。众多科目中,国产大模型在某些方面的表现超越了 GPT-4o,例如起步相对较晚的字节豆包,语文成绩高于 GPT-4o,历史和化学更是荣登“榜首”。可见,除硬件因素外,高质量的微调和监督学习或许是有效的加速途径。
此次小试牛刀虽不值得自满,但确实让我们看到了弯道超车的希望。
更期望这场测试能将大模型的神化运动拉回现实。与其期待大模型无所不能,不如使其成为切实的新质生产力。让如祖冲之般的天才,无需耗费大量精力进行人工计算“圆周率”,从而将才华投入更具价值的议题。毕竟,人类强大的推理能力若被闲置,无疑是一种资源浪费。
有趣的是,由于诸多题目涉及读图,而各大家模型的识图准确度参差不齐,常常在未明晰问题的情况下“蒙猜作答”,这反倒对大模型的逻辑推理能力提出了额外考验。
不久前,李飞飞指出 AI 的技术瓶颈仍在于缺乏感知力,诸如饥饿的感受、失去生命的恐惧以及为何不能直视强光等,AI 或许能够解释,却实则无法理解。
将大模型视作做题高手赶入考场,细想之下场面颇具喜感,它们也无法切实体会考生真实承载的紧张或兴奋。但这一跨越已然令人惊叹,甚至可谓栩栩如生。让机器考入一本、二本线,在往昔是难以想象之事。
极客公园,大伙都知道吧,也真心建议极客公园设定一年之约,待到明年今日再考一次,瞧瞧届时是否会有大模型能够考入清北,若有,又将是哪一家或几家?