感谢光临
我一直在努力的更新...

浅谈一下我对 国产大模型与GPT-4o的愚见

在当前的大模型测试中,文科领域的表现呈现出一番独特的景象。大模型做文科题,多数情况下犹如一场表演,这其实不足为奇。毕竟“政史地”等科目的得分要点主要依赖信息储备,而这恰是 AI 的擅长之处。

以河南省本科录取线作参照,有 4 个大模型成功跨越文科一本线。一言蔽之,在依靠记忆驱动的科目上,大模型可谓无往不利。此方面,国产大模型已近乎达到 GPT 的水平。

 

然而,理科领域的情况则截然不同,堪称惨不忍睹。没有任何一家大模型能够触及 511 分的理科一本线,超过半数的大模型甚至连 400 分都难以达到,让人不禁想问它们是否该准备明年复读。不过,在理科测试的集体溃败中,仍能发现一些积极的迹象。

 

从竞争态势来看,过往外界普遍认为 GPT 难以超越,其原因多从先发优势、算力以及芯片等方面展开。但如今来看,GPT 并未呈现出断层式领先,第一梯队的国产大模型均具备与之抗衡的能力,后续的追赶步伐想必不会太慢。

 

而且,中外大模型的“长板”颇为相近,“短板”也相差无几。众多科目中,国产大模型在某些方面的表现超越了 GPT-4o,例如起步相对较晚的字节豆包,语文成绩高于 GPT-4o,历史和化学更是荣登“榜首”。可见,除硬件因素外,高质量的微调和监督学习或许是有效的加速途径。

 

此次小试牛刀虽不值得自满,但确实让我们看到了弯道超车的希望。

 

更期望这场测试能将大模型的神化运动拉回现实。与其期待大模型无所不能,不如使其成为切实的新质生产力。让如祖冲之般的天才,无需耗费大量精力进行人工计算“圆周率”,从而将才华投入更具价值的议题。毕竟,人类强大的推理能力若被闲置,无疑是一种资源浪费。

 

有趣的是,由于诸多题目涉及读图,而各大家模型的识图准确度参差不齐,常常在未明晰问题的情况下“蒙猜作答”,这反倒对大模型的逻辑推理能力提出了额外考验。

 

不久前,李飞飞指出 AI 的技术瓶颈仍在于缺乏感知力,诸如饥饿的感受、失去生命的恐惧以及为何不能直视强光等,AI 或许能够解释,却实则无法理解。

 

将大模型视作做题高手赶入考场,细想之下场面颇具喜感,它们也无法切实体会考生真实承载的紧张或兴奋。但这一跨越已然令人惊叹,甚至可谓栩栩如生。让机器考入一本、二本线,在往昔是难以想象之事。

 

极客公园,大伙都知道吧,也真心建议极客公园设定一年之约,待到明年今日再考一次,瞧瞧届时是否会有大模型能够考入清北,若有,又将是哪一家或几家?
赞(0) 打赏
未经允许不得转载:黑斌MAX » 浅谈一下我对 国产大模型与GPT-4o的愚见

评论 抢沙发

黑斌MAX · BLOG

黑斌,男,八零后,贵州土著,一个不高不矮的微型胖子、一个再现实不过的理想主义者、一个临阵脱逃的IT技术人员、一个半途而废的创业者、一个二杆子广告人、一个懒散的站长、一个沉默寡言的码字工、一个没走过多少地方的背包客、一个什么书都随便翻翻的读书人、一个参加CRC从未完赛的国家B级拉力车手。

联系黑斌返回首页

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫