包 Dee 并排第二新选手 G道题难倒一 夺冠 ,豆高考数学全卷重赛一切大模型 ,
AI 应战全套高考数学题来了!。高考冠豆
高考数学一完毕,数学手 咱们连夜运用六款大模型产品, 依照一般用户截图发问的办法, 应战了 14 道最新高考客观题, 不过有网友质疑测评进程不行谨慎, 所以这次咱们加上答复题, 从头测一遍 。
本次参与应战的全卷切选手别离是:Doubao-1.5-thinking-vision-pro 、DeepSeek R1、重赛Qwen3-235b、道题i夺hunyuan-t1-latest、难倒文心 X1 Turbo、模型o3,新选 并且新增网友们十分等待的 Gemini 2.5 pro。上一次咱们运用网页端测验,包Dk并 这次除 o3 外, 其他模型悉数调用 API 。
在考题挑选上,排第 咱们依然选用 2025 年数学新课标 Ⅰ 卷, 包括 14 道客观题, 总计 73 分;5 道答复题, 总计 77 分 。其间第 6 题由于触及到图片,高考冠豆 咱们就独自摘出来, 后边经过上传标题截图的方式针对多模态大模型进行评测 。其他文本标题悉数转成 latex 格局,数学手 别离投喂给大模型, 仍是老规矩, 不做 System Prompt 引导, 不敞开联网查找, 直接输出成果。
(注: 第 17 题尽管也触及到图片,全卷切 但文字表述满足明晰, 不影响答题, 因而也以 latex 格局测评。) 。重赛
客观题计分办法依照以往高考判分准则: 。道题i夺
单选题每道 5 分, 选项正确计分, 过错不得分;
多选题每道 6 分, 全对计 6 分, 漏选按正确答案数量计分, 如答案为 ABCD, 漏选其一扣 1.5 分, 错选不得分;
填空题每道 5 分, 填空正确计分, 过错不得分 。
至于答复题, 由于现在还未出详细的评分细则, 所以咱们请数学专业的朋友进行评判, 首要仍是看大模型的终究答案以及解题进程中是否有严峻失误点。
7 家大模型考试成果如下图所示 。
从客观题来看, 各家大模型简直拉不开距离, 最大分差也只需 3 分, 第 6 题图画题更是让这几家多模态大模型「全军覆没」。在上一次测评中,o3 客观题成果垫底, 但有网友表明, 这或许是由于某些原因导致后台主动切换成其他模型, 而这一次咱们选用的是未「降智」的 o3, 挑选题和填空题成果仍是排在终究, 当然,65 分的成果比较「降智」版的确有很大提高