当大模型成为高考“尖子生”：靠的是什么？

时间：2025-06-12 11:50:00

南方财经记者谭砚文广州报道

2025高考已经落幕，这场千万学子的人生大考，也成了检验人工智能赋能教育的试金石。

“今年深度推理大模型在高考中的表现堪称亮眼，数学成绩已达到130分以上，而去年，大模型的高考数学成绩普遍只能达到四五十分。”一位大型科技公司人工智能工程师说。

今年，大模型在高考中表现优异，有个别表现出色的大模型，已能在满分60分的语文作文取得53分、总分150分的数学取得145分、满分20分的英语作文取得19.5分，展现出强大的综合实力。

一个大模型能成为高考尖子生，靠的是什么？

专家指出，大模型决战高考，不仅仅比拼的是“题库资源+生成式大模型能力”，人工智能技术能力维度只有足够多、足够广、足够垂直，才能真正赋能教育。

更重要的是，成为高考尖子生并非大模型进阶的终点，人工智能不仅懂考试，也懂教学，将为教育打开新的天地。

那个在高考语文作文、数学、英语作文中全部表现突出的大模型，是谁？

6月7日高考语文结束后，“全国一卷难”的话题迅速被推上热搜。

但这难不住大模型。据某媒体6月7日高考语文结束当日进行的测评，讯飞星火大模型的一篇《以歌为刃破长夜且将热血铸山河》，被曾参与省级“新课标新技术背景下课堂教学探索”系列重点课题的杨小晴老师、海南省名校校本教材编者曹越老师分别打出了52分、54分的高分，名列六款国内主流大模型测评第一。

这篇文章的“叫座”之处是采用了六段式结构，并且每段都有分论点、分析和论据。比如，文章的骨干部分分别以“个体的沉默往往是觉醒的前奏”“艺术的表达从来都是穿越荆棘的利刃”“文明的火种需要在代际传递中永续”牵引各段，紧扣“在逆境中坚守信念，用艺术或行动承担家国责任”的论点，层次分明，起承有序。

评分老师给出了“结构如交响乐章，选材如历史长卷，语言如金石掷地，是一篇兼具思辨性与感染力的考场佳作”的评价。

数学是对深度推理大模型的一场“硬核”检验。据某媒体6月7日高考数学结束当日进行的测评，7款国内外主流深度推理大模型中，讯飞星火表现突出，是唯二突破140分，即便在考生中也达到了“尖子生”标准。而在6月10日另一个自媒体博主进行的测评里，讯飞星火又取得了145分。

参加考试的讯飞星火大模型是在4月20日升级，版本较早，比同场考试的DeepSeek R1早了一个月，但在模型量级更小（70b）的情况下，依然取得了141分的高分。

英语作文与语文作文有一定的相似性，考察的都是语言理解和生成能力。在某媒体的测评中，北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉对讯飞星火的作文分别给出了20分、19分的高分，位列第一。

语文作文的六段式结构体现了讯飞星火的谋篇布局能力，而在这篇英语作文里，讯飞星火的作品同样句式多样，结构精致。比如采用了比较巧妙的“twofold”结构，这在选词准确但句式不够丰富的大模型作文里显得独树一帜。

在多项测试里，讯飞星火大模型纷纷拿下语文作文、数学、英语作文的高分，成为高考尖子生靠的是什么？

研究人员给出了详细解读。

语文和英语作文考验的是大模型的文本生成能力，但高考作文侧重的不是生成一篇文学作品，抑或一篇办公文稿，而是在精准分析题目基础上的作答。

在数据层面，“我们在对讯飞星火大模型进行预训练时，会注重从海量的通用数据中有针对性地挖掘有价值的数据。”讯飞星火研发人员说。

科大讯飞扎根教育已经21年，服务了全国5万多所中小学、1.3亿师生，这些数字背后，是科大讯飞对教育的深刻理解与实践沉淀。且科大讯飞深入各地，积累了海量区域化教育数据，能够精准理解各地考情差异。

在算法层面，写作文场景与生成其他文本的场景颇为不同，更加考验大模型的指令跟随能力。这是因为，在生成其他文本的过程中，用户会不断提问和提出要求，大模型从而得到特别具体、精确的提示（prompt）；但写作文场景下，大模型得到的只有题目要求，且审题难度极高，学生的习作则差别很大，也就是说，一个理解难度高的题目对应着数以万计的差异化文本，这加大了大模型在训练时进行指令跟随的难度。

对此，“讯飞星火大模型基于‘机器思维链’的深厚基础，深度融合优秀教师的实践智慧，研发出以‘教学思维链’为驱动的教育深度推理大模型。”讯飞星火研发人员说。

这就能够理解，为什么在一众大模型作文中，讯飞星火能写出结构精妙的六段式结构。

“训练讯飞星火大模型的优质数据里，曾出现过这种结构的高分作文。深度思维链大模型理解了这样的优质数据，并通过不断地强化学习，学会了写出这种结构的高分作文。”

据介绍，科大讯飞在教育行业深耕21年，深度参与中考、高考、英语四六级考试、全国普通话水平测试、全国硕士研究生统一招生考试、全国翻译资格水平考试等重大考试服务，掌握中高考智能阅卷、口语评测、作文批改等同源技术。这也让星火对相关教育数据的清洗更加精准，沉淀下来价值更高的数据。

“深度思考+强化学习”的技术方案，也推动大模型今年在高考数学上普遍超过130分。

但为何讯飞星火大模型能取得140分以上的更高分？

“我们做了一些技术创新，包括算法上更加强调目标导向，即强调解题过程与答案的一致性；增加了评语模型，以提高大模型解题每一步骤的准确性，并避免用超纲解法答题；对知识点和解题思路进行了数据合成，从而提高大模型解题的泛化能力。”讯飞星火研发人员说。

值得注意的是，擅长深度思考并不必然擅长解数学题。一位数学自媒体博主对今年高考题目进行测评时发现，“一些大模型的推理思维链很长，而有的考题并没有那么复杂，所以导致它想着想着，就想歪了”。

如何将深度推理精准匹配高考答题？

讯飞星火首个推出了，基于快慢思考的统一模型训练推理方法，充分发挥快慢思考数据相互促进作用，实现基于系统指令控制模型是否深度思考。基于问题难度的大规模多阶段强化学习方法，在复杂推理、数学、代码、语言理解等场景全面提升模型效果及泛化性；同时强化学习动态更新算法，基于样本采样长度动态调整强化学习更新速度，进一步提升深度思考强化学习效率及效果。

答题还建立在一些底层技术基础上，比如OCR能力。只有更加准确地识别，才能让大模型更加准确地理解、更加准确地思考、更加准确地答题。科大讯飞的语音、图文识别技术则屡获国际大赛冠军。正是因为在图文识别、自然语言理解、智能评测等方面的突破，科大讯飞10年前率先在高考中参与了智能辅助评卷的探索。

当大模型能轻松超过绝大多数考生，成为高考尖子生，这是否会给广大学子带来焦虑和不安？

其实完全不会，高考的目的是考查学生的关键能力和核心素养，人工智能赋能培养学生关键能力和核心素养的表现，远远超过了在高考考场上的表现。

当人工智能具备深度推理能力，人工智能赋能教育正在从提升学习成绩升级到提升学业能力。一方面，人工智能实现了作业批改、学情分析、类题推送等方面的重大突破，从而帮助老师和学生更好地教与学、提升学业成绩；另一方面，人工智能基于问题链与思维链进行深度推理，通过苏格拉底式引导帮助学生真正掌握学习方法，做到因材施教。

“同学们，我现在将立方体的这一面填满红色，我们再一起看下这个立方体的展开图是什么样的。”在枣庄市第九中学的课堂上，数学老师王宁在AI黑板上画出一个立方体，点击“展开”功能，立方体随即动态展开，呈现出不同的平面图。“这种动态的展示，不仅让数学知识‘活’起来，让抽象的知识变得更直观，还能进一步激发学生的学习兴趣和探索欲望。”王宁老师笑道。

目前，AI黑板所属的讯飞智慧窗系列产品已在全国4.5万所学校使用，覆盖33个省级行政区、1000多个区县。

“我们正在和七年级16班的学生们一起上课，我们在讨论一件情绪商品，叫做情绪盒子，这是一种管理情绪的卡片游戏，请问星火你是怎么看待情绪盒子的呢？”

在合肥四十六中南校区的《改良“情绪商品”》项目化学习课堂上，王亚运老师通过星火教师助手提问，为学生们引入“第三方视角”的看法，同时通过“分组作答”“实物展台”“课堂讨论”等互动形式，给每位同学展示自己创意的机会。

只要真正用上人工智能，就能打消畏难情绪。成都英华学校以“人人拥有教育教学‘智能体’”为宗旨，组织开展首届教学智能体创建比赛，鼓励教师人人参与，通过讯飞星火大模型“喂养”属于自己的学科教学智能体。

成都英华学校的周老师设计了一节英语写作课，借助人工智能技术引导学生经历自主作文、自主修改、生生相互评阅后自主完善等学习过程。作文自评自改环节，AI作为教学助手在2秒钟内实现了对全班学生作文的检错和评改，完成了老师们平时2小时甚至更长时间的作文批改工作，并同步生成班级作文报告，学生的共性问题和个性问题一目了然。

“我们要有一桶水，才能倒出一碗水。”科大讯飞董事长刘庆峰表示，科大讯飞做教育绝非止步于解题批改的技术层面，而是要因材施教，要五育并举，要能激发人的创造力，要心理健康全面发展。高考提分只是起点，而非终点。大模型对教育的深层变革，在于让每个个体获得适配的学习方法，发现成长的乐趣，这才是技术赋能教育的终极意义。

更多内容请下载21财经APP

本文分类：实时讯息
浏览次数：0 次浏览
本文链接：https://www.xqwz.net/news/yzmYzE3P4X.html

上一篇 > 重庆石桥铺火灾系人为纵火？重庆消防：假的！
下一篇 > 图片新闻｜智能科技赋能垫丰武高速建设加速推进