当大模型成为高考“尖子生”:靠的是什么?
南方财经记者谭砚文 广州报道
2025高考已经落幕,这场千万学子的人生大考,也成了检验人工智能赋能教育的试金石。
“今年深度推理大模型在高考中的表现堪称亮眼,数学成绩已达到130分以上,而去年,大模型的高考数学成绩普遍只能达到四五十分。”一位大型科技公司人工智能工程师说。
今年,大模型在高考中表现优异,有个别表现出色的大模型,已能在满分60分的语文作文取得53分、总分150分的数学取得145分、满分20分的英语作文取得19.5分,展现出强大的综合实力。
一个大模型能成为高考尖子生,靠的是什么?
专家指出,大模型决战高考,不仅仅比拼的是“题库资源+生成式大模型能力”,人工智能技术能力维度只有足够多、足够广、足够垂直,才能真正赋能教育。
更重要的是,成为高考尖子生并非大模型进阶的终点,人工智能不仅懂考试,也懂教学,将为教育打开新的天地。
那个在高考语文作文、数学、英语作文中全部表现突出的大模型,是谁?
6月7日高考语文结束后,“全国一卷 难”的话题迅速被推上热搜。
但这难不住大模型。据某媒体6月7日高考语文结束当日进行的测评,讯飞星火大模型的一篇《以歌为刃破长夜 且将热血铸山河》,被曾参与省级“新课标新技术背景下课堂教学探索”系列重点课题的杨小晴老师、海南省名校校本教材编者曹越老师分别打出了52分、54分的高分,名列六款国内主流大模型测评第一。
这篇文章的“叫座”之处是采用了六段式结构,并且每段都有分论点、分析和论据。比如,文章的骨干部分分别以“个体的沉默往往是觉醒的前奏”“艺术的表达从来都是穿越荆棘的利刃”“文明的火种需要在代际传递中永续”牵引各段,紧扣“在逆境中坚守信念,用艺术或行动承担家国责任”的论点,层次分明,起承有序。
评分老师给出了“结构如交响乐章,选材如历史长卷,语言如金石掷地,是一篇兼具思辨性与感染力的考场佳作”的评价。
数学是对深度推理大模型的一场“硬核”检验。据某媒体6月7日高考数学结束当日进行的测评,7款国内外主流深度推理大模型中,讯飞星火表现突出,是唯二突破140分,即便在考生中也达到了“尖子生”标准。而在6月10日另一个自媒体博主进行的测评里,讯飞星火又取得了145分。
参加考试的讯飞星火大模型是在4月20日升级,版本较早,比同场考试的DeepSeek R1早了一个月,但在模型量级更小(70b)的情况下,依然取得了141分的高分。
英语作文与语文作文有一定的相似性,考察的都是语言理解和生成能力。在某媒体的测评中,北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉对讯飞星火的作文分别给出了20分、19分的高分,位列第一。
语文作文的六段式结构体现了讯飞星火的谋篇布局能力,而在这篇英语作文里,讯飞星火的作品同样句式多样,结构精致。比如采用了比较巧妙的“twofold”结构,这在选词准确但句式不够丰富的大模型作文里显得独树一帜。
在多项测试里,讯飞星火大模型纷纷拿下语文作文、数学、英语作文的高分,成为高考尖子生靠的是什么?
研究人员给出了详细解读。
语文和英语作文考验的是大模型的文本生成能力,但高考作文侧重的不是生成一篇文学作品,抑或一篇办公文稿,而是在精准分析题目基础上的作答。
在数据层面,“我们在对讯飞星火大模型进行预训练时,会注重从海量的通用数据中有针对性地挖掘有价值的数据。”讯飞星火研发人员说。
科大讯飞扎根教育已经21年,服务了全国5万多所中小学、1.3亿师生,这些数字背后,是科大讯飞对教育的深刻理解与实践沉淀。且科大讯飞深入各地,积累了海量区域化教育数据,能够精准理解各地考情差异。
在算法层面,写作文场景与生成其他文本的场景颇为不同,更加考验大模型的指令跟随能力。这是因为,在生成其他文本的过程中,用户会不断提问和提出要求,大模型从而得到特别具体、精确的提示(prompt);但写作文场景下,大模型得到的只有题目要求,且审题难度极高,学生的习作则差别很大,也就是说,一个理解难度高的题目对应着数以万计的差异化文本,这加大了大模型在训练时进行指令跟随的难度。
对此,“讯飞星火大模型基于‘机器思维链’的深厚基础,深度融合优秀教师的实践智慧,研发出以‘教学思维链’为驱动的教育深度推理大模型。”讯飞星火研发人员说。
这就能够理解,为什么在一众大模型作文中,讯飞星火能写出结构精妙的六段式结构。
“训练讯飞星火大模型的优质数据里,曾出现过这种结构的高分作文。深度思维链大模型理解了这样的优质数据,并通过不断地强化学习,学会了写出这种结构的高分作文。”
据介绍,科大讯飞在教育行业深耕21年,深度参与中考、高考、英语四六级考试、全国普通话水平测试、全国硕士研究生统一招生考试、全国翻译资格水平考试等重大考试服务,掌握中高考智能阅卷、口语评测、作文批改等同源技术。这也让星火对相关教育数据的清洗更加精准,沉淀下来价值更高的数据。
“深度思考+强化学习”的技术方案,也推动大模型今年在高考数学上普遍超过130分。
但为何讯飞星火大模型能取得140分以上的更高分?
“我们做了一些技术创新,包括算法上更加强调目标导向,即强调解题过程与答案的一致性;增加了评语模型,以提高大模型解题每一步骤的准确性,并避免用超纲解法答题;对知识点和解题思路进行了数据合成,从而提高大模型解题的泛化能力。”讯飞星火研发人员说。
值得注意的是,擅长深度思考并不必然擅长解数学题。一位数学自媒体博主对今年高考题目进行测评时发现,“一些大模型的推理思维链很长,而有的考题并没有那么复杂,所以导致它想着想着,就想歪了”。
如何将深度推理精准匹配高考答题?
讯飞星火首个推出了,基于快慢思考的统一模型训练推理方法,充分发挥快慢思考数据相互促进作用,实现基于系统指令控制模型是否深度思考。基于问题难度的大规模多阶段强化学习方法,在复杂推理、数学、代码、语言理解等场景全面提升模型效果及泛化性;同时强化学习动态更新算法,基于样本采样长度动态调整强化学习更新速度,进一步提升深度思考强化学习效率及效果。
答题还建立在一些底层技术基础上,比如OCR能力。只有更加准确地识别,才能让大模型更加准确地理解、更加准确地思考、更加准确地答题。科大讯飞的语音、图文识别技术则屡获国际大赛冠军。正是因为在图文识别、自然语言理解、智能评测等方面的突破,科大讯飞10年前率先在高考中参与了智能辅助评卷的探索。
当大模型能轻松超过绝大多数考生,成为高考尖子生,这是否会给广大学子带来焦虑和不安?
其实完全不会,高考的目的是考查学生的关键能力和核心素养,人工智能赋能培养学生关键能力和核心素养的表现,远远超过了在高考考场上的表现。
当人工智能具备深度推理能力,人工智能赋能教育正在从提升学习成绩升级到提升学业能力。一方面,人工智能实现了作业批改、学情分析、类题推送等方面的重大突破,从而帮助老师和学生更好地教与学、提升学业成绩;另一方面,人工智能基于问题链与思维链进行深度推理,通过苏格拉底式引导帮助学生真正掌握学习方法,做到因材施教。
“同学们,我现在将立方体的这一面填满红色,我们再一起看下这个立方体的展开图是什么样的。”在枣庄市第九中学的课堂上,数学老师王宁在AI黑板上画出一个立方体,点击“展开”功能,立方体随即动态展开,呈现出不同的平面图。“这种动态的展示,不仅让数学知识‘活’起来,让抽象的知识变得更直观,还能进一步激发学生的学习兴趣和探索欲望。”王宁老师笑道。
目前,AI黑板所属的讯飞智慧窗系列产品已在全国4.5万所学校使用,覆盖33个省级行政区、1000多个区县。
“我们正在和七年级16班的学生们一起上课,我们在讨论一件情绪商品,叫做情绪盒子,这是一种管理情绪的卡片游戏,请问星火你是怎么看待情绪盒子的呢?”
在合肥四十六中南校区的《改良“情绪商品”》项目化学习课堂上,王亚运老师通过星火教师助手提问,为学生们引入“第三方视角”的看法,同时通过“分组作答”“实物展台”“课堂讨论”等互动形式,给每位同学展示自己创意的机会。
只要真正用上人工智能,就能打消畏难情绪。成都英华学校以“人人拥有教育教学‘智能体’”为宗旨,组织开展首届教学智能体创建比赛,鼓励教师人人参与,通过讯飞星火大模型“喂养”属于自己的学科教学智能体。
成都英华学校的周老师设计了一节英语写作课,借助人工智能技术引导学生经历自主作文、自主修改、生生相互评阅后自主完善等学习过程。作文自评自改环节,AI作为教学助手在2秒钟内实现了对全班学生作文的检错和评改,完成了老师们平时2小时甚至更长时间的作文批改工作,并同步生成班级作文报告,学生的共性问题和个性问题一目了然。
“我们要有一桶水,才能倒出一碗水。”科大讯飞董事长刘庆峰表示,科大讯飞做教育绝非止步于解题批改的技术层面,而是要因材施教,要五育并举,要能激发人的创造力,要心理健康全面发展。高考提分只是起点,而非终点。大模型对教育的深层变革,在于让每个个体获得适配的学习方法,发现成长的乐趣,这才是技术赋能教育的终极意义。
更多内容请下载21财经APP