訊飛星火，憑什么成為最會(huì)高考的AI大模型？

2025-06-09 15:26:29網(wǎng)絡(luò)資源

高考的AI含量正在變得越來(lái)越高�？紙�(chǎng)之內(nèi)，各類AI監(jiān)考輔助系統(tǒng)、AI輔助閱卷等新技術(shù)正在不斷應(yīng)用�？紙�(chǎng)之外，AI大模型們比拼答題也幾乎成了每年高考的“保留節(jié)目”。

和往年不同，今年AI高考比拼的主角變成了深度推理大模型。相較于去年的大語(yǔ)言模型，深度推理模型在問(wèn)題理解、思考深度以及回答輸出上都更具優(yōu)勢(shì)，思維鏈的加入也讓人們更加清晰地看到了模型的思考過(guò)程。

去年大語(yǔ)言模型混戰(zhàn)時(shí)，部分模型還無(wú)法準(zhǔn)確理解題意，甚至出現(xiàn)作文跑題現(xiàn)象，而今年這種情況已大大減少。與此同時(shí)，得益于深度推理模型在數(shù)學(xué)邏輯思維能力上的提升，模型的高考數(shù)學(xué)得分屢創(chuàng)新高，涌現(xiàn)出越來(lái)越多的“AI狀元”。

過(guò)去幾天，已有不少媒體率先對(duì)大模型的高考答題能力展出深度測(cè)評(píng)，涵蓋語(yǔ)文、數(shù)學(xué)、英語(yǔ)等多個(gè)主要科目。結(jié)果顯示，國(guó)產(chǎn)大模型的進(jìn)步可圈可點(diǎn)。在多家媒體的大模型高考橫評(píng)中，國(guó)產(chǎn)大模型的答題水平絲毫不弱于OpenAI最新的推理模型，以DeepSeek R1、訊飛星火X1等為代表的國(guó)產(chǎn)大模型，更是實(shí)現(xiàn)了對(duì)海外主流模型的反超。

以界面旗下的新媒體“電廠”針對(duì)高考語(yǔ)文作文的測(cè)評(píng)為例。電廠選取了高考之后公認(rèn)較難的全國(guó)1卷語(yǔ)文作文進(jìn)行測(cè)評(píng)，DeepSeek、通義千問(wèn)、字節(jié)豆包、文心一言、騰訊混元以及訊飛星火等6款主流國(guó)產(chǎn)大模型參與作答，同時(shí)特別邀請(qǐng)到專業(yè)高中語(yǔ)文教師及專家，來(lái)對(duì)各大模型生成的高考作文逐一打分。評(píng)分規(guī)則為兩位教師專家各自獨(dú)立評(píng)分，最后取平均得分。

根據(jù)兩位專家的最后評(píng)分可以看到，包括訊飛星火、DeepSeek、字節(jié)豆包以及通義千問(wèn)四款大模型都獲得了50分以上的平均分，其中訊飛星火以平均分53分名列第一，DeepSeek以52.5分名列第二位，騰訊混元、文心一言則相對(duì)得分較低。不過(guò)，6 款大模型均能準(zhǔn)確抓住題意，圍繞題干中”沉默與發(fā)聲”的關(guān)系展開(kāi)論述。

綜合專家意見(jiàn)，訊飛星火、DeepSeek得分較高的共同原因均是切中題意、立意深刻，同時(shí)邏輯縝密、論述完整，兼具思辨性與感染力。而得分較低的模型則或多或少在文章結(jié)構(gòu)、素材選擇以及論述邏輯上存在明顯短板。

中文寫(xiě)作之外，也有媒體專門(mén)測(cè)試了幾款大模型的英文寫(xiě)作水平。新京報(bào)選擇了今年高考英語(yǔ)北京卷的作文題目，測(cè)評(píng)DeepSeek R1、ChatGPT o3、通義千問(wèn) Qwen3、騰訊混元 T1、訊飛星火 X1、百度文心 X1等6款深度推理模型產(chǎn)品。模型答題結(jié)束后，新京報(bào)邀請(qǐng)到北京市十一學(xué)校一分校英語(yǔ)老師韓憲昌、深圳中學(xué)英語(yǔ)教師趙文嘉等兩位專家教師，參照往年高考評(píng)分標(biāo)準(zhǔn)對(duì)大模型進(jìn)行打分并點(diǎn)評(píng)。

從得分結(jié)果中可以看出，訊飛星火X1和DeepSeek R1再度實(shí)現(xiàn)對(duì)其他模型的反超，分別包攬第一、二名。其中，訊飛星火X1拿下全場(chǎng)最高分19.5分，DeepSeek R1 以 0.5 分之差位居其后。至于OpenAI o3，或許是不太適應(yīng)高考答題標(biāo)準(zhǔn)，僅拿下14.5分。

韓憲昌老師表示，幾款深度推理模型都能在內(nèi)容方面切中要點(diǎn)，完成寫(xiě)作任務(wù)。但是，內(nèi)容細(xì)節(jié)多少、細(xì)節(jié)邏輯關(guān)系強(qiáng)弱、觀點(diǎn)表達(dá)精準(zhǔn)性與簡(jiǎn)潔性等方面，差別比較大。例如，得分較高的訊飛星火X1以及DeepSeek均能準(zhǔn)確把握題意，語(yǔ)言精準(zhǔn)，結(jié)構(gòu)嚴(yán)謹(jǐn)，同時(shí)在句法結(jié)構(gòu)上形式多變。而得分較低的模型要么在語(yǔ)法、用詞上存在欠缺，要么在論述邏輯上銜接的不夠緊密。

聊完了“文”的部分，我們?cè)賮?lái)看看幾款主流的深度推理大模型在數(shù)學(xué)能力上的較量。高考數(shù)學(xué)考試結(jié)束當(dāng)天，針對(duì)數(shù)學(xué)新高考1卷，科技媒體 IT 之家對(duì)幾款主流深度推理大模型進(jìn)行了橫評(píng)，最終結(jié)果如下：

在高考數(shù)學(xué)的最終得分中，DeepSeek以及訊飛星火表現(xiàn)突出，是所有參賽的深度推理模型中唯二獲得140分以上的大模型，領(lǐng)先一眾深度推理模型，穩(wěn)居大模型高考數(shù)學(xué)答題第一梯隊(duì)。即便放在真人考生中，140分以上也屬于全國(guó)范圍內(nèi)的“頂尖”水平。

這也是深度推理模型的優(yōu)勢(shì)所在，相較于更偏向主觀色彩的作文寫(xiě)作，數(shù)學(xué)邏輯能力本就是深度推理模型的長(zhǎng)處。IT 之家在測(cè)評(píng)中特別提到，和去年的主流的大語(yǔ)言模型相比，今年深度推理模型的數(shù)學(xué)能力有了明顯提升。

綜合不同媒體針對(duì)語(yǔ)數(shù)外三科的橫評(píng)答題結(jié)果，訊飛星火X1以及DeepSeek R1以絕對(duì)優(yōu)勢(shì)穩(wěn)居大模型高考答題的第一梯隊(duì)，其中，訊飛星火X1更是以語(yǔ)數(shù)英三科綜合第一的成績(jī)，成為2025年最會(huì)高考同時(shí)也是最懂高考的國(guó)產(chǎn)大模型。

訊飛星火X1在2025高考中的出色表現(xiàn)，離不開(kāi)科大訊飛20余年來(lái)在教育領(lǐng)域的深耕。科大訊飛是國(guó)內(nèi)最早利用人工智能技術(shù)賦能教育的科技公司之一，實(shí)現(xiàn)了覆蓋從學(xué)校教學(xué)、教師發(fā)展、智慧考試、素質(zhì)教育、自主學(xué)習(xí)等教育全場(chǎng)景的產(chǎn)品及服務(wù)，同時(shí)構(gòu)建起從國(guó)家、省、市、縣（區(qū)）到學(xué)校、家庭的智慧教育體系。

AI大模型時(shí)代，訊飛星火延續(xù)了科大訊飛在教育領(lǐng)域的領(lǐng)先優(yōu)勢(shì)。底座模型上，基于全國(guó)產(chǎn)算力訓(xùn)練的訊飛星火大模型國(guó)內(nèi)領(lǐng)先，星火X1更是在模型參數(shù)量比業(yè)界同行少一個(gè)數(shù)量級(jí)的情況下，實(shí)現(xiàn)整體效果對(duì)標(biāo)OpenAI o1和DeepSeek R1。

2025 年高考雖然很快就要落下帷幕，但大模型們之間的“高考”仍將繼續(xù)。在AI賦能教育越來(lái)越深入的當(dāng)下，深度推理模型的進(jìn)步，讓我們看到了更多AI+教育的可能性。

本平臺(tái)所發(fā)布信息的內(nèi)容和準(zhǔn)確性由提供消息的原單位或組織獨(dú)立承擔(dān)完全責(zé)任！

關(guān)注高考網(wǎng)公眾號(hào)

訊飛星火，憑什么成為最會(huì)高考的AI大模型？

相關(guān)信息：

高考網(wǎng)微信

高中精品資料免費(fèi)領(lǐng)取

特別策劃

熱門(mén)資料下載

2023高考熱門(mén)資訊

高考幫工具箱

高考關(guān)鍵詞