AI的每一步嘗試進展,都是對未來教育的想象空間的開拓.
又是一年高考時,除文作文題目,其他的題你還能看懂嘛?
你也許不懂,但大模型可以!
隨著人工智能技術的飛速發(fā)展,人工智能AI在各個領域的應用越來越廣泛,“大模型做高考題”也成了一大看點。
大模型因為是自然語言模型,“重文輕理”是普遍情況,但也有大模型主攻數(shù)學能力。今天的測試,讓專攻數(shù)學的國產九章大模型(MathGPT)和OpenAI最新的大模型GPT-4o一起做今年的數(shù)學題,以2024全國甲卷數(shù)學高考真題為例,看看結果會怎樣?
01
九章大模型略勝一籌,仍有較大提升空間
先來看結論:
【九章大模型(MathGPT)】
選擇題12題,做對7題。
填空題4題,做對2題。
九章大模型總分= 7 * 5分 + 2 * 5分 = 45分 (滿分90分)
【GPT-4o】
選擇題12題,正確7題。
填空題4題,正確1題。
GPT-4o總分= 7 * 5分 + 1 * 5分 = 40分 (滿分90分)
GPT-4o是OpenAI在今年5月14日推出的最新大模型,GPT-4o在處理速度上提升了高達200%,GPT-4o所有功能包括視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼以及GPT Store等,可以實時對音頻、視覺和文本進行推理。
學而思九章大模型(MathGPT)是學而思自主研發(fā)的,面向全球數(shù)學愛好者和科研機構,以解題和講題算法為核心的大模型。2023年 11 月,九章大模型成為首批通過備案的教育大模型。
本次測試題目僅針對《2024年高考全國甲卷數(shù)學真題》。由于數(shù)學解答題的評分考核步驟過程,答題準確與否不易評判,所以只針對有明確答案的選擇題和填空題來測試。
在測試中我們發(fā)現(xiàn),文本輸入格式的不同,會對測試結果造成比較明顯的干擾。于是此次測試采用了上傳圖片文本識別的方式,讓大模型識別題目并做題,更能保證結果的公平客觀。同時,這種識圖的方式也更類似“人類視覺讀題”的真實狀態(tài),是對大模型能力的全面考驗。
從結論來看,九章大模型作為以數(shù)學領域的解題和講題算法為核心的大模型,在高考數(shù)學題目上更勝一籌,比GPT-4o得分更高。同時“點睛”分析也是九章大模型的特色,在解題的同時還拆解了題目的考點,更適合給學習者作為參考。
但從絕對值的分數(shù)來看,兩個大模型的整體答題分數(shù)都不算太高。大模型做數(shù)學題仍是一個難度較大的挑戰(zhàn),短期的模型表現(xiàn)還達不到完美,但在逐步攻克數(shù)學問題的路上,AI的每一步嘗試進展,都是對未來教育的想象空間的開拓,值得更多耐心與期待。
02
選擇題:九章大模型、GPT-4o互有勝負
2024年高考全國甲卷數(shù)學題共12道選擇題,九章大模型和GPT-4o都是有7道正確,但做對的題目不完全相同,互有勝負。
選擇題 具體來看幾道題:
第2題,九章大模型做對,GPT-4o做錯:
原題:
九章大模型解答:
GPT-4o解答:
第9題,九章大模型做對,GPT-4o認為沒有正確答案:
原題:
九章大模型解答:
GPT-4o解答
第10題,九章大模型做錯,GPT-4o做對:
原題:
九章大模型解答:
GPT-4o解答,答案選擇正確,但其中解題對命題①的分析存在錯誤:
03
填空題:GPT-4o做對一道,九章做對兩道
具體來看兩道題:
第14題,九章大模型和GPT-4o都做對:
原題:
九章大模型解答:
GPT-4o解答:
第16題,九章大模型做對,GPT-4o做錯:
原題:
九章大模型解答:
GPT-4o解答: