午夜一级片,欧美一区二区激情三区,亚洲精品国产免费

您當前的位置：首頁 > 科技新聞

我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題，結果……

發(fā)布時間：2025-02-07 05:51:46 來源：科普中國字號： [ 大 ] [ 中 ] [ 小 ]

近日，我國“深度求索”公司發(fā)布的具備深度思考和推理能力的開源大模型 DeepSeek-R1 受到了全世界的關注。

在 DeepSeek-R1 之前，美國 OpenAI 公司的 GPT-o1，Athropic 公司的 Claude，Google 公司的 Gemini，都號稱具備了深度思考和推理能力。這些模型在專業(yè)人士和吃瓜網(wǎng)友的五花八門的測試中，表現(xiàn)的確是驚才絕艷。

特別引起我們興趣的，是 Google 的專用模型 AlphaGeometry 在公認高難度的國際奧林匹克數(shù)學競賽中取得了 28/42 的成績，獲得銀牌。學生時代我們也接觸過奧數(shù)，深知能在此類國際奧賽中獲銀牌的選手，無一不是從小就體現(xiàn)出相當數(shù)學天賦，且一路努力訓練的高手。能夠達到這個水平的 AI，稱其為具備了強大的思考能力并不過分。自打那之后，我們就一直好奇，這些強大的 AI，它們的物理水平又如何？

1 月 17 日，中科院物理所在江蘇省溧陽市舉辦了“天目杯”理論物理競賽。沒過兩天， DeepSeek-R1 的發(fā)布引爆 AI 圈，它自然成了我們測試的首選模型。此外我們測試的模型還包括：OpenAI 發(fā)布的 GPT-o1，Anthropic 發(fā)布的 Claude-sonnet。

下面是我們測試的方式：

1.整個測試由 8 段對話完成。

2.第一段對話的問題是“開場白”：交代需要完成的任務，問題的格式，提交答案的格式等。通過 AI 的回復人工確認其理解。

3.依次發(fā)送全部 7 道題目的題干，在收到回復后發(fā)送下一道題，中間無人工反饋意見。

4.每道題目的題干由文字描述和圖片描述兩部分組成（第三、五、七題無圖）。

5.圖片描述是純文本方式，描述的文本全部生成自 GPT-4o，經(jīng)人工校對。

6.每個大模型所拿到的文字材料是完全相同的（見附件）。

上述過程后，對于每個大模型我們獲得了 7 段 tex 文本，對應于 7 道問題的解答。以下是我們采取的閱卷方式：

1.人工調(diào)整 tex 文本至可以用 Overleaf 工具編譯，收集編譯出的 PDF 文件作為答卷。

2.將 4 個模型的 7 道問題的解答分別發(fā)送給 7 位閱卷人組成的閱卷組。

3.閱卷組與“天目杯”競賽的閱卷組完全相同，且每位閱卷人負責的題目也相同。舉例：閱卷人 A 負責所有人類和 AI 答卷中的第一題；閱卷人 B 負責所有人類和 AI 答卷中的第二題，等等。

4.閱卷組匯總所有題目得分。

結果如何呢？請看下表。

結果點評：

1.DeepSeek-R1 表現(xiàn)最好。基礎題（前三題分數(shù)拿滿），第六題還得到了人類選手中未見到的滿分，第七題得分較低似乎是因為未能理解題干中“證明”的含義，僅僅重述了待證明的結論，無法得分。查看其思考過程，是存在可以給過程分的步驟的，但最后的答案中這些步驟都沒有體現(xiàn)。

2.GPT-o1 總分與 DeepSeek 相差無幾。在基礎題（二題、三題）中有計算錯誤導致的失分。相比于 DeepSeek，o1 的答卷更接近于人類的風格，因此以證明題為主最后一題得分稍高。

3.Claude-sonnet 可謂“馬失前蹄”，在前兩題中連出昏招打了 0 分，但后續(xù)表現(xiàn)跟 o1 相當接近，連扣分點都是類似的。

4.如果將 AI 的成績與人類成績相比較，則 DeepSeek-R1 可以進入前三名（獲特優(yōu)獎），但與人類的最高分 125 分仍有較大差距；GPT-o1 進入前五名（獲特優(yōu)獎），Claude-sonnet 前十名（獲優(yōu)秀獎）。

最后想聊幾句閱卷的主觀感想。首先是 AI 的思路是真的好，基本上沒有無法下手的題，甚至很多時候一下子就能找到正確的思路。但跟人類不同的是，它們在有正確的思路后，會在一些很簡單的錯誤里面打轉。比如通過看 R1 的第七題思考過程，就發(fā)現(xiàn)它一早就知道要用簡正坐標來做，能想到這一步的考生幾乎 100%求解出了正確的簡正坐標（一個簡單的矩陣對角化而已），但是 R1 似乎是在反復的猜測和試錯，到最后也沒有得到簡正坐標的表達式。

還有就是所有的 AI 似乎都不理解一個“嚴密”的證明究竟意味著怎樣的要求，似乎認為能在形式上湊出答案，就算是證明了。AI 如同人類，也會出現(xiàn)許多“偶然”錯誤。比如在正式的統(tǒng)一測試前，我們私下嘗試過多次，很多時候 Claude-sonnet 可以正確解出第一題的答案，但正式測試的那次它就偏偏做錯了。出于嚴謹，我們也許應該對同一道題測試多次然后取平均，但實在是有點麻煩……

策劃制作

來源丨中科院物理所（id:cas-iop)

責編丨楊雅萍

審校丨徐來、林林

本文封面圖片來自版權圖庫，轉載使用可能引發(fā)版權糾紛

上一篇：20歲小伙拉了幾天肚子后確診癌癥！這些習慣很多年輕人都有……

下一篇：返回列表

【免責聲明】本文轉載自網(wǎng)絡，與科技網(wǎng)無關。科技網(wǎng)站對文中陳述、觀點判斷保持中立，不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，并請自行承擔全部責任。

亚洲二区三区在线,久久久久高清毛片一级,亚洲综合一区二区三区不卡,中文不卡av

我們用最近很火的DeepSeek挑戰(zhàn)了物理所出的競賽題，結果……