復雜推理大模型OpenAI o1亮相，數學與代碼能力飛躍

發布時間：2024-09-16 16:25:38

平安證券近日發布AI動態跟蹤系列（三）：復雜推理大模型OpenAI o1亮相，數學與代碼能力飛躍。

以下為研究報告摘要：

9月13日，OpenAI正式發布并上線o1系列模型o1-preview和o1-mini。

平安觀點：

OpenAI計數器重置回1，o1系列開啟復雜推理序幕。本次OpenAI發布的是o1-preview（預覽版）和o1-mini（擅長STEM、更快、更便宜）兩個版本，ChatGPT付費用戶和API用戶可以使用。根據OpenAI官網介紹，o1系列被定位為用于解決難題的推理模型。對于復雜的推理任務來說，OpenAI認為o1是一個重大進步，代表了AI能力的新水平，鑒于此，OpenAI將計數器重置回1并將此系列模型命名為OpenAI o1。OpenAI研究發現，隨著強化學習（訓練時計算）和思考時間（測試時計算）的增加，o1的性能會不斷提高。因此在體驗上，與此前模型不同點在于，OpenAIo1在作出反應之前，需要像人類一樣，花更多時間思考問題。

o1基準表現明顯優于GPT-4o，數學與編碼能力實現飛躍。OpenAI實驗結果表明，在絕大多數推理任務中，o1的表現明顯優于GPT-4o。尤其是在具有挑戰性的推理基準上，o1實現了能力飛躍，1）數學能力：在美國數學奧林匹克(AIME2024)預選賽題目中，GPT-4o平均只能解決12%的問題，o1正式版達到平均74%的準確率，在使用學習評分函數重新排名1000個樣本后準確率達到93%，相當于美國排名前500的學生水平。2）編碼能力：在競爭性編程問題（Codeforces）比賽中，o1-preview、o1分別超越了62%、89%的人類競爭者，而對比GPT-4o僅超過11%。3）特定專業領域能力：GPQA diamond測試（專門用于評估模型在化學、物理和生物學等領域的專業知識水平）中，o1不僅成功完成了測試，更是超越了人類專家的表現，成為首個在GPQA diamond基準上擊敗人類專家的AI模型。

o1引入思維鏈優化邏輯推理，助力模型性能與安全提升。o1優越能力的背后，核心突破在于運用思維鏈（chain of thought）方法來處理復雜任務，OpenAI介紹到，類似于人類在回答困難問題之前可能會思考很長時間，o1在嘗試解決問題時會使用思維鏈。通過強化學習，o1學會打磨其思維鏈并改進它所使用的策略。o1學會了識別和糾正錯誤，學會了將棘手的步驟分解為更簡單的步驟，學會了在當前方法不起作用時嘗試不同的方法，此過程顯著提高了模型的推理能力。在OpenAI的一個官方演示中展示了o1-preview解答復雜問題的邏輯推理過程，o1-preview在過程中逐步顯示思考、翻譯問題、定義變量、理解問題、構建方程、解方程等與人類推理相似的步驟，最終輸出結論。同時，OpenAI認為思維鏈推理也為大模型安全性的提升提供了新思路，o1-preview在關鍵越獄評估和用于評估模型安全拒絕邊界的最嚴格內部基準上取得了顯著的改進。

投資建議：OpenAI推出專攻難題的o1系列大模型，應對復雜推理任務，o1引入思維鏈（Chain of Thought）提升邏輯推理能力，絕大多數基準表現不僅明顯超越GPT-4o，而且在數學與編碼能力上實現了重要飛躍，在理化生等專業領域的知識水平也達到新高度。OpenAI的動向始終引領全球大模型的發展，我們認為o1的正式亮相有望開啟復雜推理大模型的序幕，一方面對算力提出了更大需求，同時也將賦能下游AI應用（如編程、教育）的快速迭代。我們堅定看好AI主題的投資機會：1）算力方面，推薦工業富聯、浪潮信息、中科曙光、紫光股份、神州數碼、海光信息、龍芯中科，建議關注寒武紀、景嘉微、軟通動力；2）算法方面，推薦科大訊飛；3）應用場景方面，強烈推薦中科創達、恒生電子、盛視科技，推薦金山辦公，建議關注萬興科技、福昕軟件、同花順、彩訊股份；4）網絡安全方面，強烈推薦啟明星辰。

【返回列表】

特別聲明：以上內容(如有圖片或視頻亦包括在內)為“新車測評網用戶上傳并發布"，本平臺僅提供信息存儲服務。

下一篇:“科創跨境”人工智能產業合作與創新交流活動在深舉辦

上一篇:OpenAI 發布 o1-mini : 更經濟高效的推理模型 | LibreOffice 24.8.1 發布

汽車生活更多>>

三星首款三折疊！Galaxy Z TriFold國行開啟預定：售價19999元起 vivo新機突然官宣：驍龍8E5+四款新配色，12月15日見真章多場景全通關，長安啟源Q07用實力守護每一程 11月賣出2.4萬臺，車長近5米全系插混動力，方程豹鈦7有何底氣？鴻蒙智行全面深化戰略合作共建統一服務體系、共享充電網絡，打造智能汽車生態聯盟特斯拉上海超級工廠迎來第400萬輛整車下線，貢獻全球市場一半產量國產純電方盒子再出海！悅也Plus在巴西市場正式投產馬斯克發來賀電，特斯拉上海超級工廠第400萬輛整車下線 ChatGPT周活躍用戶數已突破8億自費購買，把豆包AI手機當主力機3天，我的真實體驗有些不同 vivo攜前沿技術成果亮相數智科技生態大會，點亮數智生態新圖景 2025常州新能源購車補貼及常州參與省級汽車煥新補貼即將停止！上汽通用凱迪拉克Vistiq中大型SUV申報，海外約7.9萬美元起五恒健康座艙+1320km！別克至境世家43.99萬起，重新定義豪華MPV 家用車不是越省油就越好，這三款SUV有勁安全，坐著很舒適 14.98萬元起售！福特新蒙迪歐以全能實力，開啟智慧出行新體驗保時捷Carrera GT：V10引擎轟鳴，體驗純粹機械駕駛的極致魅力 2025尖叫之夜全陣容炸穿內娛！超百位明星空降澳門一老板給員工“少發500塊可休10天假”引討論，回應：員工充分協商后一致同意，有人回老家有人買機票出去玩全場景舒享大型MPV銳勝M8正式上市，限時補貼后售價12.98萬起五菱繽果Pro申報圖公布，圓潤造型純電小車 2025第48周銷量排行華為Mate80系列進入前三戶外樓頂水箱液位實時監測方案-超聲波液位檢測藍光舞臺燈光下，四名歌手同步表演！燉鍋奶茶加桃酥 “廣德三件套”為何能爆火？欠中國代工廠超25億元，美知名機器人公司爆雷，瀕臨破產！一度占據80%美國市場嵐圖追光L定檔12月10日上市，華系首款800V插混旗艦轎車即將登場 VLA大模型“點睛”，魏牌新藍山智駕如何從“聰明”到“懂你”？預測會很猛，但沒想到會這么猛！《瘋狂動物城2》刷屏朋友圈，影院經理：完全沒有對手三星推出首款三折疊智能手機搭載全套Galaxy AI