近日,在為期12個工作日的線上新品發布活動最后一日,OpenAI宣布了“壓軸大作”:o1的下一代模型o3,而且一開始就要推出兩個版本,一個正式的o3,還有一個相對較小的精簡版o3-mini。o3在OpenAI實現通用人工智能(AGI)這一奮斗目標上取得了突破,最高的測試成績達到了類人水平。經過2024年AIME數學競賽的題目測試,o3的準確度得分為96.7、即準確率96.7%,大幅度超過了o1預覽版的56.7和o1的83.3%,僅錯了一道題,相當于一名頂級數學家的水平。
【機會前瞻】
近日,OpenAI在為期12個工作日的線上新品發布活動最后一日,發布了其壓軸大作o3和o3-mini在內的o3模型系列,這是AI領域又一重要里程碑。
OpenAI的o3模型在多個基準測試中超越了前代o1模型。在推理能力方面,o3模型在ARC-AGI基準測試中取得了突破性成績,最高得分達到87.5%,遠超o1模型的25%,甚至超過了人類平均水平的85%。這表明o3在處理復雜問題時,能夠像人類一樣進行邏輯推理和抽象思考,具備更強的解決問題能力。
編碼能力方面,在編碼測試SWE-Bench Verified中,o3性能比o1高出22.8%,在CodeForces中o3評分高達2727,超越了大部分人類程序員。它不僅能生成準確的代碼,還能提供有見地的解釋,幫助開發人員更好地理解和完善項目,極大地提高了軟件開發的效率和質量。
在2024年AIME 數學競賽題目測試中,o3的準確度得分為96.7%,而o1為83.3%。在Epoch AI Frontier Math測試中,o3解決了25.2%的問題,而其他模型的得分均未超過2%,展現了其在數學推理和處理高度復雜抽象問題方面的巨大潛力。
其中o3-mini作為更經濟高效的版本,預計將于明年1月底發布,其在成本和延遲方面比o1-mini更低,有望進一步推動人工智能技術的普及和應用。
可以看出,OpenAI此次發布的o3模型系列,擁有強大性能和復雜任務處理能力,作為行業標桿,o3模型的發布將進一步激發國內對AI算力的需求,推動國內算力市場規模的持續擴大。