當地時間4月2日,美國開放人工智能研究中心(OpenAI)宣布推出PaperBench——一個評估AI智能體復現前沿AI研究能力的基準。智能體需從零開始復現20篇ICML 2024 Spotlight和Oral論文,包括理解論文貢獻、開發代碼庫并成功執行實驗。據介紹,在PaperBench上測試多個前沿模型后發現,表現最佳的智能體Claude 3.5 Sonnet(新版)結合開源框架,平均復現得分為21.0%。最終其招募頂尖機器學習博士嘗試部分測試集,發現上述模型表現尚未超越人類基線。
OpenAI宣布推出AI Agent評測基準PaperBench
界面快報 · 來源:界面新聞
OpenAI
- DeepSeek月訪問量超ChatGPT!科創板人工智能ETF(588930)連續3個交易日獲得資金凈流入,實時成交額突破2000萬元
- 軟銀領投、OpenAI官宣400億美元最新融資,投后估值達3000億美元
評論
暫無評論哦,快來評價一下吧!
熱門排行April 04
- Prada集團首席營銷官Lorenzo Bertelli:表達者應讓自己被理解,而非受眾去費力思索
- 汽車早報|小米辟謠網傳雷軍致用戶和公眾的信;鴻蒙智行稱網傳享界S9廣深沿江高速追尾事故不實
- 汽車早報|安徽省公安廳已指導屬地公安調查“小米汽車三人死亡事故”;葡萄牙加大電動汽車補貼力度
- 馬航MH370搜尋因天氣原因暫停,預計年底再重啟
- 緬甸地震已致4名中國人遇難
- 韓國將迎關鍵一天:9萬人搶旁聽位、尹錫悅缺席彈劾案宣判
- 大眾汽車火速提價應對美25%關稅,多家車企正考慮跟進
- 特朗普終止“小額免稅”,中國跨境電商如何接招?
- 歐盟如何報復“對等關稅”?法國主張打擊美國科技巨頭
- 直通部委 | 一季度發生電動自行車火災1863起 清明假期人員流動量預計達7.6億人次