文|Edu指南
3月15日 OpenAI 周二發布多模態大語言模型GPT-4,該模型是OpenAI 在調用和響應深度學習模型制作方面的最新里程碑,并且在重要考試中勝過其大多數人類考生。
根據 OpenAI 的描述,該模型展示了“在各種專業和學術領域對標人類水平的表現”。GPT-4 在模擬律師考試中獲得了前10%的成績,而其前身 GPT-3.5(ChatGPT 的基礎)得分排位在后 10% 左右。
GPT-4 在其他各種考試中也表現出色,例如美國高校入學考試 SAT 數學考試,其獲得了800 分中的 700 分成績。然而,它暫時并不具備所有學科能力,例如在AP英語語言和作文中僅獲得 2 分。
需要考慮的一件事:OpenAI 的 GPT 系列本質上是一個反流引擎系列,利用它訓練的材料并重新組裝它來解決用戶的查詢。有時是對的,有時是錯的。它可以回憶考試的細節——而人類用戶可能很難對所有細節都記得清清楚楚,它的回復可能更像是對人類必須參加的各類考試的評論。
OpenAI 首席執行官山姆奧特曼Sam Altman在談到 GPT-4 時承認:“它仍然存在缺陷,仍然有限,而且在第一次使用時可能讓人印象深刻,但當人們花更多時間使用后可能做不到這個程度(即多輪對話查詢后得到的回應可能出現缺陷)。”
GPT-4 是一個大型多模態模型,它支持通過文本和圖像輸入查詢,并以文本形式返回答案。當前開發者可以通過列入候補名單的 GPT-4 API 等待使用,而個人用戶通過 ChatGPT Plus 訂閱使用。當前基于圖像的輸入仍在完善中。
盡管增加了圖像輸入機制,但 OpenAI 并未公開或提供對其模型制作的相關信息。這家備受關注的公司選擇不公布有關其規模、訓練方式以及流程中包含哪些數據的詳細信息。
“鑒于競爭格局和 GPT-4 等大型模型的安全影響,本報告不包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的更多詳細信息,”該公司在其技術論文中表示。
在YouTube 上的直播中,OpenAI 總裁兼聯合創始人 Greg Brockman 通過要求各模型用一句話概括OpenAI GPT-4博客文章,每個詞語都以字母“G”開頭,以此證明GPT-4和GPT-3.5之間的區別。
GPT-3.5 根本就沒有嘗試回應。GPT 4 返回“GPT-4 產生了突破性的、巨大的收益,極大地激發了廣義的 AI 目標(GPT-4 generates ground-breaking, grandiose gains, greatly galvanizing generalized AI goals)" 。” 當 Brockman 告訴模型,句子中包含“AI”不算數時,GPT-4 在另一個沒有“AI”的句子中修改了它的回應。
然后他繼續讓 GPT-4 為 Discord 機器人生成 Python 代碼。更令人印象深刻的是,他拍了一張笑話網站的手繪模型照片,將圖像發送到 Discord,關聯的 GPT-4 模型以 HTML 和 JavaScript 代碼響應,實現了模型網站。
最后,Brockman 設置 GPT-4 來分析 16 頁美國稅法,以返回具有特定財務狀況的夫婦 Alice 和 Bob 的標準扣除額。OpenAI 的模型給出了正確答案,并解釋了所涉及的計算。
除了更好的推理,從其改進的測試分數中可以明顯看出,GPT-4 提高了協作性(按照指示迭代以改進以前的輸出),能夠更好地處理大量文本(分析或輸出大約 25,000 個單詞的中篇小說) ,以及接受基于圖像的輸入(用于對象識別,盡管該功能尚未公開)。
更重要的是,根據 OpenAI 的說法,GPT-4 應該比其更早版本更不容易犯錯。
“我們花了六個月的時間使用我們的對抗性測試程序和 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性、可控性和拒絕超出安全范圍方面取得了有史以來最好的結果(盡管遠非完美) ”,OpenAI表示。
人們可能已經從微軟 Bing 問答功能首次亮相時就熟悉過這種“遠非完美”的安全級別,事實證明它使用了 GPT-4作為其 Prometheus 模型的基礎。
OpenAI 承認 GPT-4 像它早前版本一樣會出現“扭曲事實并犯推理錯誤”,但該公司稱新模型降低了犯錯程度。
GPT-4 相對于以前的模型顯著減少了事實歪曲
“雖然仍然是一個真正的問題,但 GPT-4相對于以前模型更少出現事實歪曲的表現(這些模型本身在每次迭代中都在改進),”該公司解釋說。“在我們內部的對抗性真實性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高 40%。”
GPT-4 的定價是每 1000個提示token 0.03 美元和每 1000個完成token 0.06 美元,其中一個token大約是四個字符。還有一個默認速率限制為每分鐘 40,000 個token和每分鐘 200 個請求。
此外,OpenAI 開源了Evals,這是一個用于評估和校對測試機器學習模型(包括它自己的模型)的程序。
盡管人工智能風險的擔憂一直都在,但企業急于將人工智能模型推向市場。在 GPT-4 到來的同一天,由前 OpenAI 員工組建的初創公司 Anthropic推出了自己的基于聊天的助手 Claude,用于處理和生成文本摘要、搜索、問答、編程等。
谷歌擔心在相關模型的營銷方面落后,因此推出了一個名為PaLM 的 API,用于與各種大型語言模型和一個名為 MakerSuite 的原型環境進行交互。
幾周前,Facebook 推出了LLaMA 大型語言模型,斯坦福大學的研究人員現已將其轉變為Alpaca 模型,未來或將有更廣泛的競爭。
“還有很多工作要做,我們期待通過社區在模型之上構建、探索和貢獻的集體努力來改進這個模型,”OpenAI 表示。
參閱
https://openai.com/research/gpt-4
https://www.theregister.com/2023/03/14/openai_gpt4_ai/