簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

OpenAI推出GPT-4,SAT數學超過89%人類考生,法律考試超過90%考生

掃一掃下載界面新聞APP

OpenAI推出GPT-4,SAT數學超過89%人類考生,法律考試超過90%考生

GPT-4 在其他各種考試中也表現出色。

界面新聞|范劍磊

文|Edu指南

3月15日 OpenAI 周二發布多模態大語言模型GPT-4,該模型是OpenAI 在調用和響應深度學習模型制作方面的最新里程碑,并且在重要考試中勝過其大多數人類考生。

根據 OpenAI 的描述,該模型展示了“在各種專業和學術領域對標人類水平的表現”。GPT-4 在模擬律師考試中獲得了前10%的成績,而其前身 GPT-3.5(ChatGPT 的基礎)得分排位在后 10% 左右。

GPT-4 在其他各種考試中也表現出色,例如美國高校入學考試 SAT 數學考試,其獲得了800 分中的 700 分成績。然而,它暫時并不具備所有學科能力,例如在AP英語語言和作文中僅獲得 2 分。

需要考慮的一件事:OpenAI 的 GPT 系列本質上是一個反流引擎系列,利用它訓練的材料并重新組裝它來解決用戶的查詢。有時是對的,有時是錯的。它可以回憶考試的細節——而人類用戶可能很難對所有細節都記得清清楚楚,它的回復可能更像是對人類必須參加的各類考試的評論。

OpenAI 首席執行官山姆奧特曼Sam Altman在談到 GPT-4 時承認:“它仍然存在缺陷,仍然有限,而且在第一次使用時可能讓人印象深刻,但當人們花更多時間使用后可能做不到這個程度(即多輪對話查詢后得到的回應可能出現缺陷)。”

GPT-4 是一個大型多模態模型,它支持通過文本和圖像輸入查詢,并以文本形式返回答案。當前開發者可以通過列入候補名單的 GPT-4 API 等待使用,而個人用戶通過 ChatGPT Plus 訂閱使用。當前基于圖像的輸入仍在完善中。

盡管增加了圖像輸入機制,但 OpenAI 并未公開或提供對其模型制作的相關信息。這家備受關注的公司選擇不公布有關其規模、訓練方式以及流程中包含哪些數據的詳細信息。

“鑒于競爭格局和 GPT-4 等大型模型的安全影響,本報告不包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的更多詳細信息,”該公司在其技術論文中表示。

在YouTube 上的直播中,OpenAI 總裁兼聯合創始人 Greg Brockman 通過要求各模型用一句話概括OpenAI GPT-4博客文章,每個詞語都以字母“G”開頭,以此證明GPT-4和GPT-3.5之間的區別。

GPT-3.5 根本就沒有嘗試回應。GPT 4 返回“GPT-4 產生了突破性的、巨大的收益,極大地激發了廣義的 AI 目標(GPT-4 generates ground-breaking, grandiose gains, greatly galvanizing generalized AI goals)" 。” 當 Brockman 告訴模型,句子中包含“AI”不算數時,GPT-4 在另一個沒有“AI”的句子中修改了它的回應。

然后他繼續讓 GPT-4 為 Discord 機器人生成 Python 代碼。更令人印象深刻的是,他拍了一張笑話網站的手繪模型照片,將圖像發送到 Discord,關聯的 GPT-4 模型以 HTML 和 JavaScript 代碼響應,實現了模型網站。

最后,Brockman 設置 GPT-4 來分析 16 頁美國稅法,以返回具有特定財務狀況的夫婦 Alice 和 Bob 的標準扣除額。OpenAI 的模型給出了正確答案,并解釋了所涉及的計算。

除了更好的推理,從其改進的測試分數中可以明顯看出,GPT-4 提高了協作性(按照指示迭代以改進以前的輸出),能夠更好地處理大量文本(分析或輸出大約 25,000 個單詞的中篇小說) ,以及接受基于圖像的輸入(用于對象識別,盡管該功能尚未公開)。

更重要的是,根據 OpenAI 的說法,GPT-4 應該比其更早版本更不容易犯錯。

“我們花了六個月的時間使用我們的對抗性測試程序和 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性、可控性和拒絕超出安全范圍方面取得了有史以來最好的結果(盡管遠非完美) ”,OpenAI表示。

人們可能已經從微軟 Bing 問答功能首次亮相時就熟悉過這種“遠非完美”的安全級別,事實證明它使用了 GPT-4作為其 Prometheus 模型的基礎。

OpenAI 承認 GPT-4 像它早前版本一樣會出現“扭曲事實并犯推理錯誤”,但該公司稱新模型降低了犯錯程度。

GPT-4 相對于以前的模型顯著減少了事實歪曲

“雖然仍然是一個真正的問題,但 GPT-4相對于以前模型更少出現事實歪曲的表現(這些模型本身在每次迭代中都在改進),”該公司解釋說。“在我們內部的對抗性真實性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高 40%。”

GPT-4 的定價是每 1000個提示token 0.03 美元和每 1000個完成token 0.06 美元,其中一個token大約是四個字符。還有一個默認速率限制為每分鐘 40,000 個token和每分鐘 200 個請求。

此外,OpenAI 開源了Evals,這是一個用于評估和校對測試機器學習模型(包括它自己的模型)的程序。

盡管人工智能風險的擔憂一直都在,但企業急于將人工智能模型推向市場。在 GPT-4 到來的同一天,由前 OpenAI 員工組建的初創公司 Anthropic推出了自己的基于聊天的助手 Claude,用于處理和生成文本摘要、搜索、問答、編程等。

谷歌擔心在相關模型的營銷方面落后,因此推出了一個名為PaLM 的 API,用于與各種大型語言模型和一個名為 MakerSuite 的原型環境進行交互。

幾周前,Facebook 推出了LLaMA 大型語言模型,斯坦福大學的研究人員現已將其轉變為Alpaca 模型,未來或將有更廣泛的競爭。

“還有很多工作要做,我們期待通過社區在模型之上構建、探索和貢獻的集體努力來改進這個模型,”OpenAI 表示。

參閱

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

本文為轉載內容,授權事宜請聯系原著作權人。

OpenAI

  • 發布豆包深度思考模型,火山引擎要爭奪Agent市場
  • OpenAI深夜發布最強AI模型!產業或迎爆發式增長?科創板人工智能ETF(588930)備受關注

評論

暫無評論哦,快來評價一下吧!

OpenAI推出GPT-4,SAT數學超過89%人類考生,法律考試超過90%考生

GPT-4 在其他各種考試中也表現出色。

界面新聞|范劍磊

文|Edu指南

3月15日 OpenAI 周二發布多模態大語言模型GPT-4,該模型是OpenAI 在調用和響應深度學習模型制作方面的最新里程碑,并且在重要考試中勝過其大多數人類考生。

根據 OpenAI 的描述,該模型展示了“在各種專業和學術領域對標人類水平的表現”。GPT-4 在模擬律師考試中獲得了前10%的成績,而其前身 GPT-3.5(ChatGPT 的基礎)得分排位在后 10% 左右。

GPT-4 在其他各種考試中也表現出色,例如美國高校入學考試 SAT 數學考試,其獲得了800 分中的 700 分成績。然而,它暫時并不具備所有學科能力,例如在AP英語語言和作文中僅獲得 2 分。

需要考慮的一件事:OpenAI 的 GPT 系列本質上是一個反流引擎系列,利用它訓練的材料并重新組裝它來解決用戶的查詢。有時是對的,有時是錯的。它可以回憶考試的細節——而人類用戶可能很難對所有細節都記得清清楚楚,它的回復可能更像是對人類必須參加的各類考試的評論。

OpenAI 首席執行官山姆奧特曼Sam Altman在談到 GPT-4 時承認:“它仍然存在缺陷,仍然有限,而且在第一次使用時可能讓人印象深刻,但當人們花更多時間使用后可能做不到這個程度(即多輪對話查詢后得到的回應可能出現缺陷)。”

GPT-4 是一個大型多模態模型,它支持通過文本和圖像輸入查詢,并以文本形式返回答案。當前開發者可以通過列入候補名單的 GPT-4 API 等待使用,而個人用戶通過 ChatGPT Plus 訂閱使用。當前基于圖像的輸入仍在完善中。

盡管增加了圖像輸入機制,但 OpenAI 并未公開或提供對其模型制作的相關信息。這家備受關注的公司選擇不公布有關其規模、訓練方式以及流程中包含哪些數據的詳細信息。

“鑒于競爭格局和 GPT-4 等大型模型的安全影響,本報告不包含有關架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法或類似內容的更多詳細信息,”該公司在其技術論文中表示。

在YouTube 上的直播中,OpenAI 總裁兼聯合創始人 Greg Brockman 通過要求各模型用一句話概括OpenAI GPT-4博客文章,每個詞語都以字母“G”開頭,以此證明GPT-4和GPT-3.5之間的區別。

GPT-3.5 根本就沒有嘗試回應。GPT 4 返回“GPT-4 產生了突破性的、巨大的收益,極大地激發了廣義的 AI 目標(GPT-4 generates ground-breaking, grandiose gains, greatly galvanizing generalized AI goals)" 。” 當 Brockman 告訴模型,句子中包含“AI”不算數時,GPT-4 在另一個沒有“AI”的句子中修改了它的回應。

然后他繼續讓 GPT-4 為 Discord 機器人生成 Python 代碼。更令人印象深刻的是,他拍了一張笑話網站的手繪模型照片,將圖像發送到 Discord,關聯的 GPT-4 模型以 HTML 和 JavaScript 代碼響應,實現了模型網站。

最后,Brockman 設置 GPT-4 來分析 16 頁美國稅法,以返回具有特定財務狀況的夫婦 Alice 和 Bob 的標準扣除額。OpenAI 的模型給出了正確答案,并解釋了所涉及的計算。

除了更好的推理,從其改進的測試分數中可以明顯看出,GPT-4 提高了協作性(按照指示迭代以改進以前的輸出),能夠更好地處理大量文本(分析或輸出大約 25,000 個單詞的中篇小說) ,以及接受基于圖像的輸入(用于對象識別,盡管該功能尚未公開)。

更重要的是,根據 OpenAI 的說法,GPT-4 應該比其更早版本更不容易犯錯。

“我們花了六個月的時間使用我們的對抗性測試程序和 ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性、可控性和拒絕超出安全范圍方面取得了有史以來最好的結果(盡管遠非完美) ”,OpenAI表示。

人們可能已經從微軟 Bing 問答功能首次亮相時就熟悉過這種“遠非完美”的安全級別,事實證明它使用了 GPT-4作為其 Prometheus 模型的基礎。

OpenAI 承認 GPT-4 像它早前版本一樣會出現“扭曲事實并犯推理錯誤”,但該公司稱新模型降低了犯錯程度。

GPT-4 相對于以前的模型顯著減少了事實歪曲

“雖然仍然是一個真正的問題,但 GPT-4相對于以前模型更少出現事實歪曲的表現(這些模型本身在每次迭代中都在改進),”該公司解釋說。“在我們內部的對抗性真實性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高 40%。”

GPT-4 的定價是每 1000個提示token 0.03 美元和每 1000個完成token 0.06 美元,其中一個token大約是四個字符。還有一個默認速率限制為每分鐘 40,000 個token和每分鐘 200 個請求。

此外,OpenAI 開源了Evals,這是一個用于評估和校對測試機器學習模型(包括它自己的模型)的程序。

盡管人工智能風險的擔憂一直都在,但企業急于將人工智能模型推向市場。在 GPT-4 到來的同一天,由前 OpenAI 員工組建的初創公司 Anthropic推出了自己的基于聊天的助手 Claude,用于處理和生成文本摘要、搜索、問答、編程等。

谷歌擔心在相關模型的營銷方面落后,因此推出了一個名為PaLM 的 API,用于與各種大型語言模型和一個名為 MakerSuite 的原型環境進行交互。

幾周前,Facebook 推出了LLaMA 大型語言模型,斯坦福大學的研究人員現已將其轉變為Alpaca 模型,未來或將有更廣泛的競爭。

“還有很多工作要做,我們期待通過社區在模型之上構建、探索和貢獻的集體努力來改進這個模型,”OpenAI 表示。

參閱

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 兴宁市| 都匀市| 红河县| 旌德县| 阳春市| 久治县| 马公市| 津南区| 灵寿县| 苗栗市| 油尖旺区| 永吉县| 定襄县| 彰化市| 潮安县| 阜宁县| 宜兴市| 偏关县| 灵台县| 江口县| 焦作市| 浮山县| 平昌县| 山东省| 木兰县| 耿马| 江安县| 九江县| 富裕县| 乐昌市| 晋中市| 都江堰市| 偃师市| 乌鲁木齐市| 浦东新区| 高邑县| 当涂县| 桃园县| 多伦县| 北碚区| 满城县|