簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

下一代存儲器趨勢:存內處理(PIM),商業化迎來新進展

掃一掃下載界面新聞APP

下一代存儲器趨勢:存內處理(PIM),商業化迎來新進展

存儲逐漸成為了AI發展的瓶頸。

文|半導體產業縱橫

存儲器,包括DRAM(動態隨機存取存儲器)和NAND(閃存),一直是半導體行業的重要組成部分,存儲器市場的增長為半導體產業帶來了新的增長點,推動了半導體產業的進一步發展。特別是近年來隨著以ChatGPT為代表的生成式人工智能(AI)技術的不斷發展和普及,也推動了存儲器市場的發展,尤其是新型存儲技術,如HBM、QLC SSD等。

眾所周知,計算能力是AI時代至關重要的一環,但實際上很多人都會忽略存儲在AI生命周期中發揮的重要作用,特別是隨著生成式AI的爆火,包括圖像、視頻、音頻在內的非結構化數據都會呈現出指數級增長的態勢,也自然會激發出新的存儲需求。根據IDC的調研結果,預計到2028年,全球將產出394ZB的數據,其中AIGC領域的數據產出尤為突出,屆時,AI圖像和視頻生成將增長167倍。

在此基礎上,存儲逐漸成為了AI發展的瓶頸。近年來,存內計算被業界廣為關注,但卻始終卡在商業化上。而就在近日,三星電子和 SK 海力士正在合作標準化 LPDDR6-PIM 內存產品。該合作伙伴關系旨在加快專門用于人工智能(AI)的低功耗存儲器標準化。而這也有望推動存內計算的商業化。

01、存算一體加速AI運算

眾所周知,算法、數據和算力(芯片)是人工智能發展的三大核心要素,其中芯片是決定人工智能是否能夠最終落地的根基。隨著ChatGPT,GPT-4等大模型研究的不斷深入,模型結構日趨復雜,數據量與計算量大幅增長。與此同時,隨著摩爾定律的逐漸失效,芯片制造工藝演進相對放緩。算法發展與硬件發展之間存在矛盾,如何高效地利用復雜算法處理海量數據成為當前人工智能領域的重要挑戰。

究其原因,芯片作為人工智能的基石,正遭遇著嚴重的“馮·諾依曼架構瓶頸”。在馮·諾伊曼架構中,計算與內存是分離的,計算單元從內存中讀取數據,計算完成后再存回內存。特別是隨著人工智能等對性能要求極高的場景爆發,傳統的馮·諾依曼架構的短板開始凸顯,例如功耗墻、性能墻、內存墻的問題。同時,由于器件尺寸微縮逐漸逼近物理極限,單純通過工藝來進一步提升芯片性能的技術路徑逐漸受阻,芯片發展面臨著“工藝墻”問題。

為了解決上述問題,國內外學術界和產業界從架構、工藝、集成等多個維度展開了諸多研究,探索后摩爾時代新一代芯片技術。例如,數據流架構芯片實現流式計算,在處理AI類大規模數據時可以實現遠高于馮·諾依曼架構的吞吐率;可重構芯片技術通過軟件定義硬件電路結構,從而實現高靈活性與高能效計算;晶圓級芯片通過先進工藝技術擴展芯片面積來提高算力;三維芯片通過3D集成封裝技術,將多個芯片在垂直方向上進行堆疊來實現高帶寬與高算力;存算一體芯片則通過器件–架構–電路–工藝的協同創新,實現存儲與計算的融合一體化,從根源上突破馮·諾依曼架構瓶頸。

基于存算一體芯片的架構特點,一方面可以大幅降低數據搬運開銷,突破“存儲墻”與“功耗墻”;另一方面,基于其大規模并行運算特點,可以在相對落后的工藝節點下實現比肩先進工藝的性能,從而在一定程度上緩解工藝微縮壓力。此外,存算一體技術也可以方便地與其他技術進行結合,如可重構芯片技術、晶圓級芯片技術、三維集成技術等。因此,存算一體芯片被認為是后摩爾時代最重要的芯片技術方向之一。

存算一體有三種主流技術路徑:近存計算(PNM)、存內處理(PIM)、存內計算(CIM)。

近存計算的優勢在于減少數據移動和提高緩存效率,適合于需要大規模并行處理和優化內存帶寬的應用。存內處理的優勢在于數據密集型應用和能效優化,適合于需要快速數據處理和減少能耗的應用。存內計算的優勢在于特定領域的高并行性計算和定制硬件優化,適合于需要高度專業化和定制化解決方案的應用。

02、巨頭的存內計算布局

存算一體的概念最早可以追溯到1969年,斯坦福研究所的Kautz等人首次將存儲和邏輯整合,提出“logic-in-memory”方案。后續研究人員在芯片電路結構、計算架構與系統應用等方面開展了一系列研究。但受限于電路設計復雜度與工藝難度,后續的大部分研究本質上實現的是“近存計算”,仍然需要把數據從內存中讀取出來之后再就近進行計算。

目前業界比較典型的方案是通過3D封裝和高帶寬內存等技術來縮短存儲器和處理器之前的距離,并提高數據帶寬。目前,近存計算技術相對比較成熟,已經實現了規模化量產。以AMD、Intel、三星、海力士等企業為代表的半導體龍頭企業均已發布基于高帶寬內存技術(HBM)和2.5D/3D封裝技術的近存計算芯片。

例如,三星最新發布的HBM3 Icebolt 技術采用近存計算架構, 通過 12層10 nm級DRAM堆疊,實現了高達6.4 Gbps處理速度和高達819 GB/s的帶寬。但本質上,近存計算技術仍然是存算分離的馮·諾依曼架構。

近年來,大數據驅動應用發展迅猛,數據量呈現指數級暴增。研究者們考慮賦予內存一定的計算能力,從而減少數據移動,降低計算機系統運行能耗,實現存儲和計算融合一體化的“存內計算”架構成為了產業界的研究熱點。2021年開始,存內計算相關產品逐步落地,包括三星、海力士、TSMC在內的國際巨頭以及Mythic等公司經過技術沉淀,已經開始試產存內計算芯片。

2021年12月,阿里巴巴旗下達摩院計算技術實驗室成功研發全球首款基于DRAM的3D鍵合堆疊存算一體AI芯片,號稱在特定AI場景中,該芯片性能提升10倍以上,能效比提升高達300倍。

2021年,三星展示了基于HBM2-PIM技術的存內計算芯片,該處理器可以提供最高達1.2 TFLOPS的嵌入式計算能力,從而使內存芯片本身能夠執行通常由CPU,GPU,ASIC,或FPGA處理的工作。2022年,三星更是對AMD Instinct MI100計算卡進行了改造,加入了HBM-PIM芯片,構建了一個大型計算系統。該系統在使用訓練語言模型算法T5時,性能提高了2.5倍,功耗降低至原來的2.67分之一,充分展示了PIM技術的巨大潛力。此外,為了驗證MoE(混合專家系統)模型,三星使用96個配備了HBM-PIM的MI-100 GPU來構建HBM-PIM集群。在MoE模型中,與HBM相比,HBM-PIM GPU的性能提高了一倍,能效提高了三倍。

2023年,在Hot Chips 2023會議上,三星電子公布了HBM(高帶寬存儲器)-PIM(存內計算)和LPDDR(低功耗雙倍速率動態隨機存取存儲器)-PIM最新的的研究成果。其中,LPDDR-PIM將移動DRAM與PIM相結合,可在移動設備中直接進行數據的處理和計算。由于它是針對移動設備開發的產品,因此它的帶寬(102.4GB/s)也較低。但功耗卻節省了72%。三星重注PIM技術,力圖在AI應用中超越SK海力士。

另一個存儲大廠SK海力士也不甘落后。2022年,SK 海力士宣布,開發出了公司首款基于PIM技術的產品 – GDDR6-AiM的樣本。GDDR6-AiM是將計算功能添加到數據傳輸速度為16Gbps的GDDR6內存的產品。與傳統DRAM相比,將GDDR6-AiM 與 CPU、GPU 相結合的系統可在特定計算環境中將演算速度提高至最高16倍。在性能大幅提升的同時,采用PIM技術的GDDR6-AiM的工作電壓為1.25V,與GDDR6的1.35V相比降低明顯。此外,PIM技術的應用減少了內芯片與CPU、GPU的數據傳輸往來,從而降低了CPU及GPU的能耗,借此GDDR6-AiM成功使功耗降低80%。

此外,TSMC也展示了其在SRAM、ReRAM、PCM、STT-MRAM等多種器件上實現存內計算的探索成果。美國處理器公司Mythic推出M1076處理器,采用模擬存內計算方案,存儲介質為Flash,在40nm制程工藝下實現25TOPS的算力與3W的功耗;2022年國內知存科技推出首款量產存內計算SOC芯片WTM2101,采用模擬存算計算范式,以Flash為介質,在40nm成熟工藝下以2.6x3.2mm2極小封裝實現了50Gops的高算力,功耗低至5uA。已商用至智能可穿戴設備中2023年后摩智能推出鴻途H30芯片,采用數字存算計算范式,以SRAM為介質,實現256TOPS的算力與35W的功耗。WTM2101也是全球首顆也是實現百萬級量產商用的存內計算芯片。存內計算產業化初見成果,越來越多的存內計算產品落地。

03、PIM技術需要標準化推動

雖然各家都早已布局PIM技術,但卻始終徘徊在商業化門口,其中的重要原因之一便是各家企業根據各自的標準開發產品,導致概念和規范存在差異,行業難以采用通用標準。

三星電子和SK海力士正在合作推動LPDDR6-PIM內存的標準化。這種合作旨在加快專門用于人工智能的低功耗存儲器標準化進程。兩家公司已經確定建立聯盟,以使下一代存儲器符合這一趨勢。他們正在與聯合電子設備工程委員會(JEDEC)進行標準化工作,討論確定每項標準的具體規格。

首先,標準化可以提升兼容性和互操作性。通過標準化,不同廠商生產的PIM設備可以在同一系統中無縫協作,減少因兼容性問題導致的系統故障或性能下降。這有助于促進技術的廣泛應用和普及。

其次,標準化有助于降低成本。標準化可以減少研發成本和時間,因為不同的設備制造商可以共享和利用已有的標準,避免重復開發。此外,標準化還能促進規模經濟,降低生產成本,從而使得PIM技術更加普及和實惠

PIM芯片大規模落地的時刻尚未明確,但這一天的到來值得我們期待。技術的演進從不停止,市場的需求也在不斷變化,當各種條件成熟之際,或許就是存算一體芯片大放異彩之時。如今標準化迫在眉睫,也意味著條件即將成熟。

 
本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

下一代存儲器趨勢:存內處理(PIM),商業化迎來新進展

存儲逐漸成為了AI發展的瓶頸。

文|半導體產業縱橫

存儲器,包括DRAM(動態隨機存取存儲器)和NAND(閃存),一直是半導體行業的重要組成部分,存儲器市場的增長為半導體產業帶來了新的增長點,推動了半導體產業的進一步發展。特別是近年來隨著以ChatGPT為代表的生成式人工智能(AI)技術的不斷發展和普及,也推動了存儲器市場的發展,尤其是新型存儲技術,如HBM、QLC SSD等。

眾所周知,計算能力是AI時代至關重要的一環,但實際上很多人都會忽略存儲在AI生命周期中發揮的重要作用,特別是隨著生成式AI的爆火,包括圖像、視頻、音頻在內的非結構化數據都會呈現出指數級增長的態勢,也自然會激發出新的存儲需求。根據IDC的調研結果,預計到2028年,全球將產出394ZB的數據,其中AIGC領域的數據產出尤為突出,屆時,AI圖像和視頻生成將增長167倍。

在此基礎上,存儲逐漸成為了AI發展的瓶頸。近年來,存內計算被業界廣為關注,但卻始終卡在商業化上。而就在近日,三星電子和 SK 海力士正在合作標準化 LPDDR6-PIM 內存產品。該合作伙伴關系旨在加快專門用于人工智能(AI)的低功耗存儲器標準化。而這也有望推動存內計算的商業化。

01、存算一體加速AI運算

眾所周知,算法、數據和算力(芯片)是人工智能發展的三大核心要素,其中芯片是決定人工智能是否能夠最終落地的根基。隨著ChatGPT,GPT-4等大模型研究的不斷深入,模型結構日趨復雜,數據量與計算量大幅增長。與此同時,隨著摩爾定律的逐漸失效,芯片制造工藝演進相對放緩。算法發展與硬件發展之間存在矛盾,如何高效地利用復雜算法處理海量數據成為當前人工智能領域的重要挑戰。

究其原因,芯片作為人工智能的基石,正遭遇著嚴重的“馮·諾依曼架構瓶頸”。在馮·諾伊曼架構中,計算與內存是分離的,計算單元從內存中讀取數據,計算完成后再存回內存。特別是隨著人工智能等對性能要求極高的場景爆發,傳統的馮·諾依曼架構的短板開始凸顯,例如功耗墻、性能墻、內存墻的問題。同時,由于器件尺寸微縮逐漸逼近物理極限,單純通過工藝來進一步提升芯片性能的技術路徑逐漸受阻,芯片發展面臨著“工藝墻”問題。

為了解決上述問題,國內外學術界和產業界從架構、工藝、集成等多個維度展開了諸多研究,探索后摩爾時代新一代芯片技術。例如,數據流架構芯片實現流式計算,在處理AI類大規模數據時可以實現遠高于馮·諾依曼架構的吞吐率;可重構芯片技術通過軟件定義硬件電路結構,從而實現高靈活性與高能效計算;晶圓級芯片通過先進工藝技術擴展芯片面積來提高算力;三維芯片通過3D集成封裝技術,將多個芯片在垂直方向上進行堆疊來實現高帶寬與高算力;存算一體芯片則通過器件–架構–電路–工藝的協同創新,實現存儲與計算的融合一體化,從根源上突破馮·諾依曼架構瓶頸。

基于存算一體芯片的架構特點,一方面可以大幅降低數據搬運開銷,突破“存儲墻”與“功耗墻”;另一方面,基于其大規模并行運算特點,可以在相對落后的工藝節點下實現比肩先進工藝的性能,從而在一定程度上緩解工藝微縮壓力。此外,存算一體技術也可以方便地與其他技術進行結合,如可重構芯片技術、晶圓級芯片技術、三維集成技術等。因此,存算一體芯片被認為是后摩爾時代最重要的芯片技術方向之一。

存算一體有三種主流技術路徑:近存計算(PNM)、存內處理(PIM)、存內計算(CIM)。

近存計算的優勢在于減少數據移動和提高緩存效率,適合于需要大規模并行處理和優化內存帶寬的應用。存內處理的優勢在于數據密集型應用和能效優化,適合于需要快速數據處理和減少能耗的應用。存內計算的優勢在于特定領域的高并行性計算和定制硬件優化,適合于需要高度專業化和定制化解決方案的應用。

02、巨頭的存內計算布局

存算一體的概念最早可以追溯到1969年,斯坦福研究所的Kautz等人首次將存儲和邏輯整合,提出“logic-in-memory”方案。后續研究人員在芯片電路結構、計算架構與系統應用等方面開展了一系列研究。但受限于電路設計復雜度與工藝難度,后續的大部分研究本質上實現的是“近存計算”,仍然需要把數據從內存中讀取出來之后再就近進行計算。

目前業界比較典型的方案是通過3D封裝和高帶寬內存等技術來縮短存儲器和處理器之前的距離,并提高數據帶寬。目前,近存計算技術相對比較成熟,已經實現了規模化量產。以AMD、Intel、三星、海力士等企業為代表的半導體龍頭企業均已發布基于高帶寬內存技術(HBM)和2.5D/3D封裝技術的近存計算芯片。

例如,三星最新發布的HBM3 Icebolt 技術采用近存計算架構, 通過 12層10 nm級DRAM堆疊,實現了高達6.4 Gbps處理速度和高達819 GB/s的帶寬。但本質上,近存計算技術仍然是存算分離的馮·諾依曼架構。

近年來,大數據驅動應用發展迅猛,數據量呈現指數級暴增。研究者們考慮賦予內存一定的計算能力,從而減少數據移動,降低計算機系統運行能耗,實現存儲和計算融合一體化的“存內計算”架構成為了產業界的研究熱點。2021年開始,存內計算相關產品逐步落地,包括三星、海力士、TSMC在內的國際巨頭以及Mythic等公司經過技術沉淀,已經開始試產存內計算芯片。

2021年12月,阿里巴巴旗下達摩院計算技術實驗室成功研發全球首款基于DRAM的3D鍵合堆疊存算一體AI芯片,號稱在特定AI場景中,該芯片性能提升10倍以上,能效比提升高達300倍。

2021年,三星展示了基于HBM2-PIM技術的存內計算芯片,該處理器可以提供最高達1.2 TFLOPS的嵌入式計算能力,從而使內存芯片本身能夠執行通常由CPU,GPU,ASIC,或FPGA處理的工作。2022年,三星更是對AMD Instinct MI100計算卡進行了改造,加入了HBM-PIM芯片,構建了一個大型計算系統。該系統在使用訓練語言模型算法T5時,性能提高了2.5倍,功耗降低至原來的2.67分之一,充分展示了PIM技術的巨大潛力。此外,為了驗證MoE(混合專家系統)模型,三星使用96個配備了HBM-PIM的MI-100 GPU來構建HBM-PIM集群。在MoE模型中,與HBM相比,HBM-PIM GPU的性能提高了一倍,能效提高了三倍。

2023年,在Hot Chips 2023會議上,三星電子公布了HBM(高帶寬存儲器)-PIM(存內計算)和LPDDR(低功耗雙倍速率動態隨機存取存儲器)-PIM最新的的研究成果。其中,LPDDR-PIM將移動DRAM與PIM相結合,可在移動設備中直接進行數據的處理和計算。由于它是針對移動設備開發的產品,因此它的帶寬(102.4GB/s)也較低。但功耗卻節省了72%。三星重注PIM技術,力圖在AI應用中超越SK海力士。

另一個存儲大廠SK海力士也不甘落后。2022年,SK 海力士宣布,開發出了公司首款基于PIM技術的產品 – GDDR6-AiM的樣本。GDDR6-AiM是將計算功能添加到數據傳輸速度為16Gbps的GDDR6內存的產品。與傳統DRAM相比,將GDDR6-AiM 與 CPU、GPU 相結合的系統可在特定計算環境中將演算速度提高至最高16倍。在性能大幅提升的同時,采用PIM技術的GDDR6-AiM的工作電壓為1.25V,與GDDR6的1.35V相比降低明顯。此外,PIM技術的應用減少了內芯片與CPU、GPU的數據傳輸往來,從而降低了CPU及GPU的能耗,借此GDDR6-AiM成功使功耗降低80%。

此外,TSMC也展示了其在SRAM、ReRAM、PCM、STT-MRAM等多種器件上實現存內計算的探索成果。美國處理器公司Mythic推出M1076處理器,采用模擬存內計算方案,存儲介質為Flash,在40nm制程工藝下實現25TOPS的算力與3W的功耗;2022年國內知存科技推出首款量產存內計算SOC芯片WTM2101,采用模擬存算計算范式,以Flash為介質,在40nm成熟工藝下以2.6x3.2mm2極小封裝實現了50Gops的高算力,功耗低至5uA。已商用至智能可穿戴設備中2023年后摩智能推出鴻途H30芯片,采用數字存算計算范式,以SRAM為介質,實現256TOPS的算力與35W的功耗。WTM2101也是全球首顆也是實現百萬級量產商用的存內計算芯片。存內計算產業化初見成果,越來越多的存內計算產品落地。

03、PIM技術需要標準化推動

雖然各家都早已布局PIM技術,但卻始終徘徊在商業化門口,其中的重要原因之一便是各家企業根據各自的標準開發產品,導致概念和規范存在差異,行業難以采用通用標準。

三星電子和SK海力士正在合作推動LPDDR6-PIM內存的標準化。這種合作旨在加快專門用于人工智能的低功耗存儲器標準化進程。兩家公司已經確定建立聯盟,以使下一代存儲器符合這一趨勢。他們正在與聯合電子設備工程委員會(JEDEC)進行標準化工作,討論確定每項標準的具體規格。

首先,標準化可以提升兼容性和互操作性。通過標準化,不同廠商生產的PIM設備可以在同一系統中無縫協作,減少因兼容性問題導致的系統故障或性能下降。這有助于促進技術的廣泛應用和普及。

其次,標準化有助于降低成本。標準化可以減少研發成本和時間,因為不同的設備制造商可以共享和利用已有的標準,避免重復開發。此外,標準化還能促進規模經濟,降低生產成本,從而使得PIM技術更加普及和實惠

PIM芯片大規模落地的時刻尚未明確,但這一天的到來值得我們期待。技術的演進從不停止,市場的需求也在不斷變化,當各種條件成熟之際,或許就是存算一體芯片大放異彩之時。如今標準化迫在眉睫,也意味著條件即將成熟。

 
本文為轉載內容,授權事宜請聯系原著作權人。
主站蜘蛛池模板: 巴林左旗| 金湖县| 宁津县| 昆明市| 米易县| 顺昌县| 邹城市| 屯昌县| 楚雄市| 通渭县| 乳源| 右玉县| 汾阳市| 石家庄市| 城固县| 禄丰县| 浠水县| 泉州市| 梅河口市| 舒城县| 沁水县| 普安县| 扶风县| 洛扎县| 宝兴县| 江津市| 永春县| 西乌| 宣威市| 宿迁市| 柳林县| 德格县| 东乌珠穆沁旗| 涟水县| 开鲁县| 蓝田县| 海盐县| 成安县| 邛崃市| 汪清县| 封开县|