文|動脈網
千禧年后的第二個十年,移動醫療、人工智能等前沿技術的發展喚起醫療數據的需求。作為算法、算力、數據三要素中最常見但又最難獲取的要素,醫療數據彼時仍以碎片化、非標準化的形態分散于醫院各個系統中。為了尋找智能模型所需的養料,大量科技醫療創業公司找到三級醫院進行合作,在幫助醫院進行數據治理的同時,打造智慧化的臨床應用。
醫院科室的參與、政策對于信息化建設的強制要求,合力促使醫院圍繞互聯互通、智慧醫院等方向開啟規模化建設。不少醫院開始打造醫院大數據中心、科研級大數據平臺,完成了醫療大數據基礎設施的構造,也與企業合作開發了不少智慧化的應用。
但在2019年中美貿易爭端開啟后,包含個人私密信息醫療數據成為關注重點之一。由于對此類數據進行治理、集成、應用存在一定泄露風險,醫院與企業的合作目的開始轉變。
為避免政策風險帶來的不確定性,不少醫院期望大數據及其研究結果以醫院范圍為界限展開,使得醫療大數據的研究重心轉向醫院科研需求。此趨勢下,醫療大數據產業轉化一定程度減少,醫療大數據行業發展整體放慢。
不過,政治因素并非鉗制醫療大數據發展的唯一因素,更需關注的是該類建設投資回報及參與度問題。
對于絕大多數而言醫院而言,院內外規范化的IT建設是一項難以計量回報的投資,在缺乏合適的工具估算大數據建設的產出時,醫院對于相關投資仍然持有保守態度。
此外,要讓該項建設發揮價值,醫院動用資金支持僅是一部分,更重要的是醫院深入了解醫療大數據建設內容,將系統與業務有效融合,才能構造行之有效的大數據體系。
從目前來看,院內已存在各類標準推動醫療數據的互通互認、治理應用,但還需完整做好每一類場景全流程數據的收集、清洗、歸納、存儲都一系列步驟,形成多模態、跨流程、可服務于應用的大數據,真正將醫療數據沉淀下來。但就目前而言,醫院缺乏積極性,去實踐全流程、高參與度的數據治理。
將數據的“生產要素”屬性應用起來或是上述種種問題的解決之道。畢竟,只有將醫療大數據的被動應用轉變為主動管理,才談得上用好醫療大數據,才有幾乎觸及數據的“流通”。
挖掘數據的“生產要素”價值:政策技術雙重助力
自2020年4月,中共中央、國務院印發《關于構建更加完善的要素市場化配置體制機制的意見》,將“數據”列為勞動力、土地、資本等之外的第五大生產要素后,幾乎每隔一段時間都會新增大數據的利好政策,推動這一行業的發展。
具體而言,2021年11月,《“十四五”大數據產業發展規劃》提出了一個精確的總體目標,要求“到2025年我國大數據產業測算規模突破3萬億元,年均復合增長率保持25%左右,創新力強、附加值高、自主可控的現代化大數據產業體系基本形成。”
2022年12月,《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》(后簡稱:數據二十條)對外發布則以構建基礎制度為目標,從數據產權、流通交易、收益分配、安全治理等四個方面,對制定數據基礎制度進行了全面部署,最終構建公平與效率相統一的數據要素按貢獻參與分配的制度。
2023年3月,國家數據局組建完畢,中央網絡安全和信息化委員會辦公室、國家發展和改革委員會共同管理,兩大機構將在后續協調推進數據基礎制度建設,統籌數據資源整合共享和開發利用,統籌推進數字中國、數字經濟、數字社會規劃和建設等。
圖片來源:蛋殼研究院
技術方面的迭代同樣推動人們重新審視數據這一生產要素的價值。2022年末,大語言模型(LLM)ChatGPT的火熱帶動人們重新審視人工智能的價值,并聚焦于背后支撐應用的技術生成式AI(Generative AI)。2023年開始,不少醫療IT公司、醫療AI公司、互聯網醫療公司均已開發出自己的大語言模型,并嘗試在醫院場景之中開發各項新式AI應用。
拆解這一新興人工智能仍是算法、算力、數據、知識四要素,但對于國內企業而言,算法部分均用的開源模型,算力可以根據需求購置GPU實現,知識可以通過向權威知識庫購買或達成戰略合作得到,唯獨數據需要企業與醫院達成合作,在脫敏、不出院的情況下訓練模型。
政策與技術雙向驅動,醫療大數據產業再度火熱。如今,更多醫院開始參與大數據基礎及應用建設,大企業們也嗅到風向,廣泛參與其中,為產業注入新的活力。
新一代醫院數據中心,拉開千億市場序幕
要將數據有效的利用起來,第一步總是收集數據。伴隨信息技術和網絡技術的跨越式發展,現代醫院的運營特征表現為醫療業務的智能化與應用部署的敏捷化,使得醫院業務產生的信息朝著復雜化、專業化、海量化的方向發展,并對各系統之間的互聯互通提出更高層級的要求。
此趨勢下,圍繞網絡帶寬、服務器性能、交換機處理能力等設備運行特征建設數據中心機房的思路無法應對新型數據結構下涌現的數據安全保障、線上業務支撐、數據資產管理等需求,亟需引入新的IT架構來應對新的業務對計算資源、存儲資源、網絡資源的新要求。
因此,部分醫院開始轉變信息化建設思路,借助云技術打造新一代醫院數據中心,綜合利用各類數據服務臨床、決策和科研過程,提高醫院管理的科學化、規范化、精細化水平。
新一代醫院數據中心架構(數據來源:蛋殼研究院、《新一代醫院數據中心建設指導》)
傳統大數據中心分為兩類形式。一類是以業務支撐為主、整合電子病歷的臨床數據中心(CDR),其作用是支撐日常的醫療活動,收集與呈現醫療過程中的數據,繪制常規報表統計等。另一類以管理和科研為主的大數據中心,其作用是面向臨床研究、醫院管理與智能產品開發,滿足科研、管理活動中的數據批量處理的挖掘與分析需求。
目前國內大部分全院級CDR完成了醫院各業務數據的物理匯聚,但數據質量仍處于原始狀態,對數據的深層架構與邏輯關系尚未進行梳理,針對現有CDR開展臨床相關的數據分析挖掘仍具有極大困難。
此外,由于不同科研數據庫一般采用自定義的數據模型,在建立多中心數據池、數據共享或數據合并時需要花費大量時間和資源進行數據映射和重新編碼,一旦出錯很容易導致計算機數據調用、分析過程和結果出現混亂。
要解決傳統大數據中心存在的問題,新一代大數據中心應具備以下能力。
1、滿足醫院創新業務需求。提供多種大數據應用開發工具并支撐大數據應用部署,例如利用NLP從海量電子病歷數據中提取知識,輔助臨床科研;利用深度學習從海量的醫學影像中訓練人工智能模型,輔助醫生臨床診斷。
2、滿足醫院管理發展的需求。支撐人工智能應用為醫院運營管理提供更深的洞察和更敏捷的反應;支撐實時流計算,能夠應用大數據分析技術并將分析結果實時反饋到臨床業務;支撐邊緣計算與物聯網技術實現智慧后勤。
3、滿足醫院智慧應用配置需求。支持搭建安全、有彈性、可擴展的對外服務平臺;支撐區塊鏈等創新技術解決數據共享、流通、歸集和安全問題。
4、滿足跨部門業務協同需求。支撐云網融合技術,能夠在保證內外網間數據交換的安全性的前提下以打通院內系統、外部系統及云上系統,以實現醫院業務的連續性。
5、滿足數據治理需求。可提供的全局數據服務需要覆蓋數據標準管理、基礎數據管理、數據采集、數據匯聚、數據深度加工、數據資產管理、數據質量管理、數據安全管理等對數據的全生命周期治理服務。
6、滿足數據服務需求。支撐醫院內部實現系統互聯互通和數據對接共享的需要;醫院提升海量數據資源質量的需要,數據驅動醫院進行科學決策的需要,面對數據安全風險的需要。
當然,除了建設新一代醫院數據中心外,醫院也需補全影像數據中心、臨床科研數據庫等基礎設施的建設,進一步做好數據的治理歸納,已在后續的應用之中更好地發揮價值。
大語言模型,數據治理的新動力?
盡管NLP的發展有力推進了智慧醫院的建設,但落在具體場景中,如自動書寫病案、智能問診、智能隨訪等,該技術仍然沒有脫離關鍵詞映射數據庫的邏輯,沒有能夠真正做到智慧智能。
大語言模型(LLM)的出現能夠一定程度解決現有技術面臨的智能程度不夠問題。在分析文本類信息時,LLM不僅能夠從大量給定信息中找到任務需要的關鍵項,還能對未知信息進行預設,綜合上下文做出推理。
相較于千億級參數的通用大模型,醫療中文本類大模型的參數可控制于100萬以內,包含文本與多模態影像的大模型參數可控制于500萬內,因而非頭部互聯網公司也能參與醫療LLM的建設。
醫療大模型企業產業圖譜(截至2023年9月20日,數據來源:蛋殼研究院)
不過,從概念到落地,現階段的醫療LLM仍需解決兩個問題。
一是部署。當企業將大模型部署至醫院時,需要醫院購置相應GPU驅動模型運行。通常而言,服務一個科室的應用需要的GPU成本在數千元左右,但要負擔全院需求,醫院可能劃分百萬元級的成本購置芯片,因此,要推動LLM應用大規模落地,一方面需要推動醫院主動部署LLM運行環境,另一方面需要企業方優化模型,盡可能降低醫院在基礎設施方面付出的成本。
二是應用。目前基于LLM構建的智能應用仍然沒有脫離傳統醫療IT應用的范疇,如病案質控、智能問診等,企業需要圍繞醫院需求構造“殺手級”應用,喚起醫院購置的LLM的需求,進而實現LLM 的規模落地。
構建LLM需要的成本不菲,且需大量醫療數據,因而競爭仍存在于頭部醫療IT企業與互聯網企業間。由于LLM應用需置于醫療信息系統中,因而非醫療IT公司只能使用外掛的方式進入IT環境,操作流暢性受限,相較之下,擁有醫療信息管理系統的醫療IT公司占有優勢。同時,LLM對于醫院的架構要求嚴苛,能夠支持AI應用的智能架構將比傳統EA企業架構更好展現LLM的能力界限。
此外,現有的垂直醫療大模型幾乎都是基于臨床外的醫療數據培育而來。伴隨行業競爭的不斷加劇,臨床數據這一要素或將重新回到LLM角逐的核心位置,進一步推動數據治理的進行。
應用級醫療大數據的交易可能
那么,從“生產要素”到“資產”,醫療數據還有多遠?
與勞動力、資本等生產要素相似,醫療數據的價值體現于應用與流通過程。但無論是在數據平臺間應用流轉,還是未來他通過交易所變更歸屬主體,只要存在流動,必然會數據泄露、數據濫用等問題。因此,只有保障醫療數據流動的安全,才能保障醫療大數據產業的良性發展。
此外,一個穩定數據交易市場是保障數據流通效率的基礎所在。因而必須構建數據的需求方和數據的擁有方的有效對接機制,形成穩定的上下游的關系,并為數據所有者提供獲得專利權和著作權有國家知識產權保護等法律保護。
雖然國內已有不少大數據交易所開始運營,但數據要素流通市場整體形式仍較為單一,通過交易所掛牌數據較少,從量和質上都無法滿足數據市場的需求。相較之下,大量的場外數據交易市場活躍,但缺乏有效監管和安全保障。
醫療方面,已有不少交易所將為“醫療衛生”數據設置交易品類,但絕大部分交易所該品類下并無供應商品,僅貴州大數據交易所上架了一款“兒童構音障礙早篩語音數據”的產品,售價25萬元,僅交易兩筆。
要實現從“生產要素”到“資產”的轉變,數據交易市場必須建立以政府為主導、市場化的數據要素交易機構和服務平臺組成的體系。數據供應方進行有效的數據歸集、加工;外部機構搭建平臺、輔助標準、提供安全;交易中心提供供需對接服務,實現數據升值、數據變現;監管機構保障市場監管和質控,營造良好的流通環境。
理想狀態下的數據要素平臺閉環(數據來源:蛋殼研究院)
總的來說,我國數據要素流通市場仍處于發展的初級階段,在數據交易需求持續高漲的趨勢下,一方面需要國家主導完善數據要素服務相關制度,引導培育數據要素交易市場,另一方面也需培養更多供應商豐富數據供應體系,并加大數據交易所傳播力度,最終實現在有效市場支撐下的數據供需匹配,讓各類數據要素高效安全地流通起來。