文 | 動脈網
從2024年眾多新品面世的熱鬧程度來看,大模型的激烈競爭,已經卷到了中醫藥。無論是科技巨頭、中醫創新企業,還是研究機構,甚至是地方政府,均已加入這場中醫藥大模型混戰。
貼上大模型標簽并不難,但只有中醫藥的效率和邊界真正得到質的提升后,大模型才有更重要的實際價值和意義。
長久以來,中醫藥一直是毀譽參半的對象。中醫藥與大模型是“天作之合”的好評背后,“計算機算命”的質疑聲也未斷絕。中醫藥和大模型的結合,是蹭熱度還是真需求?動脈網與多家率先開展中醫藥大模型研究的企業、研究機構聊了聊,供行業參考。
本文主要觀點如下:
1、不止于賽博中醫,藥物研發、臨床輔助診斷已有成效
2、深度學習和知識圖譜是兩條技術路徑,1+1才能大于2
3、數據是基礎,六大要素組成高質量的中醫診療語料庫
4、交叉人才、用戶接受度、知識產權等難點尚待解決
5、可用、有利、經驗證且基于真實場景的,才是中醫大模型
“中醫藥大模型,已經多到老祖宗的名字都不夠用了”
仿佛有一道閘門在這兩年被打開,大批中醫藥大模型爭先涌出。據不完全統計,2023年以來,已有數十個中醫藥相關的大模型相繼亮相。
部分中醫藥大模型
諸多行業文章對當前的中醫藥大模型進行了整理羅列,本文不再贅述。需要注意的是,當前的中醫藥大模型都有多個應用場景,上述表格僅作簡單分類,不代表該大模型僅屬于這一種應用場景或一種功能。
華為、百度、阿里、訊飛等科技大廠,基于算力算法優勢,積極聯合中醫藥在內的垂直領域開展垂直行業大模型;清華大學、中國中醫科學院等科研院所也在積極通過大模型等先進技術進行中醫藥傳承與創新。
當然,中醫藥大模型賽道肯定不乏中醫藥產業界的“土著”,如云南白藥、華潤江中、太極集團、天士力等知名中藥企業,以及大經中醫、中醫聰寶這類專研中醫AI多年的創新企業。
此外,在一些具有中醫藥產業基礎的地區,相關政府也在著力發展中醫藥大模型產業。6月,亳州市宣布和華為公司合作,正式建設中醫藥產業大模型-華佗中醫藥大模型;同期,中醫藥橫琴大模型在橫琴粵澳深度合作區正式啟動;早些時候,由天津多個政產學研醫單位聯合開發的首個面向中醫針灸領域的“天河·靈樞”、“海河·岐伯”大模型分別發布和開放內測。
大模型之多,頗有“百花齊放,百家爭鳴”之感。為了迅速將產品的技術基礎和功能特點傳遞給用戶,與用戶建立情感鏈接上的獨特辨識度,國產大模型在命名上也花費了一番功夫,從神話人物到圣賢百家,甚至是道家術語、動植物名稱,各類名字不斷出現,上演了一場大模型的“封神榜”。
中醫藥大模型也紛紛請出扁鵲、華佗、神農、黃帝、岐伯、張仲景等開宗立派的大人物,或使用本草、靈樞、岐黃、軒岐等中醫藥高頻詞,來寄托中醫藥傳承與創新的精神和使命。
命名的儀式感,一定程度反映出行業對大模型未來發展潛力的期待。但大模型歸根結底是關于生產力的革命,終究還是要回歸真實場景,解決實際問題。這是技術的最終歸宿,也是大模型良性發展的開端。
不止于賽博中醫,藥物研發、臨床輔助診斷已有成效
出現在很多醫院或體檢中心的AI中醫機器人,因如老中醫一般把脈、開方,形成反差感,而被戲稱為“賽博中醫”。這其中或有調侃成分,但也確實讓更多人開始關注到了傳統中醫藥的與時俱進。
多位采訪對象表示,現階段的中醫藥大模型應用場景主要包括新藥研發、問診導診、輔助診療和康復健康管理。
中醫聰寶董事長顧高生認為,中醫藥+大模型是傳統中醫藥服務的一場革命,面向康養機構、藥店診所等偏消費場景的大健康養生服務是中醫藥大模型目前最有希望落地的場景,當然2C場景更有市場,“這類場景語言交互需求強,和大模型在語義理解、生成交互的技術優勢是比較契合的。在輔助診療場景,則考驗大模型對多模態數據訓練、處理和圖像識別上的能力,也有非常好的應用前景,如,聰寶基于深度學習技術的國醫大師專病機器人,加入了大模型技術后,就實現了系統升級,預訓練模型減少了20%的訓練時間,處方相似度提升了10%。”
中醫聰寶研發的“聰寶素問”大模型,可對用戶提出的中醫藥問題做到“有問必答”,并通過“圍欄”技術保障養生保健應用所必須的科學與嚴謹。需要注意的是,“聰寶素問”大模型已經升級到了3.0版本,如杭州市衛健委“智能中醫分診服務”通過機器人問答來匹配“適合你的中醫”,系統上線“浙里辦”;應用場景更多元化,可根據多模數據和專家經驗數據,為醫療機構、醫生、保險公司、醫藥企業賦能。
中醫藥大模型對新藥研發、中藥產業發展的助力,也吸引了大批中藥企業的注意力。
如天士力“數智本草”大模型能夠幫助研究者完成中醫藥理論證據的挖掘和總結,也可結合相應算法快捷實現藥材與復方的篩選和優化。根據“天士力研究院”信息,天士力利用大模型中天然產物分子大模型,完成糖尿病腎病及肺纖維化的天然產物分子篩選,通過高效虛擬篩選,精準預測和優化候選分子的藥效和安全性,從而加速中藥組分新藥的發現和開發過程。
此外,由國藥太極作為智庫聯合開發的“本草智庫·中藥大模型”,收錄了覆蓋中藥全產業鏈的2000余萬條中藥研究底層核心數據,讓中藥材有了“基因身份證”,實現中藥研究底層核心數據與中藥全產業鏈關鍵環節的有機結合,對中藥材種植、質量控制、藥物研發等中藥全產業鏈關鍵環節有中藥價值。
中醫輔助診療是大多數中醫藥大模型都希望實現的能力,但各廠商的研發路徑卻不盡相同。大經中醫創始人、CEO李文友說到,中醫診療數字化和智能化一直是中醫現代化發展的重要方向之一,按照技術演進路徑,已經歷了符號邏輯、機器學習和深度學習三大階段,隨著技術的進步,模型規模的擴大,使得模型出現了“知識涌現”的能力。至此,人工智能進入“生成式AI”新時代。可以說,中醫藥大模型是部分中醫智能輔助診療系統在大模型技術作用下的迭代產物。
2023年8月,大經中醫發布的“岐黃問道”大模型便是基于其完備的知識圖譜體系生長起來的。大經中醫基于過往八年的高質量中醫數據和數智中醫計算積累,構建了完備的中醫知識圖譜體系,并將其應用在中醫CDSS系統中。而知識圖譜轉化所形成的1100多萬條中醫自然語義數據也成為了大經中醫“岐黃問道”大模型的訓練數據。
大經中醫副總經理、研發總負責人趙靜表示,知識圖譜和大模型深度學習雖然是兩條技術路徑,但可以多技術融合發展。“首先,我們要利用知識圖譜在可解釋性、可信性、知識標準化方面的優勢,增強我們大模型從預訓練到應用的全生命周期各環節,提升大模型的訓練效果和推理結果的可用性;反之亦然,基于大模型在語義理解、內容生成的技術優勢,來增強知識圖譜從構建到應用的全生命周期各環節,提升知識圖譜生成的效率和質量。”
“沒有場景,形成不了后面的數據反饋,中醫藥大模型就是一個空中樓閣。”多位受訪者表示,要把大模型放到具體場景中應用,在使用中實現優化。
數據是基礎,六大要素組成高質量中醫數據
一個行業共識是,在中醫藥大模型的訓練中,如何收集和整理高質量的中醫數據,是中醫大模型開發面臨的首要問題。在此,我們要先明確,何為高質量的中醫藥數據?
大經中醫李文友介紹,中醫知識鏈包括了人、病(疾病)、癥(癥狀、體征)、證(病理性概括)、法(治療方法)、方(醫方)、藥物六大要素。以上六類要素完整且要素之間的關系是真實的,即為高質量數據。
首先,中醫典籍、經典名方、專業文獻這類靜態數據,經過專業的辨偽存真,可作為高質量數據的重要來源之一。在前述表格中,我們也能看到這類數據是很多大模型的數據來源。
例如“海河·岐伯”大模型便是以《黃帝內經》等中醫典籍為核心,抽取四庫全書醫家類資料、傳統中醫文獻與全文中醫藥械資源的文本素材、以中醫藥領域的基本概念、知識、理論、基本、藥物、方劑為節點,以節點之間的關系為邊,形成的完整知識圖譜。天士力的“數智本草”大模型也是吸納了中藥古籍、方劑、中成藥配方,以及文獻摘要、臨床方案和中藥專利、藥典政策指南等數據,整體參數量達到了380億。
中醫藥大模型的高質量數據另一個重要來源,是每天在真實診療過程中產生的臨床數據,如脈象、舌象、經絡、穴位數據,以及中醫專家的醫案數據、診療經驗等。
但這類數據在價值挖掘上存在兩個難點,一是臨床數據記錄不完整或表述不一,二是一些臨床數據沉淀在各類醫療機構、名老中醫工作室中,隱秘性較強。
具體來看,中醫類電子病歷系統,除采集西醫規范中的內容外,還需要記錄患者的脈診、舌診、面診等諸多內容。但中醫電子病歷模板目前尚無全國統一模板,標準不一,以及中醫生診療記錄習慣不同、專業術語用詞不規范等因素,都會不同程度地影響中醫病歷質量及大模型訓練質量。
此外,中醫藥學術流派林立,各有其獨特的診療方法論,中醫歷來也有“道不傳非人、法不傳六耳”的傳統。這都導致中醫公開數據的質量普遍較低,高質量數據則非常私密。
在數據收集部分,中醫聰寶通過兩條路徑來收集中醫臨床數據,一方面,中醫聰寶基于可規模化、可復制的中醫智能醫共體/城市中醫大腦,匯聚了全國18個省市的超5000家醫療機構,每天系統中產生的“活數據”都可經脫敏后使用;另一方面,中醫聰寶自主研發智能中醫傳承創新平臺,幫助全國不同流派的名老中醫進行經驗落地。
數據質量的好壞直接關系到模型表現的優劣。在數據收集后,開發單位還要設計數據清洗和預處理策略和規則,采用文本處理和強化學習等技術,進行自動數據預處理,同時結合人工審查,剔除錯誤和不準確的數據,實現人機協同的大規模中醫診療預料準備,建立高質量的中醫診療語料庫。比如大經中醫就花費了八年時間,打造了全國極少數的中醫癥狀/體征的術語規范化詞典。
在大經中醫的岐黃問道大模型中,中醫專家還會參與大模型的調整反饋工作,讓大模型增加對中醫知識和中醫思維的理解,確保中醫大模型回答的準確性和一致性。大模型的“基礎能力”疊加上中醫的“行業能力”后,中醫大模型就具備了中醫垂直領域的提煉、分類、模仿、推測、識別等能力,并通過與中醫行業多種業務場景結合,成為可落地、可使用的中醫大模型。
經觀察,現有中醫大模型的數據體量最高為百億級,雖然和通用大模型動輒以兆計算的數據規模相比,前者規模不大,但這些數據皆是經過清洗的高質量數據,其一條高質量數據的價值或比上百條互聯網泛內容的數據價值要高得多。
交叉人才、用戶接受度、知識產權等難點尚待解決
中醫藥大模型,除了需要源源不斷供給的高質量中醫藥數據,還需要了解行業Know-how,即對中醫藥產業擁有特有的知識,對理解力要求也更高。
大經中醫李文友表示,中醫藥大模型更多的是對古老中醫智慧的數智化傳承,在研發過程中要注意中醫思維邏輯的一致性和合理性、個性化治療方案的精準度和有效性,以及大模型需要具備持續學習和自我迭代的能力,來適應不斷變化的醫學知識和臨床需求。同時,在研發團隊建設方面,還要注重研發團隊的多元化和跨學科融合,以促進大模型的創新和發展。
除了找到真實應用場景和大量高質量數據外,北京大學重慶大數據研究院智慧中西醫研究中心副主任、智醫存內CEO黃新霆認為,用戶接受度也是一個需要值得注意的維度,“提高醫生、患者的接受度,不僅要有好的診療效果,而且不能給用戶帶來使用上的負擔。”
中醫聰寶顧高生提到,當前中國在算法算力被“卡脖子”、運營成本高昂、收益分配等問題。顧高生提到,中醫素有門派之分,如何對其進行合規合法合理的產業化,還需要完善知識產權相關的政策措施。
此外,受訪者們還提到了兼具中醫知識底蘊和AI技術能力的交叉人才培養、監管部門數據權屬界定等問題。
可使用、對用戶有利、經過驗證且基于真實應用場景的,才是中醫大模型
最后,讓我們直面中醫和大模型結合過程遇到的質疑。
智醫存內黃新霆表示,當前行業缺乏對中醫藥大模型的標準界定,“目前國內發布的大模型很多,但要符合中醫藥大模型的特點卻很難。可使用、對用戶有利、經過驗證,且基于真實應用場景,我認為是中醫大模型需要具備的幾個重要特點。”
中醫聰寶顧高生認為,“療效好”是中醫大模型的最終評價標準。同時,基于大模型的中醫信息化系統,可以和患者產生更高效率更多維度的交互,這也是新質生產力的表現。
在大經中醫李文友看來,中醫和人工智能有很大的同質性。中醫這門學科存在很多的爭論,其原因在于很多對中醫不了解的人覺得中醫太模糊、無法確定。但其實,如果我們將中醫理解成一個“黑箱”系統,輸入患者的癥狀和體征,得到一個有效的方劑,就會發現這一過程和AI系統的輸入數據、輸出結果類似。
大經中醫趙靜補充到,中醫是一門歷史悠久、富含哲理的醫學體系。核心在于辨證論治、因人而異的治療原則。中醫這種高度個性化和綜合性的診療思路,和大模型技術在處理復雜關聯性、模式識別和深度學習的能力是相輔相成的。
總的來說,中醫拒絕不了大模型,這也是時代發展的必然趨勢。大模型以其強大的數據處理和分析能力,為中醫傳承與創新注入了新的活力,然而我們也要清醒認識到,大模型只是工具,中醫的望聞問切、整體觀念和辨證論治等獨特觀念,依然是中醫藥的靈魂所在。