文 | 動脈網
沒有什么技術能像大語言模型一般,能在破圈之后如此迅速地接入各行各業。但未等到他們找到合適的商業路徑,行業已圍繞參數、成本、性能等要素開始內卷,深陷算力“堆積”。
今年1月,橫空出世的DeepSeek-R1改寫了過去一年由GPT們主導的游戲規則。創新的模型架構與訓練優化策略之下,DeepSeek向業界證實:有限規模的參數也能創造高性能的通用模型。
除了打破“算力壟斷”,DeepSeek參數高效微調(PEFT)、混合專家架構(MoE)等創新設計還成功降低了大模型的“入場門檻”。
低成本疊加“國產”標簽,國內大量頂級醫院,前沿醫療科技企業迅速展開部署,甚至是醫保局都在高調宣布接入DeepSeek,將大模型再度推至風口浪尖。
究竟跟風還是新的路徑?動脈網近日與已接入DeepSeek的科技醫療企業們進行了對話,逐一回答“DeepSeek在醫療領域的真實價值”“DeepSeek在醫院的應用方式”及“基于DeepSeek-R1的醫療場景應用開發現狀”三個問題。
低成本算力需求下,基層醫療成為新落地可能?
遠在DeepSeek-R1誕生之前,國內已有醫院部署通用模型,主動開啟了生成式AI的探索之旅。
由于臨床相關的數據不能脫離院區,當時的大模型只能通過封裝入院。這里問題在于:大部分醫院擁有的資源環境基本是面向通用計算的CPU,少有醫院有面向圖形處理和并行計算的GPU資源,很難提供充足算力。
算力的困境緊扣成本。眾多醫院中,佼佼者有能力花大價錢上全套的GPU,將通用模型完整搬入院內,服務全院系統;少部分能對模型進行精簡,使其特定的科室受益。
當絕大部分醫療機構不能自由配置大模型、開發相關臨床應用時,醫療大模型的從業公司也不過好過。缺乏充足的買方,他們很難在大模型方向上進行持續的高額研發投入。
DeepSeek-R1的出現打破了這一現狀。借助創新架構與開源代碼,它從根本上解決了通用模型的部署、運行產生的成本問題。
福鑫科創CEO吳笛表示:由于DeepSeek-R1采用的是混合專家架構(MoE),每次推理時僅激活約370億參數(總參數6710億),避免了傳統稠密模型必須全參數激活的高昂計算成本,理論上能在節省40%以上算力消耗的前提下保持推理的精度。若企業需要擴展模型規模,也無需線性增加算力投入即可補全模型能力。
DeepSeek、GPT o1 、GPT o3 mini能力對比
(輸入價格僅統計Cache Hit下標準時段的價格,數據來源:動脈網、深透智醫)
更為重要的是,DeepSeek擁有非常友善的MIT license協議,允許用戶本地化部署,自由使用、復制、修改和分發軟件,也鼓勵了企業在產品中采用和集成,鼓勵合作和創新,從而推動整個生態系統的發展。
這種開放的生態系統使得普通醫療機構能夠根據自身的業務需求,開發出更符合實際應用場景的醫療大模型。若只是部署一些蒸餾得到的100B參數量以內的小模型,不少基層醫療手中的集成顯卡都能帶動模型順利運行。
“在我們同區域型醫療機構的溝通中發現,他們的訴求其實更加明確,希望能將DeepSeek的推理能力用在基層,因為那里最缺能夠處理復雜能力的醫生?!?/p>
總的來說,DeepSeek-R1的價值在于降低了大模型應用的門檻,開辟了新的落地市場,同時加速了垂直應用的誕生。這個過程中,這一新興模型給予了醫療大模型走向商業化的可能。
醫療機構如何用好DeepSeek?
當計劃部署大模型的醫院及從事大模型開發的醫生個體日趨增多,醫療IT產業中處于上游位置的眾多企業也隨之活躍了起來。
據衛寧健康CTO趙大平介紹,DeepSeek-R1出現后,國內的主流部署模式可簡單劃分為三種。首先他們可以快速從云端、源端下載模型,快速完成部署,主要適用于已有顯卡設備的大型醫院。若醫院沒有運算需要的顯卡,他們可以去云端租用設備。同時,也有部分民營醫院選擇訂閱的方式實現部署,主要服務于特定科室。
此外,風口之下亦催生了不少制造大模型一體機的企業。但在趙大平看來,醫院要想實現大模型的有效運行,首先要將其與醫院信息系統本身進行融合,其次信息系統本身要盡量使用支持AI運行的智能架構。
畢竟,大模型一體機雖然能夠通過外掛的方式實現一部分交互能力,但很難與醫院已有的幾十套系統進行充分數據交換。除非能夠實現“模型+應用”的一體式解決方案,否則很難滿足醫院多元的需求。
那么,理想狀態下醫院應該如何部署大模型?趙大平認為:伴隨大模型的不斷深入,未來醫院的配置方式一定是多元混合的?!搬t院可能會配置一個大模型及一些服務細分科室的小模型。大模型用于需要推理、思考、診斷的大型交互場景,小模型用于強調規則、強調判斷、矯正以及簡單生成的場景,在滿足需求的同時實現最經濟最高效的應用。”
“進一步延伸,醫院中存在很多移動化的場景,如果我們能將手機上的小模型建立起來,那么現有醫療流程中的大量工作可以向移動端轉移,極大提升醫療效率?!?/p>
再談醫生及其他試圖主動開發臨床應用的個體。
DeepSeek爆火的同時,各式教程順勢而出,鋪天蓋地,鼓勵用戶獨立配置、訓練模型。但在醫療領域,DeepSeek的出現雖然降低了模型訓練的各項門檻,但本地化訓練私有模型需要經過數據準備與處理、模型選擇與配置、模型訓練、模型評估與調優、模型部署與集成五個步驟,仍需要研究人員具備一定的技術功底。
“現在的很多大模型的應用開發程度不高,很多醫院的研究機構在買了卡配置了模型之后都想立馬搭建一個特定場景的應用,但在實際操作時會發現不具備相應的開發能力。要實現醫生個體的廣泛使用,并以此取得研究成果,我們還需等待服務方對UI進行升級,進一步簡化大模型應用的開發路徑?!?/p>
換句話說,企業與醫療機構共同進行垂直模型開發,仍是醫療AI的主旋律。
DeepSeek下,醫療場景應用開啟革新?
DeepSeek-R1雖在醫療領域實現了大規模部署,但上線時間較短,在應用場景的開拓方面,它暫未突破大模型已有應用范疇,更加聚焦于部署訓練成本的降低與文本處理效率的提升。最初階段中,著力于互聯網醫療的一批大模型企業最先受益。
譬如,騰訊健康通過騰訊云接入DeepSeek系列,再結合自研的混元大模型,迅速完成了對智能導診、預問診、健康問答、影像報告解讀及質控等醫療服務的迭代,并加速幫助全國超過1000家醫院快速升級智能應用。
目前,騰訊的“深圳醫?!睉闷渲悄芸头汛钶d了最新AI大模型。用戶可以自由地選擇擅長推理的DeepSeek,或者可以多維度理解問題的騰訊混元,無論是咨詢"生育津貼怎么算"這類復雜政策,還是詢問"門診特定病種如何認定"等專業問題,融合后的大模型都能結合具體參保情況,給出精準到位且具備“Think”的解答,在回復用戶的同時幫助用戶理解問題。
當DeepSeek積累的醫療數據日益增多,它在醫院場景中的應用優勢也開始逐步顯露。得益于在提示詞方面的要求顯著降低與思維鏈技術賦能,DeepSeek有效提升了AI在臨床診斷中的透明度與可解釋性,并能幫助醫生更為高效地與模型溝通。
舉個例子,醫生過去使用大模型生成手術方案,需要完整清晰地寫明過往病史、手術情況等信息,而使用DeepSeek時只用輸入一些關鍵信息,模型會在“Think”的過程中自主填補相關信息。
此外,醫療推理講究循證過程,DeepSeek不僅能夠提供有效的診療建議,更能詳細闡明其背后的推理過程,包括診斷依據、用藥選擇和檢查項目等。這種透明化極大化解了醫生對AI系統的猜忌,為醫患溝通提供了清晰的依據,進而促進了AI技術在臨床中的更廣泛應用。
“很多醫生都非常關注模型‘think’的過程,他們會大致掃一眼Deepseek的邏輯,這是一種重要的交互,能讓醫生產生信任?!?/p>
到目前為止,已有不少醫院上線了大模型相關應用。以醫療文書書寫為例,福鑫科創、衛寧健康等企業都開發了類似應用。以福鑫科創為例,該公司與武漢協和醫院、武漢大學中南醫院等醫院落地門診、住院多個場景的AI生成式電子病歷系統,嘗試提高醫生的書寫病歷效率。
傳統的醫生在門診看診場景中,單個患者就診時長按照10分鐘計算,一般用于書寫電子病歷的時間在5分鐘,開藥、開檢查的時間在3分鐘,真正用于問診的時間也平均只有2分鐘。有了AI之后,AI會實時記錄醫患的對話,并將其轉化為醫學術語,按照門診電子病歷模板自動書寫電子病歷,省下電子病歷的書寫時間。
“按照一個醫生每天看診50個病人計算,每天可以至少節省1個多小時的書寫病歷時間,若醫院將節省的時間用于看診更多的患者,那大模型可以為醫院創造實實在在的經濟價值?!币蚨趨堑芽磥?,這是目前價值最高,相對容易落地的場景。
由于DeepSeek模型本身沒有投喂過CT、MR相關影像數據,企業開發相關應用時需要自行建立影像數據集并構建模型。因而相較于各類文本工具,醫學影像領域展開基于DeepSeek大模型研究相對較少。
目前,深智透醫在內部工具層面對DeepSeek進行了部分探索。譬如,他們將DeepSeek用于影像數據多模態標準化和增強,利用圖像數據+meta data非圖像數據(EMR、HIS\RIS、DICOM header等有大量語言信息)提高成像內容及命名的一致性,優化下游應用(例如hanging protocol等更準確一致可以提高醫生效率)。
而在質控數據分析方面,深智透醫則在嘗試借助大模型提升醫學影像質量控制、異常識別能力、工作流問題交互能力。
需要注意的是,雖然基于DeepSeek進行的影像學研究頗為有限,但行業對于影像大模型已實現大量研究成果。部分企業基于GPT等模型建立起了影像基座模型,并在臨床試驗中證實了LLM對于醫學影像診斷的準確率、效率提升。伴隨DeepSeek能力的進一步增強,這些企業亦有可能慢慢轉至國產通用模型。
再談醫院場景之外的藥物研發,這里同樣是各類大模型的重要競技場。
目前,深智透醫已在嘗試使用DeepSeek處理醫學影像標準化問題,進而在醫藥研發試驗中更好地解決影像數據質控等問題。據深智透醫CEO宮恩浩透露,該企業已簽約一批國際藥廠,優化他們已有研發中的影像試驗數據。
還有一些模型雖然沒用DeepSeek,但也采用了類似的創新技術。
例如,百圖生科的xTrimo系列大模型同樣采用了Moe框架,其V3版本可處理DNA、RNA、蛋白質、細胞、化合物-蛋白互作、蛋白-蛋白互作及生命系統等七大模態數據,可實現從堿基對到細胞集群的全尺度建模,進而賦能抗體和細胞基因療法藥物領域、靶點發現方面、微生物等領域的科學研究。
不過也需注意,無論是醫療機構相關的賦能,還是藥物研發的前沿探索,開發者們使用DeepSeek等大模型幾乎都是在原有場景中進行升級,尚未能開發出顛覆已有場景的應用,談不上革新。好在DeepSeek- R1的上線僅有不足兩個月的時間,伴隨時間的推移,我們很有可能目睹來自醫療AI的驚喜。
無遠弗屆
雖說DeepSeek-R1的出現極大程度推進了醫療領域對于大模型的應用深度,但理性來講,要在醫院日常之中用上大模型,仍然需要等待不少時日。
首先,解決復雜問題需要大模型像醫生一樣結合患者的各模態數據,進行綜合推斷。但在“Think”過程中,DeepSeek時常會陷入一種可能無限循環的情況,導致出現大量無關于問題本身的答案。對醫療這樣嚴肅、高頻的領域,必須消除這些場景幻覺才能有望規?;涞?。
其二,DeepSeek擁有的“國產”身份證明使其更受國內醫療機構的青睞,但要規模應用,仍需符合醫學數據隱私與安全合規。因而需要DeepSeek出臺更完善的數據脫敏、加密技術,確?;颊邤祿踩?。
其三,DeepSeek解決的是過往大模型欠缺的產品質量和性能問題,未能找到“殺手級應用”推動醫療機構主動付費。就目前來看,AI的付費邏輯還是和用戶認知及產品本身方向是否能真實降本增效創收賦能有關。因此,DeepSeek要想規模落地,一是提升醫院與醫生的接受度,二是要在傳統AI的基礎上進一步提升。至于誰付費這一問題,從AI近十年的發展看,基層醫療比等級醫院更為需要大模型的支持。
第四,DeepSeek的技術突破并非不可復制。如今,GPT的部分版本已將模型訓練成本大幅壓縮,逼近DeepSeek水平,且在邏輯推理能力方面不斷提升。這需要DeepSeek進一步鞏固優勢,在實際臨床問題方面做出成果。
盡管挑戰重重,我們依然能夠從中看到很多積極的東西。畢竟,大量醫療企業與醫療機構的加入必將生成更多的垂直應用,拓寬大模型商業化的可能。
同時,DeepSeek等模型自身的潛力也不容忽視。按照現有大模型的迭代速度,每三個月通用模型都將完成一波全面迭代?;蛟S在2025年之中,我們便能目睹某一大模型脫穎而出,逐一攻克上述問題,與眾多醫療科技企業一同開啟醫療大模型的新圖景。