根據披露的機構調研信息2025年3月13日至2025年3月24日,國海富蘭克林基金對上市公司海天瑞聲進行了調研。
基金市場數據顯示,國海富蘭克林基金成立于2004年11月15日。截至目前,其管理資產規模為844.32億元,管理基金數47個,旗下基金經理共16位。旗下最近一年表現最佳的基金產品為國富興海回報混合(011152),近一年收益錄得33.53%。
附調研內容:
1、2024年收入增長的驅動因素是什么?
受益于大模型技術的快速發展以及應用場景不斷落地,以智能終端廠商、科技互聯網公司等為代表的國內外科技巨頭紛紛加大多模態數據投入以支撐其智能終端、內容生成等領域的AI能力建設。在此背景下,以多語種、多音色為代表的智能語音業務需求、以及以指令微調、偏好對齊等為代表的自然語言業務需求同比均呈現大幅增長,整體上驅動公司營業收入同比顯著增加。
2、DeepSeek出來后,對數據需求的影響如何?是否會降低AI行業對數據的需求?
(1)Deepseek推出了一系列模型,其中V3模型依然使用了預訓練、以及SFT等訓練方式,其中預訓練階段的token使用量達到了14.8T,遠超GPT4等同類可比大模型預訓練階段的數據使用量,且在后訓練階段也使用了一定規模的標注數據,這也更加說明海量以及高質量數據對于基礎模型能力提升的重要意義。
(2)關于讓大家震撼的R1模型,基于目前的公開信息來看,其部分優勢體現在推理類任務上,尤其是那些具備較強的規則性、可以推導的任務類型上,確實不需要大量的人工標注,但是對于其他領域(尤其是更為廣闊的垂向領域)的復雜問題,依然需要觀察,我們認為高階的數據專家的參與依然非常重要。
(3)此外,數據質量不僅影響模型獲取和表達知識的能力,還決定了模型生成內容的風格和準確性,幫助DeepSeek實現了在輸出端的文采能力提升。
其一,高質量數據可以提升模型表達和推理能力。優質數據包含準確、連貫且富有表現力的語言樣本。例如,包含CoT數據可以引導模型在推理時進行反思,進而在生成回答時展現出清晰的邏輯和優美的語言表達。這正是DeepSeek模型能夠生成既準確又具有華麗文風的關鍵因素之一。
其二,高質量數據可以降低噪音和確保一致性。數據中的錯誤、噪音或不一致信息會導致模型生成內容出現語法或邏輯問題。高質量的數據則能有效減少這些問題,使模型更好地學習到語言規律,從而提高整體生成質量。
其三,高質量數據可以提升泛化能力。數據的多樣性和全面性使得模型在面對不同領域和任務時都能生成高質量的回答。豐富且準確的樣本幫助模型在多種場景下自如切換風格,無論是精煉的技術解答還是文采斐然的創意寫作,都能游刃有余。
(4)往未來看,Deepseek模型的出現,有望進一步助推模型向產業端發展,真正讓大模型技術深入滲透到各個行業中,這一過程中必將凸顯專業知識的直要性,需要更多數據、以及數據專家的參與,因此我們看好并期待未來大模型在各行業百花齊放的局面。
3、未來AI數據如果自動標注了,會對公司及行業產生影響嗎?
首先,AI一定不會實現完全的自動化標注,因為機器如果想要持續演進,使其更接近于人類的判斷和理解,就一定需要人類作為引導,通過人工標注幫助其完成新知識的學習,所以只要人工智能在持續發展和進化就一定需要人類參與,即無法達到完全的自動化標注。
另一方面,更加智能化的人機協作模式一直是數據服務行業的發展趨勢,同時也是數據服務企業的核心競爭能力之一,自動化標注的核心不是完全替代人類,而是提高人機協作效率,海天瑞聲近年來在研發領域持續加大投入,不斷提升公司數據生產的智能化水平,并據此形成規模效應、實現降本增效。
4、公司的業務是否存在規模效應?
公司業務是存在規模效應的,一方面隨著公司在研發方面加大投入,自研平臺的能力逐步提升,可以賦能數據處理過程中的人機協作朝著更加智能化的方向前進,這就使得公司進行更大規模的數據生產成為可能。同時,數據產品的積累、平臺以及工具的研發,在公司業務規模逐漸上升的情況下,相關的研發費用、管理費用將被攤薄;
從成本端看,數據生產的成本還有很大的下沉空間,對于成本控制我們會在兩方面進行持續投入:一方面是繼續加大技術投入,采用更為合理的人機協同比例完成數據處理任務,降低人員投入,提高處理效率;另一方面是加強供應鏈資源管理能力,擴大資源供給,降低單位成本。
此外,數據集產品一直是我們公司所堅持的重點方向,公司開發大量通用型、復賣率高的標準化產品數據集,反復給公司帶來利潤,也能實現訓練數據產品的規模化效應。
5、成本結構里最大的部分是什么?如何能夠持續性的優化成本結構?
公司最大的成本就是原料數據采購費用,即:采集、標注成本。一方面,公司通過繼續加大研發投入的力度,全面提升公司的算法能力、工程化能力,加深算法輔助能力與人工工作的結合,達到更佳的人機協同,這樣能夠做大規模、提升效率、降低成本;另一方面是加強供應鏈資源管理能力,擴大資源供給,降低單位成本。
6、公司提供的訓練數據整體解決方案中,各個環節的技術難度如何?
首先,訓練數據集的設計和原料數據采集環節是存在相當的技術難度的,比如語音類采集,文本設計是否貼合實際場景、如何實現最小采集量且確保場景覆蓋豐富度等因素均是設計和采集環節需要考慮和解決的;在視覺類采集方面,復雜的人像采集、物體影像采集,同樣具有如何設計合理的數據濃度達到最小成本最高訓練效果,如果是垂直行業數據集的采集,例如交通行業內的自動駕駛領域,則存在準入資質、技術難度(包括但不限于對于交通場景、車輛傳感器等要素的綜合理解和實施能力)等方面的門檻。
數據標注環節的難度在于面對大量的數據標注需求,如何快速的找到充足的資源,而且通過算法平臺實現機器的輔助標注,并在人機協作過程中,尋找效率與質量的最佳平衡,在提升數據標注效率、保證數據質量的同時降低成本。
7、標品化的產品數據集業務與定制化服務業務的區別是什么?
產品數據集是先于客戶需求形成的模擬數據,是公司區別于其他競爭對手的一大特色,基于公司對市場的判斷和通用化需求的提取能力,其屬于是一次性投入、未來重復授權銷售,對于公司的營收、毛利有著重要作用;而定制業務的需求來源是客戶的定向化需求,有些定制業務的原始數據來源是客戶提供的實網數據,公司提供純加工的服務。
客戶的AI產品在上線之前及初期,因為其自身尚未產生實網數據,通常需要采購模擬型數據集進行算法模型的訓練,在產品上線并運行一段時間、產生大量實網數據之后,則會提供實網數據給到我們進行數據加工,加工的數據反哺到客戶的產品上從而促進其產品的迭代、升級。之后,客戶需要進行產品功能或語種的拓展,再次需要購買模擬數據集來支撐,后續再采購數據加工服務進行迭代。
8、訓練數據產品和服務的定價模式、收費模式是什么樣的?
定制服務定價模式:一般采用成本加成定價法。公司根據客戶的具體服務需求預估項目成本,在預估成本的基礎上,參考公司制定的指導毛利率水平,結合項目技術難度、復雜程度、時限要求等進行報價,并根據市場環境與客戶協商,最終確定價格。
產品定價模式:一般采用需求導向定價法。公司綜合考慮訓練數據集的開發支出、市場需求程度、預計未來重復銷售的頻率等因素,制定產品標準價格及價格區間,在銷售過程中,根據客戶的實際需求情況,以價格區間為基礎向客戶報價,經雙方協商確定最終銷售價格。訓練數據產品通常以單個數據集為單位進行定價,定價比較靈活。
9、定制數據逐漸積累,是否可以轉化為自有的數據產品?
客戶定制服務涉及的訓練數據在交付給客戶并完成驗收后,所有權完全轉移給客戶,海天瑞聲是不能用于自身產品建設的,這一點是公司始終遵循的知識產權要求。
在定制數據集的生產過程中,積累下來的經驗、know-how會幫助公司各方面能力的提升,例如工具平臺因為處理了大量的定制數據集,使平臺完善性有很大的增益,加強了公司的數據處理能力;再如,在一些情況下,公司在生產定制數據集時,也會根據對行業需求的判斷,在保障數據權屬劃分清晰的前提下,利用團隊管理、資源獲取的便利性,同步安排額外的設計、采集和標注工作,完成產品數據集的開發。
10、行業里的玩家增多,會不會出現價格戰?
是否存在價格競爭主要取決于該領域是否較為存在較高壁壘。在較為成熟的細分方向,比如中文智能語音數據領域,確實存在進入者增多、價格競爭的情況;但對于外語種領域,數據服務商則會有更高的議價空間。所以,未來公司將主攻有較高技術壁壘,存在較大毛利空間的細分場景,盡力避免價格競爭帶來的過度消耗。
此外,公司也將通過持續的專項研發投入及研發升級,進一步提高自研平臺能力,通過智能化促進產能提升、效率提升、成本降低實現規模效應和盈利能力的提升。