海天瑞聲(688787.SH)2024年6月11日發布消息稱,2024年6月6日海天瑞聲接受華夏基金等機構調研,證券事務代表:張哲參與接待,并回答了調研機構提出的問題。
調研機構詳情如下:
賈靜雯/華夏基金;白海波/樂正資本;張宸/銀河證券;王霆/國華興盛資產;楊子平/川流資本;范明/國泰君安證券資產管理;許斐/霽峰資本;錢小英/上海鍇量。
調研主要內容:
1、請問公司2023年收入下滑的原因是什么?
2023年,公司營業收入為1.70億元,較去年同期下降35.33%,主要系受境外部分客戶進行階段性裁員、業務方向及研發節奏周期性調整等影響,部分客戶2023年預算釋放進度放緩,同時疊加2023年上半年數據出境相關法規落地實施的階段性影響,公司境外收入同比大幅下滑。境內業務方面,雖然宏觀穩經濟政策已初見成效,但國內仍面臨復雜嚴峻的內外部環境考驗,部分境內客戶對集中性研發投入仍持謹慎態度,基礎數據服務領域客戶預算及需求釋放出現階段性減緩,疊加行業內競爭加劇,綜合導致境內收入同比下滑。
2、公司2024年第一季度收入同比增長的原因是什么?
公司2024年第一季度收入增長主要系在大模型技術的逐步發展和應用領域不斷拓展的帶動下,全球各類型科技公司對人工智能領域的研發投入呈現出復蘇并增長的趨勢,帶動以多語言智能語音、文本為代表的數據需求快速增加,整體拉動公司第一季度營業收入同比大幅提升。
3、公司政企類項目目前有哪些進展?
目前,公司正在與北京、安徽、山東、河北等地進行對接。若相關合作達到信息披露要求,公司將及時履行信息披露義務。
4、大模型范式下的預訓練階段數據需求和傳統的數據需求有什么區別?
大模型預訓練階段的數據需求和深度學習技術路線下的傳統訓練數據需求,兩者在形態上基本一致,都是文本、語音和圖像,但在數據規模、質量、來源等方面,預訓練數據較傳統訓練數據會存在一定差異。例如,規模上,預訓練數據的token量普遍在萬億量級,而傳統模型數量則大約在10億量級。從數據來源的角度看,由于大模型所需數據規模遠超傳統模型,因此其數據來源將更加豐富以滿足規模化、多元化數據需求。具體來說,大模型數據來源除了來自傳統的定向采集外,還將涉及版權數據、公共數據等新型海量高質量數據來源。
此外,數據處理的核心技術也存在一定差異。例如,由于大模型預訓練階段的原料數據規模更大,因此大模型預訓練數據更加注重數據清洗的工程化能力,在預訓練階段需要結合原料數據特點以及所涉及的主題、領域等,對海量數據完成高質量清洗,這對數據服務商的工程化數據處理能力以及過往服務經驗的積累都提出了更高要求。
5、目前已經有很多大模型陸續發布,未來數據需求是會持續增長還是下降?原因是什么?
隨著更多大模型產品面向公眾推出上線、以及不斷進行版本迭代,未來的大模型相關數據需求會持續、顯著增長,這符合當AI進行應用側后,對數據的需求才會規模性增長的規律。預期該類增長將主要體現在預訓練階段對高質量、大規模的版權數據、公共數據、多模態數據、垂直領域的實際場景數據等方面的需求,以及不斷提升其交互精準度的強化學習階段各類數據需求等。例如,若某大模型應用領域為文學創作,就會需要來自版權方的散文、小說、詩詞等數據進行創作能力訓練;若某大模型擬提升其在民生政務領域的客服能力,則來自民生政務服務平臺的此類對話數據將產生重要價值。未來,隨著大模型向更高級、更多維、更廣泛垂向拓展,大模型數據需求將呈現快速增長趨勢。
6、強化學習階段的數據服務,今年有何進展或者變化?
目前來看,隨著各大模型的陸續上線,強化學習環節的整體數據需求在逐漸攀升,并在具體標注任務上呈現如下趨勢:
(1)逐漸向更多垂類拓展(例如,法律、金融、醫療);(2)強化學習標注的評價/評分指標變得更為豐富,會要求標注人員從更多維度對模型的問答進行評判和打分;(3)由單模態向多模態轉變:23年主要的標注需求集中在文本類標注,今年開始逐步向多模態拓展(例如,文本-視頻、文本-圖像等)。