文 | 娛樂資本論 付夢珍
“貧困山村里,沒上過大學的女人們在喂養AI?!?/p>
“富士康工人流向AI標注廠?!?/p>
“跟AI打工,貧困縣也能月薪7000。”
在“有多少智能,就有多少人工”的AI時代,有一批人通過采集現實世界的圖像、視頻、文字等信息,清洗標注后將數據轉化為代碼輸送給機器,從事這份工作的人叫做數據標注員。
打開關于AI數據標注行業的新聞,我們隨處可見上述標題。低門檻、勞動密集、高度程式化、標準操作流水線,成為了數據標注工人身上最大的標簽特征。而在國際上,因為有大量的非洲肯尼亞人在做相關工作,他們又有一個灰色昵稱,“肯尼亞人”。
而這,也與數據公司的甲方——百度、阿里等,致力于要用技術改變世界的大公司們形成了鮮明的對比。大洋彼岸,數據標注服務公司Scale AI市值73億美元,彰顯了數據公司的資本潛力,也讓我們看到了數據公司走向百億美金估值的可能性。
隨著AIGC時代的到來,數據標注員的工作有何改變?上述新聞標簽是否是他們的行業常態?數據標注行業現在存在哪些問題?未來又有哪些發展前景?更重要的是,他們展現了AI行業背后的什么樣的困難?
帶著這些問題,娛樂資本論走進了四家數據標注公司,發現了如下的行業現狀:
VOL.1.標注行業對員工的素質要求越來越高,本科生占比高
VOL.2.兼職的標注人員中寶媽較穩定,更受歡迎
VOL.3.垂類行業的數據標注訂單增多,對垂類標注人才的需求量增多
VOL.4.底層數據標注員的工資與最低工資標準類似
VOL.5.AI只帶來了短期的訂單增加,小型數據標注公司很卷
VOL.6.多數數據標注公司沒有構建自己的數據壁壘
VOL.7.數據公司的發展趨勢:①、利用AI技術降本增效 ②、專注于某一垂類的數據 ③、往產業鏈上游走,做數據采集、合成等
本科生越來越多,寶媽更受喜愛
“我們不是富士康的流水線模式?!?/p>
當被問及公司的員工現狀時,幾家數據公司都給出了類似的回答。
龍貓數據成立于2014年,累計服務了60余家主機廠和自動駕駛公司,為客戶提供整體的數據解決方案。
今年AIGC爆火后,龍貓接到了很多圖文標注、視頻標注需求的訂單,會有很多多模態應用場景,比如車內座艙的文娛軟件等。龍貓副總裁胡邱飛向娛樂資本論指出“這要求標注人員能理解大模型的應用,而大模型會考察幾乎所有領域的通識類知識。此外,標注內容要和客戶的模型價值盡量貼近。所以這也要求我們找的標注人員絕大多數學歷在本科以上?!?/p>
龍貓公司一角
針對垂直領域,龍貓則會配備專業領域人員,比如為數學相關大模型招聘會高等數學的人,“如果不是這專業的人,你根本看不出細節上的區別?!?/p>
成都的匯眾天智總經理駱靖元也在AIGC浪潮后提高了對員工的素質要求,“三四年前對員工的素質要求還不高,但是現在甲方對質量和效率的要求提高了。公司之前90%是大專,現在本科占到了一半,甚至有研究生。”
2018年,做軟件的丁一峻,在朋友的引薦下接到了阿里數據標注的訂單,2019年創立了飛火大數據公司。之后,出于成本考慮丁一峻回到家鄉創業做數據標注公司,“那時的數據標注行業確實能提供大量就業,洛陽數據局2019年的時候也牽頭想做數據處理公司,招人好招,但交付難?!?/p>
2019年做百度某數據標注業務項目截圖
“數據標注本質是高級搬磚?!倍∫痪驃蕵焚Y本論指出,“有標注需求的多是大公司,現在很多標注公司會外放做不過來的訂單,這就讓市面上很多沒跟甲方深度捆綁的公司,接的訂單都特零碎。這種訂單一是邊緣化業務,比如小語種。二是時間周期短的業務,很考驗外部公司的交付能力。”
這兩類訂單,也倒逼著丁一峻要提高對員工素質的要求。這期間,丁一峻嘗試過和學校監獄合作,相繼作罷,“學校要考慮領導、輔導員各種利益分配,監獄對網絡要求高,不如找全職?!?/p>
飛火大數據公司一角
綜合原因下,大部分的數據公司更傾向于招聘兼職人員。沈陽正午數據公司人事小蘇接受河豚君采訪的前一天,剛在Boss直聘上發了招聘兼職的通知,“行業本身利潤有限,全職成本太高了,根本就不能實現?!?/p>
“我們招人基本要求大專以上,發了以后有上百人聯系我,但是很多人沒經驗?!毙√K招聘時,會和兼職強調對數據保密性的要求,“不知道是不是受網絡的影響,很多人戒備心很重,聽到要保密就不做了。但我們公司有良心,必須強調保密?!?/p>
杭州景聯文是一家從事數據采集標注、數據融合挖掘的公司,現有1000多位全職標注人員,其CEO劉云濤向河豚君透露,“標注項目難度越來越高,要求標注員的學歷和專業知識水平越來越高,比如語言標注團隊,要求會各種小語種。醫療標注,需要醫學院畢業的學生。”
龍貓則是全職兼職兩手抓。胡邱飛透露,“我們現在線上注冊用戶400多萬,活躍全職的1萬人左右?!本€上之外,龍貓在西南地區做了線下標注基地,“那邊高校多,學生素質也更高,員工500人左右。”
龍貓的全職運營會了解兼職的情況,“我們更喜歡用沒有全職工作的群體,比如寶媽,她們時間充沛,更好管理,也更穩定?!?/p>
整體來說,如今數據行業的標注人員發展如同美團般發展成了全職、服務站、眾包等階梯式的人力模式。胡邱飛透露,“我們線上眾包是強管控,最終交付結果都是計件的?!?/p>
小蘇介紹,目前公司兼職的員工大概兩三千,常駐人員1000左右,流失率一半。丁一峻透露,“基礎的標注員往往都是屬于地方上的最低工資標準,三線城市兩三千左右,質檢員和項目經理,能到七千左右。”
層層外包下,標注公司活少錢少風險高
“太卷了?!?/p>
這幾乎是數據公司們共同的心聲。
“我們現在就像河南的食品代加工廠一樣,品牌是別人的,工作相當于幫別人養孩子?!倍∫痪墓靖叻鍟r有兩三百人,現在公司只有40多位員工,“老客戶的需求還在,能維持正常運營,但這種單子很雞肋,一個月幾百幾千跟辦公室采購差不多,利潤太低,項目體量也不穩定。數據行業缺乏像蘋果、特斯拉一樣需求穩定的工廠。不然我也不想裁人,有活還需要找外包?!?/p>
駱靖元指出,AIGC爆火后自己招人和以前相比省去了科普人工智能的環節,但在接活上更卷了,“大公司有定期篩選的機制,比如說這批我需要10家公司。那我就從100個里面篩選,其中哪兩三個不合適,我再動態替換。這使得一些公司不斷報低價,惡性循環?!?/p>
為了接到訂單,丁一峻一直在努力降本增效,“為了提高效率,我們開發了AI工具,之前2D拉框要8分一個,現在降到了5、6分,操作更便捷。質量上,如果客戶不想要目標物低于某像素值的,工具直接調數值,標注員就不用標了。”
但是這種工具標注公司基本只能自用,“同行有能力買的,自己有開發的實力。沒開發實力的,出不起這個錢。”說著,丁一峻給我發來了網上開源的標注工具,“每家平臺都差不多,都是基于labelme的底層邏輯。早幾年能打個信息差,賣平臺賺點錢,現在不行了,大家都知道套路,直接上源碼加個UI就成產品了?!?/p>
某標注工具圖
“今年2月GPT剛火的時候訂單多了一些,那時大公司的目的更多是為了割韭菜炒股價。后來這些AI大公司發現變現難,七八月份就很少在數據標注上投入了?!北6ǖ臄祿俗⒗习逯苋w說,標注公司遇到的困難,仿佛也印證了AI潮冷去的某種現實,“AI公司的客戶很多還是G端,根本不在乎AI能力,更在意能不能喝酒、能不能墊資”。
為了接活,周三體努力降低成本,“2D拉框最早是1毛5一個,現在降到了8、9分一個框?!?/p>
景聯文在努力將非標準化產品標準化,現在將2D拉框標注項目的成本降低了50%。
打開天眼查搜索數據標注公司,我們也能發現大部分的公司經營所在地都在河北、山東、河南等人口大省,這與當地勞動力密集且廉價息息相關。“大廠會把業務承包給有資歷和實力的公司,這種公司再外包,到我們價格很低了,還需要墊款,壓力很大。”周三體說時嘆了口氣。
回憶起2017年創業的日子,駱靖元說那時借著自動駕駛行情數據行業很火,訂單像雨后春筍一樣地涌現,“像百度做了語音采集,高德、訊飛會再做一遍。算法都沒變,標注都是新瓶裝舊酒,同樣一批人臉識別的圖片,A公司做完B公司做,之后C公司再做,我們始終是在給別人做嫁衣?!钡@樣的日子也好景不長,如今訂單量變少,“人員迅速增加后又會有斷檔期,大部分公司死在了斷檔期里?!?/p>
被問及是否覺得公司的運營模式是新時代的數據工廠時,丁一峻認為,“AI的產品線不像工廠那么完善,缺乏法律和社會面的支持,比如版權、數據安全?!?/p>
丁一峻曾承接過一家證券公司的標注工作,“剛好有一家標注員是這家證券公司的用戶,他提出了抗議,后來私下花錢和解了。誰采集數據,出了問題誰負責,所以一般我們也不會過問數據來源情況。”
技術壁壘低、政策法規不健全、訂單量少且不穩定,數據行業面臨著多種困境,這也逼著其從業者尋找新的轉型發展之路。
被AI代替?還是用AI起飛?
為了降本增效,龍貓研究了AI加持下的數據標注管理系統,“自動駕駛上節省了40%,AIGC在探索引入GPT等大語言模型校準標注結果。作為機器和人的交叉驗證,保證輸出的一個質量。因為人會有波動,機器更加穩定,偏差小。”
此外,龍貓在嘗試通過AI技術省去標注環節,直接進入到審核和質檢環節。
高質量語料,尤其是私域數據,是做好數據標注的關鍵,AI在仿寫改寫上的潛力,讓人看到了其在合成語料上的潛力?!案鶕钚碌纳墒紸I管理辦法,用戶擁有自己5張照片的版權,但5張照片合成后生成的數據版權屬于合成方?!焙耧w據此出發,在探索數據擬合向業務,目的在于擁有數據的所有權,標注后多次復售數據包。
AI創業者周曉明指出,“AIGC賦能合成數據,能夠解決真實數據獲取難、獲取成本高、多樣性不足、缺乏隱私保護等痛點問題,替代真實是大勢所趨?!?/p>
對此,丁一峻則未敢嘗試,“AIGC合成數據需要看政策,現在是灰色地帶,好不好獲取,就看膽子大不大了。誰也不知道未來會不會出爆款,有比擬真實數據的內容出現。”
此外,龍貓也在探索獲取高質量數據的新方式,打造公司壁壘,胡邱飛說,“國外出現的一種趨勢是用戶主動售賣自己的數據,讓數據公司得以繞開原始數據的廠商壟斷的局面。我們也在想,怎么讓那些有時間、素質又高的人做數據輸出和標注,比如說通過做題的方式,讓他們小程序上答題賺錢?!?/p>
“數據標注是自我淘汰的行業,AI可以通過模型優化做部分標注工作。發展到最后,這個行業可能只會剩下質檢員這些崗位?!倍∫痪榱藨獙ψ兓瑢⒐緩穆尻柊岬搅斯I配套更完善的蘇州,做數據采集車業務,“我們要給甲方提供硬件采購和數據服務的整套方案,這樣甲方對我們的依賴度才能更深?!?/p>
景聯文則選擇了深耕垂類賽道,專注于教育和醫療領域,劉云濤透露,“教育方面,我們手上有3億道從小學到職業教育的題,格式統一,解析維度包括專題分類、分析過程、考點解析、解答過程、教師點評等?,F在大模型號稱百模大戰,至少有60家都要買我們的題庫。”
醫療方面,景聯文積累了400TB的醫學資料數據庫和三甲醫院的專家的病理數據?!拔覀儍赡昵伴_始拓展標注場景,選了醫療賽道,不管經濟多不景氣,醫療始終有存在的意義和價值。”
值得一提的是,龍貓AIGC業務線負責人李亞向娛樂資本論透露,龍貓正在打造自己的垂類大模型,“大模型一是做輔助標注,讀懂題目后給答案讓人選。第二是做全自動標注,AI直接出結果。這種情況我們會做雙盲的實驗,比如一個答案用三個標準做一遍,里面我們會拆一個一個人或者兩個人用這種形式做,這樣不需要再做抽檢和質檢,有些項目我們已經用GPT交付了,準確率方面達到了80%多,與人工接近。”
對市場規范化的呼吁,成為了不少數據標注從業者的心聲,劉云濤指出,“未來,怎么讓數據流通合規化、安全化是很大的問題?,F在很多城市在建立大數據交易中心,是積極的信號。”
艾瑞數據的人工智能數據報告指出,三年后,中國人工智能的數據治理市場規模預計將突破百億。
但更現實的問題是,吐槽中文語料庫差的新聞屢見報端,大量的中小型數據標注公司正在卷生卷死,大批數據標注公司的業務產品,在批量化、利潤率、風險性方面甚至不及富士康產品,映照到市場上的,則是逐漸遇冷的大模型市場以及越來越像“高科技施工隊”的中國AI商業環境。
當我們試圖尋找解決之道時,駱靖元回憶其工作多年感受時的話也許是最好的答案,“對我們同事來說,當看到應用落地的時候,還是比較欣慰的事情。雖然工資低,但終歸是做了點有用的事情?!?/p>
“數據是AI走向智能的基礎,少開點發布會炒股價,多投點錢在標注上才是正事。”采訪接近尾聲時,周三體發來了這句話。