- +1
我在賽博流水線工作,月薪三千,身心俱疲

辦公室里幾排電腦閃著熒光,屏幕上劃過相似的街景圖片,文蓬昕和同事們緊盯著屏幕,房間里充斥鼠標點擊的“沙沙”聲。
這是文蓬昕的第一份實習——數(shù)據(jù)標注。2020年3月,包括“數(shù)據(jù)標注員”在內(nèi)的“人工智能訓練師”正式成為國家職業(yè)分類目錄中的一個新職業(yè)。“無所不知”的AI模型并非憑空獲得知識與智慧,而是有賴于海量數(shù)據(jù)集的“喂養(yǎng)”,這背后是數(shù)以萬計的人力勞動。
文蓬昕今年讀大四,專業(yè)是計算機。他原本希望自己能夠在這份與“人工智能”“程序”“算法”相關(guān)的崗位上發(fā)揮課堂所學專業(yè)技能,然而入職后他才發(fā)現(xiàn),他的工作其實是用畫圖軟件描出道路圖片中的車、人行道、馬路,打上不同的標簽。這些標簽將作為“飼料”投入人工智能的訓練。
當世界都在關(guān)注人工智能掀起的技術(shù)革命浪潮,鮮有人看見黑箱幕后的人工——賽博流水線上的數(shù)據(jù)標注員。
一份不需要門檻的工作
如何才能成為一名數(shù)據(jù)標注員?
《人工智能訓練師國家職業(yè)技能標準(2021年版)》描述了數(shù)據(jù)標注員應(yīng)當具備的能力特征:“具有一定的學習能力、表達能力、計算能力;空間感、色覺正?!?,普遍受教育程度則是“初中畢業(yè)”。
我們爬取了boss直聘、前程無憂、獵聘招聘平臺,以“數(shù)據(jù)標注員”“人工智能訓練師”為搜索關(guān)鍵詞,從招聘信息中得到了一幅數(shù)據(jù)標注員的“工作畫像”。

688條招聘信息中,近半數(shù)公司對求職者的學歷要求是大專。根據(jù)招聘詳情的描述,成為一名數(shù)據(jù)標注員只需“具備基礎(chǔ)電腦操作技能”。超1/3的公司在招聘啟事中提及,會為新入職的標注員提供培訓。可以說,這是一份幾乎不需要門檻的工作。
“簡單”“易操作”“好上手”是眾多受訪者對數(shù)據(jù)標注工作的印象。曾經(jīng)從事數(shù)據(jù)標注兼職的劉木只用半天就完成了入職培訓,對照公司提供的資料,他很快能熟練將地下車庫中的車輛、車位、緩沖帶、地鎖分門別類框選出來。在他看來,“能用電腦,就能做標注?!?/p>
根據(jù)不同的標注類型,標注員們在電腦上的操作方式有所區(qū)別。視覺類標注主要是用鼠標拉框、描點,自然語言類標注是在軟件上對語句劃分,打上分類標簽;語音標注則要戴上耳機進行語音轉(zhuǎn)寫。這些電腦操作在簡單培訓后基本都可以迅速上手。
▼具體操作方式見視頻
對于這樣一份對員工自身技能幾乎沒有要求的工作,招聘信息對標注員的要求更多在于員工個人的性格與素質(zhì),“工作認真負責”“細致、有耐心”“吃苦耐勞”被提及的頻率位居各公司招聘細則前列。這些對個人素質(zhì)的要求,與數(shù)據(jù)標注工作的體驗分不開。
▼數(shù)據(jù)標注操作示意
“不需要學歷,沒有含金量,也不需要智商?!蔽臐髮.厴I(yè)后一直從事數(shù)據(jù)標注工作,他對自己的定位是“辦公室里的流水線工人”,無聊、乏味與重復構(gòu)成他每日工作的底色。
知乎、豆瓣關(guān)于“數(shù)據(jù)標注”的169條關(guān)聯(lián)文本中,“枯燥”是最常出現(xiàn)的關(guān)鍵詞:八小時連續(xù)坐在電腦前,幾百張圖片里是相似的街景,只有手和鼠標不停地動。操作熟練后,一名數(shù)據(jù)標注員一天能拉1000-3000個框,都是同樣機械的重復。

事實上,簡單好上手并不能與“輕松”畫上等號。一張人臉圖片上,往往需要準確標出幾十甚至上百個點;普通的街景圖片中,除了車輛與馬路,每一道欄桿,每一條線,路上的行人、電動車,甚至途經(jīng)的一條小狗都要被分門別類框選出來,打上標簽。一些遠處的物體放大后模糊到只剩幾個像素點,只有精神高度集中才能不出錯。
亦有曾經(jīng)從事語音標注的網(wǎng)友在社交平臺表示,公司提供的語音素材中有時存在噪音甚至臟話,耳機里充斥著不同方言的辱罵,不斷消耗標注員們的心情。
工作過程中,標注員們需要承受“質(zhì)量檢測”帶來的壓力與挫敗:未能與物體契合的框線,未被準確分割的語音都會被判定為不合格,打回全盤重做。標注員楊寬就遇到過這樣的情形,整整兩天都用來修改不合格的項目,對于計件收費的標注工作而言,這意味著之前花費的時間和精力“一分錢都拿不到”。
久坐在電腦前,數(shù)據(jù)標注帶來的職業(yè)病同樣令標注員擔憂。與數(shù)據(jù)標注身體感受相關(guān)的文本中,多數(shù)標注員都提及長時間盯著屏幕對視力造成的損害:“時間長了直接就是機器人視角,走到哪里都是框框?!?/p>
視力下降,頭暈眼花,一連數(shù)小時頭戴耳機帶來刺痛,頸椎、脊椎的不適......結(jié)束一天的工作,來自開封的數(shù)據(jù)標注員武曉儀的眼睛里常常布滿紅血絲,每天早晨起床“疼得要命”。三個月實習期過去,與文蓬昕一同進入公司的實習生已經(jīng)戴上眼鏡。
“工資太低了,不如干客服”
身心體驗之外,數(shù)據(jù)標注員還面臨著更多現(xiàn)實困境。

巨大的標注任務(wù)量往往與績效掛鉤,加班、單休甚至無休成為標注員的工作常態(tài)。望不到的職業(yè)前景則進一步制約他們在行業(yè)深耕的意愿。與一般的勞務(wù)派遣不同,數(shù)據(jù)標注常以項目為單位,收入并不穩(wěn)定,項目結(jié)束后就可能面臨“失業(yè)”。文濤認為,數(shù)據(jù)標注只適合作為過渡性的工作,學不到技能,亦沒有升職空間。如今,他輾轉(zhuǎn)于不同的數(shù)據(jù)標注項目,坦言這份工作“就是混日子的人來做做”。
169條關(guān)聯(lián)文本中,不少標注員表達了對薪資的不滿:工資發(fā)放標準模糊,五險一金等補貼缺失。部分公司以“有責底薪”的方式對員工進行約束,標注員們必須在固定時間內(nèi)完成指定的標注任務(wù)量,否則會被扣除部分底薪。
武曉儀所在的標注公司就實行了有責底薪。公司規(guī)定員工每個月最少需要標注3000張圖,以她的速度,一天最多只能畫50張,即使“除了吃飯、上廁所,其他時候一刻不停地畫”,依舊會被扣除工資。手腕被鼠標磨得紅腫,堅持二十多天后,她決定辭職。
AI行業(yè)走在時代的前沿,賽博流水線上,數(shù)據(jù)標注員們的薪酬卻并不如“人工智能”的頭銜一般光鮮。根據(jù)招聘網(wǎng)站信息,在北上廣深四個一線城市,數(shù)據(jù)標注崗位的平均最低薪資只有6050元;而在人力成本更為低廉的四、五線城市,如山西臨汾、江西新余,數(shù)據(jù)標注員的平均最低月薪只有2000多元。

文濤的月薪通常在稅后3000元左右,待遇不好時則只能拿到2500元。對于文濤工作、生活的無錫市,他認為這份薪資還是“太低了”——“不如去干客服”。根據(jù)“boss直聘”統(tǒng)計,無錫客服專員平均月薪在4870元至5256元之間。
李安琪從2018年開始做了5年數(shù)據(jù)標注員,輾轉(zhuǎn)三家公司。她知道,由自己標注的數(shù)據(jù)會被用在機器人上,這讓她“很有成就感”。說完,李安琪頓了一下,又說:“但這個工資沒有成就感。”她現(xiàn)在已經(jīng)離開這個行業(yè),回到山西老家做一名銷售。
數(shù)據(jù)標識公司本身被視為利益潛力大增的投資標的。據(jù)國際數(shù)據(jù)公司(IDC)預測,到2025年中國數(shù)據(jù)標注市場規(guī)模將突破102億元。面對一片“藍海”,為何數(shù)據(jù)標注員的薪資待遇依舊有限?
這與數(shù)據(jù)標注的行業(yè)模式有關(guān)。目前,數(shù)據(jù)標注行業(yè)的主流模式是外包。由于成本高、管理難度大等原因,科技公司很少完全自建數(shù)據(jù)標注團隊,而是將訂單交給專門的數(shù)據(jù)標注公司和團隊來執(zhí)行。
據(jù)觀研天下《中國數(shù)據(jù)標注市場發(fā)展深度調(diào)研與投資戰(zhàn)略預測報告(2023-2030年)》整理,第三方數(shù)據(jù)標注服務(wù)商提供了整體數(shù)據(jù)標注市場79%的服務(wù)。以外包為主的項目運營模式,也影響了數(shù)據(jù)標注企業(yè)的規(guī)模大小:以中小企業(yè)為主,多數(shù)只是工作室和幾十人的小團隊。

真正承擔標注任務(wù)的中小企業(yè)往往經(jīng)過層層外包才能接到標注任務(wù)。從有標注需求的甲方公司到數(shù)據(jù)標注員,每層外包抽取一定費用后,標注員最終到手的工資就所剩無幾。根據(jù)新京報貝殼財經(jīng)報道,有甲方公司項目負責人透露,一條報價9毛的數(shù)據(jù),最后分到標注員手中單價可能只有幾分錢。多位受訪對象表示,標注一個框或者描點的單價在3-4分錢左右。
“教會徒弟,餓死師傅”?
數(shù)據(jù)標注作為AI基礎(chǔ)數(shù)據(jù)服務(wù),在整個AI數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈中處于中游,銜接著上游的數(shù)據(jù)生產(chǎn)和下游算法研發(fā)。

現(xiàn)存的大量數(shù)據(jù)為圖片、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù),無法直接應(yīng)用于人工智能算法研發(fā)。數(shù)據(jù)標注員作為“人工智能的老師”,將從上游獲取的數(shù)據(jù)轉(zhuǎn)換成計算機可識別的結(jié)構(gòu)化數(shù)據(jù)。而結(jié)構(gòu)化數(shù)據(jù)是人工智能算法開發(fā)的基石,可以讓AI應(yīng)用模型訓練結(jié)果更加準確。
數(shù)據(jù)標注員通過拉框、標點等方式為人工智能提供學習材料,使其理解人類世界。他們教會自動駕駛的車輛在紅綠燈停下,逐步解放駕駛員;教會醫(yī)療設(shè)備通過智能影像識別自動讀片,快速進行疾病篩查;教會日常使用的電子設(shè)備通過掃描面部自動解鎖,教會AI錄音轉(zhuǎn)文字復述我們說過的話。

人工智能技術(shù)依舊在向前奔馳,數(shù)據(jù)標注員們教會的人工智能,是否會取代自己原有的工作?
隨著數(shù)據(jù)標注量增大,純?nèi)斯俗⒃诔杀旧喜辉倬哂袃?yōu)勢,AI自動標注成為數(shù)據(jù)標注服務(wù)商的新工具。數(shù)據(jù)采集標注行業(yè)發(fā)展至今,機器學習已經(jīng)開發(fā)出了可以自己為數(shù)據(jù)打標簽的模型,從而實現(xiàn)自我標注、自我投喂,這意味著可能將不再需要眾多人工標注員。重慶一家數(shù)據(jù)標注公司的負責人梁成透露,公司的技術(shù)團隊已在開發(fā)用于取代基礎(chǔ)人力的程序。
復旦大學數(shù)據(jù)科學學院副教授陳思明接受采訪時表示,人與機器共同完成的“交互式標注”已經(jīng)投入使用。在交互式標注場景下,人工只需要將最復雜的部分數(shù)據(jù)進行標注,剩下的數(shù)據(jù)則基于機器算法主動學習完成。在人工智能前沿領(lǐng)域,研究者們還在致力研發(fā)僅需少量人工標注數(shù)據(jù)的“小樣本學習”甚至無需人工標注的“零樣本”模型,最終希望實現(xiàn)機器自主標注。
在自然語言處理領(lǐng)域,這可能即將成為一種現(xiàn)實。上海交通大學計算機科學與工程系教授趙海認為,當前自然語言處理對人工數(shù)據(jù)標注的需求壓力“基本上快要消失了”,大量模型可以在沒有前期標注數(shù)據(jù)的條件下被成功訓練。除部分專業(yè)性很強的領(lǐng)域以外,數(shù)據(jù)標注員可能不再有存在的意義。
不過,這種擔憂似乎還有些遙遠。陳思明表示,目前而言,人工標注數(shù)據(jù)在質(zhì)量上更勝一籌,從而能訓練出更優(yōu)越的模型,“在工業(yè)產(chǎn)業(yè)的運用上,其實還是需要依賴(人工標注)”。一家標注公司的負責人木馬也表示,目前在2D標注的情景中,“可供人做的越來越少”,但3D點云標注過程更復雜,人工需求量依然很大。
木馬清楚自己從事這種密集勞動力性質(zhì)的工作,始終存在被替代的可能性,但他并不感到灰心:“目前一些軟件可以初步篩選部分數(shù)據(jù),但我們?nèi)斯说母訌碗s,替代可能還遠遠不夠?!?/p>
他隱約知道自己曾經(jīng)標注過的數(shù)據(jù)都去了哪里:它們有可能在無人駕駛的系統(tǒng)里,也有可能在百度app右上角的相機標識背后。如果有一天遇到了不認識的動物或者植物,人工智能識別下的“拍照識圖”功能會告訴他答案——“可能答案不完美或?qū)?,但肯定會有用的?!?/p>
注:文中文濤、武曉儀、木馬、梁成、劉木為化名。
插畫借助AI繪畫工具Midjourney完成。特別鳴謝標注公司負責人小馬哥、AI繪畫工具Midjourney的支持。
陳詩雨,李一釩,呂晨安,吳萌萌,趙睿佳
指導老師:周葆華,徐笛,崔迪
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




