【
智慧城市網(wǎng) 視點(diǎn)跟蹤】人工智能的發(fā)展離不開(kāi)高質(zhì)量數(shù)據(jù)的“投喂”,數(shù)據(jù)標(biāo)注工作是高質(zhì)量數(shù)據(jù)誕生的基礎(chǔ),是支撐人工智能技術(shù)演進(jìn)和應(yīng)用落地的基石。隨著人工智能向垂直領(lǐng)域滲透,高端數(shù)據(jù)標(biāo)注基地和行業(yè)數(shù)據(jù)標(biāo)注基地正成為突破數(shù)據(jù)瓶頸、釋放數(shù)據(jù)潛能的關(guān)鍵載體。
一、數(shù)據(jù)標(biāo)注的重要性日益凸顯
數(shù)據(jù)標(biāo)注是連接數(shù)據(jù)資源、算法模型與應(yīng)用場(chǎng)景的關(guān)鍵橋梁,是人工智能高質(zhì)量數(shù)據(jù)集建設(shè)的“基石”與“核心生產(chǎn)環(huán)節(jié)”。
(一)數(shù)據(jù)標(biāo)注是數(shù)據(jù)要素價(jià)值充分釋放的基礎(chǔ)
數(shù)據(jù)標(biāo)注對(duì)釋放數(shù)據(jù)要素價(jià)值的意義主要體現(xiàn)在三方面。一是有效促進(jìn)數(shù)據(jù)流通和共享。數(shù)據(jù)標(biāo)注將原始數(shù)據(jù)從“信息”轉(zhuǎn)化為結(jié)構(gòu)清晰的“資產(chǎn)”,賦予數(shù)據(jù)明確的語(yǔ)義,使其更容易被不同用戶(hù)和系統(tǒng)理解和使用,促進(jìn)數(shù)據(jù)的流通共享。二是有效增強(qiáng)數(shù)據(jù)的可用性和精度。數(shù)據(jù)標(biāo)注將原始的、雜亂無(wú)章的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、有標(biāo)簽的數(shù)據(jù),從而顯著提升數(shù)據(jù)質(zhì)量和可用性。三是有效提高數(shù)據(jù)驅(qū)動(dòng)的決策水平。標(biāo)注后的數(shù)據(jù)能夠?yàn)閿?shù)據(jù)分析提供更準(zhǔn)確、更有價(jià)值的信息,幫助企業(yè)和組織更好理解數(shù)據(jù)背后的業(yè)務(wù)邏輯和趨勢(shì),做出更科學(xué)的決策。
(二)數(shù)據(jù)標(biāo)注是人工智能技術(shù)水平提升的關(guān)鍵
數(shù)據(jù)標(biāo)注是人工智能的基礎(chǔ)工作,通過(guò)給原始數(shù)據(jù)打上標(biāo)簽,為計(jì)算機(jī)提供學(xué)習(xí)數(shù)據(jù)特征與規(guī)律的素材,使模型獲得對(duì)未標(biāo)注數(shù)據(jù)的識(shí)別能力,這是模型智能的起點(diǎn)。而高水平的數(shù)據(jù)標(biāo)注是模型能力提升的關(guān)鍵,貫穿于模型訓(xùn)練、評(píng)估、優(yōu)化和應(yīng)用等環(huán)節(jié)。精準(zhǔn)的標(biāo)注能幫助模型更深刻地理解數(shù)據(jù)的特征和模式,進(jìn)一步提高模型的準(zhǔn)確性和預(yù)測(cè)能力。數(shù)據(jù)標(biāo)注還是高質(zhì)量數(shù)據(jù)集構(gòu)建的核心,通過(guò)人工或智能標(biāo)注對(duì)原始數(shù)據(jù)進(jìn)行清洗、分類(lèi)、去噪,才能形成驅(qū)動(dòng)模型迭代的高質(zhì)量數(shù)據(jù)集。DeepSeek V3、GPT 4o等在訓(xùn)練階段均使用了總量約15萬(wàn)億token、經(jīng)過(guò)嚴(yán)格清洗和標(biāo)注的高質(zhì)量數(shù)據(jù)。
(三)數(shù)據(jù)標(biāo)注是人工智能賦能千行百業(yè)的支撐
數(shù)據(jù)標(biāo)注支撐人工智能在垂直場(chǎng)景中深度應(yīng)用。
在醫(yī)療領(lǐng)域,醫(yī)療影像中病灶標(biāo)注能顯著提升數(shù)據(jù)可用性,智源研究院醫(yī)療大模型經(jīng)專(zhuān)業(yè)醫(yī)生標(biāo)注的影像、病例、文獻(xiàn)等數(shù)據(jù)訓(xùn)練,比通用模型疾病診斷能力提升15%。
在自動(dòng)駕駛領(lǐng)域,數(shù)據(jù)標(biāo)注為自動(dòng)駕駛提供精準(zhǔn)、可操作的數(shù)據(jù)輸入,百度自動(dòng)駕駛大模型Apollo ADFM利用精細(xì)標(biāo)注的車(chē)輛、交通標(biāo)志、運(yùn)動(dòng)軌跡等數(shù)據(jù),顯著提升復(fù)雜場(chǎng)景行人識(shí)別能力。
在工業(yè)質(zhì)檢領(lǐng)域,像素級(jí)標(biāo)注通過(guò)精確標(biāo)識(shí)缺陷在圖像中的具體位置,為高精度缺陷檢測(cè)模型提供詳細(xì)監(jiān)督信息,提升質(zhì)檢效能。AITEX織物數(shù)據(jù)集提供了織物缺陷的像素級(jí)標(biāo)注,用于訓(xùn)練無(wú)監(jiān)督分割模型。此外,數(shù)據(jù)標(biāo)注還在
智能家居、智慧城市、金融服務(wù)、生物醫(yī)藥等多領(lǐng)域多場(chǎng)景得到有效應(yīng)用。
二、數(shù)據(jù)標(biāo)注產(chǎn)業(yè)快速發(fā)展
當(dāng)前,我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展駛?cè)?ldquo;快車(chē)道”,呈現(xiàn)出規(guī)模擴(kuò)張與創(chuàng)新實(shí)踐并進(jìn)的良好態(tài)勢(shì)。
(一)數(shù)據(jù)標(biāo)注工作成效顯著
目前,四川成都、遼寧沈陽(yáng)、安徽合肥、湖南長(zhǎng)沙、海南??凇⒑颖北6?、山西大同7個(gè)數(shù)據(jù)標(biāo)注基地?cái)?shù)據(jù)標(biāo)注總規(guī)模達(dá)到17282TB,約為國(guó)家圖書(shū)館數(shù)字資源總量的6倍。已形成醫(yī)療、工業(yè)、教育等行業(yè)的高質(zhì)量數(shù)據(jù)集335個(gè);賦能121個(gè)國(guó)產(chǎn)人工智能大模型研發(fā);引進(jìn)和培育標(biāo)注企業(yè)223家;標(biāo)注從業(yè)人員達(dá)5.8萬(wàn)人;帶動(dòng)數(shù)據(jù)標(biāo)注行業(yè)相關(guān)產(chǎn)值超過(guò)83億元。[1]
(二)數(shù)據(jù)標(biāo)注基地展開(kāi)實(shí)踐探索
各數(shù)據(jù)標(biāo)注基地積極承接數(shù)據(jù)標(biāo)注任務(wù),并主動(dòng)展開(kāi)實(shí)踐探索。在技術(shù)創(chuàng)新方面,研發(fā)自動(dòng)化和半自動(dòng)化的標(biāo)注工具,搭建一體化服務(wù)平臺(tái);在行業(yè)賦能方面,通過(guò)數(shù)據(jù)標(biāo)注帶動(dòng)行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè),推動(dòng)傳統(tǒng)產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型;在生態(tài)培育方面,加快數(shù)據(jù)標(biāo)注龍頭企業(yè)引育,構(gòu)建數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈、價(jià)值鏈和生態(tài)系統(tǒng);在標(biāo)準(zhǔn)應(yīng)用方面,圍繞數(shù)據(jù)標(biāo)注技術(shù)和行業(yè)需求,引導(dǎo)企業(yè)積極參與標(biāo)準(zhǔn)編制和應(yīng)用;在人才培養(yǎng)方面,通過(guò)設(shè)立實(shí)訓(xùn)基地、舉辦職業(yè)技能大賽等形式,推動(dòng)產(chǎn)教融合,培育數(shù)據(jù)標(biāo)注人才;在數(shù)據(jù)安全方面,探索數(shù)據(jù)分類(lèi)分級(jí)安全保護(hù)制度,構(gòu)建數(shù)據(jù)安全風(fēng)險(xiǎn)防控體系,推動(dòng)常態(tài)化、規(guī)范化的數(shù)據(jù)安全運(yùn)營(yíng)。
(三)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)供需對(duì)接高效開(kāi)展
數(shù)據(jù)供需各方積極開(kāi)展對(duì)接,在4次數(shù)據(jù)標(biāo)注產(chǎn)業(yè)供需對(duì)接會(huì)上,累計(jì)7個(gè)國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地、全國(guó)70余個(gè)省市級(jí)數(shù)據(jù)管理部門(mén)和數(shù)百家企業(yè)參與,簽約供需合作80余項(xiàng),企業(yè)-基地簽約33項(xiàng),共2300余人次參會(huì)。通過(guò)現(xiàn)場(chǎng)簽約、央企對(duì)接集市及共建可信數(shù)據(jù)空間等方式,釋放企業(yè)數(shù)據(jù)標(biāo)注需求,支撐重點(diǎn)行業(yè)數(shù)據(jù)要素價(jià)值化應(yīng)用。
三、加快建設(shè)高端數(shù)據(jù)標(biāo)注基地和行業(yè)數(shù)據(jù)標(biāo)注基地
隨著數(shù)據(jù)標(biāo)注產(chǎn)業(yè)快速發(fā)展,數(shù)據(jù)標(biāo)注基地建設(shè)也呈現(xiàn)出清晰的發(fā)展路徑:一方面是向“高精尖”邁進(jìn)的高端數(shù)據(jù)標(biāo)注基地;另一方面是深耕垂直場(chǎng)景的行業(yè)數(shù)據(jù)標(biāo)注基地。高端數(shù)據(jù)標(biāo)注基地和行業(yè)數(shù)據(jù)標(biāo)注基地是在7個(gè)國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地建設(shè)經(jīng)驗(yàn)總結(jié)的基礎(chǔ)上,向?qū)I(yè)化縱深和區(qū)域廣泛覆蓋兩個(gè)方向的演進(jìn)與補(bǔ)充。國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地將與高端和行業(yè)數(shù)據(jù)標(biāo)注基地共同構(gòu)成一個(gè)功能銜接、層次分明、協(xié)同發(fā)展的體系。
(一)加快建設(shè)高端數(shù)據(jù)標(biāo)注基地
高端數(shù)據(jù)標(biāo)注基地是高質(zhì)量數(shù)據(jù)供給的關(guān)鍵,具備“高技術(shù)含量、高人才素質(zhì)、高質(zhì)量把控、高行業(yè)價(jià)值”的特征,其核心目標(biāo)是通過(guò)人機(jī)協(xié)同標(biāo)注、合成數(shù)據(jù)標(biāo)注、大模型智能標(biāo)注等前沿技術(shù),結(jié)合多學(xué)科知識(shí),實(shí)現(xiàn)數(shù)據(jù)標(biāo)注的專(zhuān)業(yè)化、標(biāo)準(zhǔn)化與高質(zhì)量輸出。
具體而言,高端數(shù)據(jù)標(biāo)注基地以高技術(shù)、高水平的數(shù)據(jù)標(biāo)注能力強(qiáng)化高質(zhì)量數(shù)據(jù)供給,以產(chǎn)教融合新模式培養(yǎng)多元化數(shù)據(jù)標(biāo)注人才,以權(quán)威的高質(zhì)量數(shù)據(jù)集質(zhì)量評(píng)估和模型驗(yàn)證能力體系提升數(shù)據(jù)質(zhì)量和模型能力,以數(shù)據(jù)生態(tài)服務(wù)矩陣繁榮數(shù)據(jù)要素市場(chǎng)、促進(jìn)產(chǎn)業(yè)迭代升級(jí)。
對(duì)此,國(guó)家層面應(yīng)通過(guò)政策引導(dǎo)和建設(shè)指引,明確高端數(shù)據(jù)標(biāo)注基地的建設(shè)內(nèi)容,推動(dòng)關(guān)鍵技術(shù)突破和標(biāo)準(zhǔn)體系完善,與區(qū)域數(shù)據(jù)資源聯(lián)動(dòng),帶動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展。地方政府則應(yīng)激勵(lì)骨干企業(yè)、科研院所等積極參與基地共建,加強(qiáng)技術(shù)研發(fā),建立合作網(wǎng)絡(luò),形成從需求提出到成果應(yīng)用的閉環(huán)。
(二)加快建設(shè)行業(yè)數(shù)據(jù)標(biāo)注基地
行業(yè)數(shù)據(jù)標(biāo)注基地是人工智能深度應(yīng)用的重要支撐,具有強(qiáng)行業(yè)屬性、強(qiáng)場(chǎng)景導(dǎo)向和強(qiáng)專(zhuān)業(yè)需求的特征,旨在圍繞醫(yī)療健康、智慧交通、智能制造、能源電力、金融服務(wù)等重點(diǎn)行業(yè)場(chǎng)景,提供專(zhuān)業(yè)的定制化標(biāo)注服務(wù),結(jié)合行業(yè)標(biāo)準(zhǔn)和業(yè)務(wù)流程,將分散異構(gòu)的原始數(shù)據(jù)轉(zhuǎn)化為符合行業(yè)應(yīng)用需求的高質(zhì)量數(shù)據(jù)集。
行業(yè)數(shù)據(jù)標(biāo)注基地的建設(shè),重點(diǎn)面向行業(yè)主管部門(mén)、龍頭企業(yè)和產(chǎn)業(yè)聯(lián)盟,特別是對(duì)行業(yè)數(shù)據(jù)安全、準(zhǔn)確性和專(zhuān)業(yè)性要求高的領(lǐng)域。通過(guò)推動(dòng)專(zhuān)業(yè)化標(biāo)注體系建立和行業(yè)規(guī)范落地,提升行業(yè)數(shù)據(jù)的結(jié)構(gòu)化與可用性水平,形成可復(fù)制推廣的標(biāo)注標(biāo)準(zhǔn),降低企業(yè)自行標(biāo)注的成本;同時(shí)提升模型在特定任務(wù)上的訓(xùn)練效果,推動(dòng)模型精準(zhǔn)解決行業(yè)痛點(diǎn)問(wèn)題。
對(duì)此,建議通過(guò)政策引導(dǎo),鼓勵(lì)龍頭央企承擔(dān)行業(yè)數(shù)據(jù)標(biāo)注基地建設(shè)任務(wù),加強(qiáng)行業(yè)數(shù)據(jù)的合規(guī)采集、分級(jí)管理與安全流通,打造一批行業(yè)標(biāo)注標(biāo)準(zhǔn)和典型示范應(yīng)用。鼓勵(lì)龍頭央企牽頭搭建行業(yè)標(biāo)注平臺(tái),帶動(dòng)上下游企業(yè)協(xié)同參與,推動(dòng)跨企業(yè)、跨行業(yè)的數(shù)據(jù)共享與標(biāo)準(zhǔn)統(tǒng)一。
四、做好高端和行業(yè)數(shù)據(jù)標(biāo)注基地建設(shè)的要素保障
高端數(shù)據(jù)標(biāo)注基地和行業(yè)數(shù)據(jù)標(biāo)注基地的建設(shè),除頂層設(shè)計(jì)外,還需依托完善的要素條件。為此,我們提出四點(diǎn)思考建議。
一是強(qiáng)化人才保障。數(shù)據(jù)標(biāo)注需要既懂人工智能、又熟悉行業(yè)場(chǎng)景的復(fù)合型人才。應(yīng)加快建設(shè)數(shù)據(jù)標(biāo)注人才培養(yǎng)體系,支持高校開(kāi)設(shè)相關(guān)課程和實(shí)踐平臺(tái),鼓勵(lì)基地與科研院所、企業(yè)等聯(lián)合開(kāi)展人才培養(yǎng)。二是建立多元化資金投入機(jī)制。標(biāo)注基地建設(shè)周期長(zhǎng)、投入大,需建立中央財(cái)政引導(dǎo)、地方專(zhuān)項(xiàng)資金配套、社會(huì)資本參與的多元化投入機(jī)制,提供長(zhǎng)期穩(wěn)定的資金保障。三是加強(qiáng)智能化工具研發(fā)應(yīng)用。傳統(tǒng)人工標(biāo)注成本高、效率低,應(yīng)加快自動(dòng)化、半自動(dòng)化標(biāo)注工具研發(fā),推動(dòng)自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、生成式AI等技術(shù)與標(biāo)注工具深度融合,推動(dòng)建設(shè)一體化的智能標(biāo)注平臺(tái)。四是促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級(jí),加強(qiáng)示范引領(lǐng)。應(yīng)引導(dǎo)數(shù)據(jù)標(biāo)注企業(yè)和平臺(tái)向高端、智能方向轉(zhuǎn)型,鼓勵(lì)龍頭企業(yè)打造分領(lǐng)域特色標(biāo)注平臺(tái)。支持有能力的基地先行先試,在技術(shù)、標(biāo)準(zhǔn)、安全等方面形成可復(fù)制推廣的典型經(jīng)驗(yàn),促進(jìn)技術(shù)交流和成果轉(zhuǎn)化。
加快建設(shè)高端數(shù)據(jù)標(biāo)注基地和行業(yè)數(shù)據(jù)標(biāo)注基地,是推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)向深向?qū)嵃l(fā)展、釋放數(shù)據(jù)要素價(jià)值、支撐人工智能賦能經(jīng)濟(jì)社會(huì)發(fā)展的關(guān)鍵。未來(lái),需推動(dòng)產(chǎn)學(xué)研用協(xié)同,共建繁榮產(chǎn)業(yè)生態(tài),以高質(zhì)高效的數(shù)據(jù)標(biāo)注,為我國(guó)人工智能產(chǎn)業(yè)的高水平自立自強(qiáng)筑牢根基。