【摘要】要素化的數(shù)據(jù)資源通過場景面向的結(jié)構(gòu)性整合過程形成場景數(shù)據(jù)集,對于垂直模型預(yù)訓(xùn)練、大模型強化微調(diào)等人工智能技術(shù)場景具有核心意義。然而,我國現(xiàn)有數(shù)據(jù)市場與數(shù)據(jù)平臺的場景化供給能力受限,高質(zhì)量場景數(shù)據(jù)集所涉開放共享標準、質(zhì)量評估機制等配套規(guī)則尚不完善,以致人工智能產(chǎn)業(yè)中合成數(shù)據(jù)增強、后訓(xùn)練推理強化等前沿優(yōu)化方案難以實現(xiàn)。為全面激活與大規(guī)模釋放醫(yī)療、交通、金融、法律等重要領(lǐng)域的數(shù)據(jù)價值,應(yīng)進一步剖釋細分行業(yè)場景下的數(shù)據(jù)需求與場景化路徑。同時,結(jié)合聯(lián)邦學(xué)習(xí)、合成數(shù)據(jù)等技術(shù)措施耦合差異場景的具體需求,逐級設(shè)定公共數(shù)據(jù)與場景數(shù)據(jù)集的技術(shù)標準、共享機制與法治方案,為現(xiàn)代化人工智能與更多數(shù)字時代新型技術(shù)應(yīng)用提供高質(zhì)量數(shù)據(jù)集的場景化賦能。
【關(guān)鍵詞】高質(zhì)量場景數(shù)據(jù)集 數(shù)據(jù)供給 人工智能
【中圖分類號】D92 【文獻標識碼】A
在新一輪數(shù)字化革命的推動下,數(shù)據(jù)成為繼土地、勞動力、資本、技術(shù)之后的第五大生產(chǎn)要素,并在不同社會領(lǐng)域配合其可復(fù)制性、可增強性、可訓(xùn)練性、可互操作性等獨有特征,實現(xiàn)跨行業(yè)價值釋放。然而,未經(jīng)篩選整合的海量數(shù)據(jù)依然存在數(shù)據(jù)噪聲、非對稱性、低完整性等內(nèi)生問題,難以通過可信利用轉(zhuǎn)化形成可持續(xù)的數(shù)據(jù)價值。面對迥然相異的產(chǎn)業(yè)技術(shù)需求,數(shù)據(jù)可以通過特定的格式和結(jié)構(gòu)加以集合進而發(fā)揮實質(zhì)價值,這一概念亦被稱作“數(shù)據(jù)集”。在新質(zhì)生產(chǎn)力驅(qū)動的全新技術(shù)業(yè)態(tài)下,以人工智能為代表的尖端科技正在對特定垂直場域中的“場景數(shù)據(jù)集”展現(xiàn)更強的上下文依賴性,醫(yī)療、交通、教育、金融等場景化的專業(yè)性數(shù)據(jù)集需求高速提升,①特定應(yīng)用場景的精細化對數(shù)據(jù)價值體系提出更高要求。②此背景下,場景數(shù)據(jù)集的概念激活與高質(zhì)量發(fā)展正密切關(guān)聯(lián)我國數(shù)字產(chǎn)業(yè)經(jīng)濟的創(chuàng)新性配置、領(lǐng)域性轉(zhuǎn)型與技術(shù)性突破。為實現(xiàn)場景數(shù)據(jù)價值效用的乘數(shù)倍增與充分釋放,亟需打通我國關(guān)聯(lián)領(lǐng)域目前在數(shù)據(jù)供給、數(shù)據(jù)流通、數(shù)據(jù)評估、數(shù)據(jù)標準、數(shù)據(jù)開放、數(shù)據(jù)共享等層面的堵點,以“場景化加工能力”與“多樣化共享體系”兩大要點共同構(gòu)建具有國際化樣板意義的高質(zhì)量場景數(shù)據(jù)集。
高質(zhì)量場景數(shù)據(jù)集的戰(zhàn)略定位與價值釋放
現(xiàn)代科技譜系中,數(shù)據(jù)集可能關(guān)聯(lián)區(qū)塊鏈、物聯(lián)網(wǎng)、人工智能、自動化工程、高性能計算、地理信息系統(tǒng)等多端技術(shù),作為中樞性資源要素發(fā)揮復(fù)合效果。而在醫(yī)療、工業(yè)等具體領(lǐng)域的技術(shù)應(yīng)用中,數(shù)據(jù)集的價值轉(zhuǎn)化則清晰展現(xiàn)“應(yīng)用牽引”下的場景差異化需求。例如,工業(yè)場景需要傳感器數(shù)據(jù)等精度高、實時性強的數(shù)據(jù)集合,醫(yī)療場景的數(shù)據(jù)集建構(gòu)則更多關(guān)聯(lián)隱私保護、數(shù)據(jù)保真度等要求。此背景下,面向具體場景的高質(zhì)量數(shù)據(jù)集供給日趨關(guān)鍵,并對各國科技產(chǎn)業(yè)的戰(zhàn)略性部署展現(xiàn)出重要價值。例如,歐盟委員會于2022年發(fā)布《高價值數(shù)據(jù)集實施法案》,明確環(huán)境數(shù)據(jù)、地理空間數(shù)據(jù)與地球觀測數(shù)據(jù)等特定場景高價值數(shù)據(jù)集的供給標準,進一步完善面向工業(yè)、國防等重點場景的高質(zhì)量數(shù)據(jù)集供給。
在多類應(yīng)用情境中,人工智能對于高質(zhì)量場景數(shù)據(jù)集的需求尤為突出。2024年《政府工作報告》首次將“人工智能+”上升至國家戰(zhàn)略層面,明確提出深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用。近年來,以DeepSeek、ChatGPT、Gemini、通義千問、豆包為代表的大語言模型在各社會領(lǐng)域展現(xiàn)了卓越的應(yīng)用潛力與現(xiàn)實效果,③此類生成式人工智能所采用的預(yù)訓(xùn)練方法便是通過海量數(shù)據(jù)的累積效應(yīng)實現(xiàn)模型的智能涌現(xiàn)與能力遷移。但一方面,預(yù)訓(xùn)練模式對于模型專業(yè)領(lǐng)域的性能提升效果欠佳,未經(jīng)篩選的低質(zhì)量數(shù)據(jù)容易導(dǎo)致專業(yè)性問題的“模型幻覺”(模型生成了不符合事實或毫無根據(jù)的信息);另一方面,預(yù)訓(xùn)練所需的可用數(shù)據(jù)資源即將被用盡。在雙重挑戰(zhàn)的協(xié)同作用下,針對特定場景的高質(zhì)量數(shù)據(jù)集成為人工智能模型訓(xùn)練的關(guān)鍵支撐,為現(xiàn)有數(shù)據(jù)局限下智能模型的訓(xùn)練路徑優(yōu)化提供轉(zhuǎn)向可能。
其一,特定領(lǐng)域的高質(zhì)量數(shù)據(jù)注入能夠推動人工智能掌握對應(yīng)領(lǐng)域的關(guān)鍵特征與獨有規(guī)律,通過垂直場景的上下文關(guān)系增強模型訓(xùn)練的精準性與針對性,實現(xiàn)高度專業(yè)化與個性化的人工智能解決方案與創(chuàng)新拓展。其二,高質(zhì)量場景數(shù)據(jù)集在模型微調(diào)與強化學(xué)習(xí)階段的嵌入亦可抑制數(shù)據(jù)偏差與特殊場景下模型的表現(xiàn)失衡,基于目標行業(yè)的標準與規(guī)范提升模型的合規(guī)性、可信度與可解釋性。其三,OpenAI推出的一系列推理模型正在數(shù)學(xué)、物理、化學(xué)等強邏輯專業(yè)領(lǐng)域展現(xiàn)專家級別的優(yōu)異表現(xiàn),此類后訓(xùn)練模型的調(diào)試與性能增強對于專業(yè)領(lǐng)域數(shù)據(jù)與反饋的需求更為迫切。2024年末,OpenAI宣布將開展強化微調(diào)(Reinforcement Fine-Tuning)的模型定制計劃,通過特定領(lǐng)域小規(guī)模數(shù)據(jù)集的重點訓(xùn)練將通用模型轉(zhuǎn)化為專業(yè)模型,并展示了運用此種方法推動GPT o1 Mini模型高水平推理罕見疾病成因的實例。未來,更多專業(yè)維度的高質(zhì)量場景數(shù)據(jù)集將助推人工智能于更寬廣的重點領(lǐng)域展現(xiàn)“專家級”能力,實現(xiàn)模型性能與社會效率的場景化躍升。
我國高質(zhì)量場景數(shù)據(jù)集的供給現(xiàn)狀與發(fā)展困境
規(guī)范層面,我國早在2020年已認識到高質(zhì)量數(shù)據(jù)集供給對于經(jīng)濟社會發(fā)展的戰(zhàn)略價值,并發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》等系列政策。近年來,我國相繼頒布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(2022年)《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》(2024年)等政策法規(guī)。然而,相較歐盟在《公共部門信息復(fù)用指令》等開放數(shù)據(jù)法規(guī)基礎(chǔ)上所明確的《關(guān)于開放數(shù)據(jù)和公共部門信息再利用指令》等規(guī)范及其落地效果,我國數(shù)據(jù)集的場景優(yōu)勢與場景化激活能力仍顯不成熟,特別是在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、公共數(shù)據(jù)開放制度、數(shù)據(jù)集共享生態(tài)等層面仍顯不足。
實踐層面,我國數(shù)據(jù)資源總量優(yōu)勢明顯,多樣化數(shù)據(jù)資源豐富,為高質(zhì)量場景數(shù)據(jù)集的高速增長提供現(xiàn)實基礎(chǔ)。據(jù)新華社消息,2024年,全國數(shù)據(jù)市場交易規(guī)模預(yù)計超1600億元,同比增長30%以上,其中場內(nèi)市場數(shù)據(jù)交易(含備案交易)規(guī)模預(yù)計超300億元,同比實現(xiàn)翻番。根據(jù)全國數(shù)據(jù)資源調(diào)查工作組發(fā)布的《全國數(shù)據(jù)資源調(diào)查報告(2023年)》,2023年,全國數(shù)據(jù)生產(chǎn)總量達32.85ZB(澤字節(jié)),同比增長22.44%。我國數(shù)據(jù)資源“產(chǎn)—存—算”的規(guī)模優(yōu)勢已基本形成。根據(jù)國際數(shù)據(jù)公司(IDC)的預(yù)測,中國“數(shù)據(jù)圈”(每年被創(chuàng)建、采集或是復(fù)制的數(shù)據(jù)集合)在2025年增至48.6ZB(澤字節(jié)),占全球27.8%,成為最大“數(shù)據(jù)圈”。同時,線上支付、電子商務(wù)、共享經(jīng)濟、電子政務(wù)、智慧醫(yī)療等多樣化數(shù)字服務(wù)與數(shù)據(jù)應(yīng)用場景在我國具有良好的社會接受度與廣闊的應(yīng)用前景。得益于多民族文化的包容特性與社會秩序的長期穩(wěn)定,我國大多數(shù)民眾對跨場景數(shù)據(jù)應(yīng)用持開放態(tài)度,數(shù)字化需求趨于多樣,這為數(shù)據(jù)賦能的技術(shù)突破與多領(lǐng)域數(shù)字創(chuàng)新的涌現(xiàn)提供了社會土壤。然而,我國高質(zhì)量數(shù)據(jù)集供給的場景完善度不足,海量數(shù)據(jù)與多樣化場景優(yōu)勢的潛能仍有待進一步釋放。
其一,我國面向場景的有效數(shù)據(jù)供給有待強化,數(shù)據(jù)資源總量優(yōu)勢的價值轉(zhuǎn)化尚待釋放。在“原始數(shù)據(jù)—場景數(shù)據(jù)—可用場景數(shù)據(jù)—高質(zhì)量場景數(shù)據(jù)集”的四階段數(shù)據(jù)轉(zhuǎn)化與價值遞進中,作為中間產(chǎn)品的數(shù)據(jù)要素須經(jīng)清洗、標注、分析等加工活動以實現(xiàn)價值創(chuàng)造。此過程中,三方面因素使得我國在基于差異化場景需求實現(xiàn)數(shù)據(jù)價值的場景化增長方面存在一定難度。一是數(shù)據(jù)加工過程中投入與回報不成比例所引發(fā)的動力匱乏問題。專業(yè)化數(shù)據(jù)的高質(zhì)量標注需要龐大的資金投入且同時關(guān)聯(lián)安全責任風險,這與數(shù)據(jù)應(yīng)用的收益回報比例之間存在錯位。二是公共數(shù)據(jù)場景化加工的程度與緊迫性不足,難以發(fā)揮公共數(shù)據(jù)對于數(shù)據(jù)開發(fā)利用的引領(lǐng)作用與催化作用。從現(xiàn)有國家政策來看,我國工業(yè)、醫(yī)療、交通、氣象等具體場景的數(shù)據(jù)供給能力尚未作為專門對象加以細化規(guī)定,領(lǐng)域差異化數(shù)據(jù)統(tǒng)歸于公共數(shù)據(jù)范疇的做法難以匹配垂直領(lǐng)域的細化要求。三是數(shù)據(jù)加工技術(shù)存在優(yōu)化空間,專業(yè)人才供給難以充分滿足需求,致使場景化加工效果欠佳。在數(shù)據(jù)標注自動化工程尚未成熟的階段,將雜亂無序的低價值數(shù)據(jù)在工業(yè)互聯(lián)網(wǎng)等特定場景加工為標準化、目錄化、高價值數(shù)據(jù)資源需要高級別的專業(yè)技術(shù)技能,④人工智能訓(xùn)練與推理階段涉及多模態(tài)數(shù)據(jù)、高維度數(shù)據(jù)、跨領(lǐng)域數(shù)據(jù),對計算機科學(xué)專業(yè)技術(shù)需求更加嚴苛,⑤這為我國數(shù)據(jù)加工的現(xiàn)代化場景轉(zhuǎn)向帶來一定挑戰(zhàn)。
其二,受限于較低級別的數(shù)據(jù)開放度與流通度,我國高質(zhì)量場景數(shù)據(jù)集的源頭供給能力有待提升。首先,我國公共數(shù)據(jù)開放程度有限,關(guān)鍵主題高價值數(shù)據(jù)集的動態(tài)數(shù)據(jù)、應(yīng)用編程接口(API)與數(shù)據(jù)開放許可證等標準尚不明晰,難以實現(xiàn)公共數(shù)據(jù)面向公眾和企業(yè)的有序開放或強制開放。其次,我國多領(lǐng)域數(shù)據(jù)源很大程度為大型數(shù)據(jù)平臺所壟斷,各行業(yè)數(shù)據(jù)普遍向平臺呈現(xiàn)聚攏態(tài)勢,根據(jù)全國數(shù)據(jù)資源調(diào)查工作組發(fā)布的《全國數(shù)據(jù)資源調(diào)查報告(2023年)》,大型平臺企業(yè)平均數(shù)據(jù)交互量約為行業(yè)重點企業(yè)的200倍以上。但同時,大型平臺企業(yè)常以保護個人信息、防范安全風險等理由拒絕共享,僅把數(shù)據(jù)用于自身場景構(gòu)建。因此,大量中小型企業(yè)雖有豐富的場景數(shù)據(jù)需求,卻常處于“無數(shù)據(jù)可用”的困境。最后,在數(shù)據(jù)共享受限的背景下,我國數(shù)據(jù)交易亦存在供需失衡?!度珖鴶?shù)據(jù)資源調(diào)查報告(2023)》顯示,調(diào)研的27家交易所的數(shù)據(jù)產(chǎn)品中僅有17.9%實現(xiàn)交易。數(shù)據(jù)權(quán)屬界定、數(shù)據(jù)交易定價等固有難題引發(fā)的數(shù)據(jù)交易制度滯后問題致使整體性數(shù)據(jù)產(chǎn)品成交率低迷,供需不匹配的現(xiàn)象廣泛存在,數(shù)據(jù)交易機構(gòu)供給水平難以滿足場景數(shù)據(jù)需求。
其三,細分應(yīng)用場景的技術(shù)標準仍有待完善,海量數(shù)據(jù)在垂直場景實現(xiàn)價值激活面臨挑戰(zhàn)。不同應(yīng)用場景下,數(shù)據(jù)的格式、版本等特征性技術(shù)需求對應(yīng)相異的數(shù)據(jù)標準與技術(shù)標準。例如,在柔性制造領(lǐng)域,數(shù)據(jù)需配合高頻采樣、實時監(jiān)測的產(chǎn)業(yè)需求,在生產(chǎn)節(jié)拍精準同步等方面存在特定數(shù)據(jù)規(guī)范;在智能交通領(lǐng)域,位置、路況信息之外的視覺、雷達、激光測距等多樣化數(shù)據(jù)融合及相應(yīng)技術(shù)標準對高精度地圖的更新則至關(guān)重要。然而,我國當前主要著眼數(shù)據(jù)供給數(shù)量的增加,尚未針對場景深入開展數(shù)據(jù)集標準化技術(shù)工程。此背景下,數(shù)據(jù)技術(shù)標準與架構(gòu)的不統(tǒng)一增加了場景數(shù)據(jù)集成的復(fù)雜性,不同數(shù)據(jù)間的場景融合與預(yù)期場景的具體需求所關(guān)聯(lián)的轉(zhuǎn)換、加工與適配工作消耗過量資源,亦可能基于標準引發(fā)的數(shù)據(jù)誤差降低場景數(shù)據(jù)供給的整體質(zhì)量。人工智能模型結(jié)構(gòu)高速迭代的產(chǎn)業(yè)背景下,多模態(tài)模型所需圖像、語音、文本、視頻等數(shù)據(jù)形式的融合需求日趨關(guān)鍵,⑥推理模型對高邏輯領(lǐng)域復(fù)雜問題的反饋數(shù)據(jù)需求也趨于迫切,多模態(tài)數(shù)據(jù)元模型擬定、元數(shù)據(jù)描述語言等新興技術(shù)標準問題正快速更新,亟需有效回應(yīng)。未來,細分場景下數(shù)據(jù)技術(shù)標準與架構(gòu)的滯后效應(yīng)可能進一步影響場景數(shù)據(jù)集在現(xiàn)代化技術(shù)需求下的流通與復(fù)用,阻礙數(shù)據(jù)流通、數(shù)據(jù)交易與數(shù)據(jù)價值增值的充分實現(xiàn)。
其四,現(xiàn)有規(guī)范體系下數(shù)據(jù)開放目錄、數(shù)據(jù)開放主體、數(shù)據(jù)開放責任等配套制度在落地實施時面臨一定阻礙,存在供給不積極、供需不匹配、共享不充分等問題。在實踐中,真正實現(xiàn)開放的公共數(shù)據(jù)主要是各部門的政務(wù)數(shù)據(jù),而此類數(shù)據(jù)難以直接轉(zhuǎn)化為產(chǎn)業(yè)價值。而水電、通信、交通、醫(yī)療等重點場景數(shù)據(jù)則往往被拒絕開放,或限縮開放范圍。同時,在《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》與《中華人民共和國個人信息保護法》這三大立法的實施進程中,數(shù)據(jù)控制合法性判斷與數(shù)據(jù)流通利用的責任規(guī)則仍不明確,⑦個人隱私與商業(yè)秘密難以在真正實現(xiàn)場景化數(shù)據(jù)開放的情境中得到充分保護。此外,數(shù)據(jù)產(chǎn)權(quán)定義尚未統(tǒng)一,信息脫敏與數(shù)據(jù)加密等配套安全措施仍不完善,場景數(shù)據(jù)開放時法律責任與權(quán)益保護也因而趨向復(fù)雜化和模糊化。綜合作用之下,即便我國近年已在相關(guān)法規(guī)中展現(xiàn)“推動按用途加大供給使用范圍”等政策轉(zhuǎn)向,但重點場景的數(shù)據(jù)確權(quán)與開放亦存在一定障礙,數(shù)據(jù)開放與數(shù)據(jù)安全的平衡性問題依然較難明確。
我國高質(zhì)量場景數(shù)據(jù)集的多方共享與突破路徑
其一,培育多方技術(shù),強化高價值數(shù)據(jù)的現(xiàn)代化場景加工能力?,F(xiàn)代化技術(shù)驅(qū)動的數(shù)字產(chǎn)業(yè)變革中,前沿科技對我國數(shù)據(jù)市場與場景化數(shù)據(jù)供給能力的重塑具有核心意義。首先,提升捕捉場景化需求的技術(shù)能力,積極運用機器學(xué)習(xí)中的自然語言處理與物聯(lián)網(wǎng)技術(shù)中的邊緣計算等方法提升對場景需求的精準分析與細化把控。同時,對海量數(shù)據(jù)實現(xiàn)價值分層,結(jié)合深度學(xué)習(xí)構(gòu)建數(shù)據(jù)價值分層管理體系,完成從低質(zhì)量數(shù)據(jù)到高價值數(shù)據(jù)的高效篩選與價值萃取。其次,繼續(xù)完善數(shù)據(jù)基礎(chǔ)設(shè)施與自研工程,從底層基礎(chǔ)層面提升數(shù)據(jù)存儲與計算能力??衫眉舛舜竽P屯怀龅奈谋緮?shù)據(jù)集標注能力與經(jīng)濟化效益,持續(xù)打造契合國產(chǎn)人工智能發(fā)展脈絡(luò)的中文場景訓(xùn)練數(shù)據(jù)語料庫。⑧同時,配合數(shù)據(jù)質(zhì)量評估體系,對專業(yè)數(shù)據(jù)、平臺數(shù)據(jù)等內(nèi)容以特征導(dǎo)向展開質(zhì)量評測,避免數(shù)據(jù)偏差與“虛假多樣性”等數(shù)據(jù)風險。最后,人工智能等現(xiàn)代技術(shù)的積極運用是提升數(shù)據(jù)場景化加工能力的核心關(guān)鍵。例如,在醫(yī)療、金融等不適合進行數(shù)據(jù)自由流動的敏感場景,可利用人工智能轉(zhuǎn)化為“偽數(shù)據(jù)”或匿名數(shù)據(jù)的形式,結(jié)合大模型生成合成數(shù)據(jù)或進行數(shù)據(jù)增強。同時,運用隱私計算、聯(lián)邦學(xué)習(xí)與分布式訓(xùn)練等技術(shù)方法,在保障數(shù)據(jù)安全的基礎(chǔ)上提升數(shù)據(jù)的場景化加工與供給能力,在回應(yīng)場景化數(shù)據(jù)需求的同時平衡數(shù)據(jù)“可用與可控”之間的矛盾。此過程中,須將人工智能人才培育作為重點政策并細化培養(yǎng)方案,積極運用專項基金等激勵措施,帶動專業(yè)化人才發(fā)展以實現(xiàn)場景需求下數(shù)據(jù)集建設(shè)與供給能力的躍升。
其二,在場景面向下推進公共數(shù)據(jù)、平臺數(shù)據(jù)的可信開放與充分共享。一方面,我國阿里、騰訊、百度、字節(jié)跳動等超大型平臺企業(yè)對海量互聯(lián)網(wǎng)數(shù)據(jù)形成支配,但受到個人信息保護與平臺成本的限制,簡單要求共享數(shù)據(jù)的思路亦不可行。為實現(xiàn)少數(shù)平臺數(shù)據(jù)壟斷向全行業(yè)數(shù)據(jù)良性共享的過渡,首先,可借鑒歐盟與美國等西方數(shù)據(jù)治理相關(guān)立法中的“守門人”制度,將滿足特定條件的大型平臺企業(yè)規(guī)定為“守門人”并要求其承擔特定的法律義務(wù)。進一步細化“守門人”制度的限制,明確“守門人”將非個人數(shù)據(jù)共享給第三方的要求及其具體規(guī)定。其次,亦可借鑒知識產(chǎn)權(quán)制度中的保護時間設(shè)計,根據(jù)不同場景下的數(shù)據(jù)價值變化曲線要求,引導(dǎo)或鼓勵平臺在一段時間后共享具有公共屬性的數(shù)據(jù)以便其他主體進行利用。最后,進一步完善數(shù)據(jù)交易制度、數(shù)據(jù)產(chǎn)權(quán)制度與數(shù)據(jù)收益分配制度。協(xié)調(diào)場內(nèi)交易與場外交易等相異場景需求下的具體措施,逐步形成面向數(shù)據(jù)資源化、資產(chǎn)化、資本化等不同層面,兼顧薪資分配、效益分配和股權(quán)分配等多種分配形式的分配機制與交易生態(tài)。另一方面,推動公共數(shù)據(jù)標準化、共享機制和安全保障體系建設(shè),兼顧政府、企業(yè)與個人等主體對公共數(shù)據(jù)開放的需求與利益訴求,構(gòu)建公共數(shù)據(jù)開放與共享的深度協(xié)同機制并提升跨部門協(xié)調(diào)能力與政策執(zhí)行力。
其三,聚焦重點場景,賦能多樣化場景,推進政府主導(dǎo)與市場平衡下的前沿數(shù)據(jù)利用。針對場景面向下公共數(shù)據(jù)與高價值數(shù)據(jù)的利用,政府不宜對市場“無形之手”的靈活調(diào)控效果進行過度干預(yù),但也應(yīng)對數(shù)據(jù)開放、流通與利用過程的合規(guī)性與安全性承擔主要監(jiān)管職責??梢圆捎?ldquo;兩步走”的方式推動從重點場景到多樣化場景中良性秩序的形成。第一步,現(xiàn)階段暫時摒棄“不加區(qū)分、一并推進”的做法,明確數(shù)據(jù)集供給的劃定應(yīng)用場景。例如,《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》中明確指出,要“聚焦重點行業(yè)和領(lǐng)域,挖掘典型數(shù)據(jù)要素應(yīng)用場景”。通過借鑒域外取得良好效果的重點場景,可在地方層面進一步將高質(zhì)量場景數(shù)據(jù)集建設(shè)明確在普惠金融、醫(yī)療保險、物業(yè)服務(wù)等相對有限的細分板塊。在此基礎(chǔ)上,完善重點應(yīng)用場景下的數(shù)據(jù)開放細則,爭取實現(xiàn)相應(yīng)領(lǐng)域數(shù)據(jù)的有需必應(yīng)。第二步,在著眼核心場景的同時持續(xù)推進更大范圍場景的賦能效應(yīng)。一是建立開放清單動態(tài)調(diào)整機制,同步維持開放數(shù)據(jù)的實時更新與日常性維護工作,確保實時分析能力的精準高效與相應(yīng)救濟途徑的暢通;二是以市場為主體推動多樣化場景數(shù)據(jù)的衍生發(fā)展,先通過提高相似場景中的數(shù)據(jù)泛化表現(xiàn)以提升場景數(shù)據(jù)集的通用性,避免智能模型等末端應(yīng)用過擬合于某些特定子場景;三是針對元宇宙、數(shù)字孿生、智能決策等數(shù)字時代的新型場景進行數(shù)據(jù)需求的前瞻性剖析,并對智能監(jiān)控等數(shù)字城市治理場景中出現(xiàn)的前沿問題作出精準把握,⑨提前布局以保障新興領(lǐng)域預(yù)見性政策的及時跟進。
其四,優(yōu)化現(xiàn)有規(guī)范,明確數(shù)據(jù)架構(gòu)與技術(shù)配套的場景化標準。一方面,持續(xù)完善頂層制度設(shè)計以發(fā)揮其對場景數(shù)據(jù)流通的保障與激勵機能。可參考美國《信息自由法》《聯(lián)邦數(shù)據(jù)戰(zhàn)略》與歐盟《通用數(shù)據(jù)管理條例》《數(shù)據(jù)治理法案》等規(guī)范中關(guān)聯(lián)的可借鑒規(guī)則,建構(gòu)公共部門信息復(fù)用與數(shù)據(jù)開放的場景化框架并推動本土化創(chuàng)新,鼓勵行業(yè)導(dǎo)向的戰(zhàn)略性數(shù)據(jù)集建設(shè)與數(shù)據(jù)開放生態(tài)。同時,在跨境電商、跨國物流、國際金融等場景中,跟進關(guān)注《中歐全面投資協(xié)定》(CAI)、《全面與進步跨太平洋伙伴關(guān)系協(xié)定》(CPTPP)、《區(qū)域全面經(jīng)濟伙伴關(guān)系協(xié)定》(RCEP)等國際經(jīng)貿(mào)協(xié)議中的數(shù)據(jù)跨境流動規(guī)則,通過跨境場景的數(shù)據(jù)協(xié)同構(gòu)建我國數(shù)據(jù)要素的獨特場景優(yōu)勢,合理分配國家的“剩余控制權(quán)”,保留更多的行業(yè)自律與跨行業(yè)協(xié)同空間。另一方面,持續(xù)完善場景面向的數(shù)據(jù)架構(gòu)與技術(shù)標準。一是推動差異場景下技術(shù)架構(gòu)的統(tǒng)一化進程,促進高質(zhì)量數(shù)據(jù)的跨場景互通,推動全國數(shù)據(jù)要素市場一體化。同時,亦不可忽視場景間的差異性,避免盲目追求共性而損害數(shù)據(jù)質(zhì)量,跟進補充對標特定場景的數(shù)據(jù)標準,特別關(guān)注大模型背景下多模態(tài)數(shù)據(jù)的可識別性與技術(shù)架構(gòu)互通等問題。二是在技術(shù)標準制定進程中以前瞻視角關(guān)注人工智能等前沿技術(shù)的新型應(yīng)用場景與產(chǎn)業(yè)模態(tài)。例如,明確不同場景下人工智能合成數(shù)據(jù)的質(zhì)量標準;細化無監(jiān)督機器學(xué)習(xí)中場景數(shù)據(jù)抓取的合規(guī)技術(shù)標準;厘清大模型生成內(nèi)容領(lǐng)域數(shù)據(jù)集提供者、模型開發(fā)者與服務(wù)使用者之間的數(shù)據(jù)義務(wù)等。三是以場景為牽引,建立強制性的“數(shù)據(jù)法規(guī)”與自愿性的“數(shù)據(jù)標準”相結(jié)合的新型標準化體制。⑩特別是在醫(yī)療、科研等專業(yè)細分場景的數(shù)據(jù)標準中,運用彈性較高的技術(shù)標準與倫理標準發(fā)揮“軟法先行”的正向效應(yīng),動態(tài)探索各數(shù)據(jù)場景的適配規(guī)則。
(作者為浙江大學(xué)光華法學(xué)院教授、博導(dǎo),浙江大學(xué)國際戰(zhàn)略與法律研究院常務(wù)副院長,數(shù)字法治研究院首席專家)
【注:本文系國家社科基金年度項目“基于語料庫的網(wǎng)絡(luò)安全話語體系研究”(項目編號:24BYY151)、國家社科基金重大項目“建立健全我國網(wǎng)絡(luò)綜合治理體系研究”(項目編號:20ZDA062)、浙江省法學(xué)會重點課題“數(shù)字社會司法治理理論與規(guī)則研究”(項目編號:2024NA19)階段性成果】
【注釋】
①歐陽日輝:《激活數(shù)據(jù)要素價值發(fā)展新質(zhì)生產(chǎn)力》,《人民論壇》,2024年第11期。
②程樂:《“數(shù)字人本主義”視域下的通用人工智能規(guī)制鑒衡》,《政法論叢》,2024年第3期。
③程樂:《生成式人工智能治理的態(tài)勢、挑戰(zhàn)與展望》,《人民論壇》,2024年第2期。
④程樂:《構(gòu)建以數(shù)據(jù)流通為核心的工業(yè)互聯(lián)網(wǎng)生態(tài)體系》,《人民論壇》,2024年第15期。
⑤張濤:《生成式人工智能訓(xùn)練數(shù)據(jù)集的法律風險與包容審慎規(guī)制》,《比較法研究》,2024年第4期。
⑥程樂、趙藝林:《制度競爭下的美國人工智能監(jiān)管與中國因應(yīng)》,《思想理論戰(zhàn)線》,2025年第1期。
⑦高富平:《數(shù)據(jù)流通理論數(shù)據(jù)資源權(quán)利配置的基礎(chǔ)》,《中外法學(xué)》,2019年第6期。
⑧張凌寒:《加快建設(shè)人工智能大模型中文訓(xùn)練數(shù)據(jù)語料庫》,《人民論壇·學(xué)術(shù)前沿》,2024年第13期。
⑨程樂:《我國公共安全視頻監(jiān)控體系的布局與優(yōu)化》,《人民論壇》,2024年第23期。
⑩楊力:《論公共數(shù)據(jù)流通技術(shù)標準及法治化》,《社會科學(xué)輯刊》,2023年第4期。
責編/靳佳 美編/楊玲玲
聲明:本文為人民論壇雜志社原創(chuàng)內(nèi)容,任何單位或個人轉(zhuǎn)載請回復(fù)本微信號獲得授權(quán),轉(zhuǎn)載時務(wù)必標明來源及作者,否則追究法律責任。
