2025中國國際大數據產業博覽會(以下簡稱數博會)將于8月28日在貴州貴陽啟幕。本屆數博會以“數聚產業動能 智啟發展新篇”為主題,旨在推動數據資源的高效匯聚和開發利用,為產業轉型升級和經濟高質量發展注入強勁動力。北京交通大學信息管理理論與技術國際研究中心教授張向宏作為數據領域的深耕者和數博會的長期參與者,近日接受對話專訪,圍繞數字化轉型成效、數據要素市場化破局、基礎設施挑戰與機遇、數博會平臺價值及未來發展等核心議題,分享了他的深刻洞察與前瞻建議。
問:從您的研究視角看,目前哪些場景的數字化轉型已初見成效?還有哪些領域的數據價值尚未被充分挖掘?
張向宏:國家數據局成立以來,通過實施“數據要素×”行動計劃、國家數據要素綜合示范區、國家數字經濟創新發展試驗區、公共數據“跑起來”、國家數據基礎設施建設、國家數據標注基地建設、城市全域數字化轉型、數據產業集聚區、高質量數據集建設、可信數據空間建設等一系列試點示范工程,逐步探索出了一條行之有效的數據資源“供得出、流的動、用的好、保安全”路徑,有效促進了各行各業的數據資源開發利用和數字化轉型。
總體來看,各領域數字化轉型可以分為四個梯隊:
第一梯隊是互聯網、金融、商貿流通等行業,數字化轉型深度和廣度不斷拓展,面向數據的生產經營、管理決策、供應鏈管理、客戶管理等垂直大模型、智能體等數據系統應用越來越廣泛,正在快速替代面向流程和業務的信息化系統。
第二梯隊是氣象、時空、醫療、交通等行業,數據采集匯聚規模大、質量高,數據在本行業和跨領域的應用越來越普遍,人工智能垂直大模型和智能體等應用不斷增多。
第三梯隊是政務服務、社會管理、高端制造業等領域,大多數處于信息系統建設運營階段,數據資源采集匯聚不斷增強,但數據資源加工處理仍然滯后,數據應用還處于初級階段。
第四梯隊是中小企業、農業等領域,大多數還處于信息化初級階段,信息系統還沒有建設應用,數據資源還未得到充分重視,數據還沒有得到應用。
問:數據要素市場化是當前的熱點,您認為不同行業在數據確權、定價、交易等環節存在哪些共性難題?結合您的研究,有哪些針對性的解決思路?
張向宏:數據是一種新型生產要素,具有與土地、勞動力、技術、資本等傳統生產要素迵然不同的新特點,如數據的多環節性和低成本易復制性特點,決定了數據要素很難確權或者確權成本很高;數據的阿羅信息悖論效應特征,決定了數據很難實現場內規模交易;數據價值不確定性特征,決定了數據價值易變、很難定價。
面向人工智能的行業高質量數據集構建是解決數據要素化價值化的一條可行路徑。從數據要素化的具體實踐來看,數據要素化價值化絕不能陷入傳統要素的慣性路線中,或者說,簡單地將傳統要素的做法移植到數據要素中,是行不通的。當前,一方面是人工智能應用普及對數據資源需求日益迫切,另一方面是國家層面對數據資源開發利用制度供給不斷加大,兩端相向而行,已形成一條清晰的面向人工智能的數據產業鏈條。
數據產業鏈條的下游是垂域大模型在千行百業的應用;中下游是在基礎大模型上加上大規模的行業高質量數據集,訓練和調優而成的各種垂域大模型;中上游是在各行業采集匯聚的海量數據資源基礎上,加工生產出的規模化、標準化、體系化高質量數據集;上游是各行各業的數據資源供給。而這條“數據資源—高質量數據集—垂域大模型—千行百業應用”數據產業鏈,都需要在數據基礎設施中實現。
問:隨著各行業數據量爆發式增長,數據存儲、算力支撐、算法優化等基礎設施層面面臨哪些新挑戰?您覺得技術突破的關鍵方向在哪里?
張向宏:算力和模型對人工智能應用的制約已大大緩解。算力、算法和數據是人工智能的三個關鍵要素,長期以來,高耗算力、模型閉源和數據短缺一直制約著人工智能大模型的應用普及。以DeepSeek為代表的人工智能企業,實現了MOE等關鍵技術重大突破,并采取了模型開源策略,實現了“算力平權”和“算法平權”,突破了人工智能三要素中的兩大要素制約,促進人工智能大模型向通信、互聯網、汽車、能源、金融、醫療、科技等各行各業加速滲透,顯著降低了成本,提高了效率,并優化了用戶體驗,人工智能大模型廣泛應用的時代已經到來。
高質量數據集是成為決定大模型質量的關鍵因素。DeepSeek實現“算力平權”和“算法平權”后,“數據平權”已成為人工智能大模型發展的最后一個堡壘,高質量數據集的供給規模和質量已成為決定人工智能大模型在各行業領域滲透速度和應用水平的最關鍵因素。在同等計算資源下,決定生成模型的因素中,高質量數據集的規模大小遠比算法模型規模大小更加重要。而在使用醫學數據訓練大模型過程中,即使醫療數據集中含有0.001%的錯誤信息,也可能導致模型輸出不準確的醫學答案。
垂域大模型正廣泛應用于企業的生產、管理、經營,企業的核心競爭力取決于其垂域大模型的“聰明”程度和“熟練”程度等大模型能力。垂域大模型的訓練和推理高度依賴高質量數據集的供給。高質量數據集的規模和質量直接影響人工智能大模型的“智商”水平,高質量數據集已成為企業的核心競爭力和真正的“護城河”。
私域數據安全流通成為制約高質量數據集建設的關鍵瓶頸。全球數據資源中20%是公域數據,也稱作可流通數據,80%是私域數據,或稱不可流通數據。在20%的公域數據中,只有4%的數據是能在互聯網上流通的格式化數據,其他16%的多模態數據不能在互聯網上直接流通。當前,人工智能大模型對數據的消耗量越來越大,預計2028年互聯網上流通的數據將全部耗盡。
在互聯網上可流通數據將全部耗盡的背景下,人工智能大模型的聰明程度、智商水平和應用普及程度,將越來越多地取決于多模態數據和私域數據的安全高效流通程度,特別是私域數據的安全流通已成為世界各國必須解決的一個普遍性問題。這就需要從思想觀念和管理體制機制方面,從傳統數據靜態安全轉變到數據動態安全上來。建設一個既能促進私域數據大規模、高效流通,又能確保流通過程中安全的數據流通利用基礎設施,成為私域數據安全高效流通的基礎和前提。
問:數博會作為數據領域的重要平臺,您有什么樣的參會經歷或印象?您認為它在推動數據技術創新、促進產學研合作方面,起到了哪些關鍵作用?
張向宏:數博會是全球首個以大數據為主題的博覽會,也是我國數據領域的兩大國家級平臺之一,得到了黨中央、國務院的高度肯定和支持,傾注了國家數據局和貴州省、貴陽市的大量心血,吸引了全國乃至世界各地數據領域政府、企業、大學、科研機構等參與,不僅已成為數據成果展示、技術交流、應用合作的一個全球性平臺,更是推動產學研深度融合、促進數字經濟高質量發展的重要引擎。在推動數據技術創新和產學研合作方面發揮了重要作用,主要體現在以下幾個方面:
一是引領行業技術方向,促進前沿技術應用。數博會聚焦大數據、人工智能、云計算等前沿技術,為職業教育和技術研發提供了清晰的行業風向標。
二是搭建校企合作平臺,深化產教融合。數博會聚集了華為、騰訊、螞蟻等科技企業,為高校和企業搭建合作平臺,促進訂單班、實訓基地共建等深度合作。2025數博會還通過“數字人才培養”活動,匯聚政府、高校、企業、研究機構等多方力量,探討產學研用協同育人模式。
三是促進跨區域、跨領域協同創新。數博會連接了全國甚至世界各地在數據領域的合作。如深圳市大數據研究院與香港中文大學(深圳)合作,在貴陽大數據科創城開展人工智能研究,賦能區域數字化轉型。
問:您認為未來數博會在聚焦數據領域的深度、推動產業落地等方面,還有哪些可以優化或加強的地方?
張向宏:未來的數博會,應在三個維度上更加突出應用、突出產業。
一是更加重視面向人工智能應用的高質量數據集建設。建議設立人工智能+專場和高質量數據集建設專場,展示和交流各行各業人工智能最新應用和行業高質量數據集建設最佳實踐。
二是更加重視傳統產業的數字化轉型。建議設立傳統產業數字化轉型專場,引導和示范不同領域不同階段的傳統產業,梯度開展信息系統(IT)、商業智能(BI)、人工智能(AI)應用。
三是更加重視數據要素的普惠化應用。建議設立國家數據基礎設施建設專場,引導各級政府和技術服務企業,一方面不斷突破數據安全流通技術,另一方面加大數據安全流通技術的應用范圍,建設普惠互聯、協調有力的全國一體化數據基礎設施,為數據大規模流通提供可信安全環境,實現“數據自由”。
問:站在數據領域發展的角度,您對數博會舉辦地貴州的長遠發展有什么寄語或期待?
張向宏:數博會已走過了11年的不平凡歷程,面向下一個10年,以至將來50年,希望貴州打造成為全國乃至全球的“兩地四區”,“兩地”即數據技術策源地和數據制度新高地;“四區”即數據應用引領區、數據安全先行區、數據資源匯聚區和數據流通示范區。