基于龐大數(shù)據(jù)和超高算力的“暴力美學”,是當前生成式人工智能的核心打法,也是以OpenAI為代表的一眾企業(yè)的發(fā)展密碼。簡單來說,在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強
?在全球范圍內,數(shù)據(jù)存量的增長速度遠遠低于數(shù)據(jù)集規(guī)模的增長速度。據(jù)人工智能研究機構epoch的研究預測,語言數(shù)據(jù)可能在2030~2040年耗盡,其中能訓練出更優(yōu)性能的高質量語言數(shù)據(jù)甚至可能在2026年耗盡
?中國的數(shù)據(jù)量很大,但沒有真正產(chǎn)業(yè)化,相對標準化的數(shù)據(jù)服務商還比較少,因為大數(shù)據(jù)服務不賺錢,公共數(shù)據(jù)企業(yè)沒有意愿去清洗,定制化服務又一般收費比較高
在阿西莫夫經(jīng)典科幻《最后的問題》當中,兩個喝得醉醺醺的“程序猿”向人工智能詢問了這樣一個問題:“怎樣使宇宙的總熵大幅降低?”
“數(shù)據(jù)不足,無法作答?!比斯ぶ悄芪茨茉诘谝粫r間解答這個問題。盡管在的最后,這個仿若翻版ChatGPT的人工智能在時間的盡頭交出了答卷,但貫穿整個宇宙生命的過程中,它始終都在做一件事:收集數(shù)據(jù)。
數(shù)據(jù),是人工智能賴以發(fā)展的核心資源。的情節(jié)固然戲劇化,但其內容卻與發(fā)展生成式人工智能的現(xiàn)實矛盾不謀而合。
當前,“百模大戰(zhàn)”如火如荼,頭部企業(yè)競相投身人工智能賽道,但有效數(shù)據(jù)不足,特別是高質量中文語料的短缺以及部分領域封閉式的數(shù)據(jù)生態(tài)給人工智能發(fā)展帶來了掣肘。如何解決“數(shù)據(jù)瓶頸”是未來一段時期我們即將面臨——或已經(jīng)面臨的挑戰(zhàn)。
海濱港口、城市霓虹、幼犬互動……近日,由美國人工智能文生視頻大模型Sora生成的數(shù)個視頻迅速吸引了世界目光。與“文生圖”不同,Sora發(fā)布的視頻長達60秒,具有豐富的運動變化,其中物品相互之間的作用關系、物理規(guī)律的刻畫都達到了近乎以假亂真的地步。從物體互動到光影斑駁,屏幕上像素點的變換令人擊節(jié)嘆賞。
像Sora這樣的生成式人工智能并不是“無中生有”。不同于以往為人們所熟悉的判別式人工智能,生成式人工智能本質上是一種建立在大模型和預訓練基礎上的運用海量數(shù)據(jù)所生成的“模擬器”。
海國圖智研究院院長、暨南大學教授陳定定認為,快速涌現(xiàn)人工智能成果高度依賴于大量、多樣化的數(shù)據(jù)。華大集團首席執(zhí)行官尹燁說,發(fā)展人工智能,拼的不僅是“象牙塔尖”的算法更新,更是來源于開放性市場龐大的數(shù)據(jù)積累。M6 米樂
基于龐大數(shù)據(jù)和超高算力的“暴力美學”,是當前生成式人工智能的核心打法,也是以OpenAI為代表的一眾企業(yè)的發(fā)展關鍵。簡單來說,在同等條件下,喂的數(shù)據(jù)越多,人工智能就越強。
有數(shù)據(jù)顯示,從GPT到GPT2再到GPT3,OpenAI將模型參數(shù)從1.17億提升到15億,然后爆炸式地提升到1750億,以至于GPT3比以前同類型的語言模型參數(shù)量增加了十倍以上。
作為數(shù)字之海的基本構成要素,海量、優(yōu)質的數(shù)據(jù)爭奪已經(jīng)成為國家和企業(yè)間的無聲戰(zhàn)場。米樂M6 M6米樂OpenAI旗下產(chǎn)品的使用條款就明確提及,企業(yè)將保留交互數(shù)據(jù)的使用權?;跀?shù)字技術形成的通用數(shù)據(jù)、優(yōu)質數(shù)據(jù)壟斷,可能將成為這場數(shù)字拓荒當中,后發(fā)者無法逾越的天塹。在一定程度上可以說,掌握數(shù)據(jù),就掌握了包括人工智能等眾多未來產(chǎn)業(yè)的主導權。
如果說數(shù)據(jù)是人工智能成長的“肥料”,那么人類或許將很快面臨“無肥可施”的境地。
清華大學公共管理學院教授梁正在接受采訪時提到,全球范圍內,數(shù)據(jù)存量的增長速度遠遠低于數(shù)據(jù)集規(guī)模的增長速度。據(jù)人工智能研究機構epoch的研究預測,語言數(shù)據(jù)可能在2030~2040年耗盡,其中能訓練出更優(yōu)性能的高質量語言數(shù)據(jù)甚至可能在2026年耗盡。
優(yōu)質中文語料的大面積缺失,讓AI學會說好中文成為一件難事。業(yè)內人士介紹,全球目前最有科學性和經(jīng)過驗證的語料來自學術資料庫,包括期刊和文化、出版物,遺憾的是,在這些載體上發(fā)表文章的語言絕大部分都是英語。
一項研究顯示,1900~2015年,收錄于SCI的有3000多萬篇文章,其中,92.5%的文章是以英語發(fā)表的;SSCI出版的400多萬篇文章中,93%的文章是用英語發(fā)表。在ChatGPT的訓練數(shù)據(jù)中,中文語料比重不足千分之一,英文語料占比超過92.6%。
業(yè)內人士表示,目前我國仍有大量專業(yè)領域的信息數(shù)據(jù)處于相對封閉的狀態(tài),只能在機構內部的數(shù)據(jù)庫和圖書館查看,數(shù)據(jù)缺失使大模型存在一定的領域盲區(qū),開發(fā)潛力不足。
清華大學蘇世民書院院長、人工智能國際治理研究院院長薛瀾在近期的公開演講中談到,中國數(shù)據(jù)質量比較低也是一個問題。中國的數(shù)據(jù)量很大,但沒有真正產(chǎn)業(yè)化,相對標準化的數(shù)據(jù)服務商還比較少,因為大數(shù)據(jù)服務不賺錢,公共數(shù)據(jù)企業(yè)沒有意愿去清洗,定制化服務又一般收費比較高。因此,數(shù)據(jù)市場如何構建也是需要解決的問題。
譜系化人形機器人(2024 年 1 月 31 日攝) 金立旺攝 / 本刊
對于生成式人工智能來說,其核心技術特性是概率計算+標注訓練。依賴大量的高質量標注數(shù)據(jù),它才能夠有效地學習并做出正確的預測和決策。
在2024年全國兩會上,有代表委員建議建立數(shù)據(jù)合規(guī)的監(jiān)管機制和評估辦法,加強數(shù)據(jù)安全和知識產(chǎn)權的保護措施,加快高質量中文數(shù)據(jù)集的開發(fā)與利用。
面對可能出現(xiàn)的“數(shù)據(jù)荒”,梁正認為,除了此前數(shù)字化建設中已有的結構化數(shù)據(jù)資源,還有大量以語音、視頻、工藝參數(shù)、操作記錄等形式構成的非結構化產(chǎn)業(yè)數(shù)據(jù)尚可開發(fā)。此外,由計算機模擬或算法生成的帶有注釋的合成數(shù)據(jù)也可用于大模型訓練之中,進一步提高數(shù)據(jù)質量和數(shù)量、降低數(shù)據(jù)采集和處理的成本。
不少業(yè)內人士推測,Sora可能已經(jīng)通過使用了基于數(shù)據(jù)驅動的Unreal Engine5(虛幻引擎5)大量生成了合成數(shù)據(jù)作為訓練集。
3月23日,國內首個千億參數(shù)多模態(tài)大模型“財躍F1大模型”在2024全球開發(fā)者先鋒大會(GDC)上首發(fā)。隨著國內大模型在垂直領域加速落地,各類精細化的產(chǎn)業(yè)數(shù)據(jù),又將成為新一輪的“金礦”。
“挑戰(zhàn)在于產(chǎn)業(yè)數(shù)據(jù)生態(tài)的構建”,深圳開鴻數(shù)字產(chǎn)業(yè)發(fā)展有限公司首席執(zhí)行官王成錄等專家認為,“必須克服各人自掃門前雪的單兵作戰(zhàn)思維?!?/p>
“海量工業(yè)數(shù)據(jù)由于缺乏采集而逸散。”一位從事制造行業(yè)多年的企業(yè)家表示,我國產(chǎn)業(yè)數(shù)據(jù)采集存在現(xiàn)實軟肋,加強產(chǎn)業(yè)數(shù)據(jù)自有化,推動行業(yè)間形成數(shù)據(jù)平臺,是走向垂類人工智能的必經(jīng)之路。□
電話:13644723777
傳 真:+86-173-4169
手 機:13644723777
郵 箱:mile@nmgdp.net
地 址:內蒙古包頭市昆區(qū)昆工路光彩商業(yè)街99號