全球觀速訊丨“耗盡”人類語言：ChatGPT還有多少數(shù)據(jù)可用？

時間：2023-02-07 11:21:05

ChatGPT是個通才，可以與各行各業(yè)的人們對話，因?yàn)樗脕碛?xùn)練的語言，來自整個網(wǎng)絡(luò)和人類所有的知識寶庫，并且建立在一個看似無所不包的知識體系之上。

無論是ChatGPT之類的聊天機(jī)器人，還是其他的內(nèi)容生成技術(shù)與應(yīng)用，背后都是日益強(qiáng)大的學(xué)習(xí)和訓(xùn)練的計算系統(tǒng)，它們被稱為大型語言模型（LLM），動輒設(shè)置成千上萬億個參數(shù)。機(jī)器很難像人類一樣通過推理來進(jìn)行有效的學(xué)習(xí)，所以機(jī)器學(xué)習(xí)的能力很大程度上依賴于海量的數(shù)據(jù)。

【資料圖】

但是，人類的語言是有限的，當(dāng)計算機(jī)建立起越來越巨大的算力和強(qiáng)大的算法，自然語言作為“原料”供應(yīng)，是不是終有一天像石油一樣，被人類開采枯竭？當(dāng)前的機(jī)器學(xué)習(xí)模型依賴于不斷增長的巨大數(shù)據(jù)集，其發(fā)展趨勢是否可能會放緩？

是的，語言數(shù)據(jù)資源是有限的，高質(zhì)量的語言數(shù)據(jù)更是有限的。

來自阿伯丁大學(xué)、麻省理工大學(xué)、圖賓根大學(xué)的Pablo Villalobos等6位計算機(jī)科學(xué)家，近日發(fā)布了一篇論文，名為《我們會用完數(shù)據(jù)嗎？機(jī)器學(xué)習(xí)中數(shù)據(jù)集縮放的局限性分析》。他們開發(fā)的概率模型，估算了2022年至2100年之間可用的語言和視覺數(shù)據(jù)的總量，估計了語言和視覺模型訓(xùn)練數(shù)據(jù)集規(guī)模的演變趨勢，試圖發(fā)現(xiàn)由于可用數(shù)據(jù)耗盡而導(dǎo)致的趨勢的極限。

目前絕大多數(shù)存量數(shù)據(jù)是用戶生成的，存儲在社交媒體平臺、博客、論壇等。有三個因素決定了在一個給定的時間段內(nèi)產(chǎn)生多少內(nèi)容：人口數(shù)量、互聯(lián)網(wǎng)滲透率、每個互聯(lián)網(wǎng)用戶產(chǎn)生的平均數(shù)據(jù)量。

互聯(lián)網(wǎng)上的大部分文本數(shù)據(jù)對訓(xùn)練大型語言模型（LLM）都沒有用，專業(yè)人士通常只使用高質(zhì)量的數(shù)據(jù)來訓(xùn)練模型，因?yàn)檫@是他們希望模型學(xué)習(xí)和效仿的語言類型。常見的高質(zhì)量數(shù)據(jù)的來源是書籍、新聞文章、科學(xué)論文、維基百科和過濾后的網(wǎng)頁內(nèi)容。這些數(shù)據(jù)源的一個共同特性是，它們經(jīng)過了質(zhì)量和有用性的篩選。例如，在新聞、科學(xué)文章或開源代碼項(xiàng)目中，有用性必須由專業(yè)標(biāo)準(zhǔn)（如同行評議）的篩選產(chǎn)生。

他們發(fā)現(xiàn)，語言數(shù)據(jù)枯竭情況比視覺數(shù)據(jù)嚴(yán)峻得多。

語言和視覺模型的數(shù)據(jù)存量的增長速度比訓(xùn)練數(shù)據(jù)集的大小慢得多，所以如果按照目前的趨勢繼續(xù)下去，數(shù)據(jù)集最終會因?yàn)閿?shù)據(jù)枯竭而停止增長。

對于語言模型來說，數(shù)據(jù)耗盡的情況將在2030年到2040年之間發(fā)生。語言大模型的訓(xùn)練數(shù)據(jù)主要來自互聯(lián)網(wǎng)，現(xiàn)在的模型越做越大，已經(jīng)把網(wǎng)上能收集到的網(wǎng)頁數(shù)據(jù)用的差不多了，或者說隨著算力投入的進(jìn)一步增加，基本上能夠把網(wǎng)絡(luò)上收集到的數(shù)據(jù)全部用盡。

近在眼前的擔(dān)憂是，高質(zhì)量語言數(shù)據(jù)在 2026 年之前耗盡。

高質(zhì)量數(shù)據(jù)增長的放緩是不可避免的，對于高質(zhì)量的語言數(shù)據(jù)來說尤其如此。高質(zhì)量的數(shù)據(jù)集通常包括了50%的用戶生成內(nèi)容，15%~20%的書籍，10%~20%的科學(xué)論文，近10%的代碼和近10%的新聞。

研究人員估算了數(shù)字化書籍、公共GitHub和科學(xué)論文中可用文本的全部數(shù)量，并假設(shè)其占據(jù)高質(zhì)量數(shù)據(jù)集的30%到50%之間，從而預(yù)測出當(dāng)前高質(zhì)量語言數(shù)據(jù)的總存量為9萬億（即9e12，上下限大概為4.6萬億到17萬億）個單詞，每年增長率為 4% 到 5%。以高質(zhì)量語言數(shù)據(jù)庫作為上限來預(yù)測語言數(shù)據(jù)集的增長，放緩發(fā)生得更早，在2026年之前。

相比之下，低質(zhì)量語言數(shù)據(jù)的存量在69萬億~7.1億億個單詞之間，當(dāng)前增長率在6.41%至17.49%之間。其中，谷歌這樣資金雄厚的大公司可用的數(shù)據(jù)存量約為100萬億個單詞；所有科技公司可用的約為1000萬億個單詞；全人類擁有約1億億個單詞，也包括了所有的短信、電話和視頻會議等所產(chǎn)生的數(shù)據(jù)。低質(zhì)量數(shù)據(jù)集先是隨著時間推移會快速增長，達(dá)到2030年后，增長會大幅放緩，直到耗盡數(shù)據(jù)存量。

視覺數(shù)據(jù)的情況要復(fù)雜一些。

現(xiàn)在互聯(lián)網(wǎng)上的存量視覺數(shù)據(jù)數(shù)量在8.1萬億到23萬億之間，目前的年增長率在8%左右，視覺模型數(shù)據(jù)耗盡的情況將在2030年到2060年之間發(fā)生，相對于語言模型來說，目前看起來情況還沒有那么嚴(yán)重。IDEA研究院計算機(jī)視覺與機(jī)器人研究中心講席科學(xué)家張磊博士認(rèn)為，主要原因是視覺數(shù)據(jù)的維度和復(fù)雜度要更高，使得現(xiàn)有模型能夠使用的數(shù)據(jù)量和網(wǎng)上存在的數(shù)據(jù)量相比還有比較大的差距。

“視覺數(shù)據(jù)更復(fù)雜，視覺方面的問題也更多樣化。現(xiàn)在的視覺大模型通常都是針對全圖（whole image）理解的預(yù)訓(xùn)練，即模型只是針對全圖做分類或圖文檢索類的學(xué)習(xí)，但是視覺還有很多細(xì)粒度的問題，比如物體檢測、視覺分割等，大模型學(xué)到的全圖表征用于細(xì)粒度問題也會性能遞減。這些困難使得視覺模型還不能簡單地用增加數(shù)據(jù)的方法來解決?！?/p>

張磊博士還強(qiáng)調(diào)，視覺模型繼續(xù)增加數(shù)據(jù)量，獲得的增益也會逐漸變小，這也需要視覺算法方面的進(jìn)一步改進(jìn)，因此，視覺大模型目前還沒有達(dá)到單純增加數(shù)據(jù)提高效果的階段，還有更多的問題需要研究。

如果未來數(shù)據(jù)效率提升，大模型用更少的數(shù)據(jù)就能實(shí)現(xiàn)相同的功能；如果證明縮放定律是錯誤的，即使數(shù)據(jù)效率沒有額外的提升，或許還有更好的方法來使用更少的數(shù)據(jù)；如果通過遷移學(xué)習(xí)，多模態(tài)模型可能被證明比單一模態(tài)的模型表現(xiàn)得更好，這將有效地增加數(shù)據(jù)存量，從而擴(kuò)大所有數(shù)據(jù)模態(tài)存量的組合。

合成數(shù)據(jù)將來是一個重要的數(shù)據(jù)來源，這一點(diǎn)受到最近騰訊發(fā)布的AIGC報告的極度看好。MIT科技評論將AI合成數(shù)據(jù)列為2022年10大突破性技術(shù)之一；Gartner也預(yù)測稱，到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù)，成為訓(xùn)練AI的主要數(shù)據(jù)來源。

此外，一些非自然語言的數(shù)據(jù)也會大量產(chǎn)生。例如，如果大規(guī)模采用自動駕駛汽車將導(dǎo)致空前數(shù)量的道路視頻記錄；如果擁有充足的預(yù)算（如有政府或大公司的參與），也許能夠增加數(shù)據(jù)的產(chǎn)出，特別是在針對特定領(lǐng)域的高質(zhì)量數(shù)據(jù)。

目前一個問題仍在擺在眼前：更多的數(shù)據(jù)難道一定就會“喂養(yǎng)”出更好的模型嗎？也不一定。正如前文張磊博士所說的，“目前視覺模型的相關(guān)困難還不能簡單地用通過增加數(shù)據(jù)的方法來解決?！?/p>

關(guān)鍵詞：

延伸閱讀:

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實(shí)。

熱文