亚洲中文字幕无码久久2021,杂交bucsm人类ssba,99国内精品久久久久久久,国内少妇人妻偷人精品免费视频

網(wǎng)絡(luò)消費(fèi)網(wǎng) >  IT > > 正文
大數(shù)據(jù)究竟有多大?谷歌搜索的規(guī)模62PB 竟排倒數(shù)第一
時(shí)間:2022-03-09 05:33:14

眾所周知,算法、算力與數(shù)據(jù)是人工智能(AI)發(fā)展的“三駕馬車”,吳恩達(dá)等學(xué)者也常說:以數(shù)據(jù)為中心的AI,或數(shù)據(jù)驅(qū)動(dòng)的AI。

由此可見,近年來激增的數(shù)據(jù)量是 AI 騰飛的源動(dòng)力之一,數(shù)據(jù)在 AI 中扮演重要角色。

那么,人們口中常說的“大數(shù)據(jù)”,規(guī)模究竟有多大呢?出于好奇心,一位意大利物理研究者 Luca Clissa 調(diào)查了 2021 年幾個(gè)知名大數(shù)據(jù)源(谷歌搜索、Facebook、Netflix、亞馬遜等等)的規(guī)模大小,并將它們與大型強(qiáng)子對(duì)撞機(jī)(LHC)的電子設(shè)備所檢測(cè)到的數(shù)據(jù)做了對(duì)比。

地址:https://arxiv.org/pdf/2202.07659.pdf

毫無疑問,LHC 的數(shù)據(jù)量是驚人的,高達(dá) 40k EB。但商業(yè)公司的數(shù)據(jù)量也不容小覷,比如,亞馬遜S3存儲(chǔ)的數(shù)據(jù)量也達(dá)到了大約 500 EB,大致相當(dāng)于谷歌搜索(62 PB)的 7530 倍。

此外,流數(shù)據(jù)在大數(shù)據(jù)市場(chǎng)中也占有一席之地。Netflix 和電子通信等服務(wù)產(chǎn)生的流量比單純的數(shù)據(jù)生產(chǎn)者要多一到兩個(gè)數(shù)量級(jí)。

1、LHC 的數(shù)據(jù)量

根據(jù) Luca Clissa 的調(diào)查,2021年各大知名數(shù)據(jù)源的體量大約如下:


圖注:2021年的大數(shù)據(jù)規(guī)模

右上角(灰色部分)是歐洲核子研究組織(CERN)大型強(qiáng)子對(duì)撞機(jī)(LHC)實(shí)驗(yàn)的電子設(shè)備所檢測(cè)到的數(shù)據(jù),規(guī)模最大。

在上一次運(yùn)行(2018 年)中,LHC 在四個(gè)主要實(shí)驗(yàn)(ATLAS、ALICE、CMS 和 LHCb)中的每一個(gè)實(shí)驗(yàn)里,每秒產(chǎn)生大約 24 億次粒子碰撞,每次碰撞可以提供約 100 MB 數(shù)據(jù),因此預(yù)計(jì)年產(chǎn)原始數(shù)據(jù)量約為 40k EB(=10億千兆字節(jié))。

但根據(jù)目前的技術(shù)和預(yù)算,存儲(chǔ) 40k EB 數(shù)據(jù)是不可能的。而且,實(shí)際上只有一小部分?jǐn)?shù)據(jù)有意義,因此沒有必要記錄所有數(shù)據(jù)。記錄的數(shù)據(jù)量也降低到了每天大約 1 PB,2018 年的最后一次真實(shí)數(shù)據(jù)只采集了 160 PB,模擬數(shù)據(jù) 240 PB。

此外,收集的數(shù)據(jù)通過 WLCG (全球LHC計(jì)算網(wǎng)絡(luò))不斷傳輸,2018 年產(chǎn)生了 1.9k PB 的年流量。

不過,歐洲核子研究組織(CERN)正在努力加強(qiáng) LHC 的能力,進(jìn)行 HL-LHC 升級(jí)。這個(gè)過程預(yù)計(jì)生成的數(shù)據(jù)量將增加 5 倍以上,到 2026 年,每年估計(jì)產(chǎn)生 800 PB的新數(shù)據(jù)。

2、大廠數(shù)據(jù)量對(duì)比

大公司的數(shù)據(jù)量很難追蹤,且數(shù)據(jù)通常不會(huì)公開。對(duì)此,Luca Clissa 采用了費(fèi)米估算法(Fermi estimation),將數(shù)據(jù)生產(chǎn)過程分解為其原子組成部分,并做出合理的猜測(cè)。

比如,針對(duì)特定數(shù)據(jù)源,檢索在給定時(shí)間窗口內(nèi)產(chǎn)生的內(nèi)容量。然后通過對(duì)這些內(nèi)容的單位大小的合理猜測(cè)來推斷數(shù)據(jù)總量,例如平均郵件或圖片大小,1 小時(shí)視頻的平均數(shù)據(jù)流量等等。

他對(duì)谷歌搜索、YouTube、Facebook等等數(shù)據(jù)源進(jìn)行了估算,結(jié)論如下:

谷歌搜索:最近的一項(xiàng)分析估計(jì),Google 搜索引擎包含 30 到 500 億個(gè)網(wǎng)頁(yè)。根據(jù) Web Almanac 所提供的信息,假設(shè)谷歌的年度平均頁(yè)面大小約為 2.15 MB,截至 2021 年,Google 搜索引擎的數(shù)據(jù)總規(guī)模應(yīng)約為62 PB。

YouTube:根據(jù) Backlinko 的數(shù)據(jù),2021 年用戶每天在 YouTube 上上傳的視頻時(shí)長(zhǎng)為 72 萬小時(shí)。假設(shè)平均大小為 1 GB(標(biāo)準(zhǔn)清晰度),2021年 YouTube 的數(shù)據(jù)大小約為263 PB。

Facebook 與 Instagram:Domo 的 Data Never Sleeps 9.0 報(bào)告估計(jì),2021 年 Facebook 與 Instagram 每分鐘上傳的圖片數(shù)量分別為 240k 和 65k。假設(shè)平均大小為 2 MB,則總共大約為252 PB 和 68 PB。

DropBox:雖然 Dropbox 本身不產(chǎn)生數(shù)據(jù),但它提供了云存儲(chǔ)解決方案來托管用戶的內(nèi)容。2020年,公司宣布新增用戶 1 億,其中付費(fèi)訂閱用戶達(dá)到 117 萬。通過推測(cè)免費(fèi)和付費(fèi)訂閱的占用率分別為 75%(2 GB)和 25%(2 TB),Dropbox 用戶在 2020 年所需的存儲(chǔ)量約為733 PB。

電子郵件:根據(jù) Statista 的數(shù)據(jù),從 2020 年 10 月到 2021 年 9 月,用戶大約傳送了近 131,000 億次電子通信(包含 71,000 億封電子郵件和 60,000 億封垃圾郵件)。假設(shè)標(biāo)準(zhǔn)郵件和垃圾郵件的平均大小分別為 75 KB 和 5 KB ,我們可以估計(jì)電子郵件的總流量約為5.7k PB。

Netflix:Domo 估計(jì),2021 年 Netflix 用戶每天消耗 1.4 億小時(shí)的流媒體播放,假設(shè)每小時(shí) 1 GB(標(biāo)準(zhǔn)定義),總計(jì)大約51.1k PB。

亞馬遜:亞馬遜網(wǎng)絡(luò)服務(wù) (AWS) 的首席布道師 Jeff Barr稱,截至 2021 年,亞馬遜 S3 (Simple Storage Service)中存儲(chǔ)了超過 100 萬億個(gè)對(duì)象。假設(shè)平均每桶的對(duì)象大小為 5 MB ,那么存儲(chǔ)在 S3 中的文件的總大小則約等于500 EB。

總的來說,科學(xué)數(shù)據(jù)可以在數(shù)量上與商業(yè)數(shù)據(jù)源相媲美。

參考鏈接:

1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced

2.https://firstsiteguide.com/google-search-stats/

3.https://backlinko.com/

4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1

5.https://backlinko.com/dropbox-users

6.https://www.statista.com/

7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/

8.https://atlas.cern/

關(guān)鍵詞: 大數(shù)據(jù)究竟有多大谷歌搜索的規(guī)模62PB

版權(quán)聲明:
    凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考并自行核實(shí)。
熱文

網(wǎng)站首頁(yè) |網(wǎng)站簡(jiǎn)介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 www.ffpps.com All Rights Reserved.
 

中國(guó)網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號(hào):京ICP備2022016840號(hào)-15

營(yíng)業(yè)執(zhí)照公示信息

人与物videos另类xxxx| 777午夜精品久久av蜜臀| 人人妻人人澡人人爽国产一区| aaaaa级少妇高潮大片免费看| 里番本子纯肉侵犯肉全彩无码| 装睡被陌生人摸出水好爽| 99热这里只有精品| 亚洲女初尝黑人巨高清| 中文字幕av人妻一本二本| 7777久久亚洲中文字幕| 把女人弄爽的特黄A大片| 无码男男做受g片在线观看视频| 柔术美女全婐体一丝不一挂| 玩弄高耸白嫩的乳峰a片| 大战丰满人妻性色AV偷偷 | 成人电影在线免费观看| 国产午夜精品无码| 亚洲av乱码一区二区三区按摩| 亚洲精品国产精品| 无码任你躁久久久久久老妇app| 免费视频在线观看| 77777_亚洲午夜久久多人| 欧美变态另类刺激| 日日碰狠狠躁久久躁9| 年轻老师2韩国手机在线| 差差漫画页面画在线阅读弹窗| 高h短篇辣肉各种姿势自慰h| 免费国产黄网站在线观看视频| 国产av在线播放| 色欲浪潮性色AV无码视频| 国产精品一区| 东北老女人大叫太痒过瘾| 嫖妓大龄熟妇正在播放| 色欲人妻aaaaaaaa无码| 丁香五月色情久久久久| 菠萝蜜视频免费观看| 国产在线一区二区三区AV| 被夫の上司持久侵犯耻辱| 久久精品国产欧美日韩| 亚洲欧美一区二区成人片| 国产精品乱码一区二三区 |