產品 從火星的古海洋,讀懂藍星的數據湖之變
大家想必都聽說了天問一號探測器“祝融號”成功在火星著陸的消息。在它傳回的家書中,提到科學家們為自己選擇的著陸地,火星的烏托邦平原,可能是一個古海洋所在地,地形平緩,確保了安全性。
當我們將目光投回到身處的這顆“藍星”,也時時面臨著需要為產業要素選擇著陸地——比如說大數據。
相比傳統的數據倉庫架構,數據湖(Data Lake)已經成為數字化進程中,對現代企業和組織極具吸引力的大數據“著陸地”。
簡單來說,數據湖指的是如同湖泊一樣,將各種業務及軟硬件中源源不斷產生的各類數據,全部容納其中。
在AI+云的大趨勢下,數據湖還可以與機器學習等相結合,指導企業進行效率優化及智能決策;與云計算結合,利用云服務彈性擴展、靈活部署、高可用高可靠、按使用量付費等特點,打造出投資回報更高的大數據解決方案。
文章插圖
如果說烏托邦平原是探測火星的絕佳地點,那么數據湖就是承載企業數據資產的最佳場所。
目前來看,數據湖有巨大的想象空間,也吸引著各大云廠商下足功夫,AWS、微軟、谷歌等都推出了各自的數據湖產品。
5月13日,騰訊云也首次對外展示完整云端數據湖產品圖譜,并推出兩款“開箱即用”數據湖產品,數據湖計算服務DLC和數據湖構建DLF。
相比單一產品或服務,在騰訊云的數據湖版圖中,可以看到概念的“拓維”:云原生智能數據湖,對產業來說意味著什么?圖譜式的產品矩陣,能給企業帶來哪些價值?“開箱即用”會給數據湖及數字化進程帶來什么影響?
我們以數據湖的需求與挑戰為開端,來探秘騰訊云帶來的“致用紀元”。
數字山河,需要怎樣的大數據之湖?
先回答一個疑問,什么樣的企業需要數據湖。答案是,所有。
IDC報告顯示,到2025年全球數據總量將超過160ZB。數字化進程中,對大數據的管理與應用已經成為企業的競爭要素之一。飛速增長的數據規模自然也需要新的數據存儲策略,數據湖的特殊之處在于:
所有數據可以一直保存,不管是實時使用的,還是可能永遠不會被使用的,不僅讓單位存儲成本更低,也讓任意時間點的數據回溯與分析成為可能;
所有類型可以全部容納。無論是定量指標的結構化數據,還是傳感器、社交網絡、圖像視頻等等多樣化數據源的非結構化數據;
所有用戶可以得到支持。在數據湖中,所有數據都以原始形式存儲,需要使用數據的人可以快速找到數據源的單一位置,避免了數據孤島、數據重復、協作困難等問題。
此外,數據湖也易于適應變化。數據倉庫的開發和更改都需要花費大量的時間,消耗開發人員資源。而在云端部署的數據湖,可以根據企業業務需求靈活擴展,比傳統方案具有更大的靈活性,最大限度地減少雇傭專業數據運維團隊的支出。
文章插圖
Aberdeen 的一項調查表明,實施數據湖的組織比同類公司在收入增長方面高出 9%。
看到這里,是不是已經心動想要拿起電話訂購了?別急!并不是將所有數據一股腦丟進湖中就大功告成了。
正如Gartner分析師尼克·休德克所說,將數據湖看做是大數據項目的靈丹妙藥,是一個謬論,數據湖是一個概念,而不是一種技術。
也就是說,企業在引入數據湖時,要注重從搭建、效益到應用的整體平衡。
比如,如果沒有適當的工具,數據湖可能會遭遇數據可靠性的問題,出現數據損壞、臟數據等等,讓數據科學家、AI工程師難以利用數據進行推理,或是訓練出不準確的業務模型;
再比如,一直往數據湖里面存儲數據,而缺乏數據治理及應用輸出,就會形成“數據沼澤”,隨著時間的推移變得混亂、低質量;
最關鍵的是,目前市場上大多數數據湖產品都在強調對數據的存儲及計算,在具體業務場景之中究竟該怎樣去應用數據湖,并沒有清晰一致的答案。不解決技術的致用問題,就會讓很多企業望而卻步。
這種局面該怎么辦?中國人的智慧早有提示,流水不腐戶樞不蠹,比起挖坑引水的“單向湖”,從山川河流的源頭、湖泊的常規治理,再到流向產業田野的應用,這樣的一整套數據湖解決方案,顯然更符合產業用戶的期待。
開啟紀元,騰訊云的多米諾骨牌
技術產業周期的開啟,從來不是一蹴而就的。云原生的數據湖,需要在存儲、計算、應用等層面解決諸多挑戰才能完成。
推薦閱讀
- 外延片 “江西造”登陸火星!
- 中國經濟網 航天工程董事長唐國宏辭職 姜從斌接棒
- 開心麻花 沈騰:從“主演”淪為“客串”,醉心綜藝的他
- 最新消息 象群走出昆明密林在田間踩踏:現場可見有9頭 正從山坳里引出
- 火星 地球上居然有火星基地這個基地還是位于中國
- n拋棄舊愛火星!NASA將于2028年進行金星探索任務
- 日不落酒店 沈騰:從“主演”淪為“客串”,醉心綜藝的他,總算是有覺悟了
- 火星 百年后火星將定居數百萬人?美研究員:中國的實力允許他們這樣做
- 探測 “天問一號”已成功實施火星捕獲,中國首次火星探測任務獲得成功
- 辦公室 得知禮物不慎送錯人時,楊紫下意識反應太好笑,原來還有這種操作
