“開源+雲”將重塑未來20年的數據庫產業

(原標題:“開源+雲”將重塑未來20年的數據產業

進入2021年中,全球數據領域發生了幾件影響未來走向的大事件,無論是經典數據庫領域,還是新興的大數據市場,幾個“關口事件”似乎都指向一個未來的趨勢:“開源+雲”將成爲主導未來的融合力量

在美國,大數據平臺Hadoop最重要的發行商 Cloudera被私募基金收購併將被私有化,這也成爲了Hadoop時代的轉折點;雲端數據平臺Snowflake則給出了驚人的173%的年營收增長(2019-2020財年),並預計將保持每年至少30%的營收增長直到2028-2029財年。

中國,阿里系的PolarDB和OceanBase數據庫宣佈開源;騰訊雲發佈首款全自研分佈式分析型數據庫TDSQL-A;新銳數據庫廠商PingCAP則發佈了擁有完整HTAP能力的TiDB 5.0版本,爲企業數字化轉型提供一棧式數據服務平臺……

數據技術領域,已經多年未有這種“山雨欲來風滿樓”的感覺了。或許,包含數據庫技術的大數據產業正在面臨“二十年未有之大變局”;而驅動這場大變局的關鍵因素,來自數據技術供需兩側的雙向鉅變:在需求側,數字化在全行業的加速帶來了持續的動力;在供給側,“開源+雲”的力量成爲改變數據技術的內聚力量,將過去20年分散多元的數據技術棧融合起來。

數字化加速成爲全球趨勢

如果說疫情給世界帶來的最大變化,那就是我們已經永久性地進入了“數字化加速”時代。進入新週期的互聯網服務走向“B2C、長連接、秒級反饋”的沉浸時代;傳統企業加速數字化轉型,以實現線上線下融合、DTC( Direct to Customer) 、數字化運營以及對企業員工的數字化賦能。

未來不存在所謂的傳統企業,只有數字化企業;而且所有的企業,都必須對員工進行數字化賦能。我們知道,貝因美是一家知名的嬰幼兒奶粉生產商,其線下門店有1.5萬導購,如何利用數量衆多的導購發展、維繫會員客戶,不斷提升服務質量,一直是貝因美思考的重點問題。爲此,貝因美在企業微信中做了個應用“會員購買”。當貝因美的會員購買奶粉的時候,會掃描綁定奶粉罐上唯一的二維碼,綁定會員信息,並存到內部的系統,以便統計客戶購買數據。系統也會評估這個顧客的食用週期,預測下次購買會在什麼時候,再把信息推送到導購員,進而全面提升顧客滿意度和回購率。

正如貝因美所揭示的那樣,企業的業務需求正在走向“海量,實時、在線”的基本形態,企業組織的核心能力變成“敏捷創新,實時反饋”的能力,數據成爲企業經營的新血液,這也對企業的IT架構提出了新的要求,必須做到“三個實時”:實時反饋、實時處理、實時分析。

爲了應對這種要求,無論是互聯網公司還是傳統企業,都在搭建更適合的IT架構,公有云服務、SaaS應用、低代碼開發、Serverless等新技術和新模式得到了廣泛應用。

不過,要讓這些新技術和新模式真正發揮作用,企業還需要與時俱進的數據技術解決方案原因很簡單:真正的數字化企業必然是建立在大數據基礎上的企業,它所做的任何經營活動,都必然涉及到數據的收集、提取、整理、分析等活動。如果沒有適合自己的數據解決方案,企業的IT架構要做到“三個實時”,只能是空談。

雙劍合璧的組合利器

那麼,如何才能構建與時俱進的大數據解決方案?關鍵還是用好“開源+雲”這個組合利器。通過開源,吸引全球最有實力的開發者,獲取全球最活躍用戶的真實需求,打造全球最具競爭力的大數據產品。然後通過“雲”這種最有效率、最爲直接的服務模式,將產品交付給企業客戶。

我們看到在過去20年裡,開源催生了Hadoop、MySQL、MangoDB等多款大數據產品,並與AWS、Google Cloud等雲服務結合起來,成功應用於全球TOP20互聯網大公司。如今,擁有了強大數據能力的GAFA(Google、Amazon、Facebook、Apple)和AT(阿里巴巴、騰訊)等互聯網大公司,已經成爲全球最有競爭力、也最有價值的公司。

Google之所以能夠成爲全球最有價值的公司之一,關鍵就在於其“整合全球信息”的能力。過去這些年裡,Google基於開源技術打造了一個大數據平臺,包括3個相互獨立又緊密結合在一起的系統:Google 文件系統(GFS)、MapReduce 編程模式、大規模分佈式數據庫 BigTable。通過這個大數據平臺,Google能夠實現對海量數據的存儲和處理。當然,這些也都是通過“雲”才能實現。此外,Google還通過搜索引擎這種典型的雲服務,爲全球用戶提供整合之後的信息,使人人都能訪問並從中受益。由此可見,“開源+雲”,幫助Google實現了“數字強權”。

與互聯網巨頭一樣,傳統企業也在通過“開源+雲”構建屬於自己的數字化能力。作爲新興的智能終端公司,小米不僅發佈智能手機、平板電腦、智能手環等產品,還在與衆多第三方企業一起構建小米生態鏈,並基於衆多智能硬件產品產生的大數據,提供“小愛同學”等互聯網服務。小米一直都是開源技術的擁躉和熱情參與者,不僅爲開源社區做出了不小的貢獻,還在各項業務中廣泛使用HBase、Kylin、Kafka、MapReduce、Spark、Strom,Hive等開源技術和工具,對沉澱在海量智能硬件中的大數據加以利用,並通過Xiaomi Cloud承載旗下的各項移動互聯網服務。

實際上,如今“開源+雲”已經成爲數據領域最熱門的組合。根據中國信息通信研究院所做的調查,2019年中國開源服務企業所做的二次開發中,51.9%來自於雲計算領域,排在第一位;而數據庫和大數據則分別排在第二位和第三位。

遭遇瓶頸

不過,這種“演進+疊加”的模式產生了大量不斷迭代的架構和產品,雖然幫助TOP 20互聯網大公司實現了“數據強權”,卻也讓大多數企業都跟不上,主要原因有三點:

1. 互不相容的多家公有云,導致割裂的服務;

2. 碎片化的數據技術棧,導致集成的困難;

3. 交易和分析平臺分離,無法集中使用。

由於企業所在地的政策限制以及便利性的要求,如今很多企業往往同時選擇多家公有云平臺提供服務,例如在中國選擇阿里雲,在海外選擇AWS,相關數據也會分佈在不同的公有云上面,它們對於數據的存儲、處理、交流方式各有不同。對於企業來說,將自己所有的數據統一管理本來是天經地義的事情,而在這種情況下卻遇到了空前的阻礙,降低了企業的經營效率。

由於歷史原因,很多企業在各種數據工具上疊牀架屋,最後卻發現造不出一棟適合居住的房子。以國內某銀行爲例,要對海量數據進行分析,必須首先在交易核心數據庫中跑批處理,再ODS抽取ETL分析到數據倉庫,再進一步訓練流式計算,最後再放入數據湖,整個數據手動的過程至少需要一天。而且Hadoop和數據湖的開源生態中很多組件並不兼容,日常運維已捉襟見肘,想提速也無從下手。IT部門如此不給力,而業務部門對於轉瞬即逝的營銷機會卻又是如此渴求,T+1分鐘可能都會嫌慢,導致了雙方永遠都在爭吵不休。

也正是因爲如此,過去十年間,除了TOP 20互聯網大公司之外,80%的Hadoop大數據項目都失敗了。在《The Forrester Tech Tide™: 數據管理》2020年一季度報告當中,已經把Hadoop平臺列爲需要“剝離”(Divest)的數據管理平臺之一。而前不久知名Hadoop發行商Cloudera之所以被私募基金收購併私有化,也是因爲Hadoop大數據平臺的廣泛應用不盡如人意。

The Forrester Tech Tide™: 數據管理

破解之道在融合

可是,企業的數字化轉型不能等,“數據驅動業務”這條路必須走通。要破解如今的大數據瓶頸,同樣需要用到“開源+雲”這個組合利器,只不過模式發生了根本性的變化。

正所謂“分久必合”,未來大數據的技術路線將走向“合”——融合和簡化。簡化就是通過屏蔽複雜性,通過自動伸縮,自動運維,HTAP等路線來解決;融合要是讓大多數企業的數據庫和大數據技術棧融爲一體,形成一個一體化的數據底座(Data Foundation)。Gartner在評價2021年技術趨勢的時候提出:一個一體化的數據平臺可以加速數字化轉型,這也是大多數企業一直夢寐以求的方向。

讓我們看看一家典型的中國互聯網創業公司,如何利用“合”的力量。作爲中國知名的知識分享平臺,知乎沉澱了海量的問答數據。過去,知乎用的是 MySQL,並採用分庫分表+MHA 機制來提升系統的性能並保障系統的高可用,當每月新增一千億數據的情況下,已經出現了瓶頸。知乎後來決定遷移到PingCAP的TiDB產品,遷移到TiDB之後,整個系統最弱的“擴展性”短板就被補齊了,現在整個系統都是高可用的,隨時可以擴展,而且性能變得更好。之後,知乎還希望對一萬多億條已讀數據進行分析,挖掘其中的價值。而在以往,這種高吞吐的寫入和龐大的全量數據規模,用傳統的 ETL 方式是難以在可行的成本下將數據每日同步到 Hadoop 上進行分析的。當知乎有了TiDB的分析引擎TiFlash的支持之後,一切就變得有可能了。知乎目前採用TiDB一個入口,覆蓋了數據庫,數據分析,流式計算,數據倉庫等等一系列需求,只用3個DBA支撐數千臺的集羣,充分享受到了簡化,融合的好處。還基於同一個架構自行開發了替代Hbase的Zetta產品,並貢獻給社區用戶採用,形成了一個技術供給的良性循環。

如今,以PingCAP爲代表的開源分佈式數據庫,跨越了數據庫與大數據的邊界,催生了新的數據服務模式,讓知乎藉助一棧式數據平臺獲得數據處理的綜合能力,進而適應這個“數字化加速”時代企業的需求。

重塑數據產業

由此可見,“數字化加速”時代的企業需求在變,作爲供給方的數據產業也必須要變。如果說此前二十年,通過“開源+雲”讓TOP 20互聯網大公司構建了自己的數據平臺、實現了數據強權的話,未來二十年,還是藉助“開源+雲”的力量,將會涌現出一批真正能夠解決企業數據瓶頸的服務企業,並徹底重塑全球數據產業。

實際上,鉅變正在發生。在美國,初創公司Snowflake走上了雲原生數據倉庫的道路,並提出了DaaS(Data warehouse-as-a-Service)數據倉庫即服務的概念,使得客戶能夠在一個易於使用的平臺上管理和分析跨公有云(如Amazon的AWS、Google Cloud和Microsoft Azure等)的大量數據和各種類型的數據。由此,Snowflake的服務大受客戶歡迎,上市後也得到資本市場認可,目前市值高達700億美元。

在中國,同樣出現了PingCAP這樣的數據“新物種”,其核心產品充分汲取開源社區的養分,TiDB數據庫歷經了六年五大版本的迭代,邁向企業級核心場景應用,最終形成“場景-社區-產品”飛輪,打造出一棧式的解決方案。之後,PingCAP還推出了TiDB Cloud(多雲部署)服務,通過全新的雲端服務模式,將數據處理做成了“消費化”的SaaS。

由此,我們再看2021年中數據產業發生的諸多大事件,就會恍然大悟:原來,全球數據庫和大數據產業正在發生一場深刻的技術變革,它將徹底改變未來20年企業數字化的發展方向。