大家知道 2022 年我又創業了,加入以虎哥 Startup 的 Databend 這個公司擔任聯創,我也從傳統的 OLTP 轉戰到 OLAP,今年也接觸了更多大數據用戶。趁著元旦假期整理一下思路,從數據角度和大家聊一下 2022 年數據庫發展,這里首先聲明這篇文章更多只代表個人觀點,大家看看就好,有興趣后面找機會再交流。
中國數據庫行業隨著 2021 年 7 月 PingCAP 完成 3.4億美元融資,估值達到 30 億美金。把中國數據庫行業引爆了。2022 年 達夢數據庫 IPO 12 月 23 日 順利過會,如果上市成功預計估計在 500 億人民幣,不出意外的話,這將是科創板最大的 IPO 之一。
那么你知道中國的數據公司有多少嗎?據不完全的統計已經超過 300 +, 那 2023 年數據庫市場又是什么變化呢?我這里拋出來 5 個問題和大家討論一下。
Q1. 中國和海外數據庫的差距還有多遠?
Q2. 未來是 OLTP 還是 OLAP ?
Q3. 從國際上來看 HTAP 是不是未來?
Q4. MySQL DBA 和大數據從業者會有什么改變?
Q5. 現在還是不是數據方向的創業好的時機?
Q1: 中國和海外數據庫的差距還有多遠?
也許有很多朋友認為,我們現在國內有 300+ 數據庫公司,每家公司的產品都有獨到之處,應該全球的數據庫上來看,我們是最先進的了吧。例如:2019 年 OB 打榜了 TPCC , 全球開源項目 TiDB, …
如果單純的比中國數據庫和海外數據庫差多遠,其實都比較主觀,那么不如通過 OB 打榜 TPCC 來分析一下。
其實如果懂行人來看 OB 打榜第一名,感覺說是中國數據庫第一次參與了 TPCC 更有意義。首先 2019 年的打榜離 Oracle 上次打榜 2010 年過去了9年,在硬件,系統,軟件都有變化的情況下做到和 Oracle 上次打榜基本相同的成績:tpmC為6.25, Oracle 第二名1.01USD,從成本上來講幾乎相差無幾。OB 打榜公布的第一次打榜費用:380,452,842 元(人民幣),,通過個事情可以說我們追上了人家 9 年前的實力。也許被行內人指出來了,OB 也覺得需要再次雄起一下,2020 年 OB 再次打榜 TPCC 花費:2,814,509,552 人民幣,實現 3.98 元/tpmC 細心的朋友可能對比出來硬件再次提升了,機器規模又翻 7 倍+ 的情況再次打榜。因為每家的 TPCC 壓測程序都不開源,大家也基本是壓著 tpmC 上限是 12.86 測試, 高于這個值就被視為全內存操作的無效測試。
粗略整理了一些數據方便對比:
從上面的數據看,測試數據基本上都是貼著 12.86 進行,你懂的。
如果通過這個測試來對比中國數據和海外數據庫的先進,我的觀點是:
1. 中國的分布式數據庫可以進行 PB 級別的操作
2. 中國的分布式數據可以進行到上十萬個+ core 一起工作
3. 中國分布式服務器可以達到上千臺一起工作
那我們先進嗎?我只能說我目前沒看到有項目能運行起來這個環境,畢竟一個數據庫項目花 28億人民幣(3年費用),我還沒見過。OB 的測試基于是基于云上來評測的。我們也來看看海外的云上的 RDS 及對應的報價。
Oracle Cloud 上 MySQL 報價
MySQL 單集群 HTAP 解決方案,月成本:2萬美金,存儲最大支持: 50T 。
AWS Aurora VM 報價
AWS 的 Aurora 最高配支持 5 PB 存儲每月 517,256 美元,其中存儲太貴占到:512,000 美元,實際生產中肯定不會這么干,真正的 OLTP 數據不會有這么多,更多的數據可以歸檔到 Databend ,Snowflake 類在線數倉中來降低成本,這類云數倉每 TB 的成本一個月在 120元左右。
阿里云 PolarDB
這個就成本算我覺得阿里的 PolarDB 價格是優于 Oracle , AWS 的價格。回過頭來看:中國的數據庫和海外的數據庫差距還有多遠?
從 [DB-engines](DB-Engines Ranking - popularity ranking of relational DBMS[1]DB-Engines Ranking - popularity ranking of relational DBMS[2]) 排名上看到 TiDB 排名 49 位,GBase 排名 79 位, OceanBase 排名 87 位, TDSQL for MySQL 排名 101 位, 阿里云前150名排名中進入 4 位。
我的感覺確是我們部分場景確時超越海外的產品,但海外的產品感覺向著更加務實的方向在發展。反觀國內這種超大集群的引導,造成的用戶不必要的成本浪費。
海外數據庫今年發展方向:
- 云原生方向:CockroachDB(排名 34 位), YougabyteDB (排名 44 位), Snowflake (排名 8 位)
- 更加易用的方向發展:更方便維護,例如 PlanetScale 在 OLTP 中對數據引入 git branch 概念
- DB Serverless 按使用時間付費,存儲按使用空間付費,不再為預留付費
從這些方面看來,國內的數據庫追趕的很快,國內也有上面類似的產品,但真正 get 到靈魂,這些理念被企業所接受,估計還需要 3-5 年時間。
Q2. 未來是 OLTP 還是 OLAP ?
首先從 TPCC 打榜上來看,數據庫廠商對于這個 Benchmark 大都是失去興趣了,也冷靜了,微信群里也沒有因為打榜而進行口水,我們也成熟了。因為基本上大家也都明白,在一定成本預算下,選擇出來合適的產品就可以。例如:業務對 SQL 響應指標要求 500 ms 以下,支持 3000 QPS 就可以滿足業務,支持到 IPO 沒啥問題了,在這樣的前提下,大家肯定不再是按打榜來選擇,因為大家在數據庫這個方向上有所積累后,可以選擇的開源產品太多了,甚至云的上 RDS 采購一個也夠用了。整體上來看現在 OLTP 已經非常成熟,現在 OLTP 賣貨,更多是打著安全,有保障,合作聯合開發(賣數據庫保險一樣在賣貨) 。
大家口水了多年:MySQL ,PostgreSQL 誰更強,爭論多年后,也終于有了一個初步的結果。在互聯網領域里 MySQL 還是當之無愧的王者, Pg 也在國產化領域中披上各種馬甲在沖鋒, MySQL 也在披著馬甲,還有套著 Pg 往前沖的。基本上也可以說 OLTP 基本是一種成熟狀態,最終誰能在這波浪潮中贏下來,就看誰能擁抱一個更加開放的生態,整合更多的合作伙伴,輸出更多解決方案,例如:銀行系統運行,火車票售票系統, 電力的數據庫系統。
OLTP 的成熟,但 OLTP 的成本通常比較高,大家也會把 OLTP 的數據慢慢轉向 OLAP 對外提供服務,也就意味著 OLAP 可以創造更多的財富?我現在算是從 OLTP 跨入了 OLAP ,給大家分享倆個 2022 年我看到案例。
Case1 一個朋友在從事獵頭行業,別人找他要人后,他總能很快的找到意向標的人給甲方,并較快的獲得到甲方的認可。這個事情,最初我看到覺得他太牛X了,我也非常好奇他怎么做到的?后來熟悉后才知道他就是 OLAP 運用的高手,他獲取 gharchive.org 上數據存入 Databend(Databend + COS) , 然后對甲方想要的技術人員畫像,這樣些人可能對什么 Repo 感興趣,然后找到對應的 Repo 中的貢獻者,聯系其中活躍的人,給他們分享機會,獲得認可。他是我見過轉獵頭比較成功的程序員。
Case 2 分析區塊鏈錢包,進行跟投(純屬虛構)我們在炒股中,經常想著可以看看今天誰買了什么,或是大家都在買什么就可以有很多決策了,但這些數據需要去購買,而且非常的貴,還拿不到成交和賬戶的對關系。在區塊鏈中,這一切都是透明的,誰花了多少錢,買了什么,這一切都在鏈上。今年看到一些猛人對鏈上的數據進行解析后,分析出來盈利最多的 Top 1000 然后再找到適合個人風格的進行跟投。這個也可以說 OLAP 的一個應用。
舉了倆個個人在使用 OLAP 的場景,其實企業的使用 OLAP 的場景也非常多,也有成熟的套路,只是后續的 OLAP 的成本會越來越低,越有利于用戶的使用。
目前也可以說是海量的數據時代,在 OLAP 中數據到 PB 級都和玩一樣,今年經歷了 N 多單天數據量在 100T 以上的項目,也讓我對 Databend 這個項目產生了非常大的敬意,這類數據的壓縮基本能達 8-20倍的壓縮, 同時還能較好的支持計算。
新一代的云原生 OLAP 也在替代著傳統大數據項目, SQL 成為統一語言,新一代的云原生 OLAP 也會讓大數據項目越來越簡單。OLAP 讓大數據項目也在向著:更便宜,更好用,高性能 的方向發展。
Q3. 從國際上來看 HTAP 是不是未來?
HTAP( Hybrid transaction/analytical processing) 是一個數據庫的超融合方案,把事務處理和分析處理都集中在一個系統中對外提供服務。目前這也是 OLTP 方向的數據庫在追求的一個重要方向。
目前國內實現 HTAP 數據庫有:
TiDB
OceanBase
PolarDB (阿里)
TDSQL-H ( 騰訊)
BaikalDB (百度)
海外實現 HTAP 數據庫有:
MySQL + Heatwave
Snowflake
SingleStore( 前身 MemSQL)
AlloyDB( Google)
Aurora + Redshift
可以說一時間大家把是否支持 HTAP 作為數據庫對比的一個重要指標,更夸張的一個論調說:HTAP 是 MySQL 生態的最佳歸宿。實質上這里有一個前提在 10TB 以下 HTAP 感覺可以一戰,再大一點 HTAP 的方案的成本不是一般用能扛住。以至于很多用戶產品演示時上最貴的 HTAP 過關再說,交付時可能掛一個PostgreSQL 也能滿足客戶實際場景也不少, 同時今年可能是因為行情不好,遇到挺多跑300-400臺 HTAP 集群,數據量在 500T 左右的用戶抱怨復雜 SQL 影響整體集群處理能力,也不太敢擴容,把數據定期歸檔到 Databend ,利用 Databend + 對象存儲對外分擔一部分的查詢分析,從而降低成本。
那么 HTAP 是不是未來?
我覺得是的。用戶最終賺錢的是業務,讓業務可以更加簡單的可以在數據庫上運行起來,把 OLTP 和 OLAP 包裝起來對用戶透明,絕對是一個非常硬的需求,這估計也是 Snowflake 今年增長特別快的原因之一吧。
但 HTAP 也有他的局限性,價格太貴。通常在云環境中,我們認為計算和網絡是最貴的,但在 HTAP 數據庫系統中,當存儲增長到一定量時,你會發現好像計算和網絡又是最便宜的,但這些相對于對象存儲 1T 一個月只要 110元(國內更便宜)無法相比,這也是我個人感覺 HTAP 適合中小型項目快速 Startup 讓業務賺到錢生存下來,再說利用云原生數據庫相關技術把成本和運維降下來。
Q4. MySQL DBA 和大數據從業者會有什么改變?
這個時代一切都在變, 我剛工作那會能把 LAMP + Squid 順利 40 分鐘內安裝完畢入職 Sina 都沒啥問題了,再早一點幫別人安裝一個 Oracle RAC 一晚上賺個 IBM T40 也沒啥問題,再后來 Oracle OCP 失業了, MySQL 時代來了, 大數據時代來了,AI 時時代來了,一浪接一浪,總有拍死在沙灘上的,當然也有乘風破浪的弄潮兒,其實在這些 IT 大浪中,你能抓住一浪基本生活無優,早期 BAT 的朋友不知道是不是有錢,還看到他們天天加班,但都住著千萬以上的房子,開最騷氣的車。我說這些想表達什么呢?我想說:選擇比努力更重要
MySQL DBA 和大數據從業者從業者會有什么挑戰呢?
首先我們說一下 MySQL DBA 面臨什么挑戰?
MySQL 方面的技術,現在非常成熟,合理的使用基本可以做到按年計算不停機
使用 MySQL 低級錯誤越來越少,例如早期做 SQL 注入攻擊和檢測的,基本不存在了
MySQL 在現在開發架構中已經融入 Serverless , 離服務越來越近
更多的用戶選擇了使用云上 RDS 開局, 傳統的 DBA 事情越來越少
研究 MySQL 內核上手的人也越來越多
現在有利于 MySQL DBA 的點:
國內化乙方需要一大波交付的 DBA, 基本大家都招聘 MySQL DBA 為主
k8s + MySQL 的融合需要更多面向 IaC 方面的 DBA
有較強業務能力的 MySQL DBA 會有越來越多的機會
其實早期各個云 RDS 出現后, DBA 圈子里就有一種聲音:云平臺的 RDS 可能把 MySQL DBA 干掉, RDS 平臺的人員還各種掩飾這個問題,現在看來是真正發生了 :) 其實這個也可是可以預見的,一個云平臺 RDS 開發通常在百人以上的規模,把 DBA 能想到事情,基本都可以自動化實現了。
再來說一下面向大數據人員面臨的挑戰:
現在來看 Hadoop 生態,基本要成為歷史,笨重的 Mapreduce 編程終會被 SQL 替代
傳統的復雜的大數據會趨向越來越簡單化,以前看大數據架構中,很多公司在重度依賴 kafka, 存儲可能 40 臺, 中間的 Kafka + 數據洗清機器可能是 80-100 臺
大數據架構師決定把數據存儲幾種數據庫,大數據工程師每天就在應對數據的清洗和不同數據源中數據一致性的比對
業務產出不明顯,但部門成本比較高,更多是面抽報表,ad-hoc 查詢生活
中心化團隊,容易成為瓶頸,整天奔跑在救火線上的工作模式
現在利用于 大數據從業 人員的點:
內心對數據質量有一定的敏感
理解不同數據的使用習慣和資源的空閑
經歷過大數據業務系統的磨礪(建立在對業務有理解的基礎上)
大數據平臺原來那波 Hadoop 生態的的現在可能是 Hive, Hbase, HDFS 為主,HDFS 的成功,也讓很多做對象存儲創業較為成功,例如 xsky 對象存儲,在互聯網和傳統企業都占據了半壁江山。但 Hive 現在也在被很多產品所替代,如;Doris, Clickhouse, Presto, Trino, Impala, 還有國內很多基于 Greenplum 的二開產品,也有新生代云原生數倉:Databend 都在看著這塊市場。
那么 MySQL DBA 和大數據從業人員未來在哪里?
MySQL DBA 如果不轉型現在最好的歸宿乙方數據庫公司,如果能跟上節奏抓著 MySQL + k8s 或是 熟悉 Terraform , SQL 自動審核類工具,了解 CI 還可以在互聯網企業一戰(DevOPS 運維時代真的來了,運維代碼化,避免了面傳口授,無法追錄過程的運維時代), 其實也給了互聯網 DBA 一個更大的想象空間,例如利用云輕松實現多 IDC 多中心設計,利用 metabase 輕松實現一個 CMDB + 數據控查詢系統,利用 terraform 輕松把基礎資源管理起來。
大數據人員現在分為兩類,一個報表展現人員,另一個數據整理人員,比較危險的是數據整理人員,對于 Databend 這類云原生數倉( Snowflake 開源實現)中很多理念如果落地,會大大簡化大數據方面人力和資產的投入,把大數據走向一個 case by case 模式,同時又較方便的實現各部門數據的共享,互惠。大數據數據人員最終會變成數據質量,數據血緣方面的專家。
Q5. 現在還是不是數據方向的創業好的時機?
對于數據庫創業來講,我覺得今年可能不是一個好時間,但市場也不缺乏好機會。為什么說現在不是一個好時間呢?2021年資本差不多已經完成了數據軟件的布局,很多公司甚至也是高估值拿到了融資,這個過程中也不乏一些摸魚創業者,其實資本也都不傻,都會看明白的。我們知道對于基礎架構創業比較漫長,看海外的產品 10 年都屬于正常現象, 第一個 3 年能完成產品開發+打磨迭代到成熟, 然后就是3-4年的生態建設,接下來 3 年才是商業收獲的過程,這個過程也可以說是漫長的,對資本來講是一個收獲比較慢的過程。數據庫融資方面感覺在 2021 年 10 月份以后,資本忽然集體冷靜下來了。2022 年也可以說是市場最不景氣的一年,但也不要泄氣,看美國成名的數據庫公司也都是在經濟危機時間創建的,經濟危機時不知道做什么,就節衣縮食,專心做個數據庫吧。
但我們需要明白中國的數據庫市場相對還是比較低,據 2021 年的市場評估,全球數據庫市場 700 億美元, 中國市場只有 47 億美元,僅占 5.2%。這以至于 2022 年大部數據庫公司也在忙著社區建設,更多的希望通過開源帶動商業發展,以至于現在給我的感覺是全球基礎架構開源看中國。
國內數據庫市場是面對大額采購時,各大公司的 CTO, CIO 可能至少面對 10 家以上(現在數據庫估計在 400 家以上) 的數據庫公司在清洗, 大公司的 CTO, CIO 也都是經過市場考驗的戰士,他們也是冷靜的決策者,以至于決策過程也變得更加的長。
那么現在還是不是數據庫公司的創建的好機會,我覺得市場在這個冷靜期,以及 2022 年資本市場環境不好, 2023 年估計會有不少數據創業公司離場,但隨著達夢 IPO 成功,我估計還會讓資本有點小小的沖動。另一個實際情況是 MariaDB 借殼上市直接到現在跌了差不多 70% + 。
那對于想進入數據庫創業者的機會是什么樣呢?
和我交流過數據創業的人,我通常給的建議是:求差異,利他人,共建生態,這三點來謀發展。2022 年在做 DTCC 規劃過程中,我給唐川講今年也可以搞一個開源秀,讓在 DTCC 參考的嘉賓及公司或是想創業的伙伴有更多的爆光機會,最后經過幾輪討論后,很快就把開源小秀場落地,我看現在已經進行了 7 期。這個大家可以想想這個欄目為什么能做起來。我在 2022 年遇到同行問的最多一句話是有沒有質量高一點的 meetup 推薦~~~, 甚至有的公司已經開始各種地方碰瓷宣傳。實質上你會發現海外真正牛 X 的產品對中國都是禁售的,中國的 IP 不能注冊,中國的信用卡不支付,所以自家就不用碰了,真正做事,可以研究一下海外的產品吧, 一個月 3000-4000 元的基本成本投入就可以把一個基礎的數倉項目運營起來,這個放到現在國內的所有的數倉項目中都是無法實現的,真的是創業是我輩當自強。
現在看來單純創業上來講, 做現有數據庫的改善或是增強,甚至是數據生庫的服務都比從 0 開始做一個數據庫比較安全。這塊在 Rust 生態有一些不錯的參考,如:
readyset 用于提升現有數據庫的性能和可用性,支持 MySQL, PostgreSQL , 看到這個項目時,也讓我想起了內心一直在規劃的 update server , 看看別人已經實現了。
Polars 輕量級 DataFrame , 這塊今年美團基于 Databend 社區的 databend-meta 也搞了一個類似的工具,感覺也是挺贊的,這塊也是 Databend 2023 的規劃之一。
我覺得這些是有絕對的生命力,也是對社區和業務是有絕對幫助的。如果你一定要在這個方面創業,你也可以考慮這些方向,例如我現在也比較看好的
Tapdata 實時數據同步工具,有點把 Oracle 的 Golden Gate SAAS 化的感覺
sqlpad[3] 網頁版本的 SQL 編輯器
類似于 metabase 的商業化支持:衡石科技(可能已經比 metabase 強大了)
另外如果對數據庫方面創業有較強的執念,可以先想清楚定位,不能只把生意定位在國內還是海外,一定要想清楚做這個事情究竟可以給社會創造什么價值,這才是真正存活的下來的根本。創業的本質就是:忍人之所不能忍,能為人之所不能為。創業沒有最好的時間,也沒有最差的時間,這只是一種生活的方式,如果你想這一生要做點什么才無悔,就加入進來吧。數據市場上還有多事情可以一起合作,共建這個生態。Dongxu 也是這個方向比較好的天使投資人,如果你想好了就加入進來吧。2023 年一起攜手共進。
審核編輯 :李倩
-
SQL
+關注
關注
1文章
775瀏覽量
44285 -
數據庫
+關注
關注
7文章
3855瀏覽量
64778 -
編輯器
+關注
關注
1文章
807瀏覽量
31328
原文標題:2022 年數據庫發展總結
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
分布式云化數據庫有哪些類型
MySQL數據庫的安裝
![MySQL<b class='flag-5'>數據庫</b>的安裝](https://file1.elecfans.com/web3/M00/05/E2/wKgZPGeF2XWAe83fAAAW9lhgvGk652.jpg)
云數據庫是哪種數據庫類型?
數據庫加密辦法
數據庫事件觸發的設置和應用
數據庫數據恢復—MYSQL數據庫ibdata1文件損壞的數據恢復案例
數據庫數據恢復—通過拼接數據庫碎片恢復SQLserver數據庫
![<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—通過拼接<b class='flag-5'>數據庫</b>碎片恢復SQLserver<b class='flag-5'>數據庫</b>](https://file1.elecfans.com/web1/M00/F4/07/wKgaoWcjE32AbQdWAAJD_hojvJc119.png)
Oracle數據恢復—異常斷電后Oracle數據庫啟庫報錯的數據恢復案例
![Oracle<b class='flag-5'>數據</b>恢復—異常斷電后Oracle<b class='flag-5'>數據庫</b>啟<b class='flag-5'>庫</b>報錯的<b class='flag-5'>數據</b>恢復案例](https://file1.elecfans.com/web2/M00/08/B8/wKgZomb6Ns-AbiICAAFlXAFpKKU086.png)
數據庫數據恢復—SQL Server數據庫出現823錯誤的數據恢復案例
![<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—SQL Server<b class='flag-5'>數據庫</b>出現823錯誤的<b class='flag-5'>數據</b>恢復案例](https://file1.elecfans.com/web2/M00/07/F4/wKgaombs78mANJ1GAAPeSoXHVPE244.png)
恒訊科技分析:sql數據庫怎么用?
數據庫數據恢復—SQL Server數據庫所在分區空間不足報錯的數據恢復案例
數據庫數據恢復—raid5陣列上層Sql Server數據庫數據恢復案例
![<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—raid5陣列上層Sql Server<b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復案例](https://file.elecfans.com/web2/M00/A2/AD/pYYBAGRLbSSAHhFWAAI9vWNRQec919.png)
評論