10月19日,在2021年云棲大會上,阿里云重磅發(fā)布DataWorks全鏈路數(shù)據(jù)治理產(chǎn)品體系,基于數(shù)據(jù)倉庫,數(shù)據(jù)湖、湖倉一體等多種大數(shù)據(jù)架構(gòu),DataWorks幫助企業(yè)治理內(nèi)部不斷上漲的“數(shù)據(jù)懸河”,釋放企業(yè)的數(shù)據(jù)生產(chǎn)力。
阿里巴巴集團副總裁 阿里云智能計算平臺事業(yè)部高級研究員賈揚清現(xiàn)場分享
“當數(shù)據(jù)量變得越來越大,單位數(shù)據(jù)的價值會變得越來越小。全鏈路數(shù)據(jù)治理讓數(shù)據(jù)從低質(zhì)低效向高質(zhì)高效流動?!?/p>
阿里巴巴集團副總裁,阿里云智能計算平臺事業(yè)部高級研究員賈揚清在現(xiàn)場表示。黃河泥沙的淤積使河床不斷抬高,形成了河高于地平面的“地上懸河”,在河南開封,最高的懸河達到10米,并且河床每年都會以10厘米的速度增高,而隨之而來的,兩邊的堤壩也在不斷地增高。在企業(yè)的數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)量變得越來越大,機器變得越來越多,團隊變得越來越大,數(shù)字化轉(zhuǎn)型真的變得越來越好嗎?對于企業(yè)來說,表象的繁榮不代表未來不會發(fā)生一場“洪水”。在阿里巴巴,雙11已經(jīng)成為了日常,2021年大數(shù)據(jù)計算服務(wù)MaxCompute的日常數(shù)據(jù)處理的水位線已經(jīng)超過2020年雙11的峰值,不斷增長的數(shù)據(jù)量已經(jīng)造成了極大的成本與效率的壓力。
l?機器的效率+人的效率=數(shù)據(jù)的效率
面對每年如此膨脹的數(shù)據(jù),阿里巴巴的解法是通過大數(shù)據(jù)+AI一體化平臺的能力,讓數(shù)據(jù)效率成為企業(yè)的核心指標。在機器的效率層面,MaxCompute作為離線數(shù)倉,單日數(shù)據(jù)處理量已經(jīng)達到1.7EB,但是除了數(shù)據(jù)量,更應(yīng)該關(guān)注的是MaxCompute僅用10%的機器增長,就支撐了75%的數(shù)據(jù)量增長。這里面是MaxCompute在底層的存儲和性能不斷地追求極致的優(yōu)化,并且連續(xù)5年打破TPCx-BigBench 100TB規(guī)模性能世界記錄。同時Hologres作為實時數(shù)倉,峰值每秒寫入5.96億條,單表存儲高達2.5PB,基于萬億級數(shù)據(jù)對外提供多維分析和服務(wù),99.99%的查詢可以在80ms以內(nèi)返回結(jié)果。Hologres與MaxCompute組成離線、實時、分析、服務(wù)一體化的數(shù)據(jù)倉庫,從底層就極大地簡化了大數(shù)據(jù)架構(gòu)的復(fù)雜度。機器層面的效率往往容易被衡量,但是人的效率卻很難被量化。DataWorks從2009年開始成為阿里巴巴集團統(tǒng)一的大數(shù)據(jù)開發(fā)治理平臺,完成阿里巴巴數(shù)據(jù)中臺的搭建。對一個平臺的完善性與易用性,用戶往往會用腳投票。目前在DataWorks上構(gòu)建的大規(guī)模協(xié)同數(shù)據(jù)中臺的每日活躍用戶數(shù)已經(jīng)超過5萬,平均每3個阿里巴巴員工就有1個在使用DataWorks,服務(wù)阿里巴巴內(nèi)部幾乎所有部門,沉淀的全鏈路數(shù)據(jù)治理核心能力超過數(shù)百項。FY2020,阿里巴巴通過數(shù)據(jù)治理的綜合收益超過10億元,可以說大數(shù)據(jù)開發(fā)治理平臺DataWorks與計算引擎MaxCompute、Hologres組成了大數(shù)據(jù)架構(gòu)下的“Wintel聯(lián)盟”,共同提高企業(yè)數(shù)據(jù)的效率。
l?建設(shè)經(jīng)驗:從小作坊到大平臺到敏捷制造
數(shù)據(jù)治理也好、數(shù)據(jù)中臺也好,從來也不是一個從象牙塔里想出來的產(chǎn)品,而是經(jīng)過很多年磨出來的。阿里巴巴的數(shù)字化轉(zhuǎn)型也經(jīng)歷過刀耕火種的年代,每個業(yè)務(wù)團隊維護多套Hadoop集群,像一個個小作坊:有什么用什么,需要什么加什么,各種技術(shù)組件像搭積木一樣逐漸堆砌起來。而在這個過程中,經(jīng)常會非常痛苦,平臺發(fā)布了一個新的功能,不知道什么原因把另一個組件搞掛了,然后技術(shù)人員花很長時間去排查另一個組件有什么問題,修復(fù)了一個組件,發(fā)布了一下,又把另一個搞掛了,問題不斷冒出就像“按下葫蘆浮起瓢”,好像永遠沒有盡頭。于是,阿里巴巴開始轟轟烈烈的平臺統(tǒng)一計劃,搭建起了大平臺,把開源的架構(gòu)改成自研的架構(gòu),數(shù)據(jù)逐漸都遷移到MaxCompute上。這個時候數(shù)據(jù)中臺的概念也開始在集團內(nèi)推廣,逐漸將3個ONE的數(shù)據(jù)中臺方法論落地到DataWorks,完成了阿里巴巴整個數(shù)據(jù)中臺的搭建。至此,從核心的電商天貓?zhí)詫?,到餓了么、優(yōu)酷、盒馬等各個業(yè)務(wù)團隊都在同一套大平臺上進行一站式的協(xié)同數(shù)據(jù)開發(fā)。但是隨著大平臺的普及,使用的人數(shù)越來越多,數(shù)據(jù)的治理也會越變得更加復(fù)雜。在不斷產(chǎn)生成千上萬張表中,企業(yè)無法知道有多少條不規(guī)范的語句像白蟻一樣正在消耗大量的計算資源;有多少張表正在重復(fù)地被復(fù)制,制造表象的“數(shù)據(jù)繁榮”;有多少臟數(shù)據(jù)在不斷生產(chǎn)污染數(shù)據(jù)的質(zhì)量;有多少張表正在被不斷申請權(quán)限使用,面臨數(shù)據(jù)安全的風險。這些問題都對大平臺提出了嚴峻的挑戰(zhàn)。于是,大平臺逐漸往敏捷制造不斷演進,通過全鏈路的數(shù)據(jù)治理能力,以全局的視角進行管控,并同時實現(xiàn)數(shù)據(jù)的決策的下放。
l?DataWorks全鏈路數(shù)據(jù)治理新品發(fā)布
2021云棲大會全鏈路數(shù)據(jù)治理峰會,DataWorks在十二年積累的數(shù)百項數(shù)據(jù)開發(fā)治理能力之上,重磅發(fā)布全鏈路數(shù)據(jù)治理新品。
數(shù)據(jù)治理中心
數(shù)據(jù)治理對于企業(yè)的大數(shù)據(jù)團隊,不單是一個技術(shù)問題,更是組織和管理問題。對于整個組織來說,如何來衡量數(shù)據(jù)治理最終的效果?如何更好地發(fā)揮組織的主動性?在一些企業(yè)當中,會成立了專門的數(shù)據(jù)委員會,制定一些數(shù)據(jù)治理的規(guī)范,但是發(fā)現(xiàn)平臺并不能很好地支持這些規(guī)范,又或者說企業(yè)購買了一個數(shù)據(jù)平臺,但是卻不知道如何通過平臺來完成數(shù)據(jù)治理的工作。在阿里巴巴內(nèi)部經(jīng)常會參考一個健康分的概念,從組織設(shè)計上,數(shù)據(jù)委員會下面有平臺團隊,業(yè)務(wù)團隊,以及風控、財務(wù)等協(xié)同團隊。那對于某個業(yè)務(wù)團隊來說,會制定一個今年的目標比如說把健康分從80分提升為90分,從計算、存儲等方面入手,不單從業(yè)務(wù)側(cè)、生產(chǎn)側(cè)開展治理優(yōu)化工作,有需求也會提給數(shù)據(jù)平臺團隊,對引擎和數(shù)據(jù)平臺產(chǎn)品進行優(yōu)化演進,大家一起朝這個目標努力。組織有了可測量的方式,這些部門就可以把這些數(shù)字放到自己的目標里去。同時各類的數(shù)據(jù)治理戰(zhàn)役,各個團隊的比武等等長效的運營工作,也可以通過健康分做不斷地延展,達到組織數(shù)據(jù)協(xié)同的目的,發(fā)揮數(shù)據(jù)治理組織的主動性。
DataWorks全新發(fā)布的數(shù)據(jù)治理中心,針對企業(yè)計算、存儲、研發(fā)、質(zhì)量、安全五個方面形成企業(yè)數(shù)據(jù)治理健康分,以問題驅(qū)動的理念,覆蓋事前、事中、事后的全鏈路主動式數(shù)據(jù)治理和數(shù)據(jù)治理健康度評估。
企業(yè)的數(shù)據(jù)治理不再一個 “階段性項目”,而是一個“可持續(xù)的運營項目”。
智能數(shù)據(jù)建模
企業(yè)建了一個平臺,做了很多規(guī)范治理,對于業(yè)務(wù)人員的價值到底是什么?省了多少成本,治理了多少問題,對于業(yè)務(wù)人員相對是無感的。業(yè)務(wù)方只希望更快地拿到想要的數(shù)據(jù),于是原先的數(shù)據(jù)倉庫建設(shè)方式更多的是自底向上小步快跑,快速滿足需求為先。而如今的全鏈路數(shù)據(jù)治理,讓數(shù)據(jù)倉庫的建設(shè)向規(guī)范化,可持續(xù)發(fā)展方向演進,強調(diào)面向業(yè)務(wù)視角自頂向下進行規(guī)范建模與面向開發(fā)視角自底向上構(gòu)建數(shù)倉雙管齊下。
DataWorks全新發(fā)布智能數(shù)據(jù)建模,沉淀阿里巴巴數(shù)據(jù)中臺建設(shè)方法論,從數(shù)倉規(guī)劃、數(shù)據(jù)標準、維度建模、數(shù)據(jù)指標四個方面,以業(yè)務(wù)視角對業(yè)務(wù)的數(shù)據(jù)業(yè)務(wù)進行詮釋。智能數(shù)據(jù)建模支持快速數(shù)據(jù)建模,包含正向建模與逆向建模,提供分鐘級的模型創(chuàng)建能力。同時打通數(shù)據(jù)開發(fā),可以直接將數(shù)據(jù)模型發(fā)布到多個引擎,一鍵生成質(zhì)量規(guī)則,直接發(fā)布表并自動生成ETL簡代碼。企業(yè)的業(yè)務(wù)人員可以方便地了解數(shù)據(jù)全貌,快速獲取所需的數(shù)據(jù)指標以及基于數(shù)據(jù)模型進行數(shù)據(jù)分析和探查,企業(yè)內(nèi)所有的員?可以實現(xiàn)“數(shù)同?”的快速理解與流通,讓數(shù)據(jù)決策可以實現(xiàn)真正有效的下放!
盒馬鮮生通過DataWorks智能數(shù)據(jù)建模落地新零售行業(yè)數(shù)據(jù)模型Rex-LDM
同時,現(xiàn)場還發(fā)布了DataWorks數(shù)據(jù)集成實時同步能力、智能數(shù)據(jù)查詢、隱私安全計算、DataWorks開放平臺、數(shù)據(jù)作業(yè)遷云工具與遷云專家服務(wù)等多項功能。
中國信通院在2021年9月發(fā)布的《全球數(shù)字經(jīng)濟白皮書》報道,去年我國的數(shù)字經(jīng)濟規(guī)模已經(jīng)達到5.4萬億美元,占比GDP近1/3。在數(shù)字經(jīng)濟時代,數(shù)據(jù)已經(jīng)成為關(guān)鍵生產(chǎn)要素,就像在農(nóng)業(yè)經(jīng)濟時代和工業(yè)經(jīng)濟時代中,土地、勞動力是關(guān)鍵的生產(chǎn)要素。DataWorks通過智能數(shù)據(jù)建模、全域數(shù)據(jù)集成、高效數(shù)據(jù)生產(chǎn)、主動數(shù)據(jù)管理、全面數(shù)據(jù)安全、快速數(shù)據(jù)服務(wù)六大全鏈路數(shù)據(jù)治理的能力,承載千行百業(yè)數(shù)字化轉(zhuǎn)型的可能。目前,DataWorks已經(jīng)在數(shù)字政府、新金融、新零售、能源、工業(yè)、交通、游戲、教育、數(shù)字營銷等行業(yè)落地數(shù)千家客戶。國家電網(wǎng)大數(shù)據(jù)中心通過DataWorks實現(xiàn)總部+27家?。ㄊ校┕綪B級數(shù)據(jù)的統(tǒng)一管理,通過全鏈路數(shù)據(jù)中臺的治理與監(jiān)測運營體系,加快電網(wǎng)整體數(shù)字化轉(zhuǎn)型升級。創(chuàng)夢天地基于開源的EMR引擎,用DataWorks替換自研調(diào)度系統(tǒng),讓技術(shù)人員更加專注業(yè)務(wù),助力游戲行業(yè)的數(shù)據(jù)化運營。億滋中國通過DataWorks智能數(shù)據(jù)建模進行全鏈路的數(shù)據(jù)模型治理,極大提升數(shù)據(jù)中臺的自服務(wù)能?,讓企業(yè)數(shù)據(jù)決策實現(xiàn)下放,釋放新零售的數(shù)字化力量。
企業(yè)數(shù)字化轉(zhuǎn)型正在進入的深水區(qū),“數(shù)據(jù)懸河”將逐漸成為企業(yè)的“達摩克斯之劍”,阿里云正在與各行各業(yè)的客戶與合作伙伴一起,通過全鏈路數(shù)據(jù)治理,管得好數(shù)據(jù)、用得好數(shù)據(jù),讓數(shù)據(jù)向先進生產(chǎn)力集聚!