2022年12月,在拉斯維加斯舉辦的2022亞馬遜云科技re:Invent全球大會完美落幕,大會中推出了很多新項目,在整個戰(zhàn)略中Amazon Redshift處于“核心C位”,在存儲、查詢和分析中都發(fā)揮重要價值,而今年Redshift新發(fā)布的功能特性也有點多得數(shù)不過來,這些功能特性有一個核心目標(biāo)就是化繁為簡。在經(jīng)過了從0到1的技術(shù)突破和從1到100的規(guī)?;螅瑏嗰R遜云科技正在努力嘗試著做從1到0的事情,這里的從1到0是面向客戶的,衡量的是客戶的復(fù)雜任務(wù)。即使是從100的手動操作到1的自動化仍然不夠,目標(biāo)是從1到0,消除這些瑣碎和不應(yīng)該困擾的工作,實現(xiàn)像Serverless一樣的目標(biāo),讓客戶全身心投入到業(yè)務(wù)中去。
更優(yōu)雅的數(shù)據(jù)分享
從Redshift到Redshifts
Redshift用戶通常都擁有不止一個集群(或者Serverless),那它們之間是怎么進行有效地協(xié)作呢?答案是Data Sharing。Redshift的Data Sharing功能從推出到現(xiàn)在已經(jīng)快一年半時間了,客戶將它用在組織內(nèi)實現(xiàn)不同的數(shù)據(jù)架構(gòu),如Data Mesh等。Data Sharing功能使用起來非常方便,并且支持跨賬號、跨區(qū)域以及跨集群和Serverless模式,這過程中數(shù)據(jù)并沒有任何移動,是通過Zero Copy的方式實現(xiàn)(又一個從1到0的故事)。
一個生產(chǎn)者對應(yīng)一個消費者的情況非常容易理解并進行管理,但是企業(yè)面臨的往往是數(shù)十個甚至成百上千的不同數(shù)據(jù)之間需要相互共享,記錄并維護這些相互交錯的數(shù)據(jù)共享就變得十分困難,這時候企業(yè)尤其需要一個能集中管理跨不同組織和部門的數(shù)據(jù)共享權(quán)限工具,Lake Formation再次出場。
Lake Formation服務(wù)的目標(biāo)就是為了簡化數(shù)據(jù)的集中管理,此前Lake Formation基于獨特的集中權(quán)限模型(數(shù)據(jù)目錄資源和基于標(biāo)簽的授權(quán)模式),可以對數(shù)據(jù)湖的數(shù)據(jù)進行細(xì)粒度的集中訪問控制(數(shù)據(jù)表、行、列等),并且可以很方便地與其他服務(wù)如Athena、QuickSight,當(dāng)然還有Redshift的集成。這一次,Lake Formation和Redshift的集成再一次加強了,提供了集中管理Redshift Data Sharing的能力,客戶可以使用統(tǒng)一的Lake Formation集中查看和管理Redshift Data Sharing,也可以讓數(shù)據(jù)消費者發(fā)現(xiàn)和使用這些Redshift Data Sharing,并繼續(xù)沿用經(jīng)過驗證的細(xì)粒度權(quán)限機制,保障數(shù)據(jù)使用的安全性。
另外,可以根據(jù)自己的實際情況,使用Lake Formation集中地、安全地管理Redshift的大規(guī)模數(shù)據(jù)共享,或許用來構(gòu)建按需自主使用的、面向領(lǐng)域的、數(shù)據(jù)即服務(wù)的數(shù)據(jù)架構(gòu)。
Amazon DataZone是數(shù)據(jù)治理方向的一大驚喜。即使有Lake Formation帶飛,企業(yè)中的數(shù)據(jù)使用者仍然很難找到合適的業(yè)務(wù)數(shù)據(jù),尤其是數(shù)據(jù)還分散在不同的國家、地區(qū)、部分以及各種數(shù)據(jù)賬戶中。即使數(shù)據(jù)使用方找到數(shù)據(jù),往往也不了解其中數(shù)據(jù)的真實含義,需要自己對其進行一系列的摸索,當(dāng)然,這些都是通過了數(shù)據(jù)訪問控制的難關(guān)之后。
數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師如何能一起愉快地協(xié)作,而不是各個團隊做著重復(fù)的技術(shù)工作,沒有帶出真實的業(yè)務(wù)價值輸出,這始終是一個企業(yè)需要不斷思考的問題。Amazon DataZone給出了一個選項,目標(biāo)是打通業(yè)務(wù)數(shù)據(jù)通道,實現(xiàn)從一開始就能反映業(yè)務(wù)領(lǐng)域?qū)傩缘臄?shù)據(jù)架構(gòu)設(shè)計,再配合發(fā)布/訂閱和事件驅(qū)動的模式,一切都是為了簡化數(shù)據(jù)的使用,讓數(shù)據(jù)發(fā)揮真正的價值。
當(dāng)然,DataZone和本文主角Redshift的集成是無縫銜接的,Redshift數(shù)倉既可以是數(shù)據(jù)生產(chǎn)者也可以是數(shù)據(jù)消費者。
穩(wěn)定、可靠、合規(guī)
居家旅行必備
上述強大的功能全速推進著Redshift向前發(fā)展,但同時它也需要一個穩(wěn)定的基座。今年re:Invent發(fā)布的其他幾項更新同樣發(fā)揮著重要作用。
首先是多AZ部署(沒錯,Redshift原來是單AZ模式,但是不用擔(dān)心,RA3節(jié)點類型集群的數(shù)據(jù)是持久化在S3中的),像其他多AZ部署服務(wù)一樣(例如RDS),客戶可以選擇在多個可用區(qū)部署Redshift實現(xiàn)提高可用性。多AZ部署通過自動恢復(fù)的能力來縮短恢復(fù)時間,特別適用于關(guān)鍵的業(yè)務(wù)分析場景,可以保證RPO=0、RTO<1分鐘的數(shù)據(jù)恢復(fù)。
數(shù)據(jù)備份集中管理服務(wù)Amazon Backup新補充了對Redshift的支持,可以集中地管理備份策略,進一步保護Redshift的數(shù)據(jù)。另外,對于許多國內(nèi)出海的用戶,他們尤其需要關(guān)注GDPR等隱私法規(guī),所以新功能動態(tài)數(shù)據(jù)屏蔽千萬不能錯過,它可以用來保護Redshift中的敏感數(shù)據(jù)信息,并且在不用為不同用戶創(chuàng)建不同數(shù)據(jù)拷貝的前提下完成。