湖倉一體項目

本項目以Apache Hudi為項目核心框架，基于海量電商行業(yè)的真實用戶行為日志數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)，構(gòu)建了一套完整可實施、可落地的湖倉一體系統(tǒng)。項目以Hudi作為核心數(shù)據(jù)組織框架、Flink作為數(shù)據(jù)計算引擎、HiveCatalog作為元數(shù)據(jù)持久化介質(zhì)，并沿用了數(shù)據(jù)倉庫建模理論提供的合理的數(shù)據(jù)分層結(jié)構(gòu)，進行了完整的數(shù)據(jù)調(diào)研、指標(biāo)體系構(gòu)建流程。
湖倉一體項目旨在為企業(yè)提供一種高效、可擴展、易維護的數(shù)據(jù)處理方案，可以滿足多種數(shù)據(jù)場景的需求。其摒棄了繁復(fù)的緩慢變化維度處理方案、避免了全量與增量表的分類構(gòu)建，為數(shù)據(jù)倉庫提供了極低延遲，并自動解決了小文件問題。
通過學(xué)習(xí)本項目，可以幫助學(xué)員對大數(shù)據(jù)的組織、存儲、分析處理等操作有更透徹的認(rèn)知，領(lǐng)略大數(shù)據(jù)前沿技術(shù)，掌控大數(shù)據(jù)的技術(shù)脈搏。

適學(xué)人群

技術(shù)轉(zhuǎn)型者

IT小白向大數(shù)據(jù)領(lǐng)域邁進
掌握實用技能
高校畢業(yè)生

增長經(jīng)驗
搭建完善的項目
接觸廣泛技術(shù)面
IT從業(yè)者

學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
要求課程基礎(chǔ)

Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架

學(xué)習(xí)收獲

熟練使用Hudi

充分掌握數(shù)據(jù)湖概念與構(gòu)建流程

熟練應(yīng)用數(shù)倉建模理論

熟練掌握Hudi與其他大數(shù)據(jù)框架的集成

技術(shù)點

采用當(dāng)前大廠非常流行的Hudi和Flink框架，實現(xiàn)湖倉一體架構(gòu)；
多方參考大廠數(shù)倉分層體系，合理數(shù)據(jù)分層，降低數(shù)據(jù)耦合度，提高數(shù)據(jù)分析效率，降低數(shù)據(jù)計算成本。
采用Flink CDC監(jiān)控業(yè)務(wù)數(shù)據(jù)變動情況，做到更實時更準(zhǔn)確的變動數(shù)據(jù)采集。
采用Flume采集用戶行為日志數(shù)據(jù)，適配組件全面調(diào)研，給出詳細(xì)貼近實戰(zhàn)的配置文件，自定義采集組件，解決時間戳零點漂移，優(yōu)化小文件存儲帶來問題，提供更多實戰(zhàn)經(jīng)驗；
真實數(shù)據(jù)ETL實操，掌握如何對原始數(shù)據(jù)進行清洗、脫敏、數(shù)據(jù)分類、整合；

使用Hudi集成Hive、Flink，F(xiàn)linkSQL完成分層計算，HiveCatalog管理元數(shù)據(jù)；
ODS層、DWD層、DIM層、DWS層和ADS層之間采用Flink流式處理，省去了離線數(shù)倉中的調(diào)度環(huán)節(jié)，真正做到湖倉一體。
采用SuperSet對調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進行多圖表、儀表盤可視化展示；
分析總結(jié)項目搭建過程中遇到的問題，增加開發(fā)經(jīng)驗，提升實戰(zhàn)問題解決能力。

湖倉一體項目

技術(shù)轉(zhuǎn)型者

高校畢業(yè)生

IT從業(yè)者

要求課程基礎(chǔ)