IT小白向大數(shù)據(jù)領(lǐng)域邁進
掌握實用技能
增長經(jīng)驗
搭建完善的項目
接觸廣泛技術(shù)面
學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架
熟練使用Hudi
充分掌握數(shù)據(jù)湖概念與構(gòu)建流程
熟練應(yīng)用數(shù)倉建模理論
熟練掌握Hudi與其他大數(shù)據(jù)框架的集成
采用當(dāng)前大廠非常流行的Hudi和Flink框架,實現(xiàn)湖倉一體架構(gòu);
多方參考大廠數(shù)倉分層體系,合理數(shù)據(jù)分層,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率,降低數(shù)據(jù)計算成本。
采用Flink CDC監(jiān)控業(yè)務(wù)數(shù)據(jù)變動情況,做到更實時更準(zhǔn)確的變動數(shù)據(jù)采集。
采用Flume采集用戶行為日志數(shù)據(jù),適配組件全面調(diào)研,給出詳細(xì)貼近實戰(zhàn)的配置文件,自定義采集組件,解決時間戳零點漂移,優(yōu)化小文件存儲帶來問題,提供更多實戰(zhàn)經(jīng)驗;
真實數(shù)據(jù)ETL實操,掌握如何對原始數(shù)據(jù)進行清洗、脫敏、數(shù)據(jù)分類、整合;
使用Hudi集成Hive、Flink,F(xiàn)linkSQL完成分層計算,HiveCatalog管理元數(shù)據(jù);
ODS層、DWD層、DIM層、DWS層和ADS層之間采用Flink流式處理,省去了離線數(shù)倉中的調(diào)度環(huán)節(jié),真正做到湖倉一體。
采用SuperSet對調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進行多圖表、儀表盤可視化展示;
分析總結(jié)項目搭建過程中遇到的問題,增加開發(fā)經(jīng)驗,提升實戰(zhàn)問題解決能力。