IT小白向大數(shù)據(jù)領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長(zhǎng)經(jīng)驗(yàn)
搭建完善的項(xiàng)目
接觸廣泛技術(shù)面
學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架
全面了解在線聽(tīng)書行業(yè)運(yùn)營(yíng)流程
充分熟悉在線聽(tīng)書行業(yè)離線指標(biāo)體系
充分熟悉在線聽(tīng)書行業(yè)實(shí)時(shí)指標(biāo)體系
熟悉掌握數(shù)據(jù)倉(cāng)庫(kù)技術(shù)框架的協(xié)調(diào)應(yīng)用
熟練應(yīng)用數(shù)倉(cāng)建模理論
數(shù)據(jù)建模理論數(shù)據(jù)采集策略數(shù)據(jù)清洗思路
離線數(shù)據(jù)分析經(jīng)驗(yàn)實(shí)時(shí)數(shù)據(jù)分析經(jīng)驗(yàn)定時(shí)調(diào)度任務(wù)部署集群運(yùn)維性能優(yōu)化數(shù)據(jù)可視化接口編寫
調(diào)研各大廠數(shù)倉(cāng)建模體系,以阿里巴巴的數(shù)據(jù)倉(cāng)庫(kù)建模理論為藍(lán)本,搭建實(shí)用有效的數(shù)倉(cāng)建模體系;
應(yīng)用建模理論,提出可實(shí)踐性強(qiáng)的數(shù)倉(cāng)建模流程,數(shù)據(jù)調(diào)研→明確數(shù)據(jù)域→構(gòu)建業(yè)務(wù)總線矩陣→維度模型設(shè)計(jì)→明確統(tǒng)計(jì)指標(biāo)→匯總模型設(shè)計(jì)→分層構(gòu)建數(shù)倉(cāng);
合理數(shù)倉(cāng)分層,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率,降低數(shù)據(jù)計(jì)算成本。
實(shí)戰(zhàn)式數(shù)據(jù)模擬策略,模擬生成全面的原始數(shù)據(jù),針對(duì)真實(shí)數(shù)據(jù)執(zhí)行數(shù)據(jù)采集工作;
采用Flume采集用戶行為日志數(shù)據(jù),調(diào)研組件選型,給出詳細(xì)貼近實(shí)戰(zhàn)的配置文件,自定義采集組件,解決時(shí)間戳零點(diǎn)漂移,優(yōu)化小文件存儲(chǔ)帶來(lái)問(wèn)題,提供更多實(shí)戰(zhàn)經(jīng)驗(yàn);
采用流行數(shù)據(jù)采集框架DataX采集業(yè)務(wù)數(shù)據(jù),提供詳細(xì)配置文件及腳本解讀,掌握更多腳本編寫技巧;
采用Maxwell監(jiān)控業(yè)務(wù)數(shù)據(jù)變動(dòng)情況,做到更實(shí)時(shí)更準(zhǔn)確的變動(dòng)數(shù)據(jù)采集;
真實(shí)數(shù)據(jù)ETL實(shí)操,掌握如何對(duì)原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類、整合;
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)DWD層,完成事務(wù)型事實(shí)表、周期型事實(shí)表、累積快照事實(shí)表搭建和數(shù)據(jù)裝載;
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)DIM層,針對(duì)緩慢變化維度,構(gòu)建拉鏈表;
基于指標(biāo)體系分析構(gòu)建DWS層,將相同粒度、統(tǒng)計(jì)周期的派生指標(biāo)整合統(tǒng)計(jì)為寬表,提高計(jì)算結(jié)果復(fù)用性;
安裝部署受各大廠歡迎的DolphinScheduler工作流調(diào)度系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)搭建全流程定時(shí)自動(dòng)化調(diào)度以及故障自動(dòng)郵件告警;
采用SuperSet對(duì)調(diào)度采集至RDBMS數(shù)據(jù)庫(kù)中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤可視化展示;
采用Echarts,結(jié)合SpringBoot對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化展示,充分掌握數(shù)據(jù)展示接口編寫流程;
基于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的海量數(shù)據(jù)計(jì)算業(yè)務(wù),對(duì)整體項(xiàng)目進(jìn)行性能調(diào)優(yōu),掌握全面可實(shí)踐的性能調(diào)優(yōu)技巧。
項(xiàng)目包含數(shù)十個(gè) Flink 實(shí)時(shí)計(jì)算任務(wù)、幾十個(gè)實(shí)時(shí)計(jì)算指標(biāo)和數(shù)萬(wàn)行實(shí)時(shí)開(kāi)發(fā)代碼。
遵循行內(nèi)大廠的數(shù)據(jù)倉(cāng)庫(kù)建模理論,實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù)分為 ODS 層、DIM 層、DWD 層、DWS 層和 ADS 層,實(shí)現(xiàn)分層計(jì)算和數(shù)據(jù)分流,從而提高效率并降低耦合度。
利用 HBase 和 Phoenix 組合存儲(chǔ) DIM 層的維度數(shù)據(jù),顯著提升響應(yīng)速度。
通過(guò) Flink CDC 和 MySQL 動(dòng)態(tài)配置表,實(shí)現(xiàn)維度表配置的動(dòng)態(tài)獲取和數(shù)據(jù)自動(dòng)分流。
采用 Redis 實(shí)現(xiàn)旁路緩存,提高響應(yīng)速度,同時(shí)使用 Flink 提供的異步 IO 進(jìn)行優(yōu)化。
提供適用于多種場(chǎng)景的雙流 Join 解決方案,深入分析各種解決方案的優(yōu)缺點(diǎn),培養(yǎng)解決問(wèn)題的能力。
靈活運(yùn)用狀態(tài)編程、FlinkCEP、窗口函數(shù)、自定義處理函數(shù)等Flink技術(shù)點(diǎn)解決復(fù)雜需求。
為所有需求提供 Flink 的 Table API 和 Flink SQL 兩種解決方案,滿足不同企業(yè)的開(kāi)發(fā)需求,培養(yǎng)多角度開(kāi)發(fā)能力。
使用 FlinkCEP 技術(shù)識(shí)別不同用戶行為模式,分析用戶跳出行為。
采用 ClickHouse 存儲(chǔ)最終寬表數(shù)據(jù),顯著提高數(shù)據(jù)查詢效率,并為用戶提供即席查詢和可視化報(bào)表展示的多種可能性。
利用 SpringBoot 編寫數(shù)據(jù)展示接口與 Sugar 對(duì)接,實(shí)現(xiàn)數(shù)據(jù)可視化大屏展示,并熟練掌握數(shù)據(jù)展示接口編寫流程。
針對(duì)企業(yè)級(jí)海量數(shù)據(jù)分析任務(wù),詳細(xì)講解分析生產(chǎn)環(huán)境中可能遇到的反壓?jiǎn)栴}、數(shù)據(jù)傾斜問(wèn)題、檢查點(diǎn)配置關(guān)鍵點(diǎn)、狀態(tài)調(diào)優(yōu)、鏈路延遲監(jiān)控等多種性能調(diào)優(yōu)問(wèn)題。