保險精算項目需要計算海量明細保單數據,以便生成財務報表。項目使用SparkSQL來計算,時效大大提高,增強保險公司的商業信譽。項目將多部門的業務數據庫同步到hive數據集市,使用SparkSQL加載源數據表(保單表12億保單,客戶表8千萬客戶等),計算保單的保費、現金價值、準備金等明細,提供給財務部門收費或支出,最后對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示。立即體驗
國家實施大數據戰略
大數據專業人才緊缺
一線城市薪資高
二三線緊隨其后
數字經濟引領全球
經濟社會發生變革
0基礎轉行人員數據課程從Python入手
簡單高效入門快
適宜零基礎人員學習
應屆畢業生缺乏工作經驗技能
未來沒有明確規劃
通過學習本課入行IT
互聯網轉行人員目前工作待遇不理想
市場上升空間有限
需要突破現狀轉行
有基礎尋求系統提升者具有一定的數據理論或基礎
需要掌握系統數據技術
在實際業務中如何應用
適合零基礎學員課程由淺入深/數據量由小到大
逐步掌握各業務場景下的數據處理
熱門技術周更新一線大廠行業專家/年億元級研發投入
以“周”為單位更新前沿技術
項目驅動式教學多行業多項目實戰
提升實戰能力 入職即能快速上手
課程貼合市場需求課程與時俱進不斷融入熱門技術棧
打造學完即上崗人才
還原真實工作場景參與真實項目開發流程
鍛煉獨立分析、解決問題的能力
積累實際工作經驗真實數據業務需求轉化
企業級真項目涵蓋14大主流行業
Python編程基礎
Python編程進階
SQL基礎
ETL實戰
Hadoop技術棧
千億級離線數倉項目
千億級離線數倉項目實戰
Spark技術棧
用戶畫像解決方案
PB級內存計算項目實戰
就業指導&就業加強
Flink技術棧
亞秒級實時計算項目
主要內容
· Python基礎語法· Python數據處理· 函數· 文件讀寫· 異常處理· 模塊和包
可解決的現實問題
熟練掌握Python語言,建立編程思維,使學員能夠熟練使用Python技術完成程序編寫。
可掌握的核心能力
1.掌握Python開發環境基本配置;
2.掌握運算符、表達式、流程控制語句、數組等的使用;
3.掌握字符串的基本操作;
4.初步建立面向對象的編程思維;
5.熟悉異常捕獲的基本流程及使用方式;
6.掌握類和對象的基本使用方式。
主要內容
· 面向對象· 網絡編程· 多任務編程· 高級語法· Python編程綜合項目
可解決的現實問題
熟練使用Python面向對象程序設計思想,掌握數據開發必備Python高級語法,解決常見Python開發問題。
可掌握的核心能力
1.掌握網絡編程技術,能夠實現網絡通訊;
2.知道通訊協議原理;
3.掌握開發中的多任務編程實現方式;
4. 知道多進程多線程的原理。
主要內容
· MySQL與SQL· Kettle與BI工具· Pymysql
可解決的現實問題
熟練掌握MySQL\SQL、Kettle以及BI工具使用,能夠解決傳統數倉業務開發任務。
可掌握的核心能力
1. 掌握MySQL數據庫的使用;
2. 掌握SQL語法;
3. 掌握Kettle數據遷移工具的使用;
4. 熟練使用BI可視化工具;
5. 對數據開發有一定認知,掌握BI工程師所具備的基本技能。
主要內容
· ETL概念與工具· Python ETL實戰· BI
可解決的現實問題
掌握Python完成數據ETL實戰,能夠解決中小型數據量數據處理相關任務。
可掌握的核心能力
1. 掌握ETL的相關概念;
2. 掌握基于Python語言完成ETL任務開發實戰;
3. 基于ETL實戰鍛煉Python編程能力,包括(元數據管理、數據模型、項目配置、單元測試、工具方法抽取等);
4. 掌握BI數據分析實戰。
主要內容
· Linux· 大數據基礎和硬件介紹· Zookeeper· HDFS· MapReduce· YARN· Hive基礎· Hive高階
可解決的現實問題
熟悉Linux操作系統,以及各種Linux命令,能夠解決企業級大數據集群搭建問題,為進階大數據開發奠定基礎。
可掌握的核心能力
1.掌握Linux常用命令,為數據開發后續學習打下的良好基礎;
2.掌握大數據的核心框架Hadoop以及其生態體系,完成HDFS、MapReduce及Yarn機制基本理解與使用;能顧搭建Hadoop高可用HA集群;
3.掌握Hive的使用和調優;
4.具備Hadoop開發能力、離線數據倉庫開發能力;
5.能夠完成基本構建企業級數倉。
主要內容
· 大數據部署運維:Cloudera Manager· 分析決策需求:數據倉庫· 數據采集:sqoop· 數據分析:Hive· 歷史數據快照:拉鏈表· 數據更新后的統計分析:拉鏈表· 數據調度:oozie+shell· OLAP系統存儲:MySQL· FineBI數據展示
可解決的現實問題
能夠解決企業級常見數據倉庫搭建,從項目的需求、技術架構、業務架構、部署平臺、ETL設計、作業調度等整套pipeline,完成大數據體系下的企業級數據倉庫構建。
可掌握的核心能力
1.掌握零售行業離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程;
2.行業內首個深度使用Presto的項目;
3.包括海量數據場景下如何優化配置;
4.拉鏈表的具體應用;
5.新增數據和更新數據的抽取和分析;
6.提供新零售大型商超集團的數據存儲分析以及服務監控方案。
主要內容
· 大數據部署運維:Cloudera Manager· 分析決策需求:數據倉庫· 數據采集:sqoop· 數據分析:Hive+presto· 歷史數據快照:拉鏈表· 數據更新后的統計分析:拉鏈表· 數據調度:ds· OLAP系統存儲:MySQL· FineBI數據展示
可解決的現實問題
按照企業級大數據開發流程,獨立完成項目開發,掌握企業級多場景大數據離線數倉開發能力,從數倉分層,數倉建模,指標統計,指標展示完成完整的大數據項目。
可掌握的核心能力
1.掌握教育行業離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程;
2.真實業務邏輯,共涉及20多個主題,100多個指標,提升學員在教育行業中的核心競爭力;
3.包括海量數據場景下如何優化配置;
4.拉鏈表的具體應用;
5.新增數據和更新數據的抽取和分析;
6.Hive函數的具體應用;
7.ClouderaManager可視化、自動部署和配置、Git、CodeReview功能。
主要內容
· Pandas基礎· Pandas數據處理實戰· Spark基礎· Spark Core· Spark SQL· SparkSQL案例· Kafka· Elasticsearch
可解決的現實問題
掌握全球最熱門的Spark技術棧,通過SparkCore和SparkSQL解決數據處理與統計分析工作,進階高級大數據開發工程師。
可掌握的核心能力
1.掌握Spark的RDD、DAG、CheckPoint等設計思想;
2.掌握SparkSQL結構化數據處理,Spark On Hive;
3.掌握Structured Streaming整合多數據源完成實時數據處理;
4.具備Spark全棧開發能力,滿足大數據行業多場景統一技術棧的數據開發,提供就業核心競爭力。
主要內容
· 1SparkSQL整合ES自定義數據源· DS任務界面化調度· 用戶畫像標簽構建規則· 用戶畫像規則類標簽構建· 用戶畫像統計類標簽構建
可解決的現實問題
項目提供了全行業用戶畫像解決方案, 使用SparkSQL+ES+DS構建企業級用戶畫像,通過SparkSQL+MySQL構建通用行業用戶畫像標簽體系。
可掌握的核心能力
1. SparkSQL整合ES自定義數據源;
2. DS任務界面化調度;
3. 用戶畫像標簽構建規則;
4. 用戶畫像規則類標簽構建;
5. 用戶畫像統計類標簽構建。
主要內容
項目核心架構和業務流程、Hive數倉建模 、Sqoop數據同步開發 DolphinScheduler任務調度、使用lag,sum等窗口函數 、使用UDAF函數計算有效保單數字段、計算現金價值、計算和準備金、分區表的使用 、指標匯總計算 、Shuffle優化。
可解決的現實問題
基于Spark全棧技術構建企業級大數據開發平臺,學生分組獨立完成項目實戰,能夠勝任常見大數據平臺開發工作,助力企業實現數字化轉型
可掌握的核心能力
1.快速搭建保險行業大數據平臺;
2.基于Hive+Spark SQL搭建離線數據倉庫;
3.基于SparkSQL應對輕松應對復雜的迭代計算;
4.完成基于國內頭部保險公司大數據項目開發;
5.掌握基于Spark分析12億報單表和8千萬客戶等數據;
6.對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示。
主要內容
· SQL實戰· Hive數據分析與面試題加強· Spark數據分析與面試題加強· NoSQL數據分析與面試題加強· 大數據多行業架構剖析
可解決的現實問題
對學習的內容進行整體回顧,并分析經典面試題,指導簡歷,面試和溝通技巧助力高薪offer。
可掌握的核心能力
1.強化面試就業核心面試題;
2.梳理大數據架構及解決方案;
3.剖析多行業大數據架構。
主要內容
· Flink Core· Flink DataStream· Flink SQL· Flink Runtime· Flink高級· Flink電商案例實戰
可解決的現實問題
掌握當下熱門的流批一體化分布式計算框架Flink及其生態,解決實時計算經典場景問題,適應市場對Flink越發增長的需求。
可掌握的核心能力
1.掌握基于Flink進行實時和離線數據處理、分析;
2.掌握基于Flink的多流并行處理技術;
3.掌握千萬級高速實時采集技術。
主要內容
· Flink· FlinkSQL· FlinkCDC· Doris· Hudi· Hudi on Hive FIneBI
可解決的現實問題
采集超過千萬條在線視頻的數據,實時高性能海量數據分析與存儲業務數據實時大屏場景實現。
可掌握的核心能力
1.湖倉一體化解決方案基于Flink+Hudi湖倉一體技術架構;
2.基于FlinkCDC完成MySQL等數據源的數據采集;
3.FlinkSQL流批一體架構實現實時數據計算;
4.使用Apache Doris進行海量多維分析;
5.掌握數據報表分析;
6.掌握業務數據實時大屏場景實現。
保險精算項目需要計算海量明細保單數據,以便生成財務報表。項目使用SparkSQL來計算,時效大大提高,增強保險公司的商業信譽。項目將多部門的業務數據庫同步到hive數據集市,使用SparkSQL加載源數據表(保單表12億保單,客戶表8千萬客戶等),計算保單的保費、現金價值、準備金等明細,提供給財務部門收費或支出,最后對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示。立即體驗
通過大數據技術架構,解決工業物聯網石油制造行業的數據存儲和分析、可視化、個性化推薦問題。一站制造項目主要基于hive數倉分層來存儲各個業務指標數據,基于sparksql做數據分析。核心業務涉及運營商、呼叫中心、工單、油站、倉儲物料。立即體驗
本項目基于一家大型連鎖超市研發的大數據分析平臺。是第一個深度使用Presto的項目,為后續Presto相關課程的研發打下了堅實的基礎,也為學員的就業拓寬了道路;真實的數據結構,復雜的SQL實現過程,學生學習以后可以達到離線數倉的高級開發水平。立即體驗
學習大數據,你見過真的海量數據嗎?你操作過真的【大規模集群】嗎?你接觸過真的【云服務】嗎?這一切,在黑馬程序員都將實現真接觸!
黑馬程序員與知名云平臺廠商—UCloud達成深度合作。為學生提供大規模服務器
集群進行實戰,硬件規模達到:
相同的工作場景,開發不必從零開始,解決方案可以拿來即用。黑馬整合緊跟市場趨勢,建立“Python+大數據開發解決方案庫”,80+技術解決方案,覆蓋職場常見技術難題,讓學員成為團隊技術問題解決最高效的人。
涵蓋完整車聯網業務場景,包含駕駛行程、電子圍欄、遠程診斷等真實業務通過 QBOX 車輛終端數據收集,并解析為 QSP 數據、QCS 數據、充電數據、HU 數據提供實時計算服務與離線計算服務,并通過 API 接口以報表和大屏展示分析結果數據
建立集團數據倉庫,統一集團數據中心,把分散的業務數據集中存儲和處理 項目從需求調研、設計、版本控制、研發、測試到落地上線,涵蓋了項目的完整工序挖掘分析海量用戶行為數據,定制多維數據集合,形成數據集市,供各個場景主題使用
實時監控證券市場的市場每日的業務交易,實現對證券市場交易數據的統計分析搭建監察預警體系,包括:預警規則管理,實時預警,歷史預警,監察歷史數據分析等股市行情交易數據實時采集、實時數據分析、多維分析,即席查詢,實時大屏監控展示高性能處理,流處理計算引擎采用的是 Flink,實時處理 100 萬筆/s 的交易數據
涵蓋完整車聯網業務場景,包含駕駛行程、電子圍欄、遠程診斷等真實業務通過 QBOX 車輛終端數據收集,并解析為 QSP 數據、QCS 數據、充電數據、HU 數據提供實時計算服務與離線計算服務,并通過 API 接口以報表和大屏展示分析結果數據
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等 ,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等 ,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案
基于一家大型物流公司研發的智慧物流大數據平臺,日訂單上千萬,圍繞訂單、運輸、倉儲、搬運裝卸、包裝以及流通加工等物流環節中涉及的數據信息等 ,提高運輸以及配送效率、減少物流成本、更有效地滿足客戶服務要求,并針對數據分析結果,提出具有中觀指導意義的解決方案
基于垂直電商平臺構建的用戶全方位畫像,完整抽取出一個用戶的信息全貌 ,業務圍繞商品、訂單、用戶基礎信息及行為信息等數據,實現用戶和商品基礎標簽、組合標簽、微觀畫像、標簽查詢等業務場景,提供了企業級多 方位業務決策分析。
數據分析不僅是(大)數據開發中重要流程,也是(大)數據開發的最終目的;越來越多的企業要求(大)數據工程師承擔部分數據 分析的工作
信用風險是金融監管機構重點關注的風險,關乎金融系統運行的穩定。在實際業務開展和模型構建過程中,面臨著高維稀疏特征以及樣本不平衡等各種問題,如何應用機器學習等數據挖掘方法提高信用風險的評估和預測能力,是各家金融機構積極探索的方向。
確定項目方向目標需求調研
需求分析需求分解
架構設計技術選型數據生命周期數據來源數據分層
小組開發環境搭建數據采集數倉建設定時任務主題開發代碼提交文檔撰寫數據回測
聚集多位Apache?社區貢獻者及一線大廠技術講師,聯合推出行業重磅Python大數據V3.0課程,通過5-6個月學習進階數據開發工程師,獲取3-4年開發經驗,對標高級數據開發工程師,沖刺年薪30w
Python+大數據V3.0學習路線概覽
第一階段第二階段第三階段第四階段第五階段
Python編程基礎 Python編程進階 SQL基礎 項目一 ETL實戰 Hadoop技術棧
第六階段第七階段第八階段第九階段
項目二 千億級離線數倉項目 項目三 千億級離線數倉項目實戰 Spark技術棧 項目四 用戶畫像解決方案
第十階段第十一階段第十二階段第十三階段第十四階段
升級V3.0課程亮點:
敢以班級為單位公開就業信息的機構,只有傳智教育!通過數千班級實施和就業結果顯示,傳智教育Python+大數據開發的課程,有效大幅提升就業薪資水平!
課程大綱
基礎班
1. Python編程基礎
高手班
1. Python編程進階 2. SQL基礎 3. ETL實戰 4. Hadoop技術棧 5. 千億級離線數倉項目 6. 千億級離線數倉項目實戰 7. Spark技術棧 8. 用戶畫像解決方案 9. PB級內存計算項目 10. 就業指導&就業加強 11. Flink技術棧 12. 亞秒級實時計算項目
進階班
1. 亞秒級實時進階課
Python+大數據課程升級版本3.0
課時:8天技術點:48項測驗:1次學習方式:線下面授
1.掌握Python開發環境基本配置| 2.掌握運算符、表達式、流程控制語句、數組等的使用| 3.掌握字符串的基本操作| 4.初步建立面向對象的編程思維| 5.熟悉異常捕獲的基本流程及使用方式| 6.掌握類和對象的基本使用方式
1. Python基礎語法零基礎學習Python的開始,包含了以下技術點:
01_變量| 02_標識符和關鍵字| 03_輸入和輸出| 04_數據類型轉換| 05_PEP8編碼規范| 06_比較/關系運算符| 07_if判斷語句語法格式| 08_三目運算符| 09_while語句語法格式| 10_while 循環嵌套| 11_break 和 continue| 12_while 循環案例| 13_for循環
2. Python數據處理掌握Python的數據類型,并對其進行操作處理,包含了以下技術點:
01_字符串定義語法格式| 02_字符串遍歷| 03_下標和切片| 04_字符串常見操作| 05_列表語法格式| 06_列表的遍歷| 07_列表常見操作| 08_列表嵌套| 09_列表推導式| 10_元組語法格式| 11_元組操作| 12_字典語法格式| 13_字典常見操作| 14_字典的遍歷
3. 函數能夠實現Python函數的編寫,包含了以下技術點:
01_函數概念和作用、函數定義、調用| 02_函數的參數| 03_函數的返回值| 04_函數的注釋| 05_函數的嵌套調用| 06_可變和不可變類型| 07_局部變量| 08_全局變量| 09_組包和拆包、引用
4. 文件讀寫能夠使用Python對文件進行操作,包含了以下技術點:
01_文件的打開與關閉、文件的讀寫| 02_文件、目錄操作及案例| 03_os模塊文件與目錄相關操作
5. 異常處理主要介紹了在Python編程中如何處理異常,包含了以下技術點:
01_異常概念| 02_異常捕獲| 03_異常的傳遞
6. 模塊和包主要介紹了Python中的模塊和包的體系,以及如何使用模塊和包,包含了以下技術點:
01_模塊介紹| 02_模塊的導入| 03_包的概念| 04_包的導入| 05_模塊中的__all__| 06_模塊中__name__
課時:8天技術點:108項測驗:1次學習方式:線下面授
1.掌握網絡編程技術,能夠實現網絡通訊| 2.知道通訊協議原理 | 3.掌握開發中的多任務編程實現方式| 4. 知道多進程多線程的原理A
1. 面向對象從逐步建立起面向對象編程思想,再到會使用對象,到創建對象,再到真正理解為什么封裝對象,包含了以下技術點:
01_面向對象介紹| 02_類的定義和對象的創建| 03_添加和獲取對象屬性| 04_self 參數| 05_init方法| 06_繼承| 07_子類方法重寫| 08_類屬性和實例屬性| 09_類方法、實例方法、靜態方法
2. 網絡編程主要學習通訊協議,以及Python實現TCP、HTTP通訊,包含了以下技術點:
01_IP地址的介紹| 02_端口和端口號的介紹| 03_TCP的介紹| 04_Socket的介紹| 05_TCP網絡應用的開發流程| 06_基于TCP通信程序開發|
3. 多任務編程主要學習Python中多線程、多進程,包含了以下技術點:
01_多任務介紹| 02_多進程的使用| 03_多線程的使用| 04_線程同步
4. 高級語法主要學習Python的高級語法,包含以下技術點:
01_閉包| 02_裝飾器| 03_迭代器| 04_深淺拷貝| 05_正則
5. Python編程綜合項目通過前邊所學知識,完成綜合案例,鍛煉編程能力、培養編程思維
01_Python編程綜合項目
課時:4天技術點:70項測驗:1次學習方式:線下面授
1. 掌握MySQL數據庫的使用| 2. 掌握SQL語法| 3. 掌握Kettle數據遷移工具的使用| 4. 熟練使用BI可視化工具| 5. 對數據開發有一定認知,掌握BI工程師所具備的基本技能
1. MySQL與SQL零基礎小白通過MySQL數據庫,掌握核心必備SQL,包含了以下技術點:
01_數據庫概念和作用| 02_MySQL數據類型| 03_數據完整性和約束| 04_數據庫、表基本操作命令| 05_表數據操作命令| 06_where子句| 07_分組聚合| 08_連接查詢| 09_外鍵的使用
2. Kettle與BI工具使用Kettle做數據遷移,通過BI工具展示excel、MySQL中的數據,包含了以下技術點:
01_Kettle基本操作| 02_Kettle數據轉換| 03_Kettle使用SQL腳本組件| 04_kettle Job開發| 05_FineBI基本操作| 06_FineBI常用圖表| 07_FineBI儀表板| 08_綜合案例
3. PymysqlPython與數據庫交互,主要學習PyMySQL包
01. 環境搭建| 02. Python操作數據庫
課時:6天技術點:48項測驗:0次學習方式:線下面授
1. 掌握ETL的相關概念| 2. 掌握基于Python語言完成ETL任務開發實戰| 3. 基于ETL實戰鍛煉Python編程能力,包括(元數據管理、數據模型、項目配置、單元測試、工具方法抽取等)| 4. 掌握BI數據分析實戰
ETL項目基于國內某大型零售企業旗下出品各類收銀機為基礎,在全國十多個省份有上50萬家店鋪使用,機器通過聯網每次將售賣商品數據上傳到公司后臺.利用ETL平臺完成數據抽取轉化加載工作,助力學生達到初中級ETL工程師目標。
進入項目體驗完整PythonETL解決方案,Kettle數據采集解決方案。DS調度解決方案,基于FineBi的BI解決方案。
1.ETL概念與工具| 2.Python ETL實戰| 3.基于FineBI完成數據分析實戰| 4.將收銀機上傳到后臺的<訂單>數據采集到數倉中| 5.將后臺中的商品庫數據采集到數倉中| 6。將后臺的程序日志采集到數倉中
課時:11天技術點:120項測驗:1次學習方式:線下面授
1.掌握Linux常用命令,為數據開發后續學習打下的良好基礎| 2.掌握大數據的核心框架Hadoop以及其生態體系,完成HDFS、MapReduce及Yarn機制基本理解與使用;能顧搭建Hadoop高可用HA集群| 3.掌握Hive的使用和調優| 4.具備Hadoop開發能力、離線數據倉庫開發能力| 5.能夠完成基本構建企業級數倉
1. Linux掌握Linux操作系統常用命令和權限管理,包含了以下技術點:
01_Linux命令使用| 02_Linux命令選項的使用| 03_遠程登錄和遠程拷貝| 04_Linux權限管理| 05_vi編輯器使用| 06_集群搭建準備
2. 大數據基礎和硬件介紹進一步闡述大數據特點與分布式思想,知識點由淺入深,包含了以下技術點:
01_大數據的特點| 02_分布式存儲概念| 03_分布式計算的概念| 04_服務器種類介紹、機架、交換機| 05_網絡拓撲、Raid、IDC數據中心
3. Zookeeper分布式軟件管家,實現了集群管理與leader選舉,包含了以下技術點:
01_Zookeeper的應用場景| 02_架構和原理| 03_存儲模型| 04_選舉機制| 05_客戶端操作| 06_ZK集群搭建
4. HDFS分布式文件系統,解決了海量數據存儲與容錯,包含了以下技術點:
01_HDFS設計的特點| 02_Master-Slave架構| 03_Block塊存儲、RF拷貝因子、機架感知| 04_Block拷貝策略、讀寫流程| 05_HDFS Federation、HDFS Snapshots、NameNode HA架構和原理| 06_HDFS管理員常用操作、HDFS權限控制| 07_HDFS普通集群以及HA集群搭建
5. MapReduce分布式計算系統,解決海量數據的計算,包含了以下技術點:
01_MapReduce架構和原理| 02_Split機制| 03_MapReduce并行度| 04_Combiner機制| 05_Partition機制、自定義Partition| 06_MapReduce序列化、自定義排序、數據壓縮
6. YARN分布式資源調度管理器,管理服務器軟件資源,包含了以下技術點:
01_Yarn原理和架構| 02_Yarn高可用| 03_Container資源的封裝(CPU、內存和IO)| 04_資源調度策略(FIFO、Fair和Capacity)| 05_YARN高可用模式搭建
7. Hive基礎數據倉庫Hive,實現企業級數倉必備工具,包含以下知識點:
01_HQL操作| 02_數據類型| 03_分區、分桶、臨時表| 04_explain執行計劃詳解
8. Hive高階數據倉庫Hive高階原理和架構深入,實現企業級數倉優化,包含以下知識點:
01_Hive原理和架構| 02_Meta Store服務| 03_HiveServer內置函數| 04_自定義UDF和UDAF| 05_數據壓縮、存儲格式、自動化腳本、常見性能優化
課時:11天技術點:105項測驗:0次學習方式:線下面授
1.掌握零售行業離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程| 2.行業內首個深度使用Presto的項目| 3.包括海量數據場景下如何優化配置| 4.拉鏈表的具體應用| 5.新增數據和更新數據的抽取和分析| 6.提供新零售大型商超集團的數據存儲分析以及服務監控方案
本項目基于一家大型連鎖超市研發的大數據分析平臺。黑馬第一個深度使用Presto的項目,為后續Presto相關課程的研發打下了堅實的基礎,也為學員的就業拓寬了道路;真實的數據結構,復雜的SQL實現過程,學生學習以后可以達到離線數倉的高級開發水平。
進入項目體驗掌握離線數倉的分層與建模、大數據量場景下如何優化配置,拉鏈表的具體應用,新增數據的抽取和分析,更新數據的抽取和分析,以及Hive函數的具體應用等。ClouderaManager可視化、自動部署和配置、Git的CodeReview功能保證項目高質量 離線數倉的分層與建模 項目涉及20多個主題,100多個指標場景 帆軟BI企業級報表展示
1.大數據部署運維:Cloudera Manager 2.分析決策需求:數據倉庫 3.數據采集:sqoop 4.數據分析:Hive 5.歷史數據快照:拉鏈表 6.數據更新后的統計分析:拉鏈表 7.數據調度:oozie+shell 8.OLAP系統存儲:MySQL 9.FineBI數據展示
課時:5天技術點:40項測驗:0次學習方式:線下面授
1.掌握教育行業離線數倉的分層與建模,從需求、設計、研發、測試到落地上線的完整項目流程| 2.真實業務邏輯,共涉及20多個主題,100多個指標,提升學員在教育行業中的核心競爭力| 3.包括海量數據場景下如何優化配置| 4.拉鏈表的具體應用| 5.新增數據和更新數據的抽取和分析| 6.Hive函數的具體應用| 7.ClouderaManager可視化、自動部署和配置、Git、CodeReview功能
1、建立集團數據倉庫,統一集團數據中心,把分散的業務數據集中存儲和處理 2、項目從需求調研、設計、版本控制、研發、測試到落地上線,涵蓋了項目的完整工序 3、挖掘分析海量用戶行為數據,定制多維數據集合,形成數據集市,供各個場景主題使用。
進入項目體驗項目介紹與環境準備、數據倉庫的建模和分層、OLTP、ODS、DWD實現、Presto、DWB實現、DWS實現、DM、RPT、導出實現、Oozie架構與部署及使用。使用Hive、Presto、Oozie、數倉技術棧,提供新零售大型商超集團的數據存儲分析以及服務監控方案
1.大數據部署運維:Cloudera Manager 2.分析決策需求:數據倉庫 3.數據采集:sqoop 4.數據分析:Hive+presto 5.歷史數據快照:拉鏈表 6.數據更新后的統計分析:拉鏈表 7.數據調度:ds 8.OLAP系統存儲:MySQL 9.FineBI數據展示
課時:15天技術點:108項測驗:1次學習方式:線下面授
1.掌握Spark的RDD、DAG、CheckPoint等設計思想| 2.掌握SparkSQL結構化數據處理,Spark On Hive| 3.掌握Structured Streaming整合多數據源完成實時數據處理| 4.具備Spark全棧開發能力,滿足大數據行業多場景統一技術棧的數據開發,提供就業核心競爭力
1. Pandas基礎Pandas數據處理及可視化技術,包含以下技術點:
01_ Pandas數據結構| 02_ 索引操作| 03_列名操作| 04_Dataframe數據的增刪改查操作| 05_Pandas常用計算函數
2. Pandas數據處理實戰利用所學的Python Pandas,以及可視化技術,完成數據處理項目實戰:
01_缺失值處理| 02_Pandas數據類型| 03_分組與分箱操作| 04_DF合并與變形操作| 05_DF的讀取與保存
3. Spark基礎本階段學習Spark環境搭建及以下知識點:
01_Spark基礎環境搭建| 02_Spark的Standalone環境搭建| 03_Spark的StandaloneHA搭建| 04_SparkOnYarn環境搭建
4. Spark Core整個spark框架核心部分,掌握框架內部設計思想,數據流轉步驟,是學習spark的基礎模塊,包含了以下技術點:
01_Spark架構和原理(運行機制、Driver和Executor、spark任務提交流程)| 02_RDD開發和原理(Partition、Task、RDD的依賴關系、RDD的容錯機制、RDD的存儲級別、RDD的緩存機制)廣播變量 | 03_DAG原理(DAG思想、DAG的生成、DAG的處理過程)
5. Spark SQL學習spark框架的SQL操作,spark與Hive等外部數據源的整合操作,包含了以下技術點:
01_Spark SQL架構和原理| 02_DataFrame、DataSet DSL和SQL開發| 03_Spark多數據源整合(txt、CSV、Json、parquet、JDBC、Hive)| 04_Spark SQL執行計劃原理| 05_Spark SQL性能調優
6. SparkSQL案例踐行場景式教學,運用了Spark階段知識點,使用lambda加解決數據分析的應用,包含了以下技術點:
01_Spark多場景案例實戰
課時:8天技術點:80項測驗:0次學習方式:線下面授
1.SparkSQL整合ES自定義數據源| 2.DS任務界面化調度| 3.用戶畫像標簽構建規則| 4.用戶畫像規則類標簽構建| 5.用戶畫像統計類標簽構建
通過用戶畫像解決方案,完成數據存儲和分析、用戶標簽。
進入項目體驗用戶畫像解決方案,主要針對于保險行業完成用戶標簽設計,提供了全行業解決方案,課程采用由淺入深,層層遞進的講解方式, 讓你輕松掌握企業級用戶畫像的使用, 使用SparkSQL+ES+DS構建企業級用戶畫像。
1. SparkSQL整合ES自定義數據源 2. DS任務界面化調度 3. 用戶畫像標簽構建規則 4. 用戶畫像規則類標簽構建 5. 用戶畫像統計類標簽構建
課時:5天技術點:88項測驗:0次學習方式:線下面授
1.快速搭建保險行業大數據平臺| 2.基于Hive+Spark SQL搭建離線數據倉庫| 3.基于SparkSQL應對輕松應對復雜的迭代計算| 4.完成基于國內頭部保險公司大數據項目開發| 5.掌握基于Spark分析12億報單表和8千萬客戶等數據| 6.對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示| 7.離線數倉項目實戰| 8.用戶畫像項目實戰
保險精算項目需要計算海量明細保單數據,以便生成財務報表。項目使用SparkSQL來計算,時效大大提高,增強保險公司的商業信譽。項目將多部門的業務數據庫同步到Hive數據集市,使用SparkSQL加載源數據表(保單表12億保單,客戶表8千萬客戶等),計算保單的保費、現金價值、準備金等明細,提供給財務部門收費或支出,最后對保單匯總計算(業務發展類指標,成本費用類指標等),并向業務人員做數據展示。
進入項目體驗項目核心架構和業務流程、Hive數倉建模 、Sqoop數據同步開發 DolphinScheduler任務調度、使用lag,sum等窗口函數 、使用UDAF函數計算有效保單數字段、計算現金價值、計算和準備金、分區表的使用 、指標匯總計算 、Shuffle優化、用戶畫像解決方案。
基于Spark輕松應對保險復雜的迭代計算、基于SparkSQL完成用戶畫像實戰、基于ES完成標簽存儲與檢索。
課時:5天技術點:40項測驗:0次學習方式:線下面授
1.強化面試就業核心面試題 2.梳理大數據架構及解決方案| 3.剖析多行業大數據架構
1. SQL實戰解決Python大數據常見的SQL面試題,包含了以下技術點:
01_面試題必備SQL實戰| 02_SQL優化加強。
2. Hive數據分析與面試題加強解決Hive數據分析開發必備面試題,包含了以下技術點:
01_Hive基礎| 02_Hive拉鏈表| 03_Hive數據倉庫構建示例| 04_Hive面試題
3. Spark數據分析與面試題加強解決Spark開發必備面試題,包含了以下技術點:
01_Spark基礎| 02_Spark離線分析| 04_Spark面試題
4. NoSQL數據分析與面試題加強解決NoSQL常見的面試題,從消息隊列到HBase掌握關鍵原理,包含了以下技術點:
01_Kafka基礎| 02_HBase基礎| 03_HBase面試題
5. 大數據多行業架構剖析解決多行業多場景大數據架構設計,具備舉一反三設計大數據架構體系能來,包含了以下技術點:
01_數據分析流程| 02_大數據架構剖析| 03_多行業大數據架構設計| 04_大數據存儲,調度等解決方案
課時:6天技術點:88項測驗:1次學習方式:線下面授
1.掌握基于Flink進行實時和離線數據處理、分析| 2.掌握基于Flink的多流并行處理技術| 3.掌握千萬級高速實時采集技術
1. Flink Core新一代批流統一數據處理引擎,在計算效率和性能都有很大提升,包含了以下技術點:
01_Flink基礎
2. Flink DataStream構成了Flink解決實時數據處理部分,是掌握實時數據處理必備技能,包含了以下技術點:
01_Flink DataStream的使用| 02_Kafka + Flink
3. Flink SQL解決Flink中的SQL化開發,Flink-SQL開發必備技能,包含了以下技術點:
01_Flink SQL開發| 02_Hive + Flink SQL
4. Flink Runtime是對Flink任務進行調優,必須掌握的內容,包含了以下技術點:
01_Watermark| 02_Checkpoint| 03_任務調度與負載均衡| 04_狀態管理
5. Flink高級解決Flink性能監控等高階知識,具備實時數據分析必備技能,包含以下技術點:
01_Flink性能監控| 02_Flink調優| 03_Flink SQL執行計劃
6. Flink電商案例實戰踐行場景式教學,運用了Flink階段知識點,解決實時數據分析的應用,包含了以下技術點:
01_Flume+Kafka+Flink+HBase+Sqoop+Canal+MySQL實戰
課時:8天技術點:80項測驗:0次學習方式:線下面授
1.湖倉一體化解決方案基于Flink+Hudi湖倉一體技術架構| 2.基于FlinkCDC完成MySQL等數據源的數據采集| 3.FlinkSQL流批一體架構實現實時數據計算| 4.使用Apache Doris進行海量多維分析| 5.掌握數據報表分析| 6.掌握業務數據實時大屏場景實現
基于Flink+Hudi湖倉一體技術架構,實現了在線視頻行業實時數據處理和分析。項目采用流處理計算引擎Flink,實時處理千萬數據量的視頻流數據,基于FlinkCDC完成MySQL等數據源的數據采集,通過Hudi On Hive構建湖倉一體架構,結合數據湖和數據倉庫優勢,建立湖倉一體化。
Flink,FlinkSQL,FlinkCDC,Doris,Hudi,Hudi,on Hive,FIneBI。
采集超過千萬條在線視頻的數據,實時高性能海量數據分析與存儲業務數據實時大屏場景實現。
課時:106天技術點:1000項測驗:0次學習方式:線上學習
1.線上3個月進階大數據實時開發,多行業大數據項目助力企業數字人才精英| 2.皆在成就實時開發工程師,大數據架構師等,幫助學員成為站在金字塔頂端的實時工程師
1. 大數據Java語言大數據生態多語言開發,為進階實時數據開發奠定基礎
1_編程基礎| 2_面向對象| 3_常用類| 4_集合操作| 5_IO操作| 6_Java基礎增強| 7_JDBC| 8_Maven| 9_爬蟲案例
2. 數據采集掌握實時計算中組件,數據開發工程師重要技能
1_Flume| 2_DataX| 3_實時采集
3. NoSQL&消息中心分布式存儲和消息隊列專項課,從原理到源碼,助力多場景存儲技術架構選型,升值加薪必備技能。
1_分布式緩存Redis| 2_消息隊列Kafka| 3_Hbase| 4_ELK技術棧| 5_消息隊列Pulsar
4. 實時OLAP框架掌握實時OLAP框架,數據開發工程師重要技能。
1_實時OLAP框架ClickHouse| 2_實時OLAP框架Doris
5. 數據湖開發數據湖技術專題課程,完成湖倉一體架構進階。
1_Hudi 基礎入門篇| 2_Hudi 應用進階篇| 3_Hudi 實戰案例篇
6. Flink技術棧Apache Flink作為當下最流行的實時技術,深度剖析底層原理,實現高級實時開發工程師進階。
1_Flink基礎| 2_Flink DataStream的使用| 3_Kafka + Flink| 4_Flink SQL開發| 5_Hive + Flink SQL| 6_Flink CDC| 7_Flink CEP /Flink CEP SQL| 8_Watermark| 9_Checkpoint| 10_任務調度與負載均衡| 11_狀態管理| 12_Flink性能監控
7. FlinkSQL原理到精通全網流批一體架構首選FlinkSQL,進階技術+業務專家。
1_Flink SQL開發| 2_Hive + Flink SQL| 3_Flink性能監控| 4_Flink調優| 5_Flink SQL執行計劃| 6_FlinkSQL案例實戰
8. 星途車聯網實時項目掌握車聯網大數據實時業務場景開發,助力物聯網行業高薪挑戰。
1_Hive| 2_HBase| 3_HDFS數據存儲| 4_Kafka數據傳輸| 5_Flink全棧數據處理| 6_Nginx做反向代理| 7_LSV和Keepalived負載均衡和高可用
9. 今日指數證券實時項目掌握金融業務數據實時場景實,助力金融行業高薪挑戰。
1_創建原始數據hbase的二級索引| 2_Flink業務分析駕駛行程劃分| 3_flink駕駛行程業務分析| 4_將實時車輛中在圍欄中的車輛信息與mysql中已存在圍欄中的車輛信息合并| 5_TimeWindow流連接廣播狀態流結果流連接省、市廣播狀態流
10. 基于DataWorks全鏈路數據開發掌握智慧出行實時項目業務數據實時場景,覆蓋全網所有DataWorks平臺大數據。
1_智慧出行實時項目業務數據實時場景異構數據源采集| 2_基于DataWorks的大數據平臺設計| 3_出行行業可視化完整架構,涵蓋全生命周期項目
11. 湖倉一體化解決方案掌握基于湖倉一體的在線視頻實時分析項目,助力大數據新技術企業應用。
1_湖倉一體完整解決方案| 2_基于Flink的在線視頻數據處理與分析| 3_基于Hidi的在線視頻數據數據湖構建
12. Flink源碼剖析全網最全Flink源碼課程,從原理到源碼,深挖技術底層,助力Flink性能調優,大數據架構師必備技能。
1_Apache Flink設計理念與基本架構| 2_Flink DataStream的設計與實現源碼分析| 3_Flink 運行時的核心原理與實現| 4_Flink 任務提交與執行| 5_狀態管理與容錯| 6_網絡通信| 7_內存管理
13. Flink二次開發掌握Flink二次開發流程,個性化解決企業大數據平臺技術選型,助力在職的你持續高薪,大數據架構師必備技能。
1_基于PyFlink的PR提交| 2_Flink的源碼二次開發流程| 3_Flink的源碼二次開發需求分析| 4_Flink的源碼二次開發實現過程| 5_PyFlink相關功能二次開發
課程名稱:主要針對:主要使用開發工具:
課程名稱
Python+大數據開發課程
課程推出時間
2022.06.01
課程版本號
3.0
主要針對
行業解決方案:離線數倉解決方案、用戶畫像解決方案、Kappa架構解決方案、湖倉一體解決方案
技術課程:ETL開發、NoSQL中間件課程、新版Flink課程
主要使用開發工具
PyCharm、DataGrip、FinalShell
課程介紹
● Python大數據V3.0課程全新升級,緊貼各類企業招聘需求,采用六項目制驅動技術學習,助力國家數字化轉型對數字人才的大量需求
● 多位Apache社區貢獻者聯袂授課,從原理、實戰到源碼,帶你邁入高級開發工程師行列
● 課程覆蓋企業級大數據四大主流解決方案,包括離線數倉解決方案、用戶畫像解決方案、流批一體解決方案和湖倉一體解決方案,再現公司中真實的開發場景,目標不止于就業,而是成為各類企業爭搶的大數據開發工程師。
● 課程升級主流大數據技術棧,全新Hadoop3.2,Spark3.2,Flink1.15技術剖析和新特性使用,全行業首推Python全棧ETL開發課程,不僅可以學習到完整的基礎ETL流程、工具,更能勝任千億級、亞秒級等復雜數據源情況下的工作。
● 新增基于Python和SQL的Flink課程,滿足就業市場中,大數據開發崗位更多的依賴SQL、Python的需求變化。
● 新增 基于Python的Kafka、Elasticsearch等全新課程,夯實實時計算開發基礎能力,幫助學員掌握數據開發工程師重要技能。
● 新增 新版面試加強課,內容集成了大廠架構解析、SQL專項面試寶典,以及不斷滾動更新的全網大數據崗位面試題講解,助力高薪offer。
1
新增基于Python的全棧ETL開發課程,助力學員勝任ETL中高級開發崗位
1
新增全網首個基于PySpark技術棧的用戶畫像項目,替換原有舊項目,提升簡歷含金量
1
新增知行教育項目實戰,學習完整企業級項目實戰流程,讓學生真正掌握大數據開發精髓
1
升級Spark技術課程為2022最新3.2版本、Flink技術課程為2022最新1.15版本,全網率先加入Pandas on Spark數據開發內容
1
新增FlinkSQL湖倉一體項目、首推FlinkSQL流批一體最新課程,進階Flink高階工程師,助力突破年薪50W
1
新增SparkSQL底層執行原理,StructuredStreaming結構化流內容
1
升級Spark3.2整合Hive3.1.2版本兼容問題
1
新增Pandas_udf函數,通過Apache Arrow框架優化數據處理速度;Pandas技術棧,能夠處理中小型數據量
1
新增Python版NoSQL課程,達到企業級萬億級數據存儲目標
1
新增Kafka-Python完成企業級消息隊列流量削峰, 異步通信等任務
1
新增ElasticSearch技術棧,達到企業級大數據搜索工程師目標
1
升級PySpark的DataFrame操作、Flink任務調度機制以及Flink內存模型、Flink table&sql的整體概述
1
新增FlinkSQL的原理和調優、Flink on Yarn的多種部署方式、Flink transformation的八大物理分區的原理和實現、Flink的window窗口操作,以及內置水印函數的操作
1
新增Hadoop3.x新特性、Hive3.x新特性,以及數據壓縮、存儲格式等內容
1
升級Python基礎,增加PyEcharts等BI內容,實現可視化大屏
1
新增Presto對接多數據源實現企業級大數據OLAP分析、Presto加速對Hive數倉之上數據構建大數據分析引擎,實現多維指標計算
1
新增企業級BI工具FineBI,適用于多行業項目BI大屏展示,助力企業數字決策
1
新增Flink table&sql概念和通用api介紹、sqlclient工具的使用、catalogs知識點的學習、流處理中的概念介紹
1
新增FlinkSQL中的窗口使用、FlinkSQL函數操作、Flinksql連接到外部系統
1
新增Flink源碼前置基礎、源碼的編譯和部署、Flink啟動腳本的解讀、yarn-per-job模式解析
1
升級車聯網Web展示部分、車聯網離線Hive數倉構建部分
1
友情提示更多學習視頻+資料+源碼,請加QQ:2632311208。
課程名稱
Python+大數據開發課程
課程推出時間
2021.06.01
課程版本號
2.0
主要針對
新零售數倉項目、云上服務器集群
主要使用開發工具
新零售數倉項目、云上服務器集群
課程介紹
● 經過不斷的版本迭代,正式推出新零售數倉項目課程,替換原有的舊項目,打造過硬的項目實戰經驗
● 新增價值百萬的UCcloud云上集群生產環境用于學習,完全云服務開發環境體驗
● 新增項目實戰環節,百分百再現企業中真實工作場景,夯實開發實戰能力
1
升級PySpark執行流程
1
新增Spark3.x新特性以及性能調優九項原則
1
升級Hive版本為最新的3.x版本
1
新增自動導入oracle數據,自動創建hive表,自動創建hive分區,自動關聯hdfs數據,自動創建文件目錄,并記錄自動化過程日志
1
升級Flink版本為最新版
1
新增FlinkSQL&Table理論部分比重,使用新版API,使用新增FlinkSQL整合Kafka案例
1
新增美團、平安、小米大數據架構,以及百度廣告業務場景大數據架構解決方案
1
新增flink的global window的操作、內置水印函數的操作
1
升級 flink的window的ReduceFunction、AggregateFunction、ProcessWindowFunction、具有增量聚合的ProcessWindowFunction、在 ProcessWindowFunction 中使用每個窗口狀態
1
新增flink的state的ttl機制、state的數據結構的api升級、Queryable State知識點
1
新增Flink異步io的vertx框架實現、flink的join操作(Tumbling Window Join、Sliding Window Join、Session Window Join)
1
新增Streaming File Sink連接器的小文件操作
1
新增數據類型及序列化的原理和實現案例
1
新增Flink Action綜合練習:熱門銷售排行TopN的使用案例、布隆過濾器結合TTL的使用案例
課程名稱
Python+大數據開發課程
課程推出時間
2020.06.01
課程版本號
1.6
主要針對
Spark3.x
主要使用開發工具
Pycharm、Idea、Datagrip、FinalShell
課程介紹
● 針對Spark3.x版本的重大更新,應對就業崗位需求的快速變化,大數據課程全網首次推出基于Python的Spark課程
● 新增大數據工程師必備的SQL面試進階強化內容,提升大數據開發工程師核心SQL能力
● 新增大廠數倉架構專題內容,提升數據倉庫建設能力
1
升級Hadoop為3.3.0版本、Hive版本為3.1.2版本、HIve3.x架構
1
新增使用Python實現MR原理機制、OLAP、OLTP區別
1
新增MapReduce計算PI原理、MapReduce Python接口調用、Hadoop Streaming提交程序、ETL、ELT區別
1
新增HIve3新特性、Hive3數據壓縮,存儲格式、Hive CTE表達式
1
升級union聯合查詢、Hive知識點案例 同步為Hive3版本、Linux課程、Mysql RPM安裝方式以支持hive3
1
升級Spark語言為官方推薦使用的Python語言、版本更新為Spark3.1.2發行版、adoop3.3.0、Hive3.1.2版本
1
新增PySpark的安裝、任務提交方式、多種模式spark-submit、實現wordcount案例實戰
1
新增Python實現RDD操作、DataFrame操作、實現Sougou分詞案例、IP熱度分析案例、PV-UV-TOPK案例
1
新增PySparkSQL實現基礎統計操作、底層Dataframe轉化RDD原理操作、實現電影評分數據集分析、離線教育案例、新零售分析案例
1
新增PySparkSQL的優化方式、分布式引擎實現、與HIve整合
課程名稱
Python+大數據開發課程
課程推出時間
2020.06.01
課程版本號
1.0
主要針對
大數據引入Python語言、Pandas數據分析
主要使用開發工具
Pycharm、Idea、Datagrip
課程介紹
● 8.1版本以前的數據開發課程,需要一定Java基礎和工作經驗,為了幫助進入數據開發行業的零基礎學員找到最適宜的入門途徑,大數據引入Python語言,全新升級為Python+大數據開發1.0版本。
● 學習Python大數據開發,以Python技術棧處理中小型數據集,以大數據技術棧處理海量大規模數據,成為全能企業級數據開發人才。
● 其特點適合零基礎學員,從完全沒有編程經驗開始;課程內容寬并且深,技術大牛親自授課;面向市場,學即可用,能讓學員高薪就業。
1
新增Python基礎語言課程
1
新增Python高級語言進階課程
1
新增Python爬蟲課程
1
新增Pandas數據分析課程
1
新增多場景案例分析,應對中小型數據統計分析
課程名稱
云計算大數據實戰班
課程推出時間
2020.06.01
課程版本號
8.0
主要針對系統
Windows、Linux、MacOS
主要使用開發工具
DataGrip、IDEA
課程介紹
● 根據大量的行業調研分析,本次課程更新以大數據開發為主線,在7.0基礎上再次縮減Java課程占比,弱化各類組件安裝。
● 針對大數據技術深度和廣度進行升級,例如新增Spark內存管理、Flink性能優化及反壓、背壓原理等同時為提高學員的就業薪資,推出多行業項目解決方案,例如證券、物流等。
● 以周為單位進行課程更新升級,新增Elastic Stack、 出行、電商、視頻、社交等領域大數據解決方案、 一線大廠技術架構、 新零售大數據項目實戰,離線實時全覆蓋。
1
新增數據倉庫、ETL、BI開發
1
新增Oracle及PLSQL編程、數據微服務開發
1
新增Spark的內存管理、avro序列化數據源
1
新增continuous processing、偏移量管理機制
1
新增KafkaStreams編程、exactly-once、Kafka事務、metrics監控
1
新增Hbase的協處理器和phoneix的二級索引實現、布隆過濾器、LSM樹、StoreFiles結構剖析
1
新增FLink性能優化及反壓、背壓指標計算原理、FlinkSQL On Hive、Flink HistoryServer、Flink的UDF、UDAF、UDTF的實現
1
新增在線教育行業、物流行業、物聯網行業、證券行業項目
1
升級分布式緩存系統, 萬億級NoSQL海量數據存儲, 分布式流處理平臺、電商行業項目
1
刪除刪減 JavaWeb
課程名稱
云計算大數據實戰班
課程推出時間
2019.07.22
課程版本號
7.0
主要針對版本
CDH5.14、Spark2.2.0、Flink1.8、Kafka0.11.0.2、ELK6.0
主要使用開發工具
IntelliJ IDEAA
課程介紹
● 大數據技術目前在企業里面使用的越來越廣泛,對大數據人才的需求越來越多,大數據的整個課程體系是由來自大型互聯網、外企等具有5年以上的一線大數據高級工程師、架構師和高級機器學習工程師設計出來的,內容含金量非常高。
● 課程體系涉及的技術以企業需求為導向,課程涉及的項目也是企業里面真實的項目,通過理論、實踐和真實的項目相結合,讓學員能夠快速、深刻的掌握大數據常用的核心技術和開發應用,同時可以滿足企業對中、高端大數據人才的需求。
● 大數據課程體系除了包含常用的Hadoop、Hive、Hbase、ELK、Sqoop、Flume、Kafka、Spark等技術和項目,還新增了目前互聯網比較流行的Flink、Druid、Kylin等技術和項目,同時引入了機器學習和深度學習Spark Mllib和Tensorflow等技術和項目實戰。
1
新增Impala即席查詢組件、Kudu列存儲服務、Structured Streaming結構化數據流處理
1
新增spark MLlib數據挖掘、spark graphX圖計算
1
升級Flink的基礎課程和案例實戰
1
新增Flink高級特性CEP、Kylin數據OLAP分析、Druid時序數據實時分析、Kettle數據ETL工具
1
新增深度學習框架Tensorflow
1
新增用戶畫像、數據倉庫大型企業實戰型項目
課程名稱
云計算大數據實戰班
課程推出時間
2018.09.10
課程版本號
6.0
主要針對版本
JDK1.8\CDH2.7.4\Storm1.1.1\Spark 2.1
主要使用開發工具
IntelliJ IDEA
課程介紹
● 本課程是基于V5.0的一次重大更新,匯總并收集了大數據學科一年以來15個零基礎班級的授課信息、學習信息、就業信息。
● 重新調整了課程的分布情況,新增了大數據綜合項目,新增了第四代大數據處理框架FLink,新增了數據庫優化,新增了JVM基礎及原理,新增了Spark性能調優等內容。
● 課程升級方面,主要對機器學習課程進行了升級,推薦系統項目后置變成7天的豐富課程,提升學員進入機器學習的競爭力,從而更好的從事人工智能領域相關的工作。
● 整體而言,課程在培養中高級大數據工程師的方向上又前進了一大步。
1
新增Hadoop 2.7.2\Storm1.1.1\Spark 2.1
1
新增Java virtual machine原理分析、Java高并發核心知識
1
新增數據庫優化及調優、第四代大數據處理框架Apache Flink、Spark原理深入剖析及生產調優
1
新增互聯網反欺詐項目實戰、廣告系統業務模型及CTR預估
1
新增用戶畫像、數據倉庫大型企業實戰型項目
1
升級用戶畫像概述/數據/建模/算法實戰、推薦系統協同過濾算法實戰、基于內容的推薦系統實戰、基于關聯規則推薦系統實戰
1
升級混合推薦與CTR點擊預估
1
升級Hadoop版本為CDH
課程名稱
云計算大數據實戰班
課程推出時間
2017.07.01
課程版本號
5.0
主要針對版本
JDK1.8\Hadoop 2.7.2\Storm1.1.1\Spark 2.1
主要使用開發工具
Eclipse、IDEA
課程介紹
● Java基礎、JavaWeb核心編程、JavaWeb三大框架、網絡爬蟲、分布式電商網站開發等課程模塊。培養學生編程能力,讓零基礎學員能夠更好的學習大數據項目。
● 大數據方面方面,新增點擊流日志收集系統、用戶日志分析報表系統、用戶畫像系統等案例。讓學員不僅僅學習到大數據技術點,能夠使用大數據解決實際問題。
● 擴充機器學習課程為10天。該課程歷時一年研發,深入淺出,能夠讓學員更好的入門機器學習,成為人工智能開發的初級工程師。
1
升級Hadoop 2.7.2\Storm1.1.1\Spark 2.1
1
新增網絡爬蟲開發
1
新增三大框架開發
1
新增JavaWeb核心
1
新增Java語言基礎
課程名稱
云計算大數據實戰班
課程推出時間
2016.03.01
課程版本號
4.0
主要針對版本
JDK7.x
主要使用開發工具
Eclipse、IDEA
課程介紹
● 對比原有課程,本次課程做了重大更新,將大數據的核心技術hadoop及其生態圈技術完美的融入到了課程中。
● 課程分階段的進行案例實戰和項目實戰,在大數據方面知識體系更加完整,課程更加深度有深度,更加貼近實戰。
● 分階段的進行大數據生態圈的學習,將生態圈分為離線處理,實時流計算和實現最火熱的spark內存計算,完美的將生態圈進行了抽離和歸類,讓學習變得更便捷。
1
升級Spark1.6版本
1
新增Linux操作系統和shell腳本學習
1
新增JVM內存模型分析、NIO、Netty、自定義RPC框架
1
新增電商點擊流日志分析、電商實時日志告警平臺、交易風控風控平臺、流量日志分析分析
1
新增Spark游戲日志分析項目
1
刪除KVM虛擬化技術、網絡基礎和OpenvSwitch技術、Ceph存儲技術
1
刪除CloudStack云管理平臺、混合云管理平臺項目
課程名稱
云計算大數據實戰班
課程推出時間
2015.05.15
課程版本號
3.0
主要針對版本
JDK7.x
主要使用開發工具
Eclipse、IDEA
課程介紹
● 本次更新將大數據和虛擬化這兩大熱門技術加入到課程體系中,在大數據方面知識體系更加完整,課程更加深度有深度,更加貼近實戰。
● 在虛擬化方面,選擇了在云計算領域常用的虛擬化、網絡、存儲等技術,并通過Apache CloudStack技術整合,在此基礎上開發混合云管理平臺。
1
升級Hadoop2.0版本、Hive優化課程
1
新增電信流量運營分析項目、混合云管理平臺項目
1
新增Scala函數式編程、Spark內存計算、KVM虛擬化技術
1
新增網絡基礎和OpenvSwitch技術
1
新增Ceph存儲技術、CloudStack云管理平臺
課程名稱
云計算大數據實戰班
課程推出時間
2014.02.15
課程版本號
2.0
主要針對版本
JDK6.x
主要使用開發工具
Eclipse
課程介紹
● 隨著近年來云計算大數據的大力發展,市場對相關人才需求急增,所以本版課程在原有的云計算課程進行了顛覆性的改革,把原來只有1天的課程擴展為7天,加入了Hadoop生態圈的相關技術。
1
升級云計算課程、Hadoop集群部署、優化HDSF、MapReduce案例
1
新增Hadoop生態圈相關技術:Zookeeper、Hive、Hbase、Sqoop、Flume
1
新增Storm實時計算技術和案例
1
新增黑馬論壇日志分析項目
課程名稱
云計算大數據實戰班
課程推出時間
2012.02.15
課程版本號
1.0
主要針對版本
JDK6.0
主要使用開發工具
Eclipse
課程介紹
● 近期云計算概念火爆異常,傳智教育敏銳的嗅探到大數據技術的悄然興起,并預測大數據技術將會像雨后春筍一樣快速發展,所以傳智教育與時俱進在課程中引入了1天的云計算課程,作為首個擁有大數據課程的培訓機構,傳智教育大數據實戰班助力學員可以掌握最新的技術,拓寬學員的就業方向,增強就業競爭力。
1
新增云計算課程:云計算和大數據相關概念
1
新增Hadoop 1.0偽分布式環境部署
1
新增HDFS、MapReduce應用案例
源源不斷引進大廠技術大牛,專業研發課程升級、迭代,與企業需求實時接軌
教師錄取率<3%,從源頭把控師資,帶你過關斬將掌握每一個知識點
用數據驅動教學,貫通教/學/練/測/評,為每一位學員私人定制學習計劃和就業服務
學前入學多維測評
學前目標導向式學習
學中隨堂診斷糾錯
學中階段效果測評
學后在線作業試題庫
學后問答社區查漏補缺
保障BI報表數據呈現
就業全面指導就業
就業流程
全信息化處理
學員能力
雷達圖分析
定制個性化
就業服務
技術面試題
講解
就業指導課
面試項目分析
HR面試攻略
模擬企業
真實面試
專業簡歷指導
面試復盤輔導
風險預警
企業黑名單提醒
老學員畢業后即可加入傳智匯精英社區,持續助力學員職場發展,一次學習永久服務
傳智教育旗下IT互聯網精英社區,以匯聚互聯網前沿技術為核心,以傳遞、分享為己任,聯合經緯創投、創新工場、京東人工智能、華為等眾多關注互聯網的知名機構及企業、行業大咖,共同研究中國互聯網深度融合、跨界滲透、整合匯聚、相互促進的信息化資源共享平臺。
行業沙龍
高端人脈
職場資源
技術研習
9970元/月平均薪資
15900元/月最高薪資
100%就業率
58人月薪過萬
*學員就業信息統計數據為數據庫中實時調取的真實相關數據,非廣告宣傳