大数据计算框架Spark+Storm+Flink培训方案

日期：2022-12-02 00:00:00 浏览：72次作者：小编

培训背景

本课程以通俗易懂的方式深入解析大数据技术，全面涉及Spark、Storm和Flink的关键理论架构与实施细节，同时对大数据框架下的数据仓库建设提供细致的指导。通过系统的操作练习和丰富的实践，学员将积累大数据技术全面的实战经验。

培训收益

① 精通大数据基础架构的核心原理、高效管理策略、灵活部署技巧，以及相关组件的运作机理与应用实践，全方位掌握大数据技术的精髓。

② 培养学员在复杂企业级大数据平台环境中，具备高效部署与优化配置的专业技能，确保大数据平台的稳定运行与性能最大化。

日程安排

大数据计算框架Spark+Storm+Flink
模块一：大数据实时计算引擎Storm
Storm	大数据实时计算框架简介
	Apache Storm体系结构
	Apache Storm的伪分布模式的搭建
	Apache Storm的全分布模式和HA
	Storm的Demo演示
	Storm集群在ZooKeeper上保存的数据结构
	WordCount数据流动的过程
	开发自己的Storm的WordCount程序
	部署和运行Storm任务
	Storm任务执行的过程与通信机制
	流式计算系统的典型的架构与集成Storm
模块二：Spark基础之Scala编程语言
Scala编程语言	Scala语言基础
	Scala语言的面向对象
	Scala语言的函数式编程
	Scala中的集合
	Scala语言的高级特性
模块三：大数据执行引擎Spark Core
Spark Core	什么是Spark？
	Spark的体系结构与安装部署
	执行Spark Demo程序
	Spark运行机制及原理分析
	Spark的算子
	Spark RDD的高级算子
	Spark基础编程案例
	Spark性能诊断和优化案例
	案例分享
模块四：数据分析引擎Spark SQL
Spark SQL	Spark SQL基础
	使用数据源
	性能优化
	在IDEA中开发Spark SQL程序
模块五：流式计算引擎Spark Streaming
Spark Streaming	Spark Streaming基础
	Spark Streaming进阶
	高级数据源
	性能优化
模块六：机器学习MLLib
Spark MLLib	什么是MLLib？
	MLLib中的常见算法
	MLlib的应用案例：推荐系统的实现
模块七：新一代大数据处理引擎Flink
第3章：Flink的体系架构与部署	Flink简介
	Flink的体系架构
	Flink的安装与部署
	Flink的分布式缓存
	对比：Flink、Storm和Spark Streaming
第4章：Flink on Yarn的实现	什么是Yarn？与Yarn的体系架构
	部署Yarn
	Flink on Yarn的两种模式
	Flink on Yarn两种模式的区别
第5章：Flink HA的实现	什么是HA？为什么需要HA？
	大数据分布式协调框架ZooKeeper
	部署Flink HA高可用架构环境
第6章：Flink开发入门	Flink批处理开发
	Flink流处理开发
	使用Flink Scala Shell
	Flink的并行度分析
第7章：Flink DataSet API开发	Map、FlatMap与MapPartition
	Filter与Distinct
	Join操作
	笛卡尔积
	First-N
	外链接操作
第8章：Flink DataStreaming API开发	DataSources
	DataStream
	Transformation 转换操作
	Data Sinks
	集成Flink与Kafka
第9章：状态管理和恢复	状态：State
	检查点：Checkpoint
	Restart Strategies（重启策略）
第10章：Window和Time	窗口：Window
	Time：时间
	WaterMark：水位线
第11章：Flink Table & SQL	Flink Table & SQL简介
	开发Flink Table & SQL程序
	使用Flink SQL Client
模块八：大数据安全认证框架
第1章：大数据安全框架	大数据安全问题
	大数据安全管控措施
	Kerberos安全认证机制
	Sentry安全授权组件