大数据计算框架Spark+Storm+Flink培训方案
浏览:321次 作者:小编培训简述
全面掌握大数据Spark、Storm和Flink的理论基础和实现原理,以及基于大数据架构的数据仓库的实现,通过具体的实操和练习让学员全面实战大数据。通过此次课程培训,可使学习者获得如下收益:
1.数据仓库的核心概念、数据仓库与大数据
2.大数据中心平台的整体架构
彻底理解Spark为代表的大数据处理引擎的运行机制和原理,包括:
1.Spark Core
2.掌握Spark生态体系架构(原理、安装、使用),包括:
3.Spark Core、Spark SQL、Spark Streaming
4.Spark Shell、Spark集群、RDD
5.掌握Spark、Hadoop协同工作,能够通过Spark、Hadoop轻松应对大数据的业务需求;
掌握以实时计算框Storm为代表的大数据实时计算引擎的运行机制和原理,包括:
Storm的体系架构
Storm的数据处理流程与编程模型
集成Storm实时计算引擎
掌握Flink的生态圈体系架构,包括:
了解Flink大数据架构,互联网企业大数据应用
深度了解Flink DataSet API
深度了解DataStream API
集成Kafka与Flink
熟悉Table API
大数据安全认证框架Kerberos。
培训特色
1.PPT+教材+参考资料,理论讲解
2.提供配套的实验环境
3.场景+案例+模拟环境,动手实践
4.手把手解决问题+解决问题经验分享。
培训收益
1.掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。
2.让学员具备部署基于企业大数据平台环境的能力。
日程安排
模块一:大数据实时计算引擎Storm | |||
章节 | 练习 | 学习目标与案例 | |
Storm | ☆ 大数据实时计算框架简介 ☆ Apache Storm体系结构 ☆ Apache Storm的伪分布模式的搭建 ☆ Apache Storm的全分布模式和HA ☆ Storm的Demo演示 ☆ Storm集群在ZooKeeper上保存的数据结构 ☆ WordCount数据流动的过程 ☆ 开发自己的Storm的WordCount程序 ☆ 部署和运行Storm任务 ☆ Storm任务执行的过程与通信机制 ☆ 流式计算系统的典型的架构与集成Storm ☆ 集成Redis ☆ 集成HDFS ☆ 集成HBase | 使用Storm进行大数据的实时计算 | ☆ 掌握Storm的体系架构和功能。 ☆ 掌握大数据实时计算的典型架构 ☆ 京东大数据平台的架构 |
模块二:Spark基础之Scala编程语言 | |||
章节 | 练习 | 学习目标与案例 | |
Scala编程语言 | ☆ Scala语言基础 ☆ Scala语言的面向对象 ☆ Scala语言的函数式编程 ☆ Scala中的集合 ☆ Scala语言的高级特性 | 编程Scala程序 | 掌握Scala编程语言 |
模块三:大数据执行引擎Spark Core | |||
章节 | 练习 | 学习目标与案例 | |
Spark Core | ☆ 什么是Spark? ☆ Spark的体系结构与安装部署 ☆ Spark的主从架构 ☆ 什么是ZooKeeper ☆ Spark HA的实现 ☆ 执行Spark Demo程序 ☆ Spark运行机制及原理分析 ☆ Spark的算子 ☆ Spark RDD的高级算子 ☆ Spark基础编程案例 ☆ Spark性能诊断和优化案例 ☆ 系统死锁的诊断和分析 ☆ 系统内存溢出的诊断和分析 ☆ 案例分享 ☆ 基于Spark的大数据平台架构 | 搭建Spark环境 | · 掌握Spark的体系架构和功能 · Spark与Hadoop的对比 |
模块四:数据分析引擎Spark SQL | |||
章节 | 练习 | 学习目标与案例 | |
Spark SQL | ☆ Spark SQL基础 ☆ Spark SQL简介 ☆ 基本概念:Datasets和DataFrames ☆ 测试数据 ☆ 创建DataFrames ☆ DataFrame操作 ☆ Global Temporary View ☆ 创建Datasets ☆ Datasets的操作案例 ☆ 使用数据源 ☆ 通用的Load/Save函数 ☆ Parquet文件 ☆ JSON Datasets ☆ 使用JDBC ☆ 使用Hive Table ☆ 性能优化 ☆ 在IDEA中开发Spark SQL程序 | 使用Spark SQL处理数据 | · 掌握Spark SQL的体系架构和功能。 · 典型的大数据分析引擎的对比 · Hive · Spark SQL · Flink SQL |
模块五:流式计算引擎Spark Streaming | |||
章节 | 练习 | 学习目标与案例 | |
Spark Streaming | ☆ Spark Streaming基础 ☆ Spark Streaming简介 ☆ Spark Streaming的特点 ☆ Spark Streaming的内部结构 ☆ 第一个小案例:NetworkWordCount ☆ 开发自己的NetworkWordCount ☆ Spark Streaming进阶 ☆ StreamingContext对象详解 ☆ 离散流(DStreams):Discretized Streams ☆ DStream中的转换操作(transformation) ☆ 窗口操作 ☆ 输入DStreams和接收器 ☆ DStreams的输出操作 ☆ DataFrame和SQL操作 ☆ 缓存/持久化 ☆ 检查点支持 ☆ 高级数据源 ☆ Spark Streaming接收Flume数据 ☆ Spark Streaming接收Kafka数据 ☆ 性能优化 ☆ 减少批数据的执行时间 ☆ 设置正确的批容量 ☆ 内存调优 | 使用Spark Streaming处理数据 | · 掌握Spark Streaming的体系架构和功能 · 典型的大数据实时引擎的对比 · Storm · Spark Streaming · Flink DataStream |
模块六:机器学习MLLib | |||
章节 | 练习 | 学习目标与案例 | |
Spark MLLib | ☆ 什么是MLLib? ☆ MLLib中的常见算法 ☆ MLlib的应用案例:推荐系统的实现 ☆ 基于用户的协同过滤 ☆ 基于物品的协同过滤 ☆ 基于ALS的协同过滤 ☆ 逻辑回归算法 | 掌握电商环境中推荐系统的实现。 |
模块七:新一代大数据处理引擎Flink
章节
练习
学习目标与案例
第3章:Flink的体系架构与部署
☆ Flink简介
☆ Flink的体系架构
☆ Flink的安装与部署
☆ Flink的分布式缓存
☆ 对比:Flink、Storm和Spark Streaming
安装与部署Flink环境
掌握Flink的体系架构与生态圈组件
第4章:Flink on Yarn的实现
☆ 什么是Yarn?与Yarn的体系架构
☆ 部署Yarn
☆ Flink on Yarn的两种模式
☆ 内存集中管理模式
☆ 内存Job管理模式
☆ Flink on Yarn两种模式的区别
部署Flink on Yarn
理解并掌握Flink on Yarn的两种模式的特点
第5章:Flink HA的实现
☆ 什么是HA?为什么需要HA?
☆ 大数据分布式协调框架ZooKeeper
☆ 什么是ZooKeeper
☆ 搭建ZooKeeper环境
☆ ZooKeeper的特性
☆ 实现分布式锁
☆ 部署Flink HA高可用架构环境
部署Flink HA环境
什么是HA?Flink HA的架构
第6章:Flink开发入门
☆ Flink批处理开发
☆ Java版本WordCount
☆ Scala版本WordCount
☆ Flink流处理开发
☆ Java版本WordCount
☆ Scala版本WordCount
☆ 使用Flink Scala Shell
☆ Flink的并行度分析
搭建Flink开发环境并开发应用程序
掌握基本的Flink API编程
第7章:Flink DataSet API开发
☆ Map、FlatMap与MapPartition
☆ Filter与Distinct
☆ Join操作
☆ 笛卡尔积
☆ First-N
☆ 外链接操作
基于DataSet API开发Flink离线计算应用
掌握常用的Flink DataSet API算子的作用
第8章:Flink DataStreaming API开发
☆ DataSources
☆ 基本的数据源示例
☆ 自定义数据源
☆ 内置的Connector
☆ DataStream Transformation 转换操作
☆ Data Sinks
☆ 集成Flink与Kafka
基于DataSet Stream开发Flink离线计算应用
掌握常用的Flink DataStream API算子的作用
企业内训1
400-808-2006
客服微信
官方公众号