中培IT学院

大数据计算框架Spark+Storm+Flink培训方案

浏览:321次 作者:小编

培训简述

全面掌握大数据Spark、Storm和Flink的理论基础和实现原理,以及基于大数据架构的数据仓库的实现,通过具体的实操和练习让学员全面实战大数据。通过此次课程培训,可使学习者获得如下收益:

1.数据仓库的核心概念、数据仓库与大数据

2.大数据中心平台的整体架构

 

彻底理解Spark为代表的大数据处理引擎的运行机制和原理,包括:

1.Spark Core

2.掌握Spark生态体系架构(原理、安装、使用),包括:

3.Spark Core、Spark SQL、Spark Streaming

4.Spark Shell、Spark集群、RDD

5.掌握Spark、Hadoop协同工作,能够通过Spark、Hadoop轻松应对大数据的业务需求;

 

掌握以实时计算框Storm为代表的大数据实时计算引擎的运行机制和原理,包括:

Storm的体系架构

Storm的数据处理流程与编程模型

集成Storm实时计算引擎

掌握Flink的生态圈体系架构,包括:

了解Flink大数据架构,互联网企业大数据应用

深度了解Flink DataSet API

深度了解DataStream API

集成Kafka与Flink

熟悉Table API

大数据安全认证框架Kerberos。

 

培训特色

1.PPT+教材+参考资料,理论讲解

2.提供配套的实验环境

3.场景+案例+模拟环境,动手实践

4.手把手解决问题+解决问题经验分享。

 

培训收益

1.掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。

2.让学员具备部署基于企业大数据平台环境的能力。

日程安排

模块一:大数据实时计算引擎Storm

章节

练习

学习目标与案例

Storm

☆ 大数据实时计算框架简介

☆ Apache Storm体系结构

☆ Apache Storm的伪分布模式的搭建

☆ Apache Storm的全分布模式和HA

☆ Storm的Demo演示

☆ Storm集群在ZooKeeper上保存的数据结构

☆ WordCount数据流动的过程

开发自己的Storm的WordCount程序

部署和运行Storm任务

☆ Storm任务执行的过程与通信机制

流式计算系统的典型的架构与集成Storm

集成Redis

集成HDFS

集成HBase

使用Storm进行大数据的实时计算

掌握Storm的体系架构和功能。

☆ 掌握大数据实时计算的典型架构

☆ 京东大数据平台的架构

 

模块二:Spark基础之Scala编程语言

章节

练习

学习目标与案例

Scala编程语言

☆ Scala语言基础

☆ Scala语言的面向对象

☆ Scala语言的函数式编程

☆ Scala中的集合

☆ Scala语言的高级特性

编程Scala程序

掌握Scala编程语言

 

模块三:大数据执行引擎Spark Core

章节

练习

学习目标与案例

Spark Core

什么是Spark?

☆ Spark的体系结构与安装部署

☆ Spark的主从架构

什么是ZooKeeper

☆ Spark HA的实现

执行Spark Demo程序

☆ Spark运行机制及原理分析

☆ Spark的算子

☆ Spark RDD的高级算子

☆ Spark基础编程案例

☆ Spark性能诊断和优化案例

☆ 系统死锁的诊断和分析

☆ 系统内存溢出的诊断和分析

☆ 案例分享

基于Spark的大数据平台架构

搭建Spark环境
使用Spark Core处理数据

· 掌握Spark的体系架构和功能

· Spark与Hadoop的对比

 

模块四:数据分析引擎Spark SQL

章节

练习

学习目标与案例

Spark SQL

☆ Spark SQL基础

☆ Spark SQL简介

基本概念:Datasets和DataFrames

☆ 测试数据

创建DataFrames

☆ DataFrame操作

☆ Global Temporary View

创建Datasets

☆ Datasets的操作案例

☆ 使用数据源

通用的Load/Save函数

☆ Parquet文件

☆ JSON Datasets

使用JDBC

使用Hive Table

☆ 性能优化

在IDEA中开发Spark SQL程序

使用Spark SQL处理数据

· 掌握Spark SQL的体系架构和功能。

· 典型的大数据分析引擎的对比

· Hive

· Spark SQL

· Flink SQL

 

模块五:流式计算引擎Spark Streaming

章节

练习

学习目标与案例

Spark Streaming

☆ Spark Streaming基础

☆ Spark Streaming简介

☆ Spark Streaming的特点

☆ Spark Streaming的内部结构

第一个小案例:NetworkWordCount

开发自己的NetworkWordCount

☆ Spark Streaming进阶

☆ StreamingContext对象详解

离散流(DStreams):Discretized Streams

☆ DStream中的转换操作(transformation)

☆ 窗口操作

输入DStreams和接收器

☆ DStreams的输出操作

☆ DataFrame和SQL操作

缓存/持久化

☆ 检查点支持

☆ 高级数据源

☆ Spark Streaming接收Flume数据

☆ Spark Streaming接收Kafka数据

☆ 性能优化

☆ 减少批数据的执行时间

☆ 设置正确的批容量

☆ 内存调优

使用Spark Streaming处理数据

· 掌握Spark Streaming的体系架构和功能

· 典型的大数据实时引擎的对比

· Storm

· Spark Streaming

· Flink DataStream

 

模块六:机器学习MLLib

章节

练习

学习目标与案例

Spark  MLLib

什么是MLLib?

☆ MLLib中的常见算法

☆ MLlib的应用案例:推荐系统的实现

☆ 基于用户的协同过滤

☆ 基于物品的协同过滤

基于ALS的协同过滤

☆ 逻辑回归算法


掌握电商环境中推荐系统的实现。

 

模块七:新一代大数据处理引擎Flink

章节

练习

学习目标与案例

第3章:Flink的体系架构与部署

☆ Flink简介

☆ Flink的体系架构

☆ Flink的安装与部署

☆ Flink的分布式缓存

对比:Flink、Storm和Spark Streaming

安装与部署Flink环境

掌握Flink的体系架构与生态圈组件

第4章:Flink on Yarn的实现

什么是Yarn?与Yarn的体系架构

部署Yarn

☆ Flink on Yarn的两种模式

☆ 内存集中管理模式

内存Job管理模式

☆ Flink on Yarn两种模式的区别

部署Flink on Yarn

理解并掌握Flink on Yarn的两种模式的特点

第5章:Flink HA的实现

什么是HA?为什么需要HA?

大数据分布式协调框架ZooKeeper

什么是ZooKeeper

搭建ZooKeeper环境

☆ ZooKeeper的特性

☆ 实现分布式锁

部署Flink HA高可用架构环境

部署Flink HA环境

什么是HA?Flink HA的架构

第6章:Flink开发入门

☆ Flink批处理开发

☆ Java版本WordCount

☆ Scala版本WordCount

☆ Flink流处理开发

☆ Java版本WordCount

☆ Scala版本WordCount

使用Flink Scala Shell

☆ Flink的并行度分析

搭建Flink开发环境并开发应用程序

掌握基本的Flink API编程

第7章:Flink DataSet API开发

☆ Map、FlatMap与MapPartition

☆ Filter与Distinct

☆ Join操作

☆ 笛卡尔积

☆ First-N

☆ 外链接操作

基于DataSet API开发Flink离线计算应用

掌握常用的Flink DataSet API算子的作用

第8章:Flink DataStreaming API开发

☆ DataSources

☆ 基本的数据源示例

☆ 自定义数据源

内置的Connector

☆ DataStream Transformation 转换操作

☆ Data Sinks

集成Flink与Kafka

基于DataSet Stream开发Flink离线计算应用

掌握常用的Flink DataStream API算子的作用

企业内训1 企业内训1
标签: 大数据 大数据课程 Flink培训 Flink课程 大数据培训 Flink 大数据计算框架 Storm培训 Storm Spark

上篇: 大流量套餐精准营销建模与实战培训方案

下篇: 大数据架构-Redis&Mycat培训方....