大数据计算框架Spark+Storm+Flink培训方案

日期：2021-05-11 00:00:00 浏览：661次作者：小编

培训简述

全面掌握大数据Spark、Storm和Flink的理论基础和实现原理，以及基于大数据架构的数据仓库的实现，通过具体的实操和练习让学员全面实战大数据。通过此次课程培训，可使学习者获得如下收益：

1.数据仓库的核心概念、数据仓库与大数据

2.大数据中心平台的整体架构

彻底理解Spark为代表的大数据处理引擎的运行机制和原理，包括：

1.Spark Core

2.掌握Spark生态体系架构（原理、安装、使用），包括：

3.Spark Core、Spark SQL、Spark Streaming

4.Spark Shell、Spark集群、RDD

5.掌握Spark、Hadoop协同工作，能够通过Spark、Hadoop轻松应对大数据的业务需求；

掌握以实时计算框Storm为代表的大数据实时计算引擎的运行机制和原理，包括：

Storm的体系架构

Storm的数据处理流程与编程模型

集成Storm实时计算引擎

掌握Flink的生态圈体系架构，包括：

了解Flink大数据架构，互联网企业大数据应用

深度了解Flink DataSet API

深度了解DataStream API

集成Kafka与Flink

熟悉Table API

大数据安全认证框架Kerberos。

培训特色

1.PPT+教材+参考资料，理论讲解

2.提供配套的实验环境

3.场景+案例+模拟环境，动手实践

4.手把手解决问题+解决问题经验分享。

培训收益

1.掌握基于大数据的体系架构、管理、部署，以及相应组件的原理和应用场景。

2.让学员具备部署基于企业大数据平台环境的能力。

日程安排

模块一：大数据实时计算引擎Storm

章节

练习

学习目标与案例

Storm

☆ 大数据实时计算框架简介

☆ Apache Storm体系结构

☆ Apache Storm的伪分布模式的搭建

☆ Apache Storm的全分布模式和HA

☆ Storm的Demo演示

☆ Storm集群在ZooKeeper上保存的数据结构

☆ WordCount数据流动的过程

☆ 开发自己的Storm的WordCount程序

☆ 部署和运行Storm任务

☆ Storm任务执行的过程与通信机制

☆ 流式计算系统的典型的架构与集成Storm

☆ 集成Redis

☆ 集成HDFS

☆ 集成HBase

使用Storm进行大数据的实时计算

☆ 掌握Storm的体系架构和功能。

☆ 掌握大数据实时计算的典型架构

☆ 京东大数据平台的架构

模块二：Spark基础之Scala编程语言

章节

练习

学习目标与案例

Scala编程语言

☆ Scala语言基础

☆ Scala语言的面向对象

☆ Scala语言的函数式编程

☆ Scala中的集合

☆ Scala语言的高级特性

编程Scala程序

掌握Scala编程语言

模块三：大数据执行引擎Spark Core

章节

练习

学习目标与案例

Spark Core

☆ 什么是Spark？

☆ Spark的体系结构与安装部署

☆ Spark的主从架构

☆ 什么是ZooKeeper

☆ Spark HA的实现

☆ 执行Spark Demo程序

☆ Spark运行机制及原理分析

☆ Spark的算子

☆ Spark RDD的高级算子

☆ Spark基础编程案例

☆ Spark性能诊断和优化案例

☆ 系统死锁的诊断和分析

☆ 系统内存溢出的诊断和分析

☆ 案例分享

☆ 基于Spark的大数据平台架构

搭建Spark环境
使用Spark Core处理数据

· 掌握Spark的体系架构和功能

· Spark与Hadoop的对比

模块四：数据分析引擎Spark SQL

章节

练习

学习目标与案例

Spark SQL

☆ Spark SQL基础

☆ Spark SQL简介

☆ 基本概念：Datasets和DataFrames

☆ 测试数据

☆ 创建DataFrames

☆ DataFrame操作

☆ Global Temporary View

☆ 创建Datasets

☆ Datasets的操作案例

☆ 使用数据源

☆ 通用的Load/Save函数

☆ Parquet文件

☆ JSON Datasets

☆ 使用JDBC

☆ 使用Hive Table

☆ 性能优化

☆ 在IDEA中开发Spark SQL程序

使用Spark SQL处理数据

· 掌握Spark SQL的体系架构和功能。

· 典型的大数据分析引擎的对比

· Hive

· Spark SQL

· Flink SQL

模块五：流式计算引擎Spark Streaming

章节

练习

学习目标与案例

Spark Streaming

☆ Spark Streaming基础

☆ Spark Streaming简介

☆ Spark Streaming的特点

☆ Spark Streaming的内部结构

☆ 第一个小案例：NetworkWordCount

☆ 开发自己的NetworkWordCount

☆ Spark Streaming进阶

☆ StreamingContext对象详解

☆ 离散流（DStreams）：Discretized Streams

☆ DStream中的转换操作（transformation）

☆ 窗口操作

☆ 输入DStreams和接收器

☆ DStreams的输出操作

☆ DataFrame和SQL操作

☆ 缓存/持久化

☆ 检查点支持

☆ 高级数据源

☆ Spark Streaming接收Flume数据

☆ Spark Streaming接收Kafka数据

☆ 性能优化

☆ 减少批数据的执行时间

☆ 设置正确的批容量

☆ 内存调优

使用Spark Streaming处理数据

· 掌握Spark Streaming的体系架构和功能

· 典型的大数据实时引擎的对比

· Storm

· Spark Streaming

· Flink DataStream

模块六：机器学习MLLib

章节

练习

学习目标与案例

Spark MLLib

☆ 什么是MLLib？

☆ MLLib中的常见算法

☆ MLlib的应用案例：推荐系统的实现

☆ 基于用户的协同过滤

☆ 基于物品的协同过滤

☆ 基于ALS的协同过滤

☆ 逻辑回归算法

掌握电商环境中推荐系统的实现。

模块七：新一代大数据处理引擎Flink

章节

练习

学习目标与案例

第3章：Flink的体系架构与部署

☆ Flink简介

☆ Flink的体系架构

☆ Flink的安装与部署

☆ Flink的分布式缓存

☆ 对比：Flink、Storm和Spark Streaming

安装与部署Flink环境

掌握Flink的体系架构与生态圈组件

第4章：Flink on Yarn的实现

☆ 什么是Yarn？与Yarn的体系架构

☆ 部署Yarn

☆ Flink on Yarn的两种模式

☆ 内存集中管理模式

☆ 内存Job管理模式

☆ Flink on Yarn两种模式的区别

部署Flink on Yarn

理解并掌握Flink on Yarn的两种模式的特点

第5章：Flink HA的实现

☆ 什么是HA？为什么需要HA？

☆ 大数据分布式协调框架ZooKeeper

☆ 什么是ZooKeeper

☆ 搭建ZooKeeper环境

☆ ZooKeeper的特性

☆ 实现分布式锁

☆ 部署Flink HA高可用架构环境

部署Flink HA环境

什么是HA？Flink HA的架构

第6章：Flink开发入门

☆ Flink批处理开发

☆ Java版本WordCount

☆ Scala版本WordCount

☆ Flink流处理开发

☆ Java版本WordCount

☆ Scala版本WordCount

☆ 使用Flink Scala Shell

☆ Flink的并行度分析

搭建Flink开发环境并开发应用程序

掌握基本的Flink API编程

第7章：Flink DataSet API开发

☆ Map、FlatMap与MapPartition

☆ Filter与Distinct

☆ Join操作

☆ 笛卡尔积

☆ First-N

☆ 外链接操作

基于DataSet API开发Flink离线计算应用

掌握常用的Flink DataSet API算子的作用

第8章：Flink DataStreaming API开发

☆ DataSources

☆ 基本的数据源示例

☆ 自定义数据源

☆ 内置的Connector

☆ DataStream Transformation 转换操作

☆ Data Sinks

☆ 企业内训1

标签： 大数据大数据课程 Flink培训 Flink课程大数据培训 Flink Storm培训大数据计算框架 Storm Spark

上篇： 大流量套餐精准营销建模与实战培训方案

下篇： 大数据架构-Redis&Mycat培训方....