中培IT学院

大数据架构-Redis&Mycat培训方案

浏览:222次 作者:小编

培训简述

通过本课程的学习,学员将获得以下收益:

掌握Redis安装、配置和生产环境部署方案

掌握Redis的数据类型的正确理解和使用

理解Redis内存管理原理

掌握Redis安装、配置和生产环境部署方案

掌握构建Redis的可扩展集群及高可用

掌握Redis安装、配置和生产环境部署方案

掌握Mycat数据库分库分表实战

掌握Mycat生产环境下性能调优

掌握Mycat生产环境下高可用方案。

 

培训特色

PPT+教材+参考资料,理论讲解

提供配套的实验环境

场景+案例+模拟环境,动手实践

手把手解决问题+解决问题经验分享。

 

培训收益

掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。

让学员具备部署基于企业大数据平台环境的能力。


日程安排

章节

练习

授课内容

模块一:大数据实时计算引擎Storm

Storm

☆ 大数据实时计算框架简介

☆ Apache Storm体系结构

☆ Apache Storm的伪分布模式的搭建

☆ Apache Storm的全分布模式和HA

☆ Storm的Demo演示

☆ Storm集群在ZooKeeper上保存的数据结构

☆ WordCount数据流动的过程

开发自己的Storm的WordCount程序

部署和运行Storm任务

☆ Storm任务执行的过程与通信机制

流式计算系统的典型的架构与集成Storm

集成Redis

集成HDFS

集成HBase

使用Storm进行大数据的实时计算

掌握Storm的体系架构和功能。

☆ 掌握大数据实时计算的典型架构

☆ 京东大数据平台的架构

模块二:Spark基础之Scala编程语言

Scala编程语言

☆ Scala语言基础

☆ Scala语言的面向对象

☆ Scala语言的函数式编程

☆ Scala中的集合

☆ Scala语言的高级特性

编程Scala程序

掌握Scala编程语言

模块三:大数据执行引擎Spark Core

Spark Core

什么是Spark?

☆ Spark的体系结构与安装部署

☆ Spark的主从架构

什么是ZooKeeper

☆ Spark HA的实现

执行Spark Demo程序

☆ Spark运行机制及原理分析

☆ Spark的算子

☆ Spark RDD的高级算子

☆ Spark基础编程案例

☆ Spark性能诊断和优化案例

☆ 系统死锁的诊断和分析

☆ 系统内存溢出的诊断和分析

☆ 案例分享

基于Spark的大数据平台架构

搭建Spark环境
使用Spark Core处理数据

掌握Spark的体系架构和功能

☆ Spark与Hadoop

模块四:数据分析引擎Spark SQL

Spark SQL

☆ Spark SQL基础

☆ Spark SQL简介

基本概念:Datasets和DataFrames

☆ 测试数据

创建DataFrames

☆ DataFrame操作

☆ Global Temporary View

创建Datasets

☆ Datasets的操作案例

☆ 使用数据源

通用的Load/Save函数

☆ Parquet文件

☆ JSON Datasets

使用JDBC

使用Hive Table

☆ 性能优化

在IDEA中开发Spark SQL程序

使用Spark SQL处理数据

掌握Spark SQL的体系架构和功能。

☆ 典型的大数据分析引擎的对比

☆ Hive

☆ Spark SQL

☆ Flink SQL

 

模块五:流式计算引擎Spark Streaming

章节

练习

学习目标与案例

Spark Streaming

☆ Spark Streaming基础

☆ Spark Streaming简介

☆ Spark Streaming的特点

☆ Spark Streaming的内部结构

第一个小案例:NetworkWordCount

开发自己的NetworkWordCount

☆ Spark Streaming进阶

☆ StreamingContext对象详解

离散流(DStreams):Discretized Streams

☆ DStream中的转换操作(transformation)

☆ 窗口操作

输入DStreams和接收器

☆ DStreams的输出操作

☆ DataFrame和SQL操作

缓存/持久化

☆ 检查点支持

☆ 高级数据源

☆ Spark Streaming接收Flume数据

☆ Spark Streaming接收Kafka数据

☆ 性能优化

☆ 减少批数据的执行时间

☆ 设置正确的批容量

☆ 内存调优

使用Spark Streaming处理数据

掌握Spark Streaming的体系架构和功能

☆ 典型的大数据实时引擎的对比

☆ Storm

☆ Spark Streaming

☆ Flink DataStream

 

模块六:机器学习MLLib

章节

练习

学习目标与案例

Spark  MLLib

什么是MLLib?

☆ MLLib中的常见算法

☆ MLlib的应用案例:推荐系统的实现

☆ 基于用户的协同过滤

☆ 基于物品的协同过滤

基于ALS的协同过滤

☆ 逻辑回归算法


掌握电商环境中推荐系统的实现。

 

模块七:新一代大数据处理引擎Flink


章节

练习

学习目标与案例


第3章:Flink的体系架构与部署

☆ Flink简介

☆ Flink的体系架构

☆ Flink的安装与部署

☆ Flink的分布式缓存

对比:Flink、Storm和Spark Streaming

安装与部署Flink环境

掌握Flink的体系架构与生态圈组件


第4章:Flink on Yarn的实现

什么是Yarn?与Yarn的体系架构

部署Yarn

☆ Flink on Yarn的两种模式

☆ 内存集中管理模式

内存Job管理模式

☆ Flink on Yarn两种模式的区别

部署Flink on Yarn

理解并掌握Flink on Yarn的两种模式的特点


第5章:Flink HA的实现

什么是HA?为什么需要HA?

大数据分布式协调框架ZooKeeper

什么是ZooKeeper

搭建ZooKeeper环境

☆ ZooKeeper的特性

☆ 实现分布式锁

部署Flink HA高可用架构环境

部署Flink HA环境

什么是HA?Flink HA的架构


第6章:Flink开发入门

☆ Flink批处理开发

☆ Java版本WordCount

☆ Scala版本WordCount

☆ Flink流处理开发

☆ Java版本WordCount

☆ Scala版本WordCount

使用Flink Scala Shell

☆ Flink的并行度分析

搭建Flink开发环境并开发应用程序

掌握基本的Flink API编程


第7章:Flink DataSet API开发

☆ Map、FlatMap与MapPartition

☆ Filter与Distinct

☆ Join操作

☆ 笛卡尔积

☆ First-N

☆ 外链接操作

基于DataSet API开发Flink离线计算应用

掌握常用的Flink DataSet API算子的作用


第8章:Flink DataStreaming API开发

☆ DataSources

☆ 基本的数据源示例

☆ 自定义数据源

内置的Connector

☆ DataStream Transformation 转换操作

☆ Data Sinks

集成Flink与Kafka

基于DataSet Stream开发Flink离线计算应用

掌握常用的Flink DataStream API算子的作用


第9章:状态管理和恢复

状态:State

☆ Keyed State

☆ Operator State

检查点:Checkpoint

☆ 检查点的配置:

☆ state backend存储模式

修改State Backend的两种方式

☆ 示例

☆ Restart Strategies(重启策略)

开发应用进行Flink的有状态计算

理解并掌握Flink的状态管理机制


第10章:Window和Time

窗口:Window

☆ Time Window示例

☆ Count Window示例

☆ Time:时间

☆ WaterMark:水位线

☆ Watermark的原理

☆ Watermark的三种使用情况

设置Watermark的核心代码

窗口的allowedLateness


什么是Flink的窗口操作


第11章:Flink Table & SQL

☆ Flink Table & SQL简介

开发Flink Table & SQL程序

使用Flink SQL Client

使用Flink SQL分析处理数据

掌握Flink的数据分析模块







  企业内训1 企业内训1

标签: 大数据架构课程 大数据计算框架 大数据架构培训 Redis Mycat

上篇: 大数据计算框架Spark+Storm+F....

下篇: 大数据技术Hadoop应用培训方案