大数据架构-Redis&Mycat培训方案
浏览:141次 作者:小编培训简述
通过本课程的学习,学员将获得以下收益:
☆ 掌握Redis安装、配置和生产环境部署方案
☆ 掌握Redis的数据类型的正确理解和使用
☆ 理解Redis内存管理原理
☆ 掌握Redis安装、配置和生产环境部署方案
☆ 掌握构建Redis的可扩展集群及高可用
☆ 掌握Redis安装、配置和生产环境部署方案
☆ 掌握Mycat数据库分库分表实战
☆ 掌握Mycat生产环境下性能调优
☆ 掌握Mycat生产环境下高可用方案。
培训特色
☆ PPT+教材+参考资料,理论讲解
☆ 提供配套的实验环境
☆ 场景+案例+模拟环境,动手实践
☆ 手把手解决问题+解决问题经验分享。
培训收益
☆ 掌握基于大数据的体系架构、管理、部署,以及相应组件的原理和应用场景。
☆ 让学员具备部署基于企业大数据平台环境的能力。
日程安排
章节 | 练习 | 授课内容 | |
模块一:大数据实时计算引擎Storm | |||
Storm | ☆ 大数据实时计算框架简介 ☆ Apache Storm体系结构 ☆ Apache Storm的伪分布模式的搭建 ☆ Apache Storm的全分布模式和HA ☆ Storm的Demo演示 ☆ Storm集群在ZooKeeper上保存的数据结构 ☆ WordCount数据流动的过程 ☆ 开发自己的Storm的WordCount程序 ☆ 部署和运行Storm任务 ☆ Storm任务执行的过程与通信机制 ☆ 流式计算系统的典型的架构与集成Storm ☆ 集成Redis ☆ 集成HDFS ☆ 集成HBase | 使用Storm进行大数据的实时计算 | ☆ 掌握Storm的体系架构和功能。 ☆ 掌握大数据实时计算的典型架构 ☆ 京东大数据平台的架构 |
模块二:Spark基础之Scala编程语言 | |||
Scala编程语言 | ☆ Scala语言基础 ☆ Scala语言的面向对象 ☆ Scala语言的函数式编程 ☆ Scala中的集合 ☆ Scala语言的高级特性 | 编程Scala程序 | 掌握Scala编程语言 |
模块三:大数据执行引擎Spark Core | |||
Spark Core | ☆ 什么是Spark? ☆ Spark的体系结构与安装部署 ☆ Spark的主从架构 ☆ 什么是ZooKeeper ☆ Spark HA的实现 ☆ 执行Spark Demo程序 ☆ Spark运行机制及原理分析 ☆ Spark的算子 ☆ Spark RDD的高级算子 ☆ Spark基础编程案例 ☆ Spark性能诊断和优化案例 ☆ 系统死锁的诊断和分析 ☆ 系统内存溢出的诊断和分析 ☆ 案例分享 ☆ 基于Spark的大数据平台架构 | 搭建Spark环境 | ☆ 掌握Spark的体系架构和功能 ☆ Spark与Hadoop |
模块四:数据分析引擎Spark SQL | |||
Spark SQL | ☆ Spark SQL基础 ☆ Spark SQL简介 ☆ 基本概念:Datasets和DataFrames ☆ 测试数据 ☆ 创建DataFrames ☆ DataFrame操作 ☆ Global Temporary View ☆ 创建Datasets ☆ Datasets的操作案例 ☆ 使用数据源 ☆ 通用的Load/Save函数 ☆ Parquet文件 ☆ JSON Datasets ☆ 使用JDBC ☆ 使用Hive Table ☆ 性能优化 ☆ 在IDEA中开发Spark SQL程序 | 使用Spark SQL处理数据 | ☆ 掌握Spark SQL的体系架构和功能。 ☆ 典型的大数据分析引擎的对比 ☆ Hive ☆ Spark SQL ☆ Flink SQL |
模块五:流式计算引擎Spark Streaming | |||
章节 | 练习 | 学习目标与案例 | |
Spark Streaming | ☆ Spark Streaming基础 ☆ Spark Streaming简介 ☆ Spark Streaming的特点 ☆ Spark Streaming的内部结构 ☆ 第一个小案例:NetworkWordCount ☆ 开发自己的NetworkWordCount ☆ Spark Streaming进阶 ☆ StreamingContext对象详解 ☆ 离散流(DStreams):Discretized Streams ☆ DStream中的转换操作(transformation) ☆ 窗口操作 ☆ 输入DStreams和接收器 ☆ DStreams的输出操作 ☆ DataFrame和SQL操作 ☆ 缓存/持久化 ☆ 检查点支持 ☆ 高级数据源 ☆ Spark Streaming接收Flume数据 ☆ Spark Streaming接收Kafka数据 ☆ 性能优化 ☆ 减少批数据的执行时间 ☆ 设置正确的批容量 ☆ 内存调优 | 使用Spark Streaming处理数据 | ☆ 掌握Spark Streaming的体系架构和功能 ☆ 典型的大数据实时引擎的对比 ☆ Storm ☆ Spark Streaming ☆ Flink DataStream |
模块六:机器学习MLLib | |||
章节 | 练习 | 学习目标与案例 | |
Spark MLLib | ☆ 什么是MLLib? ☆ MLLib中的常见算法 ☆ MLlib的应用案例:推荐系统的实现 ☆ 基于用户的协同过滤 ☆ 基于物品的协同过滤 ☆ 基于ALS的协同过滤 ☆ 逻辑回归算法 | 掌握电商环境中推荐系统的实现。 |
模块七:新一代大数据处理引擎Flink | ||||||
章节 | 练习 | 学习目标与案例 | ||||
第3章:Flink的体系架构与部署 | ☆ Flink简介 ☆ Flink的体系架构 ☆ Flink的安装与部署 ☆ Flink的分布式缓存 ☆ 对比:Flink、Storm和Spark Streaming | 安装与部署Flink环境 | 掌握Flink的体系架构与生态圈组件 | |||
第4章:Flink on Yarn的实现 | ☆ 什么是Yarn?与Yarn的体系架构 ☆ 部署Yarn ☆ Flink on Yarn的两种模式 ☆ 内存集中管理模式 ☆ 内存Job管理模式 ☆ Flink on Yarn两种模式的区别 | 部署Flink on Yarn | 理解并掌握Flink on Yarn的两种模式的特点 | |||
第5章:Flink HA的实现 | ☆ 什么是HA?为什么需要HA? ☆ 大数据分布式协调框架ZooKeeper ☆ 什么是ZooKeeper ☆ 搭建ZooKeeper环境 ☆ ZooKeeper的特性 ☆ 实现分布式锁 ☆ 部署Flink HA高可用架构环境 | 部署Flink HA环境 | 什么是HA?Flink HA的架构 | |||
第6章:Flink开发入门 | ☆ Flink批处理开发 ☆ Java版本WordCount ☆ Scala版本WordCount ☆ Flink流处理开发 ☆ Java版本WordCount ☆ Scala版本WordCount ☆ 使用Flink Scala Shell ☆ Flink的并行度分析 | 搭建Flink开发环境并开发应用程序 | 掌握基本的Flink API编程 | |||
第7章:Flink DataSet API开发 | ☆ Map、FlatMap与MapPartition ☆ Filter与Distinct ☆ Join操作 ☆ 笛卡尔积 ☆ First-N ☆ 外链接操作 | 基于DataSet API开发Flink离线计算应用 | 掌握常用的Flink DataSet API算子的作用 | |||
第8章:Flink DataStreaming API开发 | ☆ DataSources ☆ 基本的数据源示例 ☆ 自定义数据源 ☆ 内置的Connector ☆ DataStream Transformation 转换操作 ☆ Data Sinks ☆ 集成Flink与Kafka | 基于DataSet Stream开发Flink离线计算应用 | 掌握常用的Flink DataStream API算子的作用 | |||
第9章:状态管理和恢复 | ☆ 状态:State ☆ Keyed State ☆ Operator State ☆ 检查点:Checkpoint ☆ 检查点的配置: ☆ state backend存储模式 ☆ 修改State Backend的两种方式 ☆ 示例 ☆ Restart Strategies(重启策略) | 开发应用进行Flink的有状态计算 | 理解并掌握Flink的状态管理机制 | |||
第10章:Window和Time | ☆ 窗口:Window ☆ Time Window示例 ☆ Count Window示例 ☆ Time:时间 ☆ WaterMark:水位线 ☆ Watermark的原理 ☆ Watermark的三种使用情况 ☆ 设置Watermark的核心代码 ☆ 窗口的allowedLateness | 什么是Flink的窗口操作 | ||||
第11章:Flink Table & SQL | ☆ Flink Table & SQL简介 ☆ 开发Flink Table & SQL程序 ☆ 使用Flink SQL Client | 使用Flink SQL分析处理数据 | 掌握Flink的数据分析模块 | |||