中培IT学院

大数据关键技术与实战应用培训方案

浏览:794次 作者:小编

培训背景

课程通过完整的大数据开发项目及一组实际项目训练与实战案例,完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习,重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本技术与业务素养。

 

培训对象

1.逻辑思维能力较强并从事相关工作

2.对大数据行业感兴趣的IT人员

3.相关IT行业从业者

 

培训收益

1. 掌握MapReduce分布式计算框架关键技术、工作机制与编程模型,包括优化技术。

2. 掌握Spark核心技术、RDD数据模型、DAG图执行模式等,以及基于Scala的编程开发模型。

3. 掌握HDFS关键机制、分布式系统架构、高可用方案等。

4. 掌握Hadoop分布式集群部署、参数设置与运维关键技术。

5. 掌握YARN框架工作机制、关键组件,以及资源调度器的原理与调度策略。

6. 掌握HBase工作机制、分布式系统架构、数据组织方式等,以及表模式设计最佳实践。

7. 掌握Hive与SparkSQL的工作原理、SQL操作、存储格式优化等。

8. 掌握数据挖掘与机器学习算法,以及基于Spark的MLlib库和大数据推荐技术。

9. 理解大数据平台技术架构和组件适用场景。

10. 熟练运用Hadoop与Spark技术体系规划解决方案。

11. 实战操作掌握大数据平台应用程序开发、集群运维管理和性能调优技巧。

 

培训特色

本课程汇聚了多位在Hadoop与Spark大数据领域一线实战多年的资深讲师,他们不仅拥有深厚的理论基础,更积累了丰富的实战经验。教学中,讲师们将结合原理技术剖析与实战案例分享,通过互动式教学方式,引导学员深入理解和掌握大数据技术。课程注重实战应用,强化以构建大数据项目解决方案为核心的应用开发,同时提供技术讨论与交流咨询的平台,让学员在学习的同时,也能与讲师和其他学员进行深入的交流。通过这样的教学模式,我们期望每个学员都能在本课程中获得系统的大数据技术知识体系,并掌握实际大数据应用项目的开发实践与运维管理部署能力,为未来的职业发展奠定坚实基础。

 

日程安排

 

日程

章节

授课内容

第一天
上午

大数据存储系统与技术应用

1.分布式文件系统HDFS产生背景与适用场景
2.HDFS master-slave系统架构与读写工作原理
3.HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块
4.HDFS Federation机制,viewfs机制,使用场景讲解
5.HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案
6.HDFS运维参数调优与性能优化

大数据计算框架(一)
批处理框架MapReduce

1.MapReduce产生背景与适用场景
2.MapReduce计算模型的基本原理
3.MapReduce作业执行流程
4.MapReduce编程模型: Map处理和Reduce处理
5.MapReduce处理流程:数据读取collect、中间数据sort、中间数据spill、中间数据shuffle、聚合分析reduce
6.MapReduce开发高级应用:Combiner技术与应用场景、Partitioner技术与应用场景、多Reducers应用
7.应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行
8.MapReduce参数调优与性能优化技巧

第一天
下午

Hadoop YARN工作机制
与资源管理

1.Hadoop的发展历程
2.Hadoop 1.0的核心组件Jobtracker,Tasktracker,以及适用范围
3.Hadoop 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别
4.YARN 关键机制:任务推测执行,任务容错,任务选择执行,心跳机制
5.Hadoop YARN的资源管理与作业调度机制:FIFO调度,Capacity调度器,Fair调度器
6.Hadoop YARN常用运维参数调优与性能优化技术

大数据实战练习一

1. Hadoop分布式集群搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件
2. HDFS 文件、目录创建、上传、下载等命令操作,HDFS合并、归档操作,HDFS监控平台使用
3. MapReduce程序在YARN上运行,YARN监控平台使用
4. 面向HDFS文件系统的数据采集实践

大数据计算模型(二)
实时处理/内存计算 Spark

1.MapReduce计算模型的瓶颈
2.Spark产生动机、基本概念与适用场景
3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制
4.Spark实时处理平台运行架构与核心组件
5.Spark RDD主要transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey
6.Spark RDD主要action:count,collect,reduce,saveAsTextFile
7.Spark宽、窄依赖关系与DAG图分析
8.Spark容错机制
9.Spark作业调度机制
10.Spark缓存机制:Cache操作,Persist操作与存储级别
11.Spark作业执行机制:执行DAG图、任务集、executor执行模型、 BlockManager管理
12.Spark standardalone,Spark on YARN运行模式
13.Scala开发介绍与函数编写
14.Spark常用transformation函数介绍
15.Spark调优:序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优

第二天
下午

大数据数据仓库查询工具
Hive与SparkSQL剖析

1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景
2.Hive数据仓库的平台架构与核心技术剖析
3.Hive metastore的工作机制与应用
4.Hive内部表和外部表
5.Hive 分区、分桶机制
6.Hive行、列存储格式
7.Hive结果保存与新表生成
8.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景
9.Spark SQL实时数据仓库的实现原理与工作机制
10.SparkSQL数据模型DataFrame
11.基于DataFrame的SparkSQL程序开发
12.Spark-sql shell使用,共享使用Hive表进行SQL查询分析
13.SparkSQL数据读取与结果保存:json,Hive table,Parquet file,RDD
14.SparkSQL和Hive的区别与联系
15.制造行业Hive与SparkSQL应用案例介绍

大数据实战练习二

1.Spark分布式集群平台搭建、部署与配置Spark集群,Spark shell环境实践操作,Spark案例程序分析
2.基于sbt的Spark程序编译、开发与提交运行
3.应用案例一:基于Spark的服务器运行日志TopN分析、程序实例开发
4.应用案例二: 基于Spark的搜索引擎日志热词与用户分析、程序实例开发
5.Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作
6.SparkSQL数据仓库实战:shell实践操作:数据表读取、查询与结果保存

第三天
上午

分布式NoSQL数据库关键
技术及应用实践

1.关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围
2.列存储NoSQL数据库HBase简介
3.HBase数据模型剖析:row key、列簇、单元格和时间戳版本号
4.HBase分布式集群系统架构:HMaster、RegionServer和Zookeeper
5.HBase LSM数据组织结构与读写机制,以及HBase读写性能特性
6.HBase表设计模式与primary key设计规范
7.HBase基本操作:数据插入、修改与删除,单键查询与范围查询

大数据分布式系统管理
系统zookeeper

1.Zookeeper工作原理
2.Zookeeper系统架构:服务器集群和客户端
3.Zookeeper数据结构
4.Zookeeper watch机制
5.Zookeeper适用场景

第三天
下午

数据挖掘与
大数据机器学习技术

1.机器学习发展历程
2.机器学习与大数据关联与区别
3.数据挖掘经典算法
4.回归算法:线性回归与应用场景,非线性回归与应用场景
5.分类算法:逻辑回归与应用场景,决策树与应用场景,朴素贝叶斯算法与应用场景,支持向量机算法与应用场景
6.聚类算法; k-means与应用场景
7.大数据推荐技术:协同过滤,距离计算;基于物品的协同过滤算法,基于用户的协同过滤算法
8.基于Spark的机器学习库Spark MLlib
9.Spark MLlib支持的数据挖掘算法
10.Spark MLlib数据模型与使用
11.Spark MLlib编程模型与开发

大数据实战练习三

1.大数据机器学习实战:基于Spark MLlib的数据分类;基于Spark MLlib的聚类 
2.大数据推荐实战:基于用户产品购买记录,使用Spark进行数据清洗与预处理,使用Spark MLlib进行协同过滤与推荐

大数据项目选型、实施、
优化等问题交流讨论

大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论


企业内训1 企业内训1
标签: 大数据挖掘 大数据 大数据课程 大数据培训

上篇: OpenStack技术培训方案

下篇: 大数据Flink架构培训方案