中培IT学院

大数据平台搭建与高性能计算培训方案

浏览:102次 作者:小编

培训背景

在“互联网+”的新纪元,深入理解大数据的深厚背景、演变历程及未来趋势,敏锐洞察市场动态与技术前沿潮流至关重要。熟练掌握Hadoop、Spark等先进技术,系统学习大数据的采集、存储、数据库管理、数据仓库构建、机器学习应用、商业智能(BI)分析、离线处理、流式处理、实时数据处理及综合管理技能。在此基础上,深度剖析平台架构,运用前沿技术智慧规划解决方案,全面开展大数据的开发、运维及性能优化工作,以推动技术革新与业务发展同步飞跃。

 

培训特色

本课程专注于Hadoop与Spark大数据技术,通过项目实操与沙盘模拟,强化分布式架构、开发、运维实践。资深讲师结合原理与实战案例互动教学,提升学员大数据项目开发与管理技能,解决实际问题。

 

培训收益

1. 精通基于大数据的先进体系架构、高效管理策略、灵活部署技巧,同时深刻理解各类组件的核心原理及其在实际应用场景中的巧妙运用。

2.培养学员在构建企业级大数据平台环境方面的实践能力,使他们能够熟练地部署和优化大数据解决方案,以满足企业级数据处理的高标准与需求。

 

日程安排

培训模块

培训内容

第一单元

大数据技术基础

大数据的产生背景与发展历程

大数据的4V特征及与云计算的关系

大数据应用需求及潜在价值分析

业界最新的大数据技术发展态势与应用趋势

大数据思维的转变

大数据项目的系统与技术选型及落地实施的挑战

“互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍

业界主流的大数据技术方案

大数据软硬件系统全栈与关键技术介绍

大数据生态系统全景图

主流的大数据解决方案介绍

Apache大数据平台方案剖析

CDH大数据平台方案剖析

HDP大数据平台方案剖析

基于云的大数据平台方案剖析

大数据解决方案与传统数据库方案比较

国内外大数据平台方案与厂商对比

大数据计算模型(一)——批处理MapReduce

MapReduce产生背景与适用场景

MapReduce计算模型的基本原理

MapReduce作业执行流程

MapReduce基本组件,JobTracker和TaskTracker

MapReduce高级编程应用,Combiner和Partitioner

MapReduce性能优化技巧

MapReduce案例分析与开发实践操作

第二单元

大数据存储系统与应用实践

分布式文件系统HDFS产生背景与适用场景

HDFS master-slave系统架构与读写工作原理

HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块

HDFS Federation机制,viewfs机制,使用场景讲解

HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案

大数据实战练习一

Hadoop平台搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件

HDFS shell命令操作

MapReduce程序在YARN上运行

第三单元

Hadoop框架与生态发展,以及应用实践操作

Hadoop的发展历程

Hadoop 1.0的核心组件JobTracker,TaskTracker,以及适用范围

Hadoop 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别

Hadoop YARN的资源管理与作业调度机制

Hadoop 常用性能优化技术

大数据计算模型(二)——实时处理/内存计算 Spark

 

MapReduce计算模型的瓶颈

Spark产生动机、基本概念与适用场景

Spark编程模型与RDD弹性分布式数据集的工作原理与机制

Spark实时处理平台运行架构与核心组件

Spark宽、窄依赖关系与DAG图分析

Spark容错机制

Spark作业调度机制

Spark standardalone,Spark on YARN运行模式

Scala开发介绍与Spark常用Transformation函数介绍

第四单元

大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践

基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

Hive数据仓库的平台架构与核心技术剖析

Hive metastore的工作机制与应用

Hive 分区、分桶机制,Hive行、列存储格式

基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

Spark SQL实时数据仓库的实现原理与工作机制

SparkSQL程序开发与DataFrame机制介绍

基于MPP的大型分布式数据仓库Impala基础知识与应用场景

Impala实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比

Hadoop集群运维监控工具

Hadoop运维管理监控系统Ambari工具介绍

第三方运维系统与工具Ganglia, Nagios

大数据实战练习二

基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践,Spark案例程序分析,Spark程序开发与运行

基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作

基于Hive的SparkSQL shell实践操作

第五单元

大数据计算模型(三)——流处理Storm, SparkStreaming

 

流数据处理应用场景与流数据处理的特点

流数据处理工具Storm的平台架构与集群工作原理

Storm关键技术与并发机制

Storm编程模型与基本开发模式

Storm数据流分组

Storm可靠性保证与Acker机制

Storm应用案例分析

流数据处理工具Spark Streaming基本概念与数据模型

SparkStreaming工作机制

SparkStreaming程序开发介绍

Storm与SparkStreaming的对比

第六单元

大数据ETL操作工具,与大数据分布式采集系统

Hadoop与DBMS之间数据交互工具的应用

Sqoop导入导出数据的工作原理

Flume-NG数据采集系统的数据流模型与系统架构

Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

面向OLTP型应用的NoSQL数据库及应用实践

关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围

列存储NoSQL数据库HBase简介与数据模型剖析

HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用

HBase表设计模式与primary key设计规范

文档NoSQL数据库MongoDB简介与数据模型剖析

MongoDB集群模式、读写机制与常用API操作

值型NoSQL数据库Redis简介与数据模型剖析

Redis多实例集群架构与关键技术

NewSQL数据库技术简介及其适用场景

大数据实战练习三

Sqoop安装、部署与配置,基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出

Kafka安装、部署与配置,基于Kafka创建和消费topic实践操作

Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作

大数据项目选型、实施、优化等问题交流讨论

大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论

大数据在银行业方面的应用及展望。

学习考核与业内经验交流

(注:大纲还可根据需求进行调整)

 

推荐讲师

赵老师 清华大学计算机双学士,拥有15年IT行业经验和10年培训经历。目前担任甲骨文(中国)高级技术顾问,擅长大数据、数据库、中间件技术和Java。曾任职于北电网络、摩托罗拉等公司,担任高级软件工程师和架构师。具备丰富的项目经验,包括为互联网企业级应用和油罐车监控系统提供解决方案。通过多项专业认证,为多家企业提供培训,包括Oracle、Hadoop和NoSQL数据库管理等。


企业内训1 企业内训1
标签: 大数据平台搭建 高性能计算培训 大数据平台搭建培训 大数据平台搭建课程 高性能计算课程 大数据平台搭建与高性能计算

上篇: 大数据建模分析师培训方案

下篇: 大数据平台技术架构与应用培训方案