大数据平台搭建与高性能计算培训方案

日期：2022-10-19 00:00:00 浏览：1466次作者：小编

培训背景

在“互联网+”的新纪元，深入理解大数据的深厚背景、演变历程及未来趋势，敏锐洞察市场动态与技术前沿潮流至关重要。熟练掌握Hadoop、Spark等先进技术，系统学习大数据的采集、存储、数据库管理、数据仓库构建、机器学习应用、商业智能（BI）分析、离线处理、流式处理、实时数据处理及综合管理技能。在此基础上，深度剖析平台架构，运用前沿技术智慧规划解决方案，全面开展大数据的开发、运维及性能优化工作，以推动技术革新与业务发展同步飞跃。

培训特色

本课程专注于Hadoop与Spark大数据技术，通过项目实操与沙盘模拟，强化分布式架构、开发、运维实践。资深讲师结合原理与实战案例互动教学，提升学员大数据项目开发与管理技能，解决实际问题。

培训收益

1. 精通基于大数据的先进体系架构、高效管理策略、灵活部署技巧，同时深刻理解各类组件的核心原理及其在实际应用场景中的巧妙运用。

2.培养学员在构建企业级大数据平台环境方面的实践能力，使他们能够熟练地部署和优化大数据解决方案，以满足企业级数据处理的高标准与需求。

日程安排

培训模块		培训内容
第一单元	大数据技术基础	大数据的产生背景与发展历程大数据的4V特征及与云计算的关系大数据应用需求及潜在价值分析业界最新的大数据技术发展态势与应用趋势大数据思维的转变大数据项目的系统与技术选型及落地实施的挑战 “互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍
	业界主流的大数据技术方案	大数据软硬件系统全栈与关键技术介绍大数据生态系统全景图主流的大数据解决方案介绍 Apache大数据平台方案剖析 CDH大数据平台方案剖析 HDP大数据平台方案剖析基于云的大数据平台方案剖析大数据解决方案与传统数据库方案比较国内外大数据平台方案与厂商对比
	大数据计算模型（一）——批处理MapReduce	MapReduce产生背景与适用场景 MapReduce计算模型的基本原理 MapReduce作业执行流程 MapReduce基本组件，JobTracker和TaskTracker MapReduce高级编程应用，Combiner和Partitioner MapReduce性能优化技巧 MapReduce案例分析与开发实践操作
第二单元	大数据存储系统与应用实践	分布式文件系统HDFS产生背景与适用场景 HDFS master-slave系统架构与读写工作原理 HDFS核心组件技术讲解，NameNode与fsimage、editslog，DataNode与数据块 HDFS Federation机制，viewfs机制，使用场景讲解 HDFS高可用保证机制，SecondaryNameNode，NFS冷备份，基于zookeeper的HA方案
第二单元	大数据实战练习一	Hadoop平台搭建、部署与应用实践，包含HDFS分布式文件系统，YARN资源管理软件，MapReduce计算框架软件 HDFS shell命令操作 MapReduce程序在YARN上运行
第三单元	Hadoop框架与生态发展，以及应用实践操作	Hadoop的发展历程 Hadoop 1.0的核心组件JobTracker，TaskTracker，以及适用范围 Hadoop 2.0的核心组件YARN工作原理，以及与Hadoop 1.0的联系与区别 Hadoop YARN的资源管理与作业调度机制 Hadoop 常用性能优化技术
第三单元	大数据计算模型（二）——实时处理/内存计算 Spark	MapReduce计算模型的瓶颈 Spark产生动机、基本概念与适用场景 Spark编程模型与RDD弹性分布式数据集的工作原理与机制 Spark实时处理平台运行架构与核心组件 Spark宽、窄依赖关系与DAG图分析 Spark容错机制 Spark作业调度机制 Spark standardalone，Spark on YARN运行模式 Scala开发介绍与Spark常用Transformation函数介绍
第四单元	大数据仓库查询技术Hive、SparkSQL、Impala，以及应用实践	基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景 Hive数据仓库的平台架构与核心技术剖析 Hive metastore的工作机制与应用 Hive 分区、分桶机制，Hive行、列存储格式基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景 Spark SQL实时数据仓库的实现原理与工作机制 SparkSQL程序开发与DataFrame机制介绍基于MPP的大型分布式数据仓库Impala基础知识与应用场景 Impala实时查询系统平台架构、关键技术介绍，以及与Hive，SparkSQL的对比
	Hadoop集群运维监控工具	Hadoop运维管理监控系统Ambari工具介绍第三方运维系统与工具Ganglia, Nagios
	大数据实战练习二	基于 Hadoop平台搭建、部署与配置Spark集群，Spark shell环境实践，Spark案例程序分析，Spark程序开发与运行基于MapReduce的Hive数据仓库实践，Hive集群安装部署，基于文件的Hive数据仓库表导入导出与分区操作，Hive SQL操作，Hive客户端操作基于Hive的SparkSQL shell实践操作
第五单元	大数据计算模型（三）——流处理Storm, SparkStreaming	流数据处理应用场景与流数据处理的特点流数据处理工具Storm的平台架构与集群工作原理 Storm关键技术与并发机制 Storm编程模型与基本开发模式 Storm数据流分组 Storm可靠性保证与Acker机制 Storm应用案例分析流数据处理工具Spark Streaming基本概念与数据模型 SparkStreaming工作机制 SparkStreaming程序开发介绍 Storm与SparkStreaming的对比
第六单元	大数据ETL操作工具，与大数据分布式采集系统	Hadoop与DBMS之间数据交互工具的应用 Sqoop导入导出数据的工作原理 Flume-NG数据采集系统的数据流模型与系统架构 Kafka分布式消息订阅系统的应用介绍与平台架构，及其使用模式
	面向OLTP型应用的NoSQL数据库及应用实践	关系型数据库瓶颈，以及NoSQL数据库的发展，概念，分类，及其在半结构化和非结构化数据场景下的适用范围列存储NoSQL数据库HBase简介与数据模型剖析 HBase分布式集群系统架构与读写机制，ZooKeeper分布式协调服务系统的工作原理与应用 HBase表设计模式与primary key设计规范文档NoSQL数据库MongoDB简介与数据模型剖析 MongoDB集群模式、读写机制与常用API操作值型NoSQL数据库Redis简介与数据模型剖析 Redis多实例集群架构与关键技术 NewSQL数据库技术简介及其适用场景
	大数据实战练习三	Sqoop安装、部署与配置，基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出 Kafka安装、部署与配置，基于Kafka创建和消费topic实践操作 Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作
	大数据项目选型、实施、优化等问题交流讨论	大数据项目的需求分析、应用实施、系统优化，以及解决方案等咨询与交流讨论大数据在银行业方面的应用及展望。
学习考核与业内经验交流

（注：大纲还可根据需求进行调整）

推荐讲师

赵老师清华大学计算机双学士，拥有15年IT行业经验和10年培训经历。目前担任甲骨文（中国）高级技术顾问，擅长大数据、数据库、中间件技术和Java。曾任职于北电网络、摩托罗拉等公司，担任高级软件工程师和架构师。具备丰富的项目经验，包括为互联网企业级应用和油罐车监控系统提供解决方案。通过多项专业认证，为多家企业提供培训，包括Oracle、Hadoop和NoSQL数据库管理等。

企业内训1

标签： 大数据平台搭建高性能计算培训大数据平台搭建课程大数据平台搭建培训大数据平台搭建与高性能计算高性能计算课程

上篇： 大数据建模分析师培训方案

下篇： 大数据前沿技术分析培训方案