培训背景
在大数据的浪潮推动下,前沿的大数据平台技术已经成为新兴互联网企业(诸如电子商务巨头、搜索引擎巨擘、社交网络平台、以及互联网广告服务提供商等)的强大动力源泉,同时也为银行、金融、证券企业、电信运营商、高端装备制造业以及IT基础设施提供商等行业带来了翻天覆地的商业变革。大数据平台在企业的价值增值链中扮演着举足轻重、不可或缺的核心角色,决定着企业发展的未来走向。
培训收益
本培训课程旨在全面提升学员在大数据处理领域的技术实力,具体如下:
1. 深入浅出地传授学员大数据处理平台(包括Hadoop与内存型实时计算Spark)的核心技术架构,以及平台的安装部署、运维配置和实战应用技巧。通过全面解析国内外主流大数据处理解决方案及经典应用案例,使学员对大数据处理有全面而深刻的理解。
2. 课程重点阐述当前主流的大数据关键技术及其在多个行业企业中的实际应用。课程立足于实际行业需求,旨在帮助企业学员掌握大数据平台技术的实际应用落地方法,包括应用程序开发、大数据集群运维技术,以及主流大数据平台的应用与部署。同时,针对移动互联网环境下产生的海量结构化与非结构化数据,详细讲解如何有机地集成大数据平台的各项功能组件(如大数据收集、存储、管理、挖掘、分析与可视化),并分享大数据项目实施的成功案例。
3. 系统性地让学员掌握主流大数据平台Hadoop和Spark实时处理平台的技术架构与实际应用,结合实际生产系统案例进行教学。深度讲解利用Hadoop+Spark进行行业大数据存储管理、分析挖掘的技术应用,以及基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台的应用,剖析主流大数据平台产品。
4. 详细教授业界最流行的Hadoop与Spark大数据平台,深入探讨Hadoop生态系统中的组件,包括HDFS、MapReduce、HIVE、HBase、Mahout、Spark、GraphX、MLib、Shark、ElasticSearch等在大数据存储管理、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分布式处理方面的实践应用。
5. 引导学员运用Hadoop大数据技术解决企业实际问题,掌握运用Hadoop开展大数据项目解决方案的思路和方法。
6. 课程采用技术原理与项目实战相结合的教学模式,在讲解原理的同时,穿插实际系统操作,并提供精心准备的应用案例供学员动手实践,确保理论知识与实战技能的深度融合。
通过本课程的学习,学员将能够全面掌握大数据处理的核心技能,为企业的数字化转型和创新发展奠定坚实基础。
培训特色
本次培训从案例分析与行业应用穿插;专家精彩内容解析、学员专题讨论、分组研究;通过全面知识理解、专题技能演示和实践引导学员掌握课程内容。
日程安排
日程 | 授课内容 | 现场实战训练说明 |
第一天 | 1.大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在通信运营商、互联网金融业、网上银行、电子商务、零售业、制造业、电子政务、移动互联网、教育信息化等行业中的应用实践; 2.解析目前业界主流的标准化大数据平台Hadoop+Spark平台架构,重点讲解它们在大数据存储、管理、分析处理方面的应用方案,以及在大数据离线分析、近线分析、实时在线分析处理方面的优化组合方案及其优势; 3.Hadoop大数据平台的生态系统组件、平台架构以及工作原理,以及不同发行版本的Hadoop比较; 4.HDFS的技术原理及应用实战,核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、数据压缩、工作机制、存储扩容与吞吐性能扩展; 5.WebHDFS应用实践; 6.大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作机制、工作原理、作业调度、性能调优和大数据处理架构,以及MapReduce技术的发展趋势; 7.Hadoop MapReduce和Yarn并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践、MapReduce程序Debug调试与任务调度技术; 8.常见的Hadoop平台故障错误分析策略以及监控工具详解,云文件存储系统状态以及海量作业执行状态监控与故障解决经验介绍; | 1.VMware环境下部署配置CentOS虚拟机集群模拟真实的物理集群; 2.在CentOS虚拟集群上部署ClouderaHadoop集群平台、配置管理、部署HUE监控系统; 3.基于HDFS实现大规模在线文件存储程序; 4.基于Hadoop MapReduce实现网页数据统计程序; |
第二天 | 9.目前业界行业云数据中心的大规模非结构化数据管理技术实现与平台应用,以及SQL、NoSQL和NewSQL关键技术详解,系统平台技术概述以及适合的应用场景; 10.Hadoop半结构化与非结构化大数据管理系统HBase集群的应用及其发展趋势,HBase半结构化大数据管理集群管理、运维监控、性能优化、负载均衡,以及与Hadoop核心组件HDFS和MapReduce的数据协同操作应用; 11.HBase数据模型,HBase数据表、列族设计,以及数据的读Get、写Put、扫描Scan、删除Delete操作;HBase数据模型的特殊属性:版本、元数据管理、Join查询、计数器、原子操作、ACID事务处理、行锁、自动分区技术、HMaster与HRegionServer工作机制与调优; 12.HBase表结构设计,半结构化数据的模式创建、行键的设计、列族定义方法,以及HBase应用表结构设计; 13.利用HBase的原生Java客户端的开发包进行创建表、删除表、插入数据、查询数据、删除数据和过滤查询;使用Thrift和REST客户端API操作HBase数据库,利用MapReduce批量操作HBase表的技术; 14.HBase集群运维管理工具应用,包括:文件检测修复、文件查看工具、WAL日志查看、压缩测试工具、数据迁移、数据导入与导出、日志回放工具,以及HBase性能指标度量以及HBase性能优化技术; 15.大型数据仓库HIVE集群的技术原理及应用,Hive文件与记录存储格式、HiveServer2原理与应用部署、Hive大数据统计分析技术、Hive功能操作实践,以及云计算数据中心的Hive大型数据仓库集群在BAT公司和通信运营商中的案例分析; 16.HIVE大数据仓库应用案例; 17.HBase和数据仓库HIVE的框架整合技术及其应用; | 5. ClouderaManager软件部署与 配置; 6.部署HBase大数据管理系统,配置、参数调优、性能监控, HBase数据表操作,以及项目应用开发实践; 7.配置部署HIVE数据仓库集群,以及性能调优实战; 8.基于给定的实验数据集加载至HIVE以及HBase中,并且根据实验要求设计实现应用程序; |
第三天 | 18.HadoopKerberos安全机制原理,访问控制配置、认证机制,以及实践操作部署; 19.Hadoop集群的更新升级应用与操作步骤; 20.基于Hadoop+Mahout大数据分析挖掘处理平台技术架构,以及大数据挖掘在互联网电商和电信行业中的应用案例分析; 21.Mahout大数据协同过滤分析、频繁模式挖掘分析、聚类分析、分类分析、推荐分析的应用程序开发实现; 22.大数据分析引擎Apache Flink的工作原理、核心技术架构、安装部署和应用配置; 23.Storm大数据实时流数据处理平台的技术原理、集群架构、安装部署、程序开发及其实际应用案例分析; 24.Spark大数据实时处理平台的技术原理、集群架构及其在大型互联网公司和运营商企业中的应用实践案例; 25.Spark分布式集群的安装部署,Spark分布式实时处理框架及工作原理,以及Spark集群的平台架构及其生态系统组件剖析,SparkSQL应用技巧; 26.VMware虚拟化集群管理软件,以及Hadoop+ HBase + HIVE + Storm +Spark的大数据平台集成解决方案的应用实践案例分享; 27.基于真实的互联网数据和实验指导手册在讲师的引导下完成实际的项目案例,巩固学过的大数据平台技术知识以及应用技能。 | 9.结合云计算与大数据平台实现一个真实的互联网行业数据搜索系统,以及搜索日志分析与推荐系统应用案例,构建一个Hadoop, MapReduce, Storm, HBase, HIVE, Spark, Mahout的大数据平台集成解决方案。 |