中培IT学院

社交网络数据及文本挖掘培训方案

浏览:200次 作者:小编

培训背景

随着社交网络的飞速发展,人们纷纷在这些平台上晒出自己的生活点滴,积极拓展人脉资源。在这股潮流的背后,是社交网络所蕴含的庞大数据金矿。然而,我们对这些数据的挖掘与分析仍处于起步阶段,大规模、高维度的数据挖掘技术仍在持续进化。

在这个信息技术迅猛发展的时代,越来越多的人投身社交网络,热衷于在线分享个人信息,拓宽社交视野。文本挖掘的重要性为何如此凸显?据统计,在与业务息息相关的信息中,约有80%为非结构化或半结构化的文本数据。若不将这些数据纳入文本分析范畴,其中蕴含的丰富业务信息和消费者行为数据将付诸东流。

文本挖掘,这一术语常与文本分析相提并论,其实际应用价值广泛。从垃圾邮件过滤、电商网站的意见和建议挖掘,到博客与评论网站的社交监听、客户服务与电子邮件支持的优化,再到业务文档自动化处理、法律领域的电子发现、消费者偏好分析、索赔与欺诈检测,无不彰显着文本挖掘的重要性。借助社交平台,企业得以直接与客户互动,打造美好的客户体验,社交网络的出现为这一切带来了无限可能。

 

培训收益

1.本课程以清晰易懂的方式传授知识,通过“理论阐述—实例分析—R语言实践”的结构,确保即使是初学者也能迅速掌握R语言数据挖掘的基本框架,并能在实际工作和学习中针对具体问题迅速上手,高效解决。

2.课程强调“学以致用”的原则,采用小组讨论的形式,激发学员的思考热情,使学员在实践中学习和掌握相关知识和技能。

3.课程紧扣R语言和数据挖掘的关键点与难点,提供详尽的分析和讲解。在理解难度较大、易出错的部分,我们将反复提醒,便于学员课后轻松复习和深入拓展。

4.本课程将引领学员领略大数据技术的无限魅力和广阔前景,全面教授包括结构化、半结构化和非结构化数据在内的主流大数据技术,涵盖数据表示、建模、、管理、分析处理、挖掘、推荐、匹配及关联分析技术,以及机器学习平台的原理与应用实战。

5.课程紧密结合行业需求及国际国内技术发展趋势,教授大数据分析挖掘平台的架构和应用部署,分享成功的大数据项目实施经验,并提供大数据分析应用项目解决方案的咨询服务。

6.课程深入浅出地教授常见的大数据分析方法和数据挖掘算法,以及大数据的开发与运维技术。学员将系统学习基于Hadoop大数据平台的数据挖掘工具Mahout、MLbase机器学习算法库、数据仓库HIVE、实时分析平台Spark、实时挖掘平台Shark,以及分布式机器学习和推荐系统平台Oryx的入门、中级和高级应用,并对主流大数据分析建模与挖掘推荐平台产品进行深度剖析。


培训特色

本课程让学员领略大数据技术的魅力和广阔前景,使学员掌握社交网络与文本挖掘技术的分析能力增强对社交网络数据和文本的分析能力。

 

日程安排

日程

章节

授课内容

第一天
上午

大数据概述

1.大数据基本概念、技术梗概、技术沿革,以及大数据技术是如何改变人工智能技术、语音识别技术、图像识别/视频理解、自然语言处理技术等,以及大数据技术在政府、金融、石油、教育、交通、医疗卫生等行业的成功案例;
2.大数据的结构化数据模型、半结构化模型和非结构化数据的存储模型,逻辑模型,以及分析建模工具的常用方法。

数据挖掘及Mahout

1.十大常用的并行数据挖掘算法、原理、应用场景,以及技术实战;
2.并行数据挖掘平台Mahout的技术架构、核心组件的工作原理以及技术;
3.Mahout应用开发技术;
4.Mahout项目实战。

第一天
下午

R语言精要

本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。
主要案例:
案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数;
案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;
案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集;
案例4:使用ggplot2画出各种复杂的图形。

第二天
上午

神经网络和
R语言的实现

神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。
主要案例:
案例1:酒的品质和种类的神经网络的分析和预测;
案例2:公司财务预警建模。

企业基于社交网络数据的收获

1.潜在商机的发现,通过数据挖掘与分析能够得到什么?
2.危机预警 ,通过数据挖掘与分析,可以对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控;
3.效果预测, 通过数据挖掘与分析让企业能花最少的钱得到最大的产出。

第二天
下午

交叉验证比较各个模型

对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。

第三天
上午

决策树(回归树)分析
和R语言实现

决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。
主要案例:
案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测;
案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。

第三天
下午

使用R语言结合KNN
算法进行文本挖掘

文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。
主要案例:
案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)。


企业内训1 企业内训1
标签: 文本挖掘 社交网络数据 社交网络数据培训 文本挖掘培训 社交网络数据课程

上篇: 云计算基础架构及云平台应用培训方案

下篇: 社交网络数据及文本挖掘培训方案