您现在的位置:首页 > 知识下载
大数据处理模式有哪些?


数据处理是对复杂海量数据价值的提炼,而最有价值的部分是预测分析,根据数据挖掘的结果得出预测性决策。它可以帮助数据科学家通过数据挖掘形式,例如数据可视化,统计模式识别和数据描述等等,更好地理解数据。


大数据处理模式有哪些

大数据的应用类型很多,主要的处理模式可以分为流处理模式和批处理模式两种。批处理是先存储后处理,而流处理则是直接处理。


 大数据处理模式-批处理模式

Google 公司在 2004 年提出的 MapReduce 编程模型是最具代表性的批处理模式。

MapReduce 模型首先将用户的原始数据源进行分块,然后分别交给不同的 Map 任务去处理。

Map 任务从输入中解析出 key/value 对集合,然后对这些集合执行用户自行定义的 Map 函数以得到中间结果,并将该结果写入本地硬盘。

Reduce 任务从硬盘上读取数据之后,会根据 key 值进行排序,将具有相同 key 值的数据组织在一起。最后,用户自定义的 Reduce 函数会作用于这些排好序的结果并输出最终结果。

MapReduce 的核心设计思想有两点。

· 把计算推到数据而不是把数据推到计算,从而有效地避免数据传输过程中产生的大量通信开销。

· 将问题分而治之,把待处理的数据分成多个模块分别交给多个 Map 任务去并发处理。

大数据处理模式-流处理模式

流处理模式的基本理念是,尽可能快地对最新的数据做出分析并给出结果是所有流处理模式的主要目标。数据的价值会随着时间的流逝而不断减少。需要采用流处理模式的大数据应用场景主要有网页点击数的实时统计,传感器网络,金融中的高频交易等。流处理模式将数据视为流,将源源不断的数据组成数据流。当新的数据到来时就立刻处理并返回所需的结果。数据的实时处理是一个很有挑战性的工作,数据流本身具有持续到达、速度快、规模巨大等特点,因此,通常不会对所有的数据进行永久化存储,同时,由于数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。由于响应时间的要求,流处理的过程基本在内存中完成,其处理方式更多地依赖于在内存中设计巧妙的概要数据结构。内存容量是限制流处理模式的一个主要瓶颈。

想了解更多关于大数据处理的信息

 立刻咨询 

点击下方二维码咨询!





[1]

 
网络安全热度最高的6本证书...
系统分析师VS系统架构设计...
项目经理考NPDP还是软考高...
盘点五个IT领域下证快的证...
CBA与TOGAF:探寻企业架构...
【收藏】软考电子证书下载...
项目经理任选两本证书,年...
DAMA中国推出“一考两证”...
数据分析具体指的是什么,...
数据分析师需要具备什么数...
CDA认证带你了解数据分析的...
敏捷与DevOps协同工作的注...
DevOps自动化测试的注意事...
DevOps五个好用的工具列表...
IT项目管理实现落地有哪些...
IT项目需求分析重点是建立...


中培IT学院 Copyright@2006-2024  北京中培伟业管理咨询有限公司.ALL Rights Reseved 备案号:京ICP备13024721号-2