当前位置:首页 > 影视动漫 >

大数据计算的四种模型(大数据的五大模型)

来源:原点资讯(www.yd166.com)时间:2023-10-26 05:38:34作者:YD166手机阅读>>

大数据计算的四种模型,大数据的五大模型(1)

01离线批处理

这里所说的批处理指的是大数据离线分布式批处理技术,专用于应对那些一次计算需要输入大量历史数据,并且对实时性要求不高的场景。目前常用的开源批处理组件有MapReduce和Spark,两者都是基于MapReduce计算模型的。

1.MapReduce计算模型

MapReduce是Google提出的分布式计算模型,分为Map阶段和Reduce阶段。在具体开发中,开发者仅实现map()和reduce()两个函数即可实现并行计算。Map阶段负责数据切片,进行并行处理,Reduce阶段负责对Map阶段的计算结果进行汇总。

这里举一个通俗的例子帮助你理解。假如现在有3个人想打一种不需要3~6的扑克牌游戏,需要从一副扑克牌中去掉这些牌,过程描述如下:

第一步,将这一副牌随机分成3份,分给3个人,然后每个人一张张查看手中的牌,遇到3~6的牌就挑出去;

第二步,等所有人都完成上面的步骤后,再将每个人手上剩余的牌收集起来。

在这个过程中,第一步操作属于Map阶段,相当于对每张牌做一次判断(映射、函数运算),是否保留;第二步属于Reduce阶段,将结果汇总。

MapReduce数据流图如图1所示。

大数据计算的四种模型,大数据的五大模型(2)

▲图1MapReduce数据流图

MapReduce处理的数据格式为键-值格式,一个MapReduce作业就是将输入数据按规则分割为一系列固定大小的分片,然后在每一个分片上执行Map任务,Map任务相互独立,并行执行,且会在数据所在节点就近执行;当所有的Map任务执行完成后,通过缓存机制将分散在多个节点的键值相同的数据记录拉取到同一节点,完成之后的Reduce任务,最后将结果输出到指定文件系统,比如HDFS、HBase。基于以上解释和描述,可以看出MapReduce不适合实现需要迭代的计算,如路径搜索。

2.Spark

Spark是基于内存计算的大数据并行计算框架,最初由美国加州大学伯克利分校的AMP实验室于2009年开发,于2010年开源,是目前最主流的批处理框架,替代了MapReduce。

整个Spark项目由四部分组成,包括SparkSQL、Spark Streaming、MLlib、Graphx,如图2所示。其中SparkSQL用于OLAP分析,Streaming用于流式计算的(微批形式),MLlib是Spark的机器学习库,Graphx是图形计算算法库。Spark可在Hadoop YARN、Mesos、Kubernetes上运行,可以访问HDFS、Alluxio、Cassandra、HBase等数据源。

大数据计算的四种模型,大数据的五大模型(3)

▲图2Spark组件

Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,支持中间结果仅存储在内存中,大大减少了IO开销,带来了更高的运算效率,并且利用多线程来执行具体的任务,执行速度比MapReduce快一个量级。

在Spark中,Spark应用程序(Application)在集群上作为独立的进程集运行,由主程序(称为Driver)的SparkContext中的对象协调,一个Application由一个任务控制节点(Driver)和若干个作业(Job)构成。Driver是Spark应用程序main函数运行的地方,负责初始化Spark的上下文环境、划分RDD,并生成DAG,控制着应用程序的整个生命周期。Job执行MapReduce运算,一个Job由多个阶段(Stage)构成,一个阶段包括多个任务(Task),Task是最小的工作单元。在集群环境中,Driver运行在集群的提交机上,Task运行在集群的Worker Node上的Executor中。Executor是运行在Spark集群的Worker Node上的一个进程,负责运行Task,Executor既提供计算环境也提供数据存储能力。在执行过程中,Application是相互隔离的,不会共享数据。Spark集群架构示意图如图3所示。

大数据计算的四种模型,大数据的五大模型(4)

首页 12下一页

栏目热文

大数据计算模式分两种(不属于大数据计算模式的类型)

大数据计算模式分两种(不属于大数据计算模式的类型)

Apache Spark 和 Apache Hive 都是大数据处理领域的重要工具。然而,它们之间存在着明显的差异,并且...

2023-10-26 06:02:49查看全文 >>

大数据基础是谁提出来的(大数据是根据什么来显示的)

大数据基础是谁提出来的(大数据是根据什么来显示的)

一、大数据概念最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数...

2023-10-26 05:41:43查看全文 >>

大数据的四种主要计算模式(大数据主要有几种计算模式)

大数据的四种主要计算模式(大数据主要有几种计算模式)

本文转载自 众课帮 公众号1、第三次信息化浪潮的标志是:A、个人电脑的普及B、互联网的普及C、云计算、大数据、物联网技术...

2023-10-26 06:03:47查看全文 >>

什么是大数据建模(大数据建模分为几个阶段)

什么是大数据建模(大数据建模分为几个阶段)

建模字面意思不难理解,就是通过不同企业的特殊需求来建立不同的数据采集模型!前面我们说过运营商大数据具备T 1的时效性和超...

2023-10-26 05:57:37查看全文 >>

大数据预测模型有哪些(大数据模型是什么)

大数据预测模型有哪些(大数据模型是什么)

大数据与计算机技木中的混沌分形模型,主要分以彩票混沌大数据为驱动的红、篮球动静态分式模型和以分形大数据为驱动的红、篮球分...

2023-10-26 06:01:25查看全文 >>

常见的大数据计算模式有哪些

常见的大数据计算模式有哪些

Excel中使用最多的函数应该是求和类函数了,本文给大家总结了excel中的6个求和函数,看看你都用过没有,喜欢的朋友开...

2023-10-26 06:21:05查看全文 >>

大数据计算模式总结(大数据的计算框架有哪几类)

大数据计算模式总结(大数据的计算框架有哪几类)

大数据要实现业务落地的前提,是企业需要搭建起自身的大数据平台,去实现对数据价值的挖掘和应用。根据实际的业务场景需求,不同...

2023-10-26 05:38:30查看全文 >>

大数据计算模式4种的用处(大数据转换操作有哪些)

大数据计算模式4种的用处(大数据转换操作有哪些)

数据与人工智能:共同推动创新与发展数据和人工智能技术的结合,是一次彻底的创新。数据作为新的生产要素,与人工智能技术的生产...

2023-10-26 05:49:15查看全文 >>

大数据计算体系的三个基本层次(大数据计算三个基础层次)

大数据计算体系的三个基本层次(大数据计算三个基础层次)

一、大数据的三个层次和核心解读(一)三个层次和核心我们将大数据分为三个层次。一是容量很大的数据,比如两个仓库都堆满了很多...

2023-10-26 05:43:53查看全文 >>

大数据的典型计算模式(大数据计算模式有哪些)

大数据的典型计算模式(大数据计算模式有哪些)

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要...

2023-10-26 05:58:54查看全文 >>

文档排行