当前位置:首页 > 影视动漫 >

大数据计算模式总结(大数据的计算框架有哪几类)

来源:原点资讯(www.yd166.com)时间:2023-10-26 05:38:30作者:YD166手机阅读>>

大数据要实现业务落地的前提,是企业需要搭建起自身的大数据平台,去实现对数据价值的挖掘和应用。根据实际的业务场景需求,不同类型的数据,需要不同的计算处理模式。今天我们就来聊聊批处理和流处理两种大数据计算模式。

数据驱动策略的到来,使得企业对自身所拥有的数据资源开始有了更深刻的认识,意识到数据的价值之后,接下来就是要实现对这些数据的价值挖掘。

大数据计算模式总结,大数据的计算框架有哪几类(1)

企业搭建大数据平台,目前行业当中的主流选择,集中在Hadoop(MapReduce)、Spark、Storm、Flink等几个框架上,这其中包括批处理、流处理、以及两者兼具的选择。对于企业而言,就需要根据自身的需求及成本、人力等方面的考虑,来进行技术选型。

批处理模式:

典型的批处理框架就是Apache Hadoop。Hadoop是首个在开源社区获得极大关注的大数据处理框架,其原生的MapReduce引擎,主要采取的“分而治之”的分布式计算模式。

MapReduce,将一个分布式计算过程拆解成两个阶段:

Map阶段,由多个可并行执行的Map Task构成,主要功能是将待处理数据集按照数据量大小切分成等大的数据分片,每个分片交由一个任务处理。

Reduce阶段,由多个可并行执行的Reduce Task构成,主要功能是,对前一阶段中各任务产生的结果进行规约,得到最终结果。

大数据计算模式总结,大数据的计算框架有哪几类(2)

即使过去了这么多年,Hadoop在基础架构上仍然占据重要位置,但是MapReduce引擎,作为Hadoop原生计算引擎,却受到诟病:

比如:编程模型抽象程度较低,仅支持Map和Reduce两种操作;Map的中间结果需要写入磁盘,多个MR之间需要使用HDFS交换数据,不适合迭代计算(机器学习、图计算)等。但是,作为最早的大数据处理引擎,Hadoop MapReduce值得被铭记。

流处理模式:

而流处理模式的代表框架,就不得不提到Apache Storm了。

Storm是一种侧重于低延迟的流处理框架,以近实时方式处理源源不断的流数据。Storm的基本思想是使用spout拉取stream(数据),并使用bolt进行处理和输出,Storm数据处理延时可以达到亚秒级。

批处理 流处理模式:

随着大数据的进一步发展,单纯的批处理与单纯的流处理框架,其实都是不能完全满足企业当下的需求的,由此也就开始了批处理 流处理共同结合的混合处理模式。

批处理 流处理的典型代表框架,那就不得不说Apache Spark。Spark是基于Hadoop MapReduce计算模型的优化,Spark通过内存计算模型和执行优化大幅提高了对数据的处理能力(在不同情况下,速度可以达到MR的10-100倍,甚至更高)。

而Spark的流处理能力,则是由Spark Streaming模块提供的。Spark引入微批次(Micro-Batch)的概念,即把一小段时间内的接入数据作为一个微批次来处理。但是与Storm等原生的流处理系统相比,Spark Streaming的延时会相对高一些。

大数据计算模式总结,大数据的计算框架有哪几类(3)

Apache Flink同样支持流处理和批处理,FLink的设计思想,是“有状态的流计算”,将逐项输入的数据作为真实的流处理,将批处理任务当作一种有界的流来处理。

在目前的流数据处理框架领域,Flink可谓独树一帜。虽然Spark同样也提供了批处理和流处理的能力,但Spark流处理的微批次架构使其响应时间略长。Flink流处理优先的方式实现了低延迟、高吞吐和真正逐条处理,这也是这几年Flink越来越受到重视的原因所在。

关于大数据计算模式,批处理&流处理,以上就为大家做了简单的介绍了。大数据处理,不管是批处理、流处理还是两者结合的混合处理,从根本上来说,还是需要根据不同的数据类型和数据需求来进行技术选型的。

栏目热文

常见的大数据计算模式有哪些

常见的大数据计算模式有哪些

Excel中使用最多的函数应该是求和类函数了,本文给大家总结了excel中的6个求和函数,看看你都用过没有,喜欢的朋友开...

2023-10-26 06:21:05查看全文 >>

大数据计算的四种模型(大数据的五大模型)

大数据计算的四种模型(大数据的五大模型)

01离线批处理这里所说的批处理指的是大数据离线分布式批处理技术,专用于应对那些一次计算需要输入大量历史数据,并且对实时性...

2023-10-26 05:38:34查看全文 >>

大数据计算模式分两种(不属于大数据计算模式的类型)

大数据计算模式分两种(不属于大数据计算模式的类型)

Apache Spark 和 Apache Hive 都是大数据处理领域的重要工具。然而,它们之间存在着明显的差异,并且...

2023-10-26 06:02:49查看全文 >>

大数据基础是谁提出来的(大数据是根据什么来显示的)

大数据基础是谁提出来的(大数据是根据什么来显示的)

一、大数据概念最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,大数据是当前很热的一个词。这几年来,云计算、继而大数...

2023-10-26 05:41:43查看全文 >>

大数据的四种主要计算模式(大数据主要有几种计算模式)

大数据的四种主要计算模式(大数据主要有几种计算模式)

本文转载自 众课帮 公众号1、第三次信息化浪潮的标志是:A、个人电脑的普及B、互联网的普及C、云计算、大数据、物联网技术...

2023-10-26 06:03:47查看全文 >>

大数据计算模式4种的用处(大数据转换操作有哪些)

大数据计算模式4种的用处(大数据转换操作有哪些)

数据与人工智能:共同推动创新与发展数据和人工智能技术的结合,是一次彻底的创新。数据作为新的生产要素,与人工智能技术的生产...

2023-10-26 05:49:15查看全文 >>

大数据计算体系的三个基本层次(大数据计算三个基础层次)

大数据计算体系的三个基本层次(大数据计算三个基础层次)

一、大数据的三个层次和核心解读(一)三个层次和核心我们将大数据分为三个层次。一是容量很大的数据,比如两个仓库都堆满了很多...

2023-10-26 05:43:53查看全文 >>

大数据的典型计算模式(大数据计算模式有哪些)

大数据的典型计算模式(大数据计算模式有哪些)

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要...

2023-10-26 05:58:54查看全文 >>

大数据模型定理(大数据计算的四种模型)

大数据模型定理(大数据计算的四种模型)

谈起大数据技术,很多人都觉得是高大上的一门技术,学起来应该是困难重重!其实对于大数据技术而言,难的不是大数据技术本身,...

2023-10-26 05:59:08查看全文 >>

大数据计算模式主要有几种(大数据计算模式有哪些)

大数据计算模式主要有几种(大数据计算模式有哪些)

大数据架构平台通常由多个组件构成,每个组件负责处理不同的任务和功能。以下是大数据架构平台的常见组件架构以及各组件的功能。...

2023-10-26 05:55:55查看全文 >>

文档排行