当前位置:首页 > 生活 >

hadoop能干什么用(hadoop是干什么用的通俗解释)

来源:原点资讯(www.yd166.com)时间:2024-06-01 20:19:13作者:YD166手机阅读>>

1、Hadoop是什么

1.1、小故事版本的解释

小明接到一个任务:计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,小明感觉很轻松。他首先把这个100M的文件拷贝到自己的电脑上,然后写了个计算程序在他的计算机上执行后顺利输出了结果。

后来,小明接到了另外一个任务,计算一个1T(1024G)的文本文件中的单词的个数。再后来,小明又接到一个任务,计算一个1P(1024T)的文本文件中的单词的个数……

面对这样大规模的数据,小明的那一台计算机已经存储不下了,也计算不了这样大的数据文件中到底有多少个单词了。机智的小明上网百度了一下,他在百度的输入框中写下了:大数据存储和计算怎么办?按下回车键之后,出现了有关Hadoop的网页。

看了很多网页之后,小明总结一句话:Hadoop就是存储海量数据和分析海量数据的工具。

1.2、稍专业点的解释

Hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。

MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

1.3、记住下面的话:

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。

2、Hadoop能干什么

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

实际应用:

(1)Flume Logstash Kafka Spark Streaming进行实时日志处理分析

hadoop能干什么用,hadoop是干什么用的通俗解释(1)

(2)酷狗音乐的大数据平台

hadoop能干什么用,hadoop是干什么用的通俗解释(2)

3、怎么使用Hadoop

3.1、Hadoop集群的搭建

无论是在windows上装几台虚拟机玩Hadoop,还是真实的服务器来玩,说简单点就是把Hadoop的安装包放在每一台服务器上,改改配置,启动就完成了Hadoop集群的搭建。

3.2、上传文件到Hadoop集群

Hadoop集群搭建好以后,可以通过web页面查看集群的情况,还可以通过Hadoop命令来上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。

3.3、编写map/reduce程序

通过集成开发工具(例如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序打成jar包扔在集群上执行,运行后出计算结果。

hadoop能干什么用,hadoop是干什么用的通俗解释(3)

,

栏目热文

spark和hadoop的区别(hadoop和spark的相同点和不同点)

spark和hadoop的区别(hadoop和spark的相同点和不同点)

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,...

2024-06-01 20:20:19查看全文 >>

hadoop和spark(hadoop和spark哪个简单点)

hadoop和spark(hadoop和spark哪个简单点)

#Spark 和Hadoop MR 之间有什么区别?# Apache Spark和Hadoop MapReduce(MR...

2024-06-01 20:33:52查看全文 >>

hadoop面试题及答案(hadoop面试常见问题及答案)

hadoop面试题及答案(hadoop面试常见问题及答案)

在某招聘网站2017年上半年各行业薪资调研状况报告中,大数据行业以平均21.2k的月薪高居互联网行业榜首,远远高于其他各...

2024-06-01 20:32:48查看全文 >>

hadoop面试常问问题(98道常见hadoop面试题及答案解析)

hadoop面试常问问题(98道常见hadoop面试题及答案解析)

问题 1:Hadoop是什么?答案:Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的存储和处理。它基于Go...

2024-06-01 20:10:44查看全文 >>

hadoop基础知识(hadoop100个基础知识)

hadoop基础知识(hadoop100个基础知识)

hadoop概述Hadoop这个单词本身并没有什么特殊的含义,而只是其作者Doug Cutting孩子的一个棕黄色的大象...

2024-06-01 20:13:38查看全文 >>

王维代表作最有名的十首(王维最有名的十首诗带图)

王维代表作最有名的十首(王维最有名的十首诗带图)

王维(701-761),字摩诘,盛唐时期的著名诗人,官至尚书右丞,原籍祁(今山西祁县),迁至蒲州(今山西永济),崇信佛教...

2024-06-01 20:52:26查看全文 >>

王维的诗全集三百首(王维诗词全集100首)

王维的诗全集三百首(王维诗词全集100首)

王维简介王维(701年-761年,一说699年—761年),汉族,唐朝河东蒲州(今山西省运城市)人,祖籍山西祁县,唐朝著...

2024-06-01 20:20:51查看全文 >>

沈从文与诺贝尔文学奖(沈从文差一点点得诺贝尔文学奖)

沈从文与诺贝尔文学奖(沈从文差一点点得诺贝尔文学奖)

昨天,2018年、2019年诺贝尔文学奖揭晓,波兰作家奥尔加·托卡尔丘克(Olga Tokarczuk),奥地利作家彼得...

2024-06-01 20:41:03查看全文 >>

历届诺贝尔文学奖的获奖作品(历届诺贝尔文学奖获奖作品一览表)

历届诺贝尔文学奖的获奖作品(历届诺贝尔文学奖获奖作品一览表)

1981年诺贝尔文学奖得主:埃利亚斯·卡内蒂《人的疆域:卡内蒂笔记1942-1985》《眼睛游戏》《耳中火炬》《获救之舌...

2024-06-01 20:15:22查看全文 >>

历届诺贝尔文学奖获奖作品简介(诺贝尔文学奖历年名单及其作品)

历届诺贝尔文学奖获奖作品简介(诺贝尔文学奖历年名单及其作品)

看什么书也很重要,一本好书就是一个好老师,好朋友,这里是诺贝尔获奖作品及其得主的代表作品,时间是从2001年到2023年...

2024-06-01 20:55:13查看全文 >>

文档排行