什么是 Hadoop?

什么是 Hadoop?

什么是 Hadoop?

Apache Hadoop 是一种开源框架,用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop,您可以将多台计算机组成集群以便更快地并行分析海量数据集,而不是使用一台大型计算机来存储和处理数据。

Hadoop 的四个主要模块是什么?

Hadoop 由四个主要模块组成:

Hadoop 分布式文件系统 (HDFS)—一个在标准或低端硬件上运行的分布式文件系统。除了更高容错和原生支持大型数据集,HDFS 还提供比传统文件系统更出色的数据吞吐量。

Yet Another Resource Negotiator (YARN)—管理与监控集群节点和资源使用情况。它会对作业和任务进行安排。

MapReduce—一个帮助计划对数据运行并行计算的框架。该 Map 任务会提取输入数据,转换成能采用键值对形式对其进行计算的数据集。Reduce 任务会使用 Map 任务的输出来对输出进行汇总,并提供所需的结果。

Hadoop Common—提供可在所有模块上使用的常见 Java 库。

Hadoop 的工作原理是什么?

Hadoop 让利用集群服务器中的全部存储和处理能力,针对大量数据执行分布式处理变得更简单。Hadoop 提供构建基块,然后在其上方构建其他服务和应用程序。

要收集各种格式数据的应用程序可以通过 API 操作连接到 NameNode,以便将数据放置到 Hadoop 集群当中。对于在 DataNodes 上重复的每个文件的“组块”,NameNode 会对它们的文件目录结构和位置进行追踪。要运行任务来查询数据,提供一个由众多 Map 和 Reduce 任务组成的 MapReduce 作业,而这些任务针对分散在 DataNodes 的 HDFS 中的数据运行。Map 任务在每个节点上针对提供的输入文件运行,而 Reduce 任务则会运行以汇总与整理最终的输出。

Hadoop 生态系统是如何演变的?

由于它的可延展性,Hadoop 生态系统多年来经历了迅猛发展。现在,Hadoop 生态系统包含众多工具和应用程序,可用来帮助收集、存储、处理、分析和管理大数据。部分最受欢迎的应用程序包括:

Spark — 一种开源的分布式处理系统,通常用于大数据工作负载。Apache Spark 利用内存中缓存和经过优化的执行方式以实现高速性能,并支持常规批处理、流式分析、机器学习、图形数据库和临时查询。

Presto — 一种开源的分布式 SQL 查询引擎,针对数据的低延迟临时分析进行了优化。它支持 ANSI SQL 标准,包括复杂查询、聚合、连接和窗口函数。Presto 可处理来自多个数据源(包括 Hadoop 分布式文件系统 [HDFS] 和 Amazon S3)的数据。

Hive — 允许用户使用 SQL 接口利用 Hadoop MapReduce,实现大规模分析,此外还支持分布式和容错数据仓库。

HBase — 一种开源、非关系、版本控制的数据库,在亚马逊 S3(使用 EMRFS)或 Hadoop 分布式文件系统(HDFS)之上运行。HBase 是一种可大规模扩展的分布式大数据存储,专门为随机、严格一致性地实时访问具有数十亿行和数百万列的表而定制。

Zeppelin—一种可实现交互式数据探索的交互式笔记本。

AWS 如何支持您的 Hadoop 要求?

Amazon EMR 是一项托管服务,让您可以使用最新版本的大数据处理框架(如 Apache Hadoop、Spark、HBase 和 Presto)在完全可定制的集群上处理和分析大型数据集。

易于使用:您可以迅速启动 Amazon EMR 集群。您不必担心节点调配、集群设置、Hadoop 配置或集群调试。

低成本:Amazon EMR 定价简单,预估轻松:您将按照每个使用的实例小时支付小时费率,还可以使用 Spot 实例实现更多节省。

弹性:使用 Amazon EMR,您可以配置一个、数百个或者甚至数千个任意大小的计算实例来处理数据。

瞬态:您可以使用 EMRFS 并且根据持久存储于 Amazon S3 中的 HDFS 数据按需运行集群。当作业结束时,您可以关闭集群,并将数据保存到 Amazon S3 当中。您只需要为集群运行时的计算时间付费。

安全:Amazon EMR 具有 AWS 服务的全部常见的安全特性:

通过 Identity and Access Management (IAM) 角色和策略管理权限。

传输中和静态加密帮助您保护数据,并符合合规性标准,如 HIPAA。

通过安全组控制您的集群节点的入站和出站网络流量。

AWS CloudTrail:对在您的账户中发起的全部 Amazon EMR PI 调用进行审计,以便提供安全分析、资源更改追踪和合规性审计。

立即创建账户,开始在 AWS 上使用 Hadoop。

相关推荐

合作伙伴