入门概念 | Amazon EMR 是什么?


  名称由来

Amazon EMR是一个托管集群平台,可简化大数据框架的运行。Amazon EMR 以前称为 Amazon Elastic MapReduce,这是它的名称的由来。

  基本概念

Amazon EMR 是一种 Web 服务,可以轻松高效地处理大量数据。Amazon EMR支持多种开源工具,如Apache Spark、Apache Hadoop、Apache Hive、Apache HBase、Apache Flink、Apache Hudi和Presto,用于处理海量数据。

  主要功能

Amazon EMR使用这些开源框架和相关的开源项目,进行 PB 级数据处理、交互分析和机器学习。可以处理用于分析目的的数据和业务情报工作负载。Amazon EMR 还允许转换大量数据并移出/移入到其它 AWS 数据存储和数据库中,例如 Amazon Simple Storage Service(Amazon S3)和 Amazon DynamoDB。

  工作原理

Amazon EMR 简化了大数据环境和应用程序的构建和操作。EMR 相关功能包括易于预置、托管扩展和重新配置集群,以及用于协作开发的 EMR Studio。Amazon EMR 能够快速、轻松地预配置所需的容量,以及自动或手动添加和移除容量。

...