入门概念 | Amazon Athena 是什么?


  基本概念

Amazon Athena 是一种交互式查询服务,可帮助分析在 Amazon S3、 本地或云中运行的关系、非关系、对象和自定义数据来源中存储的非结构化、半结构化和结构化数据。数据格式包括,CSV、JSON 或Apache Parquet 和 Apache ORC 等列式数据格。

可以使用 ANSI SQL 通过 Athena 运行临时查询,而无需将数据聚合或加载到 Athena 中。只需在 AWS Management Console 中执行几项操作,即可将 Athena 指向 Amazon S3 中存储的数据,并开始使用标准 SQL 运行临时查询,然后在几秒钟内获得结果。

  主要功能

使用 Amazon Athena 可以灵活轻松地分析包含它的 PB 级数据。

Amazon Athena 能够轻松使用标准 SQL 直接分析 Amazon S3 中的数据。
Amazon Athena 还可使用 Apache Spark 以交互方式轻松运行数据分析,无需规划、配置或管理资源。在 Athena 上运行 Apache Spark 应用程序时,您需要提交 Spark 代码以进行处理并直接接收结果。使用 Amazon Athena 控制台中简化的笔记本体验,以通过 Python 或 Athena 笔记本 API 开发 Apache Spark 应用程序。

  工作原理

Amazon Athena 是一项基于开源框架的无服务器交互式分析服务,支持开源表和文件格式。Athena 提供了一种简化、灵活的方法来分析包含它的 PB 级数据。从 Amazon S3数据湖和超过 30 个数据来源(包括本地数据来源,或使用 SQL 或 Python 的其他云系统)分析数据或构建应用程序。Athena 基于开源 Trino 和 Presto 引擎以及 Apache Spark 框架构建,无需进行预配或配置。


...