初学入门 | 秒懂 Amazon Athena_AWS认证实战培训

基本概述

Amazon Athena 是一项交互式查询服务，让用户可以使用标准 SQL 轻松分析 Amazon S3 和其他联合数据源中的数据。用户不需要搭建任何数据库，不需要管理服务器，也不需要在查询前把数据“导入”任何系统。Athena 按查询时扫描的数据量付费。每扫描 1 TB 数据收费 5 美元。查询 1 GB 仅需 0.005 美元。没有按小时收费的闲置费用，没有每月固定成本。具备高可用性，后台自动处理硬件故障，用户无感知。用户只需要有文件存放在 S3 上，无论是 CSV、JSON、Parquet 还是其他常见格式。然后在 AWS 控制台打开 Athena 页面，写一句 SQL 语句，点击运行，结果几秒后返回。整个过程零搭建，零维护。

工作原理

Amazon Athena 依托开源 Presto 分布式查询引擎运行。执行查询时，Athena 会拉起上千个 Presto 计算节点，并行扫描 S3 上的文件，只读取你 SELECT 语句涉及的列（这叫列式投影）。整个过程如同图书馆的智能检索系统。首先用户在控制台指定 S3 的数据存储路径，并定义好数据表结构；接着提交 SQL 查询指令，Athena 会自动拆分查询任务，调动云端分布式计算资源并行处理，不用人工调配算力。系统会直接读取 S3 中的原始数据，跳过数据迁移、预处理等多余环节，自动完成数据筛选、计算、汇总。面对 PB 级别的海量数据，它也能依靠弹性扩展能力稳定运行，通常数秒内就能返回查询结果。任务结束后，计算资源会自动释放，不会产生闲置开销，全程实现自动化、轻量化的数据查询。

使用场景

凭借便捷、高效、低成本的优势，Athena 拥有丰富的落地使用场景。电商公司用它快速分析S3中的订单数据，几分钟就能得到结果，不用等ETL流程跑完；市场团队用它分析用户行为日志，直接定位目标用户做精准营销；物联网公司用它查询传感器数据，支持实时监控。对中小团队来说，不用专门的数据工程师，业务人员自己就能用SQL做分析，可以大大节省人力成本。

比如一家电商公司在 Facebook、Google、TikTok 每天投放超 1 万条广告。每个平台每天导出两份 CSV 文件（展示数据、点击数据）。一个月产生 60 × 30 = 1800 个文件，总大小 200 GB。分析师要汇总“上周各平台各广告组的投入产出比”。用 Excel 手工合并 1800 个文件，一位分析师需要整整两天。用 Athena 写三行 SQL，只扫描上周的 50 GB 文件，成本 0.25 美元，耗时不到 1 分钟。