Amazon Athena 是一项交互式查询服务,让用户可以使用标准 SQL 轻松分析 Amazon S3 和其他联合数据源中的数据。用户不需要搭建任何数据库,不需要管理服务器,也不需要在查询前把数据“导入”任何系统。Athena 按查询时扫描的数据量付费。每扫描 1 TB 数据收费 5 美元。查询 1 GB 仅需 0.005 美元。没有按小时收费的闲置费用,没有每月固定成本。具备高可用性,后台自动处理硬件故障,用户无感知。用户只需要有文件存放在 S3 上,无论是 CSV、JSON、Parquet 还是其他常见格式。然后在 AWS 控制台打开 Athena 页面,写一句 SQL 语句,点击运行,结果几秒后返回。整个过程零搭建,零维护。
Amazon Athena 依托开源 Presto 分布式查询引擎运行。执行查询时,Athena 会拉起上千个 Presto 计算节点,并行扫描 S3 上的文件,只读取你 SELECT 语句涉及的列(这叫列式投影)。整个过程如同图书馆的智能检索系统。首先用户在控制台指定 S3 的数据存储路径,并定义好数据表结构;接着提交 SQL 查询指令,Athena 会自动拆分查询任务,调动云端分布式计算资源并行处理,不用人工调配算力。系统会直接读取 S3 中的原始数据,跳过数据迁移、预处理等多余环节,自动完成数据筛选、计算、汇总。面对 PB 级别的海量数据,它也能依靠弹性扩展能力稳定运行,通常数秒内就能返回查询结果。任务结束后,计算资源会自动释放,不会产生闲置开销,全程实现自动化、轻量化的数据查询。
凭借便捷、高效、低成本的优势,Athena 拥有丰富的落地使用场景。电商公司用它快速分析S3中的订单数据,几分钟就能得到结果,不用等ETL流程跑完;市场团队用它分析用户行为日志,直接定位目标用户做精准营销;物联网公司用它查询传感器数据,支持实时监控。对中小团队来说,不用专门的数据工程师,业务人员自己就能用SQL做分析,可以大大节省人力成本。
比如一家电商公司在 Facebook、Google、TikTok 每天投放超 1 万条广告。每个平台每天导出两份 CSV 文件(展示数据、点击数据)。一个月产生 60 × 30 = 1800 个文件,总大小 200 GB。分析师要汇总“上周各平台各广告组的投入产出比”。 用 Excel 手工合并 1800 个文件,一位分析师需要整整两天。用 Athena 写三行 SQL,只扫描上周的 50 GB 文件,成本 0.25 美元,耗时不到 1 分钟。