入门概念 | AWS Glue 是什么?


  基本概念

AWS Glue 是一项无服务器数据集成服务,可以将其用于分析、机器学习和应用程序开发。同事也是用于编写、运行任务和实施业务工作流程的额外生产力和数据操作工具。

  主要功能

AWS Glue服务,提供发现、准备和集成所有任意规模的数据的功能。
使用 AWS Glue可以发现并连接到 70 多个不同的数据来源,在集中式数据目录中管理数据,并以可视化方式创建、运行和监控 ETL 管道以将数据加载到数据湖中,从而为进一步的数据分析或者是机器学习提供高质量的数据集合。AWS Glue可让数据准备更简单、更快、更便宜。


...

  工作原理

使用 AWS Glue服务可以直观地创建、运行和监控“提取、转换、加载(ETL)”管道,以将数据加载到数据湖中。此外,您可以使用 Amazon Athena、Amazon EMR 和 Amazon Redshift Spectrum 立即搜索和查询已编目数据。此外,AWS Glue 可以轻松地在架构中集成数据,同时它还可以与 AWS 分析服务和 Amazon S3 数据湖集成。


...

  使用方法

1. 添加一个爬网程序来填充 AWS Glue Data Catalog
2. 定义一个作业,该作业描述数据从源到目标的转换
3. 运行作业以转换数据
4. 监控和查看已计划的爬网程序和已触发的作业