入门概念 | AWS Glue 数据目录是什么?


  基本概念

AWS Glue 数据目录是 AWS Glue 服务的一个组件,同时它也是一项托管式服务,可用于存储、注释和共享 AWS 云中的元数据。可以使用爬网程序填充 Data Catalog,它会自动扫描您的数据来源并提取元数据。爬网程序可以连接到 AWS 内部(基于 AWS)和外部的数据来源。

  主要功能

元数据存储库
Data Catalog 充当中央元数据存储库,存储有关数据来源的位置、架构和属性的信息。该元数据被组织成数据库和表,类似于传统的关系数据库目录。

自动发现数据
通过对数据来源进行编目,Data Catalog 能让用户和应用程序更轻松地发现和了解组织内的可用数据资产,从而促进数据的重用和协作。

架构管理
可以使用 AWS Glue ETL 任务在 Data Catalog 中更新架构和分区。

表优化
可以使用 AWS Glue 控制台、AWS Lake Formation 控制台、AWS CLI 或 AWS API 为 Data Catalog 中的单个 Iceberg 表启用或禁用压缩。

列统计数据
无需设置其他数据管道,即可为 Parquet、ORC、JSON、ION、CSV 和 XML 等数据格式的 Data Catalog 表计算列级别的统计数据。

数据沿袭
Data Catalog 保留对数据执行的转换和操作的记录,并提供数据沿袭信息。这些沿袭信息对于审核、合规和了解数据的来源非常有价值。


  工作原理

AWS Glue Data Catalog (数据目录)是一个集中式存储库,用于存储有关组织数据集的元数据。它充当数据来源的位置、架构和运行时相关指标的索引。元数据存储在元数据表中,其中每个数据表都代表一个单一数据存储。也可以根据自身的特定要求,通过定义表结构、架构和分区结构在 Data Catalog 中手动创建表。