AWS Certified Data Engineer - Associate
1.1 DEA-C01
• 领域 1: 数据摄取和转换(占评分内容的 34%)
• 领域 2: 数据存储管理(占评分内容的 26%)
• 领域 3: 数据操作和支持(占评分内容的 22%)
• 领域 4: 数据安全与治理(占评分内容的 18%)
任务表述 1.1: 执行数据摄取。
掌握以下知识:
• 用于摄取数据的 AWS 服务的吞吐量和延迟特性
• 数据摄取模式(例如,频率和数据历史记录)
• 流数据摄取
• 批量数据摄取(例如,计划的摄取、事件驱动的摄取)
• 数据摄取管道的可重放性
• 有状态和无状态数据事务
具备以下技能:
• 从流数据源(例如,Amazon Kinesis、Amazon Managed Streaming for
Apache Kafka [Amazon MSK]、Amazon DynamoDB Streams、
AWS Database Migration Service [AWS DMS]、AWS Glue、
Amazon Redshift)读取数据
• 从批量数据源(例如,Amazon S3、AWS Glue、Amazon EMR、AWS DMS、
Amazon Redshift、AWS Lambda、Amazon AppFlow)读取数据
• 为批量摄取实施相应的配置选项
• 使用数据 API
• 使用 Amazon EventBridge、Apache Airflow 或基于时间的任务和爬网程序
计划设置调度器
• 设置事件触发器(例如,Amazon S3 事件通知、EventBridge)
• 从 Amazon Kinesis 中调用 Lambda 函数
• 为 IP 地址创建允许列表来允许连接到数据源
• 实施限流和解决速率限制问题(例如,DynamoDB、Amazon RDS、Kinesis)
• 管理流数据分配的扇入和扇出
任务表述 1.2: 转换和处理数据。
掌握以下知识:
• 根据业务需求创建 ETL 管道
• 数据数量、速度和种类(例如,结构化数据、非结构化数据)
• 云计算和分布式计算
• 如何使用 Apache Spark 处理数据
• 中间数据暂存位置 具备以下技能:
• 根据性能需求优化容器使用情况(例如,Amazon Elastic Kubernetes Service
[Amazon EKS]、Amazon Elastic Container Service [Amazon ECS])
• 连接到不同的数据源(例如,Java 数据库连接 [JDBC]、开放式数据库连接
[ODBC])
• 整合来自多个来源的数据
• 在处理数据时优化成本
• 根据要求实施数据转换服务(例如,Amazon EMR、AWS Glue、Lambda、
Amazon Redshift)
• 在不同格式之间转换数据(例如,从 .csv 转换到 Apache Parquet)
• 对常见的转换失败和性能问题进行故障排除和调试
• 创建数据 API,通过 AWS 服务向其他系统提供数据
任务表述 1.3: 编排数据管道。
掌握以下知识:
• 如何集成各种 AWS 服务来创建 ETL 管道
• 事件驱动型架构
• 如何根据计划或依赖项为数据管道配置 AWS 服务
• 无服务器工作流
具备以下技能:
• 使用编排服务为 ETL 数据管道构建工作流(例如,Lambda、EventBridge、
Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、
AWS Step Functions、AWS Glue 工作流)
• 构建数据管道来提高性能、可用性、可扩展性、恢复能力和容错能力
• 实施和维护无服务器工作流
• 使用通知服务发送警报(例如,Amazon Simple Notification Service
[Amazon SNS]、Amazon Simple Queue Service [Amazon SQS])
任务表述 1.4: 应用编程概念。
掌握以下知识:
• 持续集成和持续交付 (CI/CD)(实施、测试和部署数据管道)
• SQL 查询(用于数据源查询和数据转换)
• 用于可重复部署的基础设施即代码 (IaC)(例如,AWS Cloud Development Kit [AWS CDK]、AWS CloudFormation)
• 分布式计算
• 数据结构和算法(例如,图形数据结构和树数据结构)
• SQL 查询优化
具备以下技能:
• 优化代码来减少数据摄取和转换的运行时间
• 配置 Lambda 函数来满足并发性和性能需求
• 执行 SQL 查询来转换数据(例如,Amazon Redshift 存储过程)
• 构建 SQL 查询来满足数据管道要求
• 使用 Git 命令执行创建、更新、克隆和分支存储库等操作
• 使用 AWS Serverless Application Model (AWS SAM) 打包和部署无服务器
数据管道(例如,Lambda 函数、Step Functions、DynamoDB 表)
• 从 Lambda 函数中使用和挂载存储卷
任务表述 2.1: 选择数据存储。
掌握以下知识:
• 存储平台及其特性
• 满足特定性能要求的存储服务和配置
• 数据存储格式(例如,.csv、.txt、Parquet)
• 如何将数据存储与数据迁移要求保持一致
• 如何为特定访问模式确定相应的存储解决方案
• 如何管理锁定来防止访问数据(例如,Amazon Redshift 和 Amazon RDS)
具备以下技能:
• 根据特定成本和性能要求实施相应的存储服务(例如,Amazon Redshift、
Amazon EMR、AWS Lake Formation、Amazon RDS、DynamoDB、
Amazon Kinesis Data Streams、Amazon MSK)
• 根据特定访问模式和要求配置相应的存储服务(例如,Amazon Redshift、
Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)
• 将存储服务应用于相应的使用案例(例如,Amazon S3)
• 将迁移工具集成到数据处理系统(例如,AWS Transfer Family)
• 实施数据迁移或远程访问方法(例如,Amazon Redshift 联合查询、
Amazon Redshift 物化视图、Amazon Redshift Spectrum)
任务表述 2.2: 了解数据编目系统。
掌握以下知识:
• 如何创建数据目录
• 根据要求对数据进行分类
• 元数据和数据目录的组成部分
具备以下技能:
• 通过数据目录使用数据源中的数据
• 构建和引用数据目录(例如,AWS Glue 数据目录、Apache Hive 元存储)
• 查找架构并使用 AWS Glue 爬网程序填充数据目录
• 将分区与数据目录同步
• 创建新的源或目标连接进行编目(例如,AWS Glue)
任务表述 2.3: 管理数据的生命周期。
掌握以下知识:
• 利用相应的存储解决方案来满足冷热数据要求
• 如何根据数据生命周期优化存储成本
• 如何删除数据来满足业务和法律要求
• 数据留存策略和归档策略
• 如何使用相应的恢复能力和可用性保护数据
具备以下技能:
• 执行加载和卸载操作以在 Amazon S3 和 Amazon Redshift 之间移动数据
• 管理 S3 生命周期策略来更改 S3 数据的存储层
• 使用 S3 生命周期策略使数据在到达特定期限时过期
• 管理 S3 版本控制和 DynamoDB TTL
任务表述 2.4: 设计数据模型和架构演变。
掌握以下知识:
• 数据建模概念
• 如何使用数据沿袭确保数据的准确性和可信度
• 索引编制、分区策略、压缩和其他数据优化技术的最佳实践
• 如何为结构化数据、半结构化数据和非结构化数据建模
• 架构演变技术
具备以下技能:
• 为 Amazon Redshift、DynamoDB 和 Lake Formation 设计架构
• 解决数据特性变化问题
• 执行架构转换(例如,使用 AWS Schema Conversion Tool [AWS SCT] 和
AWS DMS Schema Conversion)
• 使用 AWS 工具(例如,Amazon SageMaker ML Lineage Tracking)
确定数据沿袭
任务表述 3.1: 使用 AWS 服务自动处理数据。
掌握以下知识:
• 如何维护数据处理和排除故障来获得可重复的业务结果
• 用于数据处理的 API 调用
• 哪些服务接受脚本(例如,Amazon EMR、Amazon Redshift、AWS Glue)
具备以下技能:
• 编排数据管道(例如,Amazon MWAA、Step Functions)
• 故障排除 Amazon 托管工作流故障
• 通过代码调用 SDK 来访问 Amazon 功能
• 使用 AWS 服务功能处理数据(例如,Amazon EMR、Amazon Redshift、
AWS Glue)
• 使用和维护数据 API
• 准备数据转换(例如,AWS Glue DataBrew)
• 查询数据(例如,Amazon Athena)
• 使用 Lambda 自动处理数据
• 管理事件和调度器(例如 EventBridge)
任务表述 3.2: 使用 AWS 服务分析数据。
掌握以下知识:
• 权衡预置的服务和无服务器服务的利弊
• SQL 查询(例如,带有多个限定符或 JOIN 子句的 SELECT 语句)
• 如何将数据可视化来进行分析
• 何时以及如何应用清理技术
• 数据聚合、滚动平均值、分组和透视
具备以下技能:
• 使用 AWS 服务和工具(例如,AWS Glue DataBrew、Amazon QuickSight)
对数据进行可视化
• 验证和清理数据(例如,Lambda、Athena、QuickSight、
Jupyter Notebooks、Amazon SageMaker Data Wrangler)
• 使用 Athena 查询数据或创建视图
• 使用通过 Apache Spark 查找数据的 Athena 笔记本
任务表述 3.3: 维护和监控数据管道。
掌握以下知识:
• 如何记录应用程序数据
• 性能优化的最佳实践
• 如何记录对 AWS 服务的访问
• Amazon Macie、AWS CloudTrail 和 Amazon CloudWatch
具备以下技能:
• 提取日志来进行审核
• 部署日志记录和监控解决方案以便于审核和追溯
• 在监控期间使用通知发送警报
• 故障排除性能问题
• 使用 CloudTrail 跟踪 API 调用
• 对管道进行故障排除和维护(例如,AWS Glue、Amazon EMR)
• 使用 Amazon CloudWatch Logs 记录应用程序数据(侧重于配置和自动化)
• 使用 AWS 服务(例如,Athena、Amazon EMR、
Amazon OpenSearch Service、CloudWatch Logs Insights、
大数据应用程序日志)分析日志
任务表述 3.4: 确保数据质量。
掌握以下知识:
• 数据采样技术
• 如何实施数据偏斜机制
• 数据验证(数据完整性、一致性和准确性)
• 数据分析
具备以下技能:
• 在处理数据时,运行数据质量检查(例如,检查空字段)
• 定义数据质量规则(例如,AWS Glue DataBrew)
• 调查数据一致性(例如,AWS Glue DataBrew)
任务表述 4.1: 应用身份验证机制。
掌握以下知识:
• VPC 安全联网概念
• 托管服务和非托管服务之间的差异
• 身份验证方法(基于密码、基于证书和基于角色)
• AWS 托管策略和客户托管策略之间的差异
具备以下技能:
• 更新 VPC 安全组
• 创建和更新 IAM 组、角色、终端节点和服务
• 创建和轮换凭证来管理密码(例如,AWS Secrets Manager)
• 设置 IAM 角色来进行访问(例如,Lambda、Amazon API Gateway、
AWS CLI、CloudFormation)
• 将 IAM 策略应用于角色、终端节点和服务(例如,S3 访问点、
AWS PrivateLink)
任务表述 4.2: 应用授权机制。
掌握以下知识:
• 授权方法(基于角色、基于策略、基于标签和基于属性)
• 适用于 AWS 安全性的最低权限原则
• 基于角色的访问控制和预期的访问模式
• 保护数据来防止在服务中进行未经授权访问的方法
具备以下技能:
• 在托管策略不满足需求时创建自定义 IAM 策略
• 存储应用程序和数据库凭证(例如,Secrets Manager、
AWS Systems Manager Parameter Store)
• 在数据库中为数据库用户、组和角色提供访问权限和授权(例如,
适用于 Amazon Redshift)
• 通过 Lake Formation 管理权限(适用于 Amazon Redshift、Amazon EMR、
Athena 和 Amazon S3)
任务表述 4.3: 确保数据加密和脱敏。
掌握以下知识:
• AWS 分析服务(例如,Amazon Redshift、Amazon EMR、AWS Glue)
中提供的数据加密选项
• 客户端加密和服务器端加密之间的差异
• 保护敏感数据
• 数据匿名化、脱敏和密钥加盐
具备以下技能:
• 根据合规法律或公司策略应用数据脱敏和匿名化
• 使用加密密钥加密或解密数据(例如,AWS Key Management Service [AWS
KMS])
• 配置跨 AWS 账户边界的加密
• 为数据启用传输中加密功能。
任务表述 4.4: 准备日志进行审核。
掌握以下知识:
• 如何记录应用程序数据
• 如何记录对 AWS 服务的访问
• 集中式 AWS 日志
具备以下技能:
• 使用 CloudTrail 跟踪 API 调用
• 使用 CloudWatch Logs 存储应用程序日志
• 使用 AWS CloudTrail Lake 进行集中式日志记录查询
• 使用 AWS 服务(例如,Athena、CloudWatch Logs Insights、
Amazon OpenSearch Service)分析日志
• 集成各种 AWS 服务来执行日志记录(例如,在具有大量日志数据时
集成 Amazon EMR)
任务表述 4.5: 了解数据隐私和监管。
掌握以下知识:
• 如何保护个人身份信息 (PII)
• 数据主权
具备以下技能:
• 授予数据共享权限(例如,Amazon Redshift 数据共享)
• 实施 PII 识别(例如,将 Macie 与 Lake Formation 一起使用)
• 实施数据隐私策略来防止将数据备份或复制到不允许的 AWS 区域
• 管理在账户中发生的配置更改(例如 AWS Config)