AWS Certified Machine Learning - Specialty
2.4 MLS-C01
• 领域1:数据工程(计分内容的20%)
• 领域2:探索性数据分析(计分内容的24%)
• 领域3:建模〈计分内容的36%)
• 领域4:机器学习实施和操作(计分内容的20%)
任务表述1.1:主为ML创建数据存储库。
• 确定数据源〈例如,内容和位置,用户数据等主要来源)。
• 确定存储介质(例如,数据库、AmazonS3、AmazonElasticFileSystem
[AmazonEFS]、AmazonElasticBlockStOre[AmazonEBS])
任务表述1.2:确定并实施数据提取解决方案。
• 确定数据任务方式和任务类型(例如,批量加载、流式处理)。
• 编排数据摄取管道〈基于批处理的ML工作负载和基于流式处理的ML工作
负载)。
⚪AmazonKinesis
⚪AmazonDataFirehose
⚪AmazonEMR
⚪AWSGlue
⚪适用于ApacheFlink的亚马逊托管服务
• 安排任务。
任务表述1.3:确定并实施数据转换解决方案。
• 转换传输中的数据〈ETL、AWSGlue、AmazonEMR、AWSBatch)
• 使用MapReduce处理特定于ML的数据(例如ApacheHadoop、Apache
Spark、ApacheHive)。
任务表述2.1:主清理和准备数据进行建模。
• 确定和处理缺少的数据、损坏的数据和停用词等。
• 格式化、标准化、扩充和扩展数据。
• 确定是否有足够的已标记数据。
⚪确定缓解策略。
⚪使用数据标记工具〈例如,AmazonMechanicalTurk)
任务表述2.2:之执行特征工程。
• 从数据集(包括从文本、语音、图像和公开数据集等数据来源)中识别和提耶
特征。
• 分析和评估特征工程概念〈例如,分箱、令牌化、异常值、合成特征、独热
编码、降低数据维度)。
任务表述2.3:分析和可视化数据,进行ML处理。
• 创建图形(例如,散点图、时间序列图、直方图、箱线图)。
• 解释描述性统计数据(例如,相关性、汇总统计数据、p值)。
• 执行聚类分析(例如,分层分析、诊断、肘图、聚类大小)。
任务表述3.1:主将业务问题转换为ML问题。
• 确定何时使用以及何时不使用MLO
• 了解有监督学习和无监督学习的区别。
• 从分类、回归、预测、聚类、建议以及基础模型中进行选择。
任务表述3.2:为给定ML问题选择相应的模型。
• XGBoost、逻辑回归、k-means、线性回归、决策树、随机森林、
• CNN、集成学习、迁移学习,以及大型语言模型(LLM)
• 表达模型背后的直观感受。
任务表述3.3:训练ML模型。
• 拆分数据分别用于训练和验证(例如,交叉验证)。
• 了解ML训练的优化技术(例如,梯度下降、损失函数、收敛)。
• 选择合适的计算资源(例如GPU或CPU,分布式或非分布式)。
⚪选择合适的计算平台(Spark或非Spark)
• 更新和重新训练模型。
⚪批量或实时/线上
任务表述3.4:执行超参数优化。
• 执行正则化。
⚪随机失活
⚪L1/L2
• 执行交叉验证。
• 初始化模型。
• 了解神经网络架构(层和节点)、学习率、激活函数。
• 了解基于树的模型(树数量、级别数量)。
• 了解线性模型(学习率)。
任务表述3.5:评估ML模型。
• 避免过拟合或欠拟合
⚪检测和处理偏差和方差。
• 评估指标(例如,曲线下面积[AUC]·接受者操作特性[ROC]、准确率、
查准率、查全率、均方根误差[RMSE]、FI分数)。
• 解释混淆矩阵。
• 执行脱机和联机模型评估(A/B测试)。
• 使用指标(例如,训练模型的时间、模型质量、工程成本)比较模型。
• 执行交叉验证。
任务表述4.1:主针对性能、可用性、可扩展性、弹性和容错能力构建ML解决方案。
• 记录和监控AWS环境。
⚪AWSCloudTrail和AmazonCIoudWatch
⚪构建错误监控解决方案。
• 部署到多个AWS区域和多个可用区。
• 创建AMI和黄金映像。
• 创建Docker容器。
• 部署AutoScaling组。
• 合理调整资源大小(例如,实例、预置IOPS、卷)。
• 执行负载均衡。
• 遵循AWS最佳实践。
任务表述4.2:针对给定问题建议和实施相应的ML服务和功能。
• AWS上的机器学习(应用程序服务),例如:
⚪AmazonPOlly
⚪AmazonLex
⚪AmazonTranscribe
⚪AmazonQ
• 了解AWS服务配额。
• 确定何时构建自定义模型以及何时使用AmazonSageMaker内置算法。
• 了解AWS基础设施(例如,实例类型)以及与成本相关的注意事项。
⚪使用竞价型实例通过AWSBatch训练深度学习模型。
任务表述4.3:将基本AWS安全实践应用于ML解决方案。
• AWSldentityandAccessManagement(IAM)
• S3存储桶策略
• 安全组
• VPC
• 加密和匿名化
任务表述4.4:部署和运行ML解决方案。
• 公开终端节点并与之进行交互。
• 了解ML模型。
• 执行A/B测试。
• 重新训练管道。
• 对ML模型进行调试和故障排除。
⚪检测和缓解性能下降。
⚪监控模型性能。