考试大纲 | AWS AIP-C01(测试版)


■ 考试名称

AWS Certified Generative AI Developer – Professional

■ 版本编号

1.0 AIP-C01

■ 考察领域和权重

•内容领域 1:基础模型集成、数据管理和合规性(计分内容的 31%)
•内容领域 2:实施和集成(计分内容的 26%)
•内容领域 3:AI安全、保障与监管(计分内容的 20%)
•内容领域 4:GenAI应用程序的运营效率和优化(计分内容的 12%)
•内容领域 5:测试、验证和故障排除(计分内容的 11%)

■ 领域 1:基础模型集成、数据管理和合规性

任务 1.1:分析需求,设计 GenAI解决方案。
技能 1.1.1:根据具体业务需求和技术限制,创建全面的架构设计(例如,使用
合适的基础模型、集成模式、部署策略)。
技能 1.1.2:开发技术概念验证实施方案,来验证可行性、性能特征和商业价值,
然后进行全面部署(例如,使用 Amazon Bedrock)。
技能 1.1.3:创建标准化技术组件,确保跨多个部署场景中实现一致的实施(例如,
使用 AWS Well-Architected Framework、AWS WA 工具生成式人工智能剖析)。
任务 1.2:选择并配置基础模型。
技能 1.2.1:评估和选择基础模型,确保很好地契合特定的业务使用案例和技术要求
(例如,使用性能基准、能力分析、限制评估等)。
技能 1.2.2:创建灵活的架构模式,可以动态选择模型和切换提供商,而且无需修改
代码(例如,使用 AWS Lambda、Amazon API Gateway、AWS AppConfig)。
技能 1.2.3:设计具备弹性的 AI系统,可确保服务中断期间的持续运行(例如,使用
AWS Step Functions断路器模式,针对在有限区域提供的模型使用 Amazon Bedrock
跨区域推理,跨区域模型部署,优雅降级策略)。
技能 1.2.4:实施基础模型自定义部署和生命周期管理(例如,使用 Amazon
SageMaker人工智能,部署特定于领域的经过微调的模型;低秩自适应 [LoRA] 等
参数-效率自适应技术和用于模型部署的适配器;用于版本控制和部署自定义模型的
SageMaker模型注册表;用于更新模型的自动部署管道;失败部署的回滚策略;
管理生命周期来停用和替换模型)。
任务 1.3:实施数据验证和处理管道,用于基础模型的使用。
技能 1.3.1:创建全面的数据验证工作流,确保数据符合质量标准以便供基础模型
使用(例如,使用 AWS Glue数据质量自动监测功能、 SageMaker Data Wrangler、
自定义 Lambda 函数、 Amazon CloudWatch指标)。
技能 1.3.2:创建数据处理工作流来处理复杂的数据类型,包括文本、图像、音频和表格
数据等,这些数据在用于基础模型时有专门的处理要求(例如,使用 Amazon Bedrock
多模态模型、SageMaker Processing、AWS Transcribe、高级多模态管道架构)。
技能 1.3.3:根据特定于模型的要求,为基础模型推理设置输入数据的格式(例如,为
Amazon Bedrock API 请求使用 JSON格式,适用于 SageMaker人工智能终端节点的
结构化数据准备,为基于对话的应用程序使用对话格式)。
技能 1.3.4:改善输入数据质量以提高基础模型回复的质量和一致性(例如,使用
Amazon Bedrock重新格式化文本,使用 Amazon Comprehend提取实体,使用
Lambda 函数对数据进行标准化)。
任务 1.4:设计和实施向量存储解决方案。
技能 1.4.1:创建专门用于基础模型增强的高级向量数据库架构,实现超越传统搜索
功能的高效语义检索(例如,使用 Amazon Bedrock 知识库实现分层组织;使用
带 Neural 插件的 Amazon OpenSearch Service用于 Amazon Bedrock集成,来进行
基于主题的分割; Amazon RDS 与 Amazon S3文档存储库结合使用; Amazon
DynamoDB与向量数据库结合使用来处理元数据和嵌入)。
技能 1.4.2:开发全面的元数据框架,提高基础模型交互的搜索查准率和上下文感知
能力(例如,使用 S3 对象元数据作为文档时间戳,用于创作者信息的自定义属性,
使用标记系统进行领域分类)。
技能 1.4.3:实施高性能向量数据库架构,来大规模优化语义搜索性能以便用于基础
模型检索(例如,使用 OpenSearch分片策略,针对专用领域的多索引方法,分层
索引技术)。
技能 1.4.4:使用 AWS服务创建集成组件来连接资源(例如,文档管理系统,知识
库,用于 GenAI 应用程序中全面数据集成的内部 wiki)。
技能 1.4.5:设计和部署数据维护系统,确保向量存储包含当前的准确信息,以便
用于基础模型增强(例如,使用递增更新机制、实时更改检测系统、自动同步
工作流、定期刷新管道)。
任务 1.5:设计用于增强基础模型的检索机制。
技能 1.5.1:开发高效的文档分割方法来优化检索性能,用于基础模型上下文增强
(例如,使用 Amazon Bedrock 分块功能,使用 Lambda 函数实施固定大小分块,
根据内容结构采用分层式分块的自定义处理)。
技能 1.5.2:选择和配置优化的嵌入解决方案,为语义搜索高效地创建向量表示
(例如,使用基于维度和领域拟合的 Amazon Titan嵌入,评估 Amazon Bedrock嵌入
模型的性能特征,使用 Lambda 函数批量生成嵌入)。
技能 1.5.3:部署和配置向量搜索解决方案,启用语义搜索功能用于增强基础模型
(例如,使用具有向量搜索功能的 OpenSearch Service,带有 pgvector扩展的
Amazon Aurora,具有托管向量存储功能的 Amazon Bedrock 知识库)。
技能 1.5.4:创建高级搜索架构,提高针对基础模型上下文检索到的信息的相关性和
准确率(例如,使用 OpenSearch 进行语义搜索、结合使用关键字和向量的混合
搜索, Amazon Bedrock重排器模型)。
技能 1.5.5:开发先进的查询处理系统来提高检索有效性和结果质量,以便用于增强
基础模型(例如,使用 Amazon Bedrock 进行查询扩展,使用 Lambda 函数进行查询
分解,使用 Step Functions进行查询转换)。
技能 1.5.6:创建一致的访问机制,实现与基础模型的无缝集成(例如,使用函数
调用接口进行向量搜索,使用模型上下文协议 [MCP]客户端进行向量查询,使用
标准化 API模式进行检索增强)。
任务 1.6:为基础模型交互实施提示工程策略和监管措施。
技能 1.6.1:创建高效的模型指令框架来控制基础模型的行为和输出(例如,使用
Amazon Bedrock提示管理器强制实施角色定义,使用 Amazon Bedrock防护机制
强制实施负责任 AI指导原则,使用模板配置对回复进行格式化处理)。
技能 1.6.2:构建交互式 AI系统用于维护上下文并改善用户与基础模型的互动(例如,
Step Functions可用于澄清工作流, Amazon Comprehend可用于意图识别,
DynamoDB可用于对话历史记录存储)。
技能 1.6.3:实施全面的提示管理和监管系统,对基础模型操作进行监督来确保实现
操作一致性(例如,使用 Amazon Bedrock 提示管理器创建参数化模板和审批
工作流,使用 Amazon S3存储模板存储库,使用 AWS CloudTrail 跟踪使用情况,
使用 Amazon CloudWatch Logs记录访问活动)。
技能 1.6.4:开发质量保证系统,确保基础模型的提示有效性和可靠性(例如,使用
Lambda 函数验证预期输出,使用 Step Functions测试边缘用例,使用 CloudWatch
测试提示回归)。
技能 1.6.5:增强基础模型性能,以迭代方式完善提示,并运用基本提示技巧之外的
技术来提高回复质量(例如,使用结构化输入组件、输出格式规范、思维链指令
模式、反馈循环)。
技能 1.6.6:设计复杂的提示系统,利用基础模型来处理复杂的任务(例如,使用
Amazon Bedrock提示工作流管理器执行顺序提示链,基于模型回复的有条件分支,
可重复使用的提示组件,集成式预处理和后处理步骤)。

■ 领域 2:实施和集成

任务 2.1:实施代理式 AI解决方案和工具集成。
技能 2.1.1:开发智能化的自治系统,具备相应的内存和状态管理功能(例如,
将 Strands Agents与 AWS Agent Squad 结合用于多代理系统,使用 MCP 进行
代理与工具的交互)。
技能 2.1.2:创建高级问题解决系统,赋予基础模型按照结构化推理步骤来分析和
解决复杂问题的能力(例如,使用 Step Functions实施 ReAct 模式和思维链推理
方法)。
技能 2.1.3:开发具有保障措施的 AI工作流,确保实现受控的基础模型行为(例如,
使用 Step Functions实施筛选停用词条件,使用 Lambda 函数实施超时机制,使用
IAM策略强制实施资源边界,使用断路器来防范故障)。
技能 2.1.4:创建先进的模型协调系统,用于优化多种功能的性能(例如,使用专用
基础模型执行复杂任务,使用自定义聚合逻辑进行模型组合,模型选择框架)。
技能 2.1.5:开发协作式 AI系统,利用人员的专业知识增强基础模型能力(例如,
使用 Step Functions协调审核和审批流程,使用 API Gateway实施反馈收集机制,
人工增强模式)。
技能 2.1.6:实施智能工具集成来扩展基础模型功能,确保可靠的工具运行(例如,
使用 Strands API 实施自定义行为,标准化函数定义,使用 Lambda函数实施
错误处理和参数验证方法)。
技能 2.1.7:开发模型扩展框架来增强基础模型能力(例如,使用 Lambda 函数实施
无状态 MCP 服务器,提供轻量级工具访问;使用 Amazon ECS实施 MCP 服务器,
提供复杂的工具,使用 MCP 客户端库来确保一致的访问模式)。
任务 2.2:实施模型部署策略。
技能 2.2.1:根据具体的应用程序需求和性能要求部署基础模型(例如,使用 Lambda
函数进行按需调用,Amazon Bedrock预置吞吐量配置,使用 SageMaker人工智能
终端节点实施混合解决方案)。
技能 2.2.2:部署不同于传统 ML部署的基础模型解决方案,解决大型语言模型 (LLM)
的独特挑战(例如,实施基于容器的部署模型;针对内存要求、GPU利用率和词元
处理能力进行优化;遵循专门的模型加载策略)。
技能 2.2.3:开发优化的基础模型部署方法,平衡 GenAI工作负载的性能和资源需求
(例如,选择合适的模型,针对特定任务使用较小的预训练模型,使用基于 API的
模型级联来执行常规查询)。
任务 2.3:设计和实施企业集成架构。
技能 2.3.1:创建企业连接解决方案,将基础模型功能无缝融入到现有的企业环境中
(例如,对旧式系统使用基于 API的集成,使用事件驱动型架构实施松耦合,数据
同步模式)。
技能 2.3.2:开发集成式 AI功能,使用 GenAI功能增强现有应用程序(例如,使用
API Gateway实施微服务集成,将 Lambda函数用作 Webhook处理程序,使用
Amazon EventBridge实施事件驱动型集成)。
技能 2.3.3:创建安全访问框架,确保实施了适当的安全控制措施(例如,在基础
模型服务和企业系统之间使用身份联合验证,为模型和数据访问使用基于角色的访问
控制,对基础模型采用最低权限 API访问)。
技能 2.3.4:开发跨环境的 AI解决方案,确保在各司法管辖区中的数据合规性,同时
实现基础模型访问控制(例如,使用 AWS Outposts 进行本地数据集成,使用 AWS
Wavelength进行边缘部署,云服务与本地资源之间的安全路由)。
技能 2.3.5:实施 CI/CD管道和 GenAI网关架构,在企业环境中实施安全且合规的
使用模式(例如,使用 AWS CodePipeline、AWS CodeBuild;为持续部署使用
自动化测试框架;使用安全扫描和回滚支持来测试 GenAI组件;集中式抽象层、
可观测性和控制机制)。
任务 2.4:实施基础模型 API集成。
技能 2.4.1:创建灵活的模型交互系统(例如,使用 Amazon Bedrock API 管理来自
各种计算环境的同步请求,使用特定于语言的 AWS SDK和 Amazon SQS进行异步
处理,使用 API Gateway为自定义 API客户端提供请求验证)。
技能 2.4.2:开发实时 AI交互系统,提供来自基础模型的即时反馈(例如,使用
Amazon Bedrock流式传输 API进行递增式回复交付,使用 WebSocket或服务器
发送的事件实时生成文本,使用 API Gateway实施分块传输编码)。
技能 2.4.3:创建具有弹性的基础模型系统来确保可靠运行(例如,使用 AWS SDK
进行指数回退,使用 API Gateway管理速率限制,利用回退机制实现优雅降级,使用
AWS X-Ray提供跨服务边界的可观测性)。
技能 2.4.4:开发智能模型路由系统用以优化模型选择(例如,使用应用程序代码
实施静态路由配置;使用 Step Functions基于内容动态路由到专用基础模型;基于
指标的智能模型路由;使用 API Gateway通过请求转换实现路由逻辑)。
任务 2.5:实施应用程序集成模式和开发工具。
技能 2.5.1:创建基础模型 API接口,满足 GenAI 工作负载的特定要求(例如,使用
API Gateway处理流式回复,词元限制管理,处理模型超时的重试策略)。
技能 2.5.2:开发易于访问的 AI接口来加快基础模型的采用和集成(例如,使用 AWS
Amplify开发声明式 UI 组件,适用于 API优先开发方法的 OpenAPI规范,使用
Amazon Bedrock提示工作流管理器开发无代码工作流构建器)。
技能 2.5.3:创建业务系统增强功能(例如,使用 Lambda 函数实施客户关系管理
[CRM] 增强功能,使用 Step Functions编排文档处理系统,使用 Amazon Q 企业版
数据来源提供内部知识工具,使用 Amazon Bedrock 数据自动化来管理自动数据处理
工作流)。
技能 2.5.4:提高开发人员工作效率,加快 GenAI 应用程序开发工作流的速度(例如,
使用 Amazon Q 开发者版生成和重构代码, API辅助代码建议,AI组件测试,性能
优化)。
技能 2.5.5:开发高级 GenAI应用程序来实施先进的 AI 功能(例如,使用 Strands
Agents 和 AWS Agent Squad 实施 AWS云原生的编排,使用 Step Functions编排代
理设计模式,使用 Amazon Bedrock管理提示链模式)。
技能 2.5.6:提高基础模型应用程序的故障排除效率(例如,使用 CloudWatch Logs
Insights分析提示和回复,使用 X-Ray跟踪 FM API调用,使用 Amazon Q 开发者版
实施特定于 GenAI的错误模式识别)。

■ 领域 3:AI安全、保障与监管

任务 3.1:实施输入和输出安全控制措施。
技能 3.1.1:开发全面的内容安全系统,用于防止有害的用户信息输入到基础模型中
(例如,使用 Amazon Bedrock 防护机制筛选内容,使用 Step Functions和 Lambda
函数实施自定义审核工作流,实时验证机制)。
技能 3.1.2:创建内容安全框架来防止有害输出(例如,使用 Amazon Bedrock防护
机制筛选回复,使用专门的基础模型评估进行内容审核和毒性检测,使用文本到 SQL
的转换来确保获得确定性结果)。
技能 3.1.3:开发准确率验证系统来减少基础模型回复中的幻觉(例如,使用 Amazon
Bedrock 知识库确定回复依据和进行事实核查,通过置信度评分和语义相似度搜索
进行验证,使用 JSON架构强制实现结构化输出)。
技能 3.1.4:创建深度防御安全系统来提供全面的保护,防止基础模型滥用(例如,
使用 Amazon Comprehend开发预处理筛选条件,使用 Amazon Bedrock 实施基于
模型的防护机制,使用 Lambda 函数执行后处理验证,使用 API Gateway实施 API
响应筛选)。
技能 3.1.5:实施高级威胁检测功能,防范对抗输入和安全漏洞(例如,使用提示
注入和越狱检测机制,输入清理和内容筛选条件,安全分类器,自动对抗测试工作流)。
任务 3.2:实施数据安全和隐私控制措施。
技能 3.2.1:开发受保护的 AI环境,确保基础模型部署的全面安全性(例如,使用
VPC端点隔离网络,使用 IAM策略强制执行安全数据访问模式,使用 AWS Lake
Formation 提供精细的数据访问,使用 CloudWatch监控数据访问)。
技能 3.2.2:开发隐私保护系统,在基础模型交互期间保护敏感信息(例如,使用
Amazon Comprehend和 Amazon Macie检测个人身份信息 [PII],Amazon Bedrock
原生的数据隐私功能,使用 Amazon Bedrock防护机制筛选输出,使用 Amazon S3
生命周期配置来实施数据留存策略)。
技能 3.2.3:创建注重保护隐私的 AI系统,在保护用户隐私的同时,确保基础模型的
实用性和有效性(例如,使用数据掩蔽技术, Amazon Comprehend PII 检测,敏感
信息匿名化策略、Amazon Bedrock防护机制)。
任务 3.3:实施 AI监管和合规性机制。
技能 3.3.1:制定合规性框架,确保基础模型部署的监管合规(例如,使用
SageMaker人工智能开发编程式模型卡片,使用 AWS Glue自动跟踪数据血统,
使用元数据标记进行系统化数据来源归因,使用 CloudWatch Logs收集全面的决策
日志)。
技能 3.3.2:实施数据来源跟踪措施,维护 GenAI 应用程序的可追溯性(例如,使用
AWS Glue Data Catalog注册数据来源,使用元数据标记对基础模型生成的内容进行
来源归因,使用 CloudTrail 进行审计日志记录)。
技能 3.3.3:创建企业监管系统,确保以一致的方式监督基础模型实施(例如,使用
符合企业策略、监管要求和负责任 AI原则的综合性框架)。
技能 3.3.4:实施持续监控和高级治理控制措施,支持安全审计,做好监管准备工作
(例如,使用自动化功能,检测滥用、偏差和策略违规行为;监控偏差偏移;自动
报警和补救工作流;词元级编辑;响应日志记录、AI输出策略筛选条件)。
任务 3.4:实施负责任 AI原则。
技能 3.4.1:开发透明的 AI系统用于基础模型输出(例如,使用推理显示提供面向
用户的解释,使用 CloudWatch收集置信度指标并量化不确定性,提供用于来源
归因的证据,使用 Amazon Bedrock代理追踪提供推理跟踪)。
技能 3.4.2:应用公平性评估来确保基础模型输出中没有偏见(例如,使用
CloudWatch中的预定义公平性指标、Amazon Bedrock提示管理器和 Amazon
Bedrock 提示工作流管理器,执行系统化 A/B测试;使用 LLM-asa-Judge解决方案
执行自动模型评估)。
技能 3.4.3:开发符合策略要求的 AI系统,确保遵循负责任 AI实践(例如,根据策略
要求使用 Amazon Bedrock防护机制,使用模型卡片记录基础模型限制,使用
Lambda 函数自动执行合规性检查)。

■ 领域 4:GenAI应用程序的运营效率和优化

任务 4.1:实施成本优化和资源效率策略。
技能 4.1.1:开发词元效率系统来降低基础模型成本,同时保持模型有效性(例如,
使用词元估算和跟踪、上下文窗口优化、响应大小控制、提示压缩、上下文修剪、
回复限制)。
技能 4.1.2:创建经济高效的模型选择框架(例如,使用成本-能力权衡评估,基于
查询复杂度的分级基础模型使用,推理成本与回复质量的平衡,性价比测量,高效的
推理模式)。
技能 4.1.3:开发高性能基础模型系统,充分提高 GenAI工作负载的资源利用率和
吞吐量(例如,使用批处理策略、容量规划、使用率监控、弹性伸缩配置、预置吞吐
量优化)。
技能 4.1.4:创建智能缓存系统,通过避免不必要的基础模型调用来降低成本并缩短
响应时间(例如,使用语义缓存、结果指纹识别、边缘缓存、确定性请求哈希、提示
缓存)。
任务 4.2:优化应用程序性能。
技能 4.2.1:创建响应灵敏的 AI 系统,解决延迟与成本的权衡问题,并改善基础模型
的用户体验(例如,使用预计算来执行可预测的查询,为注重时间的应用程序使用
延迟优化的 Amazon Bedrock 模型,为复杂工作流使用并行请求,回复流式传输,
性能基准测试)。
技能 4.2.2:增强检索性能,提高检索信息的相关性和速度,用以增强基础模型
上下文(例如,使用索引优化、查询预处理、带自定义评分的混合搜索实施方案)。
技能 4.2.3:实施基础模型吞吐量优化,解决 GenAI工作负载的特定吞吐量挑战(例如,
使用词元处理优化、批量推理策略、并行模型调用管理)。
技能 4.2.4:增强基础模型性能,针对特定 GenAI 使用案例实现优化结果(例如,
使用特定于模型的参数配置,通过 A/B测试评估改进,适当的温度处理,以及根据
要求进行 top-k/top-p 选择)。
技能 4.2.5:创建专用于基础模型工作负载的高效资源分配系统(例如,根据词元
处理需求使用容量规划,对提示和完成模式的资源利用率进行监控,针对 GenAI流量
模式进行优化的弹性伸缩配置)。
技能 4.2.6:优化 GenAI工作流的基础模型系统性能(例如,针对提示-完成模式使用
API调用分析,针对检索增强的向量数据库查询优化,特定于 LLM推理的缩短延迟
技术,高效的服务通信模式)。
任务 4.3:为 GenAI应用程序实施监控系统。
技能 4.3.1:创建全面的可观测性系统,提供对基础模型应用程序性能的全面监测能
力(例如,使用运营指标、性能跟踪、基础模型交互跟踪、业务影响指标和自定义
控制面板)。
技能 4.3.2:施全面的 GenAI监控系统,主动识别问题,评估特定于基础模型实施的
关键绩效指标(例如,使用 CloudWatch跟踪词元使用情况、提示有效性、幻觉率和
回复质量;针对词元爆发模式和回复偏差的异常检测;使用 Amazon Bedrock 模型
调用日志进行详细的请求和回复分析、确定性能基准、成本异常检测)。
技能 4.3.3:开发集成的可观测性解决方案,为基础模型应用程序提供可用于指导
操作的见解(例如,使用运营指标控制面板,业务影响力可视化,合规性监控,
取证可追溯性和审计日志记录,用户互动跟踪、模型行为模式跟踪)。
技能 4.3.4:创建工具性能框架来确保为基础模型优化工具操作和利用率(例如,
使用调用模式跟踪,收集性能指标,工具调用可观测性和多代理协调跟踪,用于异常
检测的使用率基准)。
技能 4.3.5:创建向量存储操作管理系统,确保优化向量存储操作和可靠性,用于
增强基础模型(例如,对向量数据库使用性能监控,自动化索引优化例程,数据质量
验证流程)。
技能 4.3.6:开发特定于基础模型的故障排除框架,用于识别传统 ML系统中没有的
GenAI独有故障模式(例如,使用黄金数据集检测幻觉,使用输出差异对比技术开展
回复一致性分析,通过推理路径跟踪来识别逻辑错误,专用可观测性管道)。

■ 领域 5:测试、验证和故障排除

任务 5.1:为 GenAI实施评估系统。
技能 5.1.1:制定全面的评估框架,在传统 ML的评估方法之外,利用新方法来评估
基础模型输出的质量和有效性(例如,使用相关性、事实准确率、一致性和流畅性指标)。
技能 5.1.2:创建系统化模型评估系统来确定优化配置(例如,使用 Amazon Bedrock
模型评估、A/B测试和基础模型的金丝雀测试,多模型评估,通过成本性能分析来
衡量词元效率,延迟-质量比率和业务成果)。
技能 5.1.3:开发以用户为中心的评估机制,根据用户体验持续改进基础模型性能
(例如,使用反馈界面,针对模型输出的评级系统,用于评估回复质量的注释工作流)。
技能 5.1.4:创建系统化质量保证流程,维护一致的基础模型性能标准(例如,使用
持续评估工作流,对模型输出进行回归测试,部署自动化质量控制机制)。
技能 5.1.5:开发全面的评估系统,确保从多个角度对基础模型输出进行全面评估
(例如,使用 RAG 评估,使用 LLM-asa-Judge技术进行自动质量评估,人员反馈
收集界面)。
技能 5.1.6:实施检索质量测试,评估和优化检索组件来增强基础模型(例如,使用
相关性评分,上下文匹配验证,检索延迟测量)。
技能 5.1.7:开发代理性能框架,确保代理高效且正确地执行任务(例如,任务
完成率量度,工具使用有效性评估,Amazon Bedrock代理评估,多步骤工作流中的
推理质量评估)。
技能 5.1.8:创建全面的报告系统,高效地向利益攸关方传递绩效指标和见解,用于
实施基础模型(例如,使用可视化工具,自动报告机制,模型比较可视化)。
技能 5.1.9:创建部署验证系统,用于在基础模型更新期间保持可靠性(例如,使用
合成用户工作流,针对幻觉率和语义漂移的 AI 特定输出验证,通过自动质量检查确保
回复一致性)。
任务 5.2:对 GenAI应用程序进行故障排除。
技能 5.2.1:解决内容处理问题,确保在基础模型交互中完善地处理必要的信息(例如,
使用上下文窗口溢出诊断、动态分块策略、提示设计优化、与截断相关的错误分析)。
技能 5.2.2:诊断和解决基础模型集成问题,识别并修复特定于 GenAI服务的 API
集成问题(例如,使用错误日志记录、请求验证、回复分析)。
技能 5.2.3:对提示工程问题进行故障排除,利用基本提示调整之外的方法,提高
基础模型的回复质量和一致性(例如,使用提示测试框架、版本比较、系统化改进)。
技能 5.2.4:对检索系统问题进行故障排除,识别并解决影响信息检索有效性的问
题,来增强基础模型(例如,使用模型回复相关性分析、嵌入质量诊断、漂移监控、
向量化问题解决、分块和预处理补救、向量搜索性能优化)。
技能 5.2.5:对提示维护问题进行故障排除,来持续改进基础模型交互的性能(例如,
使用模板测试和 CloudWatch Logs来诊断提示混淆,使用 X-Ray实施提示可观测性
管道,使用架构验证来检测格式不一致的情况,使用系统化提示优化工作流)。