北京2026年4月7日 美通社 -- 亚马逊云科技宣布Amazon DevOps Agent现已正式可用。Amazon DevOps Agent是用户全天候随时待命的智能运维助手。它可跨亚马逊云科技、多云及本地环境,快速排查故障、主动预防问题,优化应用可靠性与性能,并高效处理各类SRE任务。
运维团队常因繁琐排障、多工具数据比对、手动分类告警耗费大量时间,挤占创新与战略工作精力。Amazon DevOps Agent可像资深DevOps工程师那样排查问题。它能够学习用户的应用及其相互关系,与用户的可观测工具、运维手册、代码库和CICD管道协同工作,并关联所有这些工具中的遥测数据、代码和部署数据。Amazon DevOps Agent预览版数据显示,客户和合作伙伴的平均修复时间(MTTR)最多可降低75%,排查速度提高80%,根因定位准确率高达94%,故障解决速度提高3至5倍。
自预览版发布以来,众多行业客户已将Amazon DevOps Agent集成到其运维工作流程中。他们已将其与Amazon CloudWatch以及Datadog、Dynatrace、New Relic、Splunk、GitHub、GitLab、ServiceNow和Slack等合作伙伴工具连接起来。在此次正式版发布中,Amazon DevOps Agent又新增对Azure、Azure DevOps、PagerDuty、Grafana等集成的支持,后续将持续拓展集成能力。
Amazon DevOps Agent的工作原理
Amazon DevOps Agent代表了一种新型的前沿Agent自主系统,它们能够独立完成目标,大规模扩展以处理并发任务,并且无需持续的人工干预即可持久运行。Amazon DevOps Agent与用户的运维团队紧密协作,覆盖故障从检测、排查、恢复到预防的全生命周期。
- 自主响应故障:Amazon DevOps Agent会在收到警报后立即开始调查,无论是在凌晨两点还是高峰时段。这可以缩短平均修复时间(MTTR),并快速将应用程序恢复到最佳性能。
- 主动预防事故:Amazon DevOps Agent帮助团队从被动应对突发故障转变为主动改进运营。它分析历史故障中的规律,提供针对性的建议,以预防后续故障发生,并提升流程和系统的弹性。
- 按需处理SRE运维任务:凭借对运行环境的深入了解,Amazon DevOps Agent不仅能通过提问查询,更能深入分析应用环境。用户还可创建、保存和共享自定义图表和报告。
正式版新增功能
Amazon DevOps Agent正式版发布吸取客户反馈,功能全面扩展,进一步提升了用户在多样化运维环境中的故障响应能力,使其更加灵活、智能且易于扩展。
新增更多使用场景
- Azure支持:Amazon DevOps Agent现已扩展到亚马逊云科技环境之外,能够调查Azure工作负载中的故障,可跨多云部署关联数据,为运行在亚马逊云科技、Azure或混合环境中的应用提供统一的故障响应能力。
- 本地部署支持:Amazon DevOps Agent现在使用模型上下文协议(MCP),可对本地部署的应用进行故障排查。它能够通过分析指标、日志与代码发现本地资源,构建完整架构拓扑,实现跨亚马逊云科技、Azure及本地环境的统一故障响应。
- 按需执行SRE任务:通过对话式AI助手可使用自然语言查询应用架构、分析系统健康状况,覆盖亚马逊云科技、多云及本地环境。支持查询资源信息、系统指标、告警状态、部署历史和故障规律,即时获取关联分析结果,还能创建自定义图表和报告,保存并分享给团队成员。
- 分诊Agent:自动评估故障严重程度,识别重复工单。当检测到重复工单时,会将其标记为“已关联”并链接到主排查任务中。关联任务不会自动执行,帮助减少无效告警干扰,让团队集中精力处理核心故障。
智能能力升级
- 技能学习:Amazon DevOps Agent可学习企业的排查模式、工具使用习惯与系统架构,基于团队处理各类故障的方式沉淀专属能力,长期使用后能更高效解决企业特有的运维难题。
- 技能自定义:可添加适配自身系统的排查流程、最佳实践与内部运维知识,工作流一次创建即可在所有相关故障排查中自动复用。技能还可定向分配至不同类型Agent(按需查询、故障分诊、根因分析、故障缓解、效果评估),减少信息干扰,提升处理专注度。
- 代码索引:支持为应用代码仓库建立索引,可理解代码结构,在故障排查中识别潜在缺陷,并在缓解方案中提供代码级修复建议。
全新集成能力
在与现有Datadog、Dynatrace、New Relic、Splunk、GitHub Actions、GitLab CICD和ServiceNow等集成基础上,Amazon DevOps Agent正在添加以下集成功能:
- PagerDuty:原生集成,用于由PagerDuty警报触发的自动故障响应。
- Grafana:内置的Grafana MCP服务器可连接到任意Grafana实例,包括自建实例、Grafana Cloud实例和Amazon Managed Grafana实例。连接后,即可访问该实例下配置的所有数据源,如Prometheus、Loki、OpenSearch等,实现开源监控数据的采集与系统深度分析。
- Azure DevOps:对接Azure Pipelines,可追踪Azure环境中的部署记录与代码变更。
- Amazon EventBridge:排查相关事件可通过Amazon EventBridge获取,用于构建自定义自动化工作流程。
- 新增API:升级了对Amazon CLI、Amazon SDK和Amazon MCP Server的支持。
这些集成将使Amazon DevOps Agent能够无缝融入用户现有的运维工具体系。
企业级功能
- 区域扩展:Amazon DevOps Agent现已覆盖全球六个亚马逊云科技区域,包括北美地区的美国东部(弗吉尼亚)、美国西部(俄勒冈),欧洲地区的法兰克福、爱尔兰,以及亚太地区的悉尼和东京。全球部署让Agent更贴近业务运行环境。既满足数据驻留要求,又降低运维团队操作延迟。
- 私有MCP:可连接私有MCP服务器以对接更多工具。让Amazon DevOps Agent安全访问内部工具、数据和工作流程,基于企业真实环境给出更精准的分析并自主执行操作,机密数据不会通过公网传输。
- 安全能力:Amazon DevOps Agent支持客户托管密钥,并可通过Okta、Microsoft Entra ID等身份提供商直接登录操作员控制台。
- 本地化支持:Amazon DevOps Agent会根据浏览器语言设置自动适配,包括回复内容翻译。全球各地团队均可用偏好语言与之交互。
客户成功案例:首批客户已实现运维效率大幅提升
西部州长大学
西部州长大学(WGU)是一所知名的在线大学,在校生超19.1万人,也是首批将Amazon DevOps Agent投入生产环境的机构之一。作为Dynatrace深度用户,该校用Amazon DevOps Agent与Dynatrace的原生集成,实现Dynatrace故障工单自动转发排查,分析结果直接回传。在最近一次生产环境故障调查中,WGU的SRE团队借助Amazon DevOps Agent将预计2小时的修复时长缩短至28分钟,平均修复时间降低77%。该Agent快速定位Lambda函数配置问题,挖掘出未归档的关键运维信息。WGU计划启用Amazon DevOps Agent Skills功能,有望进一步压缩故障排查耗时。WGU技术运营总监Angel Marchena表示:“它直接找到了关键证据,确认是Amazon Lambda导致的问题。排查指标与前端观测情况高度吻合。此次排查对我们而言是重大胜利。若能持续加快问题定位效率,对企业的价值将难以估量。”
Zenchef
Zenchef是一家餐饮技术平台,它帮助餐厅通过一个免佣金的系统管理预订、餐桌运营、电子菜单、支付和顾客营销。其DevOps团队曾在公司黑客松活动期间,突发面向用户的线上问题,多数工程师正专注于活动,且监控系统未出现明确异常指向。团队仅将问题描述输入Amazon DevOps Agent,由其系统性排查,整个排查仅耗时2030分钟,相较传统人工12小时的处理时长,效率提升约75%。分析结果可直接同步给对应工程师,实现无缝交接。Zenchef平台工程经理Theo Massard表示:“黑客松期间我们几乎无人手可用,而有了Amazon DevOps Agent后也无需额外投入。我们始终力求领先一步,但这类自主排查以往很难实现。Amazon DevOps Agent为我们提供了全新的平台运行状况分析方式。”
T-Mobile
T-Mobile US, Inc.是美国领先的无线运营商之一,为全美超过1.4亿用户提供移动语音、短信和数据服务。T-Mobile技术运营高级副总裁Aravind Manchireddy表示:“亚马逊云科技推出Amazon DevOps Agent之初,T-Mobile就参与其中。作为设计合作伙伴,我们亲眼见证了这款产品如何显著提升生产环境的根因分析效率。我们来自真实业务场景的反馈,也直接推动了产品功能的迭代优化。我们的基础设施覆盖多云和本地机房环境,应用日志统一集中在本地部署的Splunk中。在持续试点过程中,Amazon DevOps Agent能够与Splunk无缝集成,并跨这些复杂环境分析日志,这一点给我们带来了非常大的价值。”
Granola
Granola是一款基于AI的记事本工具,能自动完成录音转写和内容总结。Amazon DevOps Agent与Granola的AI故障管理工作流无缝集成,加快了根因定位速度,并缩短了故障平均恢复时间。Granola产品工程师Eddie Bruce表示:“我们已经把Amazon DevOps Agent直接接入故障响应流程,它会在收到高危CloudWatch告警时自动启动排查。Amazon DevOps Agent的数据库排查能力明显优于我们测试过的其他工具,尤其是在分析PostgreSQL日志、挖掘RDS性能问题方面表现突出。随着我们SRE能力不断扩展,Amazon DevOps Agent已经成为故障管理工具中可靠的组成部分。”
2026-04-07