最新功能
自定义模板编辑器支持单步调试
2024.09.01
系统运维管理(CloudOps Orchestration Service,简称:OOS)是一组系统管理工具的集合,它包含多种系统管理的自动化工具,包括自动化任务(支持批量操作、定时任务、任务模板、跨地域运维等,也可提供重要运维场景的审批、通知等功能)、补丁管理、参数管理、配置清单等,提升对ECS、RDS、SLB等多种云产品的编排效率。OOS支持开源工具Terraform进行管理和操作。您可以免费使用系统运维管理对云产品或资源进行编排和管理,即OOS本身不收费,但是需要对使用的云资源付费。
免费的全托管自动化
提供全托管的自动化执行,即无服务器(Serverless)的自动化执行。执行过程无须消耗和使用您的计算资源(如 ECS 实例),即可满足创业型公司、中小型企业以及大型企业客户的自动化运维需求。完全的自动化模式下无需人工守护,让您更加专注于业务的高速增长。
高效的批量管理
传统场景下,执行批量任务相比执行单一任务的管理复杂度大幅增加,OOS 可以帮助您提供实时的进度管理、运行状况统计和快速的错误定位,从而提高整体的运维效率。
标准化运维任务
将日常所需要的运维任务以模板的方式提供,并遵循代码(Code)的管理方式来管理模板。从创建到审核,再同步到生产账号中,后续的运维任务只从标准模板中选择运行,确保运维动作的安全,像源代码一样的规范,并以此完成运维即代码(Operations as Code)的最佳实践。
补丁管理,自动修复安全问题
OOS 的补丁管理支持系统补丁和软件包的自动扫描与更新,满足企业的安全合规要求,提升业务的安全性。
参数管理,中心化的运维数据管理
OOS 的参数管理支持各种参数的统一管理,同时可以被自动化任务、计算节点等使用,实现数据的统一管理。
自动化任务,实现高效的批量管理
OOS 的自动化任务为执行批量任务提供实时的进度管理、错误跳转、执行详情、参数和输出,从而提高整体的任务透明度和运维效率。
01准备资源
创建或准备一个按量计费的ECS实例
02创建 OOS 的定时任务
登录 OOS 控制台的自动化任务
选择常见运维任务--> 定时开关机
选择目标实例、开关机的时间和操作顺序
云上自动化运维管理平台,提供 ECS 批量操作、定时任务执行等多种管理能力。
企业级客户需要维护多个自定义镜像类型,并根据系统、应用、或安全更新的需要进行周期性版本更新,利用运维编排服务减少人工重复操作,大幅提升运维效率。
规避手工处理的低效和误操作风险
不再需要基于源镜像手工创建临时实例,远程连接到实例上进行更新操作,再释放实例,完全自动化完成。
与应用更新、代码发布等自动化集成
通过API调用运维编排模板执行,与客户自有运维平台、云服务接口实现自动化集成。
按照不同用途对实例进行分类标签管理,并进行批量设置、部署、运维等操作。
分类管理实例资源
批量对ECS实例进行分类标签资源管理,标签可按照OSType、AppVersion、Env等不同用途进行分类
批量操作的风险控制
通过运维编排分批执行云助手命令,验证内容符合预期后再进行后续批次
抢占式实例适用于无状态的应用场景,比如可弹性伸缩的Web站点服务、图像渲染、大数据分析和大规模并行计算等。由于抢占式实例在保护周期过后会存在系统释放的情况,为保障集群的整体稳定性,需要及时感知实例的状态,一旦出现实例即将释放的事件,便采取自动替换操作实现平滑切换保障业务连续性。
抢占式实例释放感知
事件触发,自动识别抢占式实例状态
释放前实例内状态保存
实例释放前将实例内部日志等需要持久化的数据自动转存
实例平滑替换
自动将实例从负载均衡中移出,并创建新实例添加到负载均衡
-
审批运维能力
审批运维能力:系统运维管理OOS提供操作审批的运维管理能力。对于高危的运维操作,比如释放重要的ECS实例等,用户可以在OOS模板中配置任务暂停,并发送一个包含通知的审批链接到管理员用户,并根据管理员的审批结果决定继续执行还是取消执行,避免运维风险。
加密参数托管能力
加密参数托管能力:用户可以使用OOS的加密参数来存储敏感信息,如数据库密码等。加密参数在存储时会使用KMS进行加密,保证敏感信息在创建和使用过程中不会泄露。
系统补丁自动修复能力
系统补丁自动修复能力:通过使用OOS补丁管理功能,用户可以及时了解ECS实例中需要修复的系统补丁,并通过配置完成操作系统补丁的自动修复,保障用户服务器资产的安全合规。
支持RAM权限设置
RAM权限设置:访问控制RAM是阿里云统一的用户身份与资源访问权限管理服务,用户可以通过RAM从账号层面控制子用户或角色对系统运维管理OOS资源的访问,同时系统运维管理OOS可以通过设置Ram角色参数,指定OOS以扮演的角色进行模板执行。
操作记录审计
操作记录审计:通过系统运维管理OOS进行的任何运维操作,均可以通过查看任务执行历史进行追溯,查看操作执行人、执行时间、执行结果等信息,快速定位异常操作原因。