系统运维管理 OOS

云上统一的自动化管理与运维平台,支持对ECS、RDS、SLB等多种云产品进行编排,提升日常运维管理效率。

产品简介

系统运维管理(CloudOps Orchestration Service,简称:OOS)是一组系统管理工具的集合,它包含多种系统管理的自动化工具,包括自动化任务(支持批量操作、定时任务、任务模板、跨地域运维等,也可提供重要运维场景的审批、通知等功能)、补丁管理、参数管理、配置清单等,提升对ECS、RDS、SLB等多种云产品的编排效率。OOS支持开源工具Terraform进行管理和操作。您可以免费使用系统运维管理对云产品或资源进行编排和管理,即OOS本身不收费,但是需要对使用的云资源付费。

产品优势
  • 提供全托管的自动化执行,即无服务器(Serverless)的自动化执行。执行过程无须消耗和使用您的计算资源(如 ECS 实例),即可满足创业型公司、中小型企业以及大型企业客户的自动化运维需求。完全的自动化模式下无需人工守护,让您更加专注于业务的高速增长。

  • 传统场景下,执行批量任务相比执行单一任务的管理复杂度大幅增加,OOS 可以帮助您提供实时的进度管理、运行状况统计和快速的错误定位,从而提高整体的运维效率。

  • 将日常所需要的运维任务以模板的方式提供,并遵循代码(Code)的管理方式来管理模板。从创建到审核,再同步到生产账号中,后续的运维任务只从标准模板中选择运行,确保运维动作的安全,像源代码一样的规范,并以此完成运维即代码(Operations as Code)的最佳实践。

产品功能
  • 补丁管理,自动修复安全问题

    补丁管理,自动修复安全问题

    OOS 的补丁管理支持系统补丁和软件包的自动扫描与更新,满足企业的安全合规要求,提升业务的安全性。

  • 参数管理,中心化的运维数据管理

    参数管理,中心化的运维数据管理

    OOS 的参数管理支持各种参数的统一管理,同时可以被自动化任务、计算节点等使用,实现数据的统一管理。

  • 自动化任务,实现高效的批量管理

    自动化任务,实现高效的批量管理

    OOS 的自动化任务为执行批量任务提供实时的进度管理、错误跳转、执行详情、参数和输出,从而提高整体的任务透明度和运维效率。

入门与试用
快速上手
  • 01准备资源

    1

    创建或准备一个按量计费的ECS实例

  • 02创建 OOS 的定时任务

    1

    登录 OOS 控制台的自动化任务

    2

    选择常见运维任务--> 定时开关机

    3

    选择目标实例、开关机的时间和操作顺序

免费试用

云上自动化运维管理平台,提供 ECS 批量操作、定时任务执行等多种管理能力。

使用运维编排 OOS 实现 ECS 的定时管理
如果您需要对云服务器ECS做一些重复性的运维管理操作,比如周期性进行系统漏洞修复、定时在ECS内执行某些命令、批量更换ECS实例的系统盘等,可以通过运维编排 OOS 轻松搞定。运维编排支持的自动化任务包括定时任务、周期性任务、批量任务等。
35分钟
技术解决方案
周期性更新镜像

企业级客户需要维护多个自定义镜像类型,并根据系统、应用、或安全更新的需要进行周期性版本更新,利用运维编排服务减少人工重复操作,大幅提升运维效率。

周期性更新镜像
  • 规避手工处理的低效和误操作风险

    不再需要基于源镜像手工创建临时实例,远程连接到实例上进行更新操作,再释放实例,完全自动化完成。

  • 与应用更新、代码发布等自动化集成

    通过API调用运维编排模板执行,与客户自有运维平台、云服务接口实现自动化集成。

批量管理实例资源

按照不同用途对实例进行分类标签管理,并进行批量设置、部署、运维等操作。

批量管理实例资源
  • 分类管理实例资源

    批量对ECS实例进行分类标签资源管理,标签可按照OSType、AppVersion、Env等不同用途进行分类

  • 批量操作的风险控制

    通过运维编排分批执行云助手命令,验证内容符合预期后再进行后续批次

管理抢占式实例

抢占式实例适用于无状态的应用场景,比如可弹性伸缩的Web站点服务、图像渲染、大数据分析和大规模并行计算等。由于抢占式实例在保护周期过后会存在系统释放的情况,为保障集群的整体稳定性,需要及时感知实例的状态,一旦出现实例即将释放的事件,便采取自动替换操作实现平滑切换保障业务连续性。

管理抢占式实例
  • 抢占式实例释放感知

    事件触发,自动识别抢占式实例状态

  • 释放前实例内状态保存

    实例释放前将实例内部日志等需要持久化的数据自动转存

  • 实例平滑替换

    自动将实例从负载均衡中移出,并创建新实例添加到负载均衡

安全合规

-

  • 审批运维能力

    审批运维能力

    • 审批运维能力系统运维管理OOS提供操作审批的运维管理能力。对于高危的运维操作,比如释放重要的ECS实例等,用户可以在OOS模板中配置任务暂停,并发送一个包含通知的审批链接到管理员用户,并根据管理员的审批结果决定继续执行还是取消执行,避免运维风险。

  • 加密参数托管能力

    加密参数托管能力

    • 加密参数托管能力用户可以使用OOS的加密参数来存储敏感信息,如数据库密码等。加密参数在存储时会使用KMS进行加密,保证敏感信息在创建和使用过程中不会泄露。

  • 系统补丁自动修复能力

    系统补丁自动修复能力

    • 系统补丁自动修复能力通过使用OOS补丁管理功能,用户可以及时了解ECS实例中需要修复的系统补丁,并通过配置完成操作系统补丁的自动修复,保障用户服务器资产的安全合规。

  • 支持RAM权限设置

    支持RAM权限设置

    • RAM权限设置访问控制RAM是阿里云统一的用户身份与资源访问权限管理服务,用户可以通过RAM从账号层面控制子用户或角色对系统运维管理OOS资源的访问,同时系统运维管理OOS可以通过设置Ram角色参数,指定OOS以扮演的角色进行模板执行。

  • 操作记录审计

    操作记录审计

    • 操作记录审计通过系统运维管理OOS进行的任何运维操作,均可以通过查看任务执行历史进行追溯,查看操作执行人、执行时间、执行结果等信息,快速定位异常操作原因。

常见问题
Q:子账户操作报错:User has no permission to do the action: (ListTemplates),如何解决?
A:子账户权限不够,不能执行OOS的指定API。需要以管理员或者主账户身份,登录RAM控制台,对报错的子账户进行适当授权,授权范围可以是相关API,也可是所有API,下面样例"Action": "oos:*"则是对......查看详情
Q:执行模板报错:Assumes role failed. Code: NoPermission, msg: You are not authorized to do this action. You should be authorized by RAM,如何解决?
A:对应的RAM角色没有给OOS服务配置信任策略。需要主账户或者管理员登录RAM控制台的RAM访问控制,增加对应的RAM角色OOSServiceRole。请参见为OOS服务设置RAM权限查看详情
Q:临时带宽升级报错:code: InvalidAccountStatus.NotEnoughBalance message: Your account does not have enough balance,如何解决?
A:账户余额不足,导致新订单无法完成交易,需要进行账号充值。查看详情