模型在线服务PAI-EAS_人工智能平台PAI_在线推理服务

模型在线服务 PAI-EAS

模型在线服务 PAI-EAS（Elastic Algorithm Service）是模型在线服务平台，支持用户将模型一键部署为在线推理服务或AI-Web应用。PAI-EAS 适用于实时推理、近实时异步推理等多种AI推理场景，具备自动扩缩容和完整运维监控体系等能力。

产品优势

灵活易用

提供灵活的模型部署方式及服务调用方式，快速打通各种业务需求；与PAI-Designer、PAI-DSW无缝对接

异构资源

针对机器学习、深度学习模型不同的特点，一键部署模型至CPU、GPU服务，提供高性能预测服务

弹性高可用

高并发高吞吐，服务毫秒级响应时长；服务资源弹性扩缩，稳定保障线上业务

功能完善

提供丰富的版本管理、灰度发布、一键压测、流量镜像、实时监控等使用功能

模型在线服务平台，将模型一键部署为在线推理服务或AI-Web应用

模型部署层服务部署发布的多项功能，帮助客户实时高效地监控服务状态，简化服务发布更新流程适配最合理的计算资源。

一键压测支持动态加压，自动寻找服务的负载上限，支持实时查看压测秒级监控数据及查看报告。

灰度发布支持多个服务加入同一个灰度群组，某些服务用做生产，另外的服务用作灰度，并且切换每个服务的流量分配比例。

实时监控服务部署成功后，在服务监控页面查看相关指标，例如QPS、响应时长、CPU利用率等，了解服务调用及运行情况。

流量镜像将当前服务的流量按照一定的比例镜像到目标服务中，同时当前服务不受到影响，主要用于测试新服务的性能和可靠性。

容器调度层通过自动扩缩容等诸多方法，帮助客户在业务的波峰波谷中更高效的管理集群资源，达到降本增效。

弹性扩缩容业务负载有显著的波峰波谷时，开启弹性扩缩容可自动调整实例数量，实现动态管理线上服务的计算资源，避免资源浪费。

定时扩缩容业务负载可以预估的场景中，服务定时可将实例数自动扩缩容到指定数量，避免资源浪费。

弹性资源池在专属资源组内资源占满的情况扩容，服务会自动将扩容的实例弹到公共资源组的按量计费的机器资源上，保障服务的稳定性。

基础设施层支持异构硬件(CPU/GPU)的基础设施，并有AI专属的机器规格和抢占型实例帮助降本增效。

CPU支持各类型的CPU规格，其中倚天710成本可降低30%。

GPU支持各类型的GPU规格，其中GU30规格成本可降低45%。

抢占型实例PAI-EAS 全面接入Spot Instance抢占型实例，最高降本90%。

重磅推出超低折扣节省计划；全新PAI GU系列30规格问世，同等性能价格优惠40%，持续释放技术与规模红利

模型推理

模型在线服务 PAI-EAS (Elastic Algorithm Service) 是模型在线服务平台，支持用户将模型一键部署为在线推理服务或AI-Web应用。PAI-EAS 适用于实时推理、近实时异步推理等多种AI推理场景，具备自动扩缩容和完整运维监控体系等能力。

推理能力

实时同步推理

适用于个性化搜索推荐、智能对话等场景，高吞吐、低延迟，不影响线上业务，适配合理的部署机型

近实时异步推理

适用于文图生成、视频处理等场景，推理服务内部集成消息队列，支持按需扩缩容、免运维

离线批量推理

适用于响应时长不敏感场景，如语音数据批量文本转换等，支持抢占型资源实例控制成本