模型在线服务PAI-EAS_人工智能平台PAI_在线推理服务_大数据-阿里云

模型在线服务 PAI-EAS
模型在线服务 PAI-EAS(Elastic Algorithm Service)是模型在线服务平台,支持用户将模型一键部署为在线推理服务或AI-Web应用。PAI-EAS 适用于实时推理、近实时异步推理等多种AI推理场景,具备自动扩缩容和完整运维监控体系等能力。

产品优势

灵活易用
提供灵活的模型部署方式及服务调用方式,快速打通各种业务需求; 与PAI-Designer、PAI-DSW无缝对接
异构资源
针对机器学习、深度学习模型不同的特点,一键部署模型至CPU、GPU服务,提供高性能预测服务
弹性高可用
高并发高吞吐,服务毫秒级响应时长;服务资源弹性扩缩,稳定保障线上业务
功能完善
提供丰富的版本管理、灰度发布、一键压测、流量镜像、实时监控等使用功能

产品功能

模型在线服务平台,将模型一键部署为在线推理服务或AI-Web应用
模型部署层服务部署发布的多项功能,帮助客户实时高效地监控服务状态,简化服务发布更新流程适配最合理的计算资源。
一键压测支持动态加压,自动寻找服务的负载上限,支持实时查看压测秒级监控数据及查看报告。
灰度发布支持多个服务加入同一个灰度群组,某些服务用做生产,另外的服务用作灰度,并且切换每个服务的流量分配比例。
实时监控服务部署成功后,在服务监控页面查看相关指标,例如QPS、响应时长、CPU利用率等,了解服务调用及运行情况。
流量镜像将当前服务的流量按照一定的比例镜像到目标服务中,同时当前服务不受到影响,主要用于测试新服务的性能和可靠性。
容器调度层通过自动扩缩容等诸多方法,帮助客户在业务的波峰波谷中更高效的管理集群资源,达到降本增效。
弹性扩缩容业务负载有显著的波峰波谷时,开启弹性扩缩容可自动调整实例数量,实现动态管理线上服务的计算资源,避免资源浪费。
定时扩缩容业务负载可以预估的场景中, 服务定时可将实例数自动扩缩容到指定数量,避免资源浪费。
弹性资源池在专属资源组内资源占满的情况扩容,服务会自动将扩容的实例弹到公共资源组的按量计费的机器资源上,保障服务的稳定性。
基础设施层支持异构硬件(CPU/GPU)的基础设施,并有AI专属的机器规格和抢占型实例帮助降本增效。
CPU支持各类型的CPU规格,其中倚天710成本可降低30%。
GPU支持各类型的GPU规格,其中GU30规格成本可降低45%。
抢占型实例PAI-EAS 全面接入Spot Instance抢占型实例,最高降本90%。

产品规格

重磅推出超低折扣节省计划;全新PAI GU系列30规格问世,同等性能价格优惠40%,持续释放技术与规模红利

产品架构

模型推理
模型在线服务 PAI-EAS (Elastic Algorithm Service) 是模型在线服务平台,支持用户将模型一键部署为在线推理服务或AI-Web应用。PAI-EAS 适用于实时推理、近实时异步推理等多种AI推理场景,具备自动扩缩容和完整运维监控体系等能力。
推理能力
实时同步推理
适用于个性化搜索推荐、智能对话等场景,高吞吐、低延迟,不影响线上业务,适配合理的部署机型
近实时异步推理
适用于文图生成、视频处理等场景,推理服务内部集成消息队列,支持按需扩缩容、免运维
离线批量推理
适用于响应时长不敏感场景,如语音数据批量文本转换等,支持抢占型资源实例控制成本
相关产品

帮助文档