客户案例 > 案例详情

函数计算助力领健信息为“看牙”注入 AI 活力

客户介绍

领健成立于 2015 年,总部位于上海,并在全国设立了 20 余家分支机构,拥有 100 项软件著作权、91 项注册商标、35 项发明专利,致力为口腔诊所、医美机构等消费医疗企业提供经营管理一体化解决方案。

领健创新 SaaS+X 模式,旗下拥有 e 看牙软件、e 看牙商城、领健悦见等品牌。e 看牙软件为口腔机构提供单店/连锁管理、电子病历、客户关系管理、进销存管理、智能营销、BI 商业智能分析、影像集成等覆盖口腔机构业务全流程的 SaaS 软件服务;e 看牙商城链接产业链上游 1000+ 国内外知名耗材品牌,严选近 2 万+ 耗材商品,为口腔机构提供一站式耗材采购服务。

领健在技术和服务上始终追求卓越。领健面向口腔诊所,提供了正畸算法,口腔医生在日常接诊过程中,对患者的口腔牙齿状态进行拍照,通过算法能够给出相应的诊断和治疗建议,极大地提升了诊疗效率和诊断准确性。

业务挑战

口腔诊所的上班时间比较固定,一般都在 08:30~18:00,节假日会更加繁忙一点,时间拉长到一个月,可以看到明显的波峰波谷。

领健信息早期购买了一批 GPU 云服务器用于算法的部署,但在使用过程中遇到了不少问题:

  • 资源利用率低,成本浪费

    按月持有 GPU 云服务器,由于考虑到可能的业务高峰,保留了多台 GPU 云服务器。平峰期利用率不高,总体资源利用率维持在 5% 左右。

  • 高峰期业务响应慢

    应对突发流量能力不足,超出预期的流量会导致服务负载加大,请求响应时间变长,直接影响终端客户的使用体验。在业务最高峰,曾经出现单个请求排队 10 分钟的情况。

  • 监控和排查能力不足

    正畸算法在持续的迭代,在迭代部署的过程中,会出现请求偶发卡顿和程序报错的情况。但由于本身监控和告警能力不足,没法第一时间主动感知,常常需要终端使用门店反馈情况,降低了主动优化算法的效率。

除此之外,频繁的运维操作和持续的平台建设,也给运维工程师带来了很多负担,同时也加大了系统的不稳定因素。对于以上这些问题,领健技术团队开始在云上寻求更好、更高效的解决方案。

阿里云的解决方案
GPU 算力迁移至函数计算

阿里云函数计算是事件驱动的全托管计算服务。通过函数计算,客户无需管理服务器等基础设施,只需编写代码并上传,函数计算会准备好计算资源,以弹性、可靠的方式运行代码,并提供日志查询、性能监控、报警等功能。

函数计算除支持传统的 CPU 算力,也支持 GPU 算力,采用服务器无感知计算的理念,通过提供一种按需分配的 GPU 计算资源,有效地解决原有 GPU 长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。为客户提供更加便捷、高效的 GPU 计算服务,有效承载 AI 模型推理、AI 模型训练、音视频加速生产、图形图像加速等工作负载。

函数计算 GPU 资源架构图如下:

函数计算 GPU 采用虚拟化技术,做到算力、显存、故障的强隔离,100% 兼容原生应用。函数计算通过两级的资源池,保证算力的快速供给。函数计算 GPU 资源池平台持有,客户只需要按量使用,无需为闲置资源买单。

函数计算 GPU 资源请求模型如下:

开启预留 GPU 实例

当 GPU 函数部署完成后,客户可以通过配置预留 GPU 实例的弹性伸缩策略开启预留 GPU 实例,以提供实时推理应用场景所需的基础设施能力。函数计算平台将根据客户配置的伸缩指标进行预留 GPU 实例的 HPA,客户请求将优先分配至预留 GPU 实例进行推理服务,平台完全遮蔽冷启动,业务保持低延迟响应。除此之外,平台集成了可观测、日志、监控、告警等系统,以简化问题的排查效率和日常的运维工作。

领健技术团队经过一系列验证之后,最终架构图如下:

新的架构比较简单,业务流程如下:

1.客户将正畸算法做成标准镜像放入阿里云镜像仓库 ACR。

2.当前端有正畸的调用请求,需要初始化实例时,函数计算通过拉取 ACR 中镜像以及底层 GPU 资源完成实例的初始化工作,完成算法应用的部署。

3.正畸计算请求发送至新创建的 GPU 应用上进行计算,并返回结果。

业务价值

通过将 GPU 计算负载迁移至函数计算,领健技术团队很好地解决了先前遇到的使用问题:

  • 成本优化:函数计算按量付费的计费方式,真正做到了按照实际请求处理时间收费,确保了领健只需为实际使用的计算资源付费,最大限度地降低了资源持有的成本,避免了资源闲置带来的浪费。相比早前的按月持有 GPU 资源,资源费用降低了 90% 左右,达到了很好的降本效果。

  • 高峰期业务体验:通过业务高峰期的提前资源拉起和突发资源的按量弹性,做到了后端资源的及时供给。采用函数计算部署后,门店再也没有出现长时间排队的情况,大大提升了使用体验。

  • 高效运维:通过函数计算内置的监控,日志和告警系统,可以实时关注业务的大盘运行情况,通过配置监控告警,在异常时,可以第一时间收到异常推送,并借助完善的日志系统,及时定位并解决程序问题。

除此之外,采用函数计算部署,给了整个系统很好的伸缩性。其高度的可扩展性和几乎瞬时的资源分配能力,使领健能够迅速响应业务需求的变化,实现了算法开发和部署的敏捷迭代。对于将来业务的增长,也不必担心核心的 GPU 资源规划问题。

这种前所未有的效率提升,不仅优化了领健的技术架构,为业务的持续发展打下了坚实的基础,也为公司带来了显著的经济效益,展现了云计算在推动企业创新和降低成本方面的巨大潜力。