智能语音交互设备端产品_提供包括音频信号处理,打断唤醒,语音识别,语音合成等全链路语音交互能力-阿里云

产品优势

全链路灵活可定制的语音交互特性
支持按需选配快捷命令词、近场唤醒识别、远场唤醒等多种语音交互特性。
多平台低成本接入方案
支持Android/iOS/Linux/RTOS等多种移动端操作系统接入,接口简单易被集成。
端云一体保障效果体验
通过端+云联合技术方案,实现更低的误唤醒、更小的端侧计算功耗、更佳的端到端效果。
独创的业务场景自主优化能力
业内唯一一家提供自学习平台的系统,同时支持热词定制和模型定制,用户可根据业务需求上传相关数据,对特定场景做自主优化,最大限度的提升识别效果。

产品规格

端到端离线ASR
无网络场景下以及语音用户隐私成为当前热点,为了突破低资源和高精度的平衡难题,达摩院语音实验室结合声学、语言、后处理的融合建模技术,研发了流式端到端以及后处理标点一体化建模的方案。该方案的推出使得低资源、强隐私、高精度的纯离线语音识别应用场景成为可能。
  • 适用场景:端到端识别不仅能用于传统的语音识别场景,还可重点用于无网络、私密性、低延时的语音识别的应用场景——由于离线端到端直接在移动端进行识别,无需将语音上传到云端,因此为高隐私要求的场景使用语音识别提供了可行的方案,例如会议场景,法庭场景等,以及无网络的场景;同时对于瞬时高并发请求的场景,如直播场景等,能够大幅降低云服务调用成本;
  • 技术优势:占用空间小,可根据场景需求裁剪至小于40M;识别准确率可媲美当前纯云端;计算实时率低,中端手机配置上低于0.2。
设备端语音交互SDK
专门针对硬件设备优化,支持Linux系统和多种硬件平台。并包含以下模块:
  • 音频信号处理模块(目前支持单麦,双麦):支持近/远场语音交互,实现噪声抑制,混响消除,波束形成,语音增强,声源定位,回声消除等功能。能最大限度的提升不同环境下语音交互的效果;
  • 语音唤醒模块:支持快捷唤醒词,多命令词等功能,在各种噪音环境下都可以达到优秀的唤醒效果,提供公版唤醒词,唤醒词/快捷唤醒词定制服务;
  • 语音识别模块:提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化,支持多种类型的声学模型和语言模型,并提供自学习平台支持深度的定制;
  • 语音合成模块(可选):提供阿里巴巴达摩院自有的语音合成能力。提供不同语种,不同方言的合成能力,针对不同场景,有不同的发音人可供选择,满足用户的各种需求。另外还提供发音人定制服务。
移动端语音交互SDK
专门针对IOS、Android等系统优化,针对移动平台提供语音唤醒,语音识别,语音合成等功能。包含以下模块:
  • 音频信号处理模块(可选):专门针对移动设备优化,提供回声消除,语音增强等功能,改善移动端的语音交互效果;
  • 语音唤醒模块:支持快捷唤醒词,多命令词等功能,在各种噪音环境下都可以达到优秀的唤醒效果,提供公版唤醒词,唤醒词/快捷唤醒词定制服务;
  • 语音识别模块:提供阿里巴巴达摩院自有的语音识别能力。专门针对不同场景和领域优化,支持多种类型的声学模型和语言模型,并提供自学习平台支持深度的定制;
  • 语音合成模块(可选):提供阿里巴巴达摩院自有的语音合成能力。提供不同语种,不同方言的合成能力,针对不同场景,有不同的发音人可供选择,满足用户的各种需求。另外还提供发音人定制服务。
Linux语音模组
针对智能家居、家电、音箱、公众场所自助设备等场景,提供高性能的语音交互方案:
  • 四核A35,Linux操作系统;
  • 支持2-8mic高性能前端处理算法,360度拾音;端云一体高性能语音唤醒;
  • 支持低功耗待机语音唤醒;硬件VAD功耗控制,待机功耗60mW;
  • 支持“主控模式” 和“下位机”模式,用法灵活;
  • 包含设备端语音交互SDK的全部功能。
RTOS语音模组
针对家电,音箱,故事机等语音交互设备,提供高性能,低功耗的语音交互方案:
  • 基于多核异构架构, RTOS操作系统;
  • 支持高性能2-4mic前端处理算法,360度拾音;
  • 端云一体语音唤醒,唤醒率达到95%以上;
  • 支持低功耗待机语音唤醒,待机电流 <20mA;
  • 支持“主控模式” 和“下位机”模式,用法灵活;
  • 包含设备端语音交互SDK的全部功能。
多模态交互模组
针对公众场所噪音环境下需要语音交互的设备,例如地铁语音售票,语音售卖机,语音点餐机,语音问询机,语音自助服务机等:
  • 支持2-8mic,强噪声声学环境下超高语音识别准确率,能精准隔离前后左右的声音干扰;
  • 全本地机器视觉,无需联网实现人脸,人体、身份、行为等检测识别;
  • 音视频融合信号处理,实现免唤醒,主动交互,视觉分析等功能;
  • 包含设备端语音交互SDK的全部功能。
智能语音交互硬件
适用于类似故事机,音箱等语音交互产品,以及空调,台灯等自带语音功能的智能家居产品,通过SDK快速集成语音交互能力
语音交互APP
让iOS/安卓平台的手机APP获得通过集成SDK获得语音唤醒,语音识别,语音合成等“能听会说”的交互能力
录音文件
6小时内即可完成对录音文件的识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。
了解更多
实时语音识别
实时识别不限时长的音频流,“边说边出文字”。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
了解更多
一句话识别
识别时长较短(1min内)的语音,适用于语音搜索、语音指令、语音短消息等较短时长交互场景,可集成在各类App,智能家电、助手等产品中。
了解更多
语音合成
通过先进的深度学习技术将文本转换成自然流畅的语音。提供音色选择、语速语调音量调节等功能。适用于智能客服、有声阅读和无障碍播报等场景。
了解更多