文章 2024-12-26 来自:开发者社区

开源更新|通义3D-Speaker多说话人日志功能

说话人日志任务(Speaker Diarization)是指将音频划分为属于不同说话人的多个段落。其目标是确定音频中有多少个不同的说话人,并且识别出每个说话人在音频中的开始时间和结束时间。 3D-Speaker开源工具针对该功能进行了更新升级,在部分基准测试上获得优秀水平。 ...

开源更新|通义3D-Speaker多说话人日志功能
文章 2024-12-23 来自:开发者社区

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 功能:支持说话人日志、说话人识别、语种识别、多模态识别和重叠说话人检测。 技术:结合声学、语义和视觉信息,采用EEND网络和无监督聚类技术。 应用:适用于会议记录、法庭记录、...

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

日志服务SLS

日志服务 (Simple Log Service,简称 SLS) 是云原生观测分析平台,为 Log/Metric/Trace 等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能,全面提升研发、运维、运营和安全等场景数字化能力。

+关注