文章 2024-12-23 来自:开发者社区

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 功能:支持说话人日志、说话人识别、语种识别、多模态识别和重叠说话人检测。 技术:结合声学、语义和视觉信息,采用EEND网络和无监督聚类技术。 应用:适用于会议记录、法庭记录、...

3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
问答 2024-06-30 来自:开发者社区

3D-Speaker在说话人识别方面有哪些技术特点?如何结合视觉信息进行说话人日志?

3D-Speaker在说话人识别方面有哪些技术特点?如何结合视觉信息进行说话人日志?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云日志服务SLS

SLS是一站式云原生可观测性数据平台,一站式提供数据采集、加工、查询与分析、可视化等功能。日常更新产品最新动态,最佳实践以及技术大咖的观点和经验。

+关注