文章
2024-12-23
来自:开发者社区
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 功能:支持说话人日志、说话人识别、语种识别、多模态识别和重叠说话人检测。 技术:结合声学、语义和视觉信息,采用EEND网络和无监督聚类技术。 应用:适用于会议记录、法庭记录、...

问答
2024-06-30
来自:开发者社区
3D-Speaker在说话人识别方面有哪些技术特点?如何结合视觉信息进行说话人日志?
3D-Speaker在说话人识别方面有哪些技术特点?如何结合视觉信息进行说话人日志?
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。