文章 2024-06-24 来自:开发者社区

让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo

GPT-4o的亮相不仅揭示了端到端多模态模型在减少响应时间上的巨大潜力,更向我们展现了其在理解与生成富有深度情感的语音内容方面的卓越能力。尽管此技术的具体细节尚未向研究界全面公开,但其背后可能投入的海量数据和巨量计算资源都是难以轻易获得的宝贵资源。但是,通义实验室和中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo给我们提供了一个可能的实现方案。 在这项工作中,作者提出了一种...

让大模型更懂你的情绪——通义实验室与中科院自动化所联合开源中英双语共情语音对话模型BLSP-Emo
文章 2023-05-25 来自:开发者社区

TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型

机器之心编辑部近日,中国科学院自动化研究所的研究人员杜长德等人开发了一种「脑 - 图 - 文 」多模态学习模型,可以无创地解码大脑活动的语义信息。新方法不仅揭示了视觉 - 语言的多模态信息加工机理,也实现了大脑信号的零样本语义解码。论文发表在人工智能顶级期刊 IEEE Transactions on Pattern Analysis and Machin...

TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型
文章 2023-05-16 来自:开发者社区

CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法

本文提出了一种基于 Transformer 的图像风格迁移方法,我们希望该方法能推进图像风格化的前沿研究以及 Transformer 在视觉尤其是图像生成领域的应用。论文链接:https://arxiv.org/abs/2105.14576代码地址:https://github.com/diyiiyiii/StyTR-2图像风格化是一个有趣且实用的课题&...

CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
文章 2023-05-15 来自:开发者社区

搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述

让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制࿰...

搞多模态不了解最新进展?中科院自动化所撰文首个视觉-语言预训练综述
文章 2023-05-15 来自:开发者社区

AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR

研究者开发的框架可以根据视频输入发现物体的动态和静态物理属性,进而推理时序物理事件以及预测未来视频帧。人类感知和理解周围环境通常要借助于物理常识:直觉物理 (Intuitive Physics),这种常识的建立从婴儿时期就已开始,依托于对物体物理属性 (object-centric representation) 的探索和理解,...

AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR
文章 2023-05-12 来自:开发者社区

中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源

该方法首次实现多个文本输入的人脸合成,与单输入的算法相比生成的图像更加接近真实人脸。文本人脸合成指的是基于一个或多个文本描述,生成真实自然的人脸图像,并尽可能保证生成的图像符合对应文本描述,可以用于人机交互,艺术图像生成,以及根据受害者描述生成犯罪嫌疑人画像等。针对这个问题,中科院自动化所联合北方电...

中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
文章 2021-12-28 来自:开发者社区

中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源

文本人脸合成指的是基于一个或多个文本描述,生成真实自然的人脸图像,并尽可能保证生成的图像符合对应文本描述,可以用于人机交互,艺术图像生成,以及根据受害者描述生成犯罪嫌疑人画像等。针对这个问题,中科院自动化所联合北方电子设备研究所提出了一种基于多输入的文本人脸合成方法(SEA-T2F)&...

中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
文章 2021-12-05 来自:开发者社区

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型

如何通过自然语言定位并分割出场景中的目标物体?比如给定一张图片,语言指示 「分割出穿白色衬衫的人」。这个任务在学术界叫做指代性物体分割(Referring Image Segmentation)。目前指代性分割的工作通常着重于设计一种隐式的递归特征交互机制用于融合视觉 - 语言特征来直接生成最终的分割结果,而没有显式建模被指代...

CVPR 2021 | 中科院自动化所、字节跳动提出高性能的指代性分割基准模型
文章 2021-11-28 来自:开发者社区

出门问问携手中科院自动化研究所,共建语音智能与人机交互联合实验室

3 月 29 日,「语音智能与人机交互联合实验室」在北京成立,该实验室由中国人工智能公司出门问问与中科院自动化研究所模式识别国家重点实验室自然语言处理与机器翻译研究团队联合建立,将专注于自然语言理解、多轮对话管理、问答系统、机器翻译等人机语音交互核心技术研发领域。出门问问成立于 2012 年 10 月,是一家在语音识别、语义分析、垂直探索等...

出门问问携手中科院自动化研究所,共建语音智能与人机交互联合实验室
文章 2019-05-05 来自:开发者社区

中科院自动化所提出BIFT模型:面向自然语言生成,同步双向推断

雷锋网 AI 科技评论消息,本文作者中国科学院自动化研究所张家俊,他为雷锋网(公众号:雷锋网) AI 科技评论撰写了基于 BIFT 的独家解读。正文内容如下: 前言: 概括地讲,自然语言处理包括两大任务:自然语言文本理解和自然语言文本生成。自然语言文本理解就是让机器洞悉人们所言之意,自然语言文本生成旨在让机器像人一样表达和说话。文本理解的关键在于对已知文本的上下文表征和建模,而文本生成...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

开发与运维

集结各类场景实战经验,助你开发运维畅行无忧

+关注