DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的支持艺术化相机轨迹生成。
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。 一、研究背景 在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法...
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 “多模态模型的新里程碑!OmniAlign-V 数据集助力 AI 更懂人类偏好” 大家好,我是蚝油菜花。你是否...
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 微信公众号|搜一搜:蚝油菜花 快速阅读 功能:支持长文档理解、数值推理、跨元素定位等多样化任务。 技术:基于多模态文档理解技术,结合文本、图像和表格等多种模式。 应用:适用于金融、法律、医疗、智能制造等多个领域。 ...
智源研究院发布千万级多模态指令数据集Infinity-MM:驱动开源模型迈向SOTA性能
近年来,视觉语言模型(VLM)取得了显著进展,训练数据的规模扩展以及数据质量的提升是提升模型性能的关键因素。目前主要的获取数据方式为通过人工对数据进行收集和标注以及利用模型对指令进行合成,业内也有许多工作专注于此。然而,现有的开源数据和指令数据集在数量和质量上依然落后,基于开源数据训练的模型在效果上仍然远落后于 SOTA 闭源模型或使用专有数据训练的开源模型。 为解决以上问题,进一步提升...
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
近日,商汤科技、清华大学、复旦大学等机构联合开源了一个名为OmniCorpus的多模态数据集,其规模达到了惊人的百亿级。这一数据集的发布,有望为训练类似GPT-4级别的大型多模态模型提供有力支持。 OmniCorpus数据集由多个图像和文本组成,以自然文档的形式排列,这种图像-文本交错的数据形式与互联网数据的呈现方式相一致&#...
3D-Speaker多模态说话人问题之3D-Speaker的开源代码和数据集如何获取
问题一:3D-Speaker项目的数据集有哪些特点? 3D-Speaker项目的数据集有哪些特点? 参考回答: 3D-Speaker dataset是一个研究数据集,它涵盖了10000人的音频数据和文本,这些数据具有多设备、多距离和多方言的特点。这使得该数据集非常适用于远近场、跨设备、方言等高挑战性的语音研究。该数据集已经开源,供AI开发爱好者使用。 ...
万亿token!史上最大多模态数据集诞生
近日,一项名为MINT-1T的多模态数据集引起了广泛关注。这个由Anas Awadalla等人创建的项目,旨在解决当前多模态大模型(LMMs)训练数据的不足问题。MINT-1T是目前最大规模的开放源代码多模态数据集,它包含了1万亿个文本token和34亿张图像,规模是现有开放源代码数据集的10倍。 MINT-1T...
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等 自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM.....
港科大等发布多模态图推理问答数据集GITQA
近年来,随着人工智能领域的不断发展,图推理问题逐渐成为了研究的热点之一。在图推理中,模型需要理解和推理图形结构中的信息,以解决各种问题,如判断图中是否存在环、计算最短路径等。为了促进图推理研究的发展,香港科技大学等机构发布了一个名为GITQA的多模态图推理问答数据集,该数据集的发布为相关研究提供了重要的资源和平台。 GITQA数据集是一个包含超过423K个问答实例的多模态图推理问答数据集。每个.....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
通义大模型
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi
+关注