文章 2025-04-18 来自:开发者社区

多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 「3D设计师集体沸腾!这个AI把3D建模创作变成填空题...

多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
文章 2025-03-13 来自:开发者社区

GaussianAnything:多模态3D生成黑科技!南洋理工开源框架秒建可编辑高精度模型

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术! AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 「3D建模师要失业?南洋理工祭出AI神器:文本秒变高精模型,支持任意角度魔改!」 大家好,我是蚝油菜花。你是否...

GaussianAnything:多模态3D生成黑科技!南洋理工开源框架秒建可编辑高精度模型
文章 2024-08-16 来自:开发者社区

技术视界|多模态说话人开源项目3D-Speaker

本文来源:阿里云语音AI 3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。 本项目同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、...

技术视界|多模态说话人开源项目3D-Speaker
文章 2024-06-13 来自:开发者社区

技术视界|多模态说话人开源项目3D-Speaker

文章来自 阿里语音AI公众号 3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。 本项目同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device...

技术视界|多模态说话人开源项目3D-Speaker
文章 2024-03-03 来自:开发者社区

【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023

前言 本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。 会讲解论文整体思路、输入数据分析、模型框架、设计理念、损失函数等。 论文地址:CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception 代码地址:https://gi...

【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
文章 2023-01-17 来自:开发者社区

一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)

基于Point-VoxelPV-RCNN基于Point-Voxel方法是介于point-based和voxel-based之间的一种方式。PV-RCNN是首个经典point-based和voxel-based结合的网络,论文提出了Voxel Set Abstraction操作,将Sparse Convolution主干网络中多个scale的sparse voxel及其特征投影回原始3D空间,然后....

一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
文章 2023-01-17 来自:开发者社区

一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(上)

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~3D检测任务介绍3D检测任务一般通过图像、点云等输入数据,预测目标相比于相机....

一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(上)
文章 2023-01-17 来自:开发者社区

史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)1摘要以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的....

史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
文章 2023-01-17 来自:开发者社区

AutoAlignV2:多模态3D目标检测新SOTA!(ECCV2022)

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)标题:AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection链接:https://arxiv.org/pdf/2....

AutoAlignV2:多模态3D目标检测新SOTA!(ECCV2022)

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

通义大模型

阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

+关注