【计算机视觉】Open-Vocabulary Object Detection 论文工作总结
一、前言:2D open-vocabulary object detection的发展和研究现状 Open-Vocabulary Object Detection (OVD)可以翻译为“面向开放词汇下的目标检测”,该任务和 zero-shot object detection 非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ targe.....

【计算机视觉 | 目标检测】Open-Vocabulary Object Detection Using Captions
出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的object concept,使得object detection不再受限于带标注数据的少数类别,从而实现更加泛化的object detection,识别出更多novel的物体类别。 一、背景 & 动机 尽管深度神经网络在目标检测方面具有显著的准确性,但由于监管要求,它们的训练和拓展成...

【计算机视觉 | 目标检测】Open-vocabulary Object Detection via Vision and Language Knowledge Distillation
CLIP是一种在大量图像和文本对上训练的神经网络。作为这种多模态训练的结果,CLIP可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像。CLIP在image-level的分类上已经取得了非常令人印象深刻的效果。基于其巨大的潜力,在目标检测上应用也显得理所当然。 一、提出原因 现有的对象检测算法通常只学习检测检测数据集中存在的类别。增加检测词汇量的常用方法是收集带有更多标记类别的...

【计算机视觉】Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes
一、研究背景 目前的深度目标检测方法在学习预定义的对象类别集时,在大量的训练图像(PASCAL VOC、COCO)中进行了注释,达到了惊人的性能。不幸的是,它们的成功依然局限于检测少量的对象类别(例如,COCO中的80个类别)。 原因之一是大多数检测方法依赖于实例级边界框注释形成的监督,因此需要非常昂贵的人工标准工作来构建训练数据集,此外,当我们需要检测来自新类别的对象时,必须进一步为这个新...

【计算机视觉】MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
一、背景 目前,多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取proposal。然而检测器只能检测出固定类别的目标,这使得模型很难适应自由文本中视觉concept的长尾分布,因此本文提出了MDETR,一种端到端调制检测器,能够根据原始文本query直接来检测图像中的目标,基于Transformer的结构,通过在模型的早期阶段融合这两种模态的信息,来对文本和图像进行共同的推理。 .....

【计算机视觉】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
一、摘要 开放词汇目标检测是一种目标检测任务,旨在检测超出检测器所训练的基本类别的新类别的对象。(检测新类的能力) 最近的OVD方法依赖于大规模的视觉语言预训练模型,如CLIP,用于识别新对象。 确定了将这些模型纳入检测器训练时需要解决的两个核心障碍: 将在整个图像上训练的VL模型应用于区域识别任务时发生的分布不匹配; 未见过类对象的定位难度。(the difficulty of ...

【计算机视觉 | 目标检测】Aligning Bag of Regions for Open-Vocabulary Object Detection
一、摘要 预训练的视觉—语言模型(VLMs)学习在大规模数据集上对齐视觉和语言表示,其中每个图像—文本对通常包含一袋语义概念。然而,现有的开放词汇表对象检测器仅将 region embeddings 与从VLMs中提取的相应特征单独对齐。 这样的设计没有充分利用场景中语义概念的组成结构,尽管VLMs可以隐式地学习该结构。在这项工作中,我们建议将区域包的 embedding 对齐到单个区域之外...

计算机视觉论文速递(六)GANet: A Keypoint-based Global Association Network for Lane Detection 基于关键点建模的全局关联网络
YOLO-Pose论文:MiniViT:Compressing Vision Transformers with Weight Multiplexing代码已开源:https://github.com/Wolfwjs/GANet1. 摘要 在CVPR 2022上,商汤智能汽车-创新研发中心团队提出一种新的基于关键点建模的车道线检测范式,即全局关联网络(GANet),通过直接回归车道线....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
计算机视觉
包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域
+关注