【计算机视觉】Open-Vocabulary Object Detection 论文工作总结
一、前言:2D open-vocabulary object detection的发展和研究现状 Open-Vocabulary Object Detection (OVD)可以翻译为“面向开放词汇下的目标检测”,该任务和 zero-shot object detection 非常类似,核心思想都是在可见类(base class)的数据上进行训练,然后完成对不可见类(unseen/ targe.....

【计算机视觉 | 目标检测】Open-Vocabulary Object Detection Using Captions
出发点是制定一种更加通用的目标检测问题,目的是借助于大量的image-caption数据来覆盖更多的object concept,使得object detection不再受限于带标注数据的少数类别,从而实现更加泛化的object detection,识别出更多novel的物体类别。 一、背景 & 动机 尽管深度神经网络在目标检测方面具有显著的准确性,但由于监管要求,它们的训练和拓展成...

【计算机视觉 | 目标检测】Open-vocabulary Object Detection via Vision and Language Knowledge Distillation
CLIP是一种在大量图像和文本对上训练的神经网络。作为这种多模态训练的结果,CLIP可用于查找最能代表图像的文本片段,或查找给定文本查询的最合适图像。CLIP在image-level的分类上已经取得了非常令人印象深刻的效果。基于其巨大的潜力,在目标检测上应用也显得理所当然。 一、提出原因 现有的对象检测算法通常只学习检测检测数据集中存在的类别。增加检测词汇量的常用方法是收集带有更多标记类别的...

【计算机视觉】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
一、摘要 开放词汇目标检测是一种目标检测任务,旨在检测超出检测器所训练的基本类别的新类别的对象。(检测新类的能力) 最近的OVD方法依赖于大规模的视觉语言预训练模型,如CLIP,用于识别新对象。 确定了将这些模型纳入检测器训练时需要解决的两个核心障碍: 将在整个图像上训练的VL模型应用于区域识别任务时发生的分布不匹配; 未见过类对象的定位难度。(the difficulty of ...

【计算机视觉 | 目标检测】Aligning Bag of Regions for Open-Vocabulary Object Detection
一、摘要 预训练的视觉—语言模型(VLMs)学习在大规模数据集上对齐视觉和语言表示,其中每个图像—文本对通常包含一袋语义概念。然而,现有的开放词汇表对象检测器仅将 region embeddings 与从VLMs中提取的相应特征单独对齐。 这样的设计没有充分利用场景中语义概念的组成结构,尽管VLMs可以隐式地学习该结构。在这项工作中,我们建议将区域包的 embedding 对齐到单个区域之外...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。
计算机视觉
包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域
+关注