添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

国际计算机视觉与模式识别会议(CVPR)是计算机科学领域中的顶级会议之一,也是图像处理、机器学习、人工智能等多个领域的交叉学科会议。

每年的CVPR会议都会有大量的论文投稿和学术交流活动,其中涵盖了包括图像处理、计算机视觉、模式识别、机器学习、深度学习、人工智能等多个研究方向,是该领域最具有影响力和代表性的学术会议之一。

AMiner通过AI技术,对 CVPR2023 收录的会议论文进行了分类整理,今日分享的是语义分割主题论文,共72篇,我们在这里展示十篇最受欢迎的论文,欢迎下载收藏!

1.Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP 论文详情页
作者:Feng Liang,Bichen Wu,Xiaoliang Dai,Kunpeng Li,Yinan Zhao,Hang Zhang,Peizhao Zhang,Peter Vajda,Diana Marculescu
链接:https://www.aminer.cn/pub/6344dede90e50fcafd24d0b0/
AI综述(大模型驱动):开放语义分割的目标是将图像划分为语义区域。最近的两种阶段方法首先生成类安全假设,然后利用先前训练的视觉语言模型(例如CLIP)将分割区域划分为区分性区域。我们定义了这种 paradigm的性能瓶颈,即CLIP模型并不在隐藏的图像上表现得很好。为了解决这个问题,我们提出了一种改进的CLIP训练方法,该方法利用了先前培训的CLIP特征。实验结果表明,与以前最好的CLIP系统相比,最佳CLIP系统的F-度量提高了8.8%。

2.LaserMix for Semi-Supervised LiDAR Semantic Segmentation 论文详情页
作者:Lingdong Kong,Jiawei Ren,Liang Pan,Ziwei Liu
链接:https://www.aminer.cn/pub/62c2a9595aee126c0fcf0a45/
AI综述(大模型驱动):我们研究了LiDAR分割中未知半监督学习的潜力。我们的中心思想是利用线性特征充分利用未标记数据。我们提出了激光混合器,该混合器将来自不同LiDAR扫描的激光波束混合起来。然后鼓励模型在混合过程中做出一致且令人信服的预测。我们的框架具有三个令人兴奋的属性: 1)生动:激光组合对射线表示(例如,视图和矩阵)是安全的,因此我们可以 universal地应用。

3.Understanding Imbalanced Semantic Segmentation Through Neural Collapse 论文详情页
作者:Zhisheng Zhong,Jiequan Cui,Yibo Yang,Xiaoyang Wu,Xiaojuan Qi,Xiangyu Zhang,Jiaya Jia
链接:https://www.aminer.cn/pub/63b63fd190e50fcafd8f584f/
AI综述(大模型驱动):在本文中,我们探讨了下层特征中心和分类器在其语义分词中相应的结构。基于我们的实证和理论分析,我们指出了语义分词自然会产生上下文相关性和不平衡分布。然而,这种连贯的结构对于小类来说是有益的。为了保持这些优点,我们引入了特征中心上一个随机化器来鼓励网络学习特征更接近具有吸引力的结构。实验结果表明,该方法可以在2D和3D数据集上的性能提高方面取得了显著改进。此外,我们的方法排名第一,并在ScanNet200测试领导板上打破了一个新记录。

4.Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision 论文详情页
作者:Jilan Xu,Junlin Hou,Yuejie Zhang,Rui Feng,Yi Wang,Yu Qiao,Weidi Xie
链接:https://www.aminer.cn/pub/640559c290e50fcafddb3868/
AI综述(大模型驱动): 在本文中,我们考虑了开放词汇语义分割(OVS)问题,该问题旨在将任意类对象的指定实体划分为预定义的闭包类别。主要贡献包括:首先,我们提出了一种基于转换模型的OVS系统,称为OVSegmentor,它仅利用web搜索的图形文本对进行训练,而没有使用任何隐藏标记。OVSegmentor将图像片段组装成一个可学习的单个单元标记集,并将其映射到相应的标题嵌入。其次,我们提出了两种诱导任务,即隐藏实体完成和跨图隐藏一致性。前者试图归纳给给定的标签中的所有隐藏实体,这使得模型能够学习精细粒度的视角实体对齐。

5.Dynamic Focus-aware Positional Queries for Semantic Segmentation 论文详情页
作者:Haoyu He,Jianfei Cai,Zizheng Pan,Jing Liu,Jing Zhang,Dacheng Tao,Bohan Zhuang
链接:https://www.aminer.cn/pub/624bb3a25aee126c0fea4e5a/
AI综述(大模型驱动):本文提出了一种名为Dynamic Focus aware Positional Queries(DFPQ)的语义分词问题设计,它动态地生成位置查询,依赖于先前解码块的视觉关注得分和对应的图像特征的位置编码。因此,我们的方法能够有效地处理高分辨率的跨焦点信息,通过仅结合上下文标记以实现局部关系聚类。在Ade20K和Cityscapes上进行的大量实验表明,该框架在SOTA方面表现出优异的性能,并在Mask2former方面表现出显著的竞争优势。

6.Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation 论文详情页
作者:Lihe Yang,Lei Qi,Litong Feng,Wayne Zhang,Yinghuan Shi
链接:https://www.aminer.cn/pub/6304456b90e50fcafd12fe39/
AI综述(大模型驱动):本文回顾了从半监督分类器中流行的弱到强一致性框架。我们认为,这种简单的管道已经在与最近最先进的工作相比取得了竞争性的结果,当将其转换为分区情景时,它已经实现了与当前最先进的工作相媲美的性能。基于此,我们提出了一个辅助特征干扰流作为补充,以扩展干扰空间。此外,我们还提出了一种双向干扰技术,能够同时引导两种强大视图,从而在Pascal、Cityscapes和COCO基准测试中超过了所有现有方法。这项研究表明,该方法在遥感解释和医学图像分析方面均表现出优异的表现。

7.Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation 论文详情页
作者:Zhen Zhao,Lihe Yang,Sifan Long,Jimin Pi,Luping Zhou,Jingdong Wang
链接:https://www.aminer.cn/pub/63969ba790e50fcafdcf1c76/
AI综述(大模型驱动):本文提出了AugSeg,一个简单的和干净的半监督语义分组方法,主要关注数据干扰,以提高SSS性能。我们采用一种简化的强度扩展,通过选择任意数量的数据转换,从连续空间中随机注入标记信息,并基于模型对不同未标记样本来的表现进行估计。此外,我们还随机注入标记信息以改进未标记样本,从而在不同分区协议下获得新的先进水平。

8.PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 论文详情页
作者:Jiacong Xu,Zixiang Xiong,Shankar P. Bhattacharyya
链接:https://www.aminer.cn/pub/629ec1f85aee126c0fb6e78d/
AI综述(大模型驱动):两类网络的融合将使精确的分割任务变得困难。然而,直接合并低级别细节和高层次语义会产生一个现象,即图中缺陷,这限制了现有的两类模型的性能提高。在本文中,我们打破了神经递质网络(CNN)和最大似然归纳生成器算法之间的联系,并揭示了两个分支网络实际上不是总共似然解析器的控制者。为了解决这个问题,我们提出了一种新的三类网络架构:pidnet,它拥有三个分支来分析详细、上下文和边界信息(语义的产物)。

9.Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive Learning 论文详情页
作者:Jishnu Mukhoti,Tsung-Yu Lin,Omid Poursaeed,Rui Wang,Ashish Shah,Philip H. S. Torr,Ser-Nam Lim
链接:https://www.aminer.cn/pub/63969ba790e50fcafdcf1cbd/
AI综述(大模型驱动):我们介绍了基于变换的投影感知学习(CLIP)改进的兼容性函数,旨在训练对眼镜编码器和文本编码器的对齐。通过这样做,模型可以识别给定文本输入对应的图像区域,并因此将其有效地传递到开放词汇语义分割任务中,而不需要培训期间进行任何分割注释。使用预先训练好的CLIP解码器,我们在4个不同的分级标准上对该任务进行了评估,其中包括PASCAL VOC、PASCAL Context、COCO Stuff和ADVD20K。此外,我们还表明,当与CLIP的背面应用时,PATL也适用于图形预测,并且对于一个包含12份数据集的完整系统,它比CLIP具有更好的精度。

10.Conflict-Based Cross-View Consistency for Semi-Supervised Semantic Segmentation 论文详情页
作者:Zicheng Wang,Zhen Zhao,Xiaoxia Xing,Dong Xu,Xiangyu Kong,Luping Zhou
链接:https://www.aminer.cn/pub/640166a590e50fcafd68b4fb/
AI综述(大模型驱动):半监督语义分割近年来受到了越来越大的研究关注。本文提出了一种新的基于冲突的跨视图一致性(CCVC)方法。我们的工作旨在鼓励两个子网从不相关的观察中学习有用的信息特征。特别是,我们首先提出了一种新的跨视图一致性(CVC)策略,该策略鼓励两个子网从相同输入中学习不同的特征,而这些不同特征都预计会生成与输入一致的预测得分。此外,我们还提出了一种基于敌对伪标记(CPL)的方法来保证模型将从冲突性的预测中学习更多的有用信息。我们在广泛使用的基线数据集PASCAL VOC2012和城市景观上评估了我们的新方法。

——————————————————————————————————————

想查看全部语义分割论文,可以 点击这里
https://www.aminer.cn/conf/5eba43d8edb6e7d53c0fb8a1/CVPR2023

此外,我们还表明,当与CLIP的背面应用时,PATL也适用于图形预测,并且对于一个包含12份数据集的完整系统,它比CLIP具有更好的精度。我们认为,这种简单的管道已经在与最近最先进的工作相比取得了竞争性的结果,当将其转换为分区情景时,它已经实现了与当前最先进的工作相媲美的性能。作者:Feng Liang,Bichen Wu,Xiaoliang Dai,Kunpeng Li,Yinan Zhao,Hang Zhang,Peizhao Zhang,Peter Vajda,Diana Marculescu。