【2023年2月3日】论文分享

▌STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation
论文作者:Yupeng Zheng,Chengliang Zhong,Pengfei Li,Huan-ang Gao,Yuhang Zheng,Bu Jin,Ling Wang,Hao Zhao,Guyue Zhou,Qichao Zhang,Dongbin Zhao
论文链接: http:// arxiv.org/abs/2302.0133 4v1
项目链接: https:// github.com/ucaszyp/STEP S
内容简介: 本文提出一种既能增强夜间图像,又能进行深度估计的方法,不需要ground truth。该方法通过新提出的不确定像素遮蔽策略,将两个自监督任务紧密结合。该策略从夜间图像不仅遭受曝光不足,而且遭受曝光过度的观察中源出,通过对照明图分布拟合桥形曲线,抑制两个任务。它在nuScenes和RobotCar两个数据集上进行评估,并证明了其达到了最先进的性能。详细的消融也揭示了所提出方法机制。最后,为了缓解现有数据集稀疏地面真值的问题,还提供了一个基于CARLA的新的照片真实增强夜间数据集,为社区带来了有意义的新挑战。 https:// github.com/ucaszyp/STEP S
▌SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections
论文作者:Zhaoxi Chen,Guangcong Wang,Ziwei Liu
论文链接: http:// arxiv.org/abs/2302.0133 0v1
项目链接: https:// scene-dreamer.github.io /
内容简介: SceneDreamer,是一个生成无限制3D场景的生成模型,通过生成随机噪声来综合大规模的3D景观。该框架仅通过自然的2D图像集合学习,不需要任何3D标注。 SceneDreamer的核心是一个原则性的学习范式,包括1)高效且具有表现力的3D场景表示,2)生成场景参数化,3)利用2D图像知识的有效渲染器。该框架从一个高效的俯视图(BEV)表示开始,该表示由简单噪声生成,由高度场和语义场组成。高度场表示3D场景的地面高程,而语义场提供详细的场景语义。此BEV场景表示实现了1)以二次复杂度表示3D场景,2)解耦几何和语义,3)高效的训练。此外,还提出了一种新的 generative neural hash grid,用于给定3D位置和场景语义的隐空间参数化,旨在对场景间编码可推广特征。最后,通过对抗性训练从2D图像集合学习的神经体积渲染器用于生成照片般逼真的图像。
▌Dreamix: Video Diffusion Models are General Video Editors
论文作者:Eyal Molad,Eliahu Horwitz,Dani Valevski,Alex Rav Acha,Yossi Matias,Yael Pritch,Yaniv Leviathan,Yedid Hoshen
论文链接: http:// arxiv.org/abs/2302.0132 9v1
内容简介:
文本驱动的图像和视频扩散模型最近实现了前所未有的生成真实性。虽然扩散模型已经成功地应用于图像编辑,但很少有作品能在视频编辑中做到这一点。我们提出了第一个基于扩散的方法,能够对一般视频进行基于文本的运动和外观编辑。我们的方法使用视频扩散模型,在推理时将原始视频中的低分辨率时空信息与新的高分辨率信息结合起来,这些信息是它合成的,与指导性文本提示相一致。由于获得原始视频的高保真度需要保留一些高分辨率的信息,我们在原始视频上增加了一个微调模型的初步阶段,大大提升了保真度。我们建议通过一个新的、混合的目标来提高运动的可编辑性,这个目标是通过完全的时间注意力和时间注意力的遮蔽来联合微调。我们进一步介绍了一个新的图像动画框架。我们首先通过简单的图像处理操作,如复制和透视几何投影,将图像转化为粗略的视频,然后使用我们的通用视频编辑器来制作动画。作为进一步的应用,我们可以将我们的方法用于主题驱动的视频生成。广泛的定性和数值实验展示了我们的方法显著的编辑能力,并确立了它与基线方法相比的卓越性能。
▌IC^3: Image Captioning by Committee Consensus
论文作者:David M. Chan,Austin Myers,Sudheendra Vijayanarasimhan,David A. Ross,John Canny
论文链接: http:// arxiv.org/abs/2302.0132 8v1
项目链接: https:// github.com/DavidMChan/c aption-by-committee
内容简介: 研究方向:图像字幕。本文介绍一种新的图像描述方法:IC^3,旨在生成捕捉多个视点的高层次细节的单一字幕。IC^3字幕可以提高SOTA自动召回系统的性能高达84%,表明对于视觉描述相较于现有SOTA方法有重要的改进。代码可在 https:// github.com/DavidMChan/c aption-by-committee 上公开获取。
▌Dual PatchNorm
论文作者:Manoj Kumar,Mostafa Dehghani,Neil Houlsby
论文链接: http:// arxiv.org/abs/2302.0132 7v1
内容简介:
Dual PatchNorm:在Vision Transformers的补丁嵌入层之前和之后有两个层规范化层(LayerNorm)。证明了Dual PatchNorm优于在Transformer块本身中详尽搜索替代LayerNorm放置策略的结果。在实验中,纳入这种微不足道的修改,往往会导致比经过良好调整的视觉变形器更高的精度,而且绝不会有任何伤害。
▌Are Diffusion Models Vulnerable to Membership Inference Attacks?
论文作者:Jinhao Duan,Fei Kong,Shiqi Wang,Xiaoshuang Shi,Kaidi Xu
论文链接: http:// arxiv.org/abs/2302.0131 6v1
内容简介:
基于扩散的生成模型在图像合成方面显示出巨大的潜力,但对它们可能带来的安全和隐私风险却缺乏研究。在本文中,我们研究了扩散模型对成员推断攻击(MIAs)的脆弱性,这是一个常见的隐私问题。我们的结果表明,现有的为GANs或VAE设计的MIA对扩散模型基本上是无效的,这是因为不适用的场景(例如,要求GANs的判别器)或不适当的假设(例如,合成图像和成员图像之间的距离更近)。为了解决这个问题,我们提出了阶梯式误差比较成员推断(SecMI),这是一个黑盒式的MIA,通过评估每个时间步的前向过程后验估计的匹配度来推断成员资格。SecMI遵循MIA中常见的过拟合假设,即成员样本通常具有较小的估计误差,与保留样本相比。我们既考虑了标准的扩散模型,如DDPM,也考虑了文本到图像的扩散模型,如稳定的扩散。实验结果表明,我们的方法在六种不同的数据集上以高置信度精确推断出这两种情况下的成员身份
▌Multi-scale Feature Alignment for Continual Learning of Unlabeled Domains
论文作者:Kevin Thandiackal,Luigi Piccinelli,Pushpak Pati,Orcun Goksel
论文链接: http:// arxiv.org/abs/2302.0128 7v1
内容简介: 研究方向:无监督域适应。本文提出了一种使用生成特征驱动的图像重放以及 dual-purpose 鉴别器的方法,以解决无监督域适应过程中对多个目标域的连续自适应问题。该方法通过使用dual-purpose鉴别器来生成具有逼真特征的图像以进行重放,同时也促进特征对齐。该方法在三个组织类型分类的组织病理学数据集上获得了优秀的结果,并在详细的消融实验中研究了该方法的各个组件。此外,还展示了该方法在高分辨率组织图像的无监督补丁基于分割任务的可能应用。
▌Human not in the loop: objective sample difficulty measures for Curriculum Learning
论文作者:Zhengbo Zhou,Jun Luo,Gene Kitamura,Shandong Wu
论文链接: http:// arxiv.org/abs/2302.0124 3v1
内容简介:
课程学习是一种学习方法,它以有意义的顺序从较易到较难的样本来训练模型。这里的一个关键是设计出自动和客观的样本难度衡量标准。在医学领域,以前的工作应用人类专家的领域知识来定性评估医学图像的分类难度,以指导课程学习,这需要额外的注释工作,依赖于人类的主观经验,并可能引入偏见。在这项工作中,我们提出了一种新的自动课程学习技术,使用梯度方差(VoG)来计算样本的客观难度指标,并评估了它对X射线图像中肘部骨折分类的影响。具体来说,我们使用VoG作为指标,对每个样本的分类难度进行排名,VoG分数高表示分类难度大,以指导课程培训过程。 我们将所提出的技术与基线(无课程学习)、以前使用人类注释分类难度的方法和反课程学习进行了比较。我们的实验结果显示,二类和多类骨裂分类任务的性能相当且更高。
▌Factor Fields: A Unified Framework for Neural Fields and Beyond
论文作者:Anpei Chen,Zexiang Xu,Xinyue Wei,Siyu Tang,Hao Su,Andreas Geiger
论文链接: http:// arxiv.org/abs/2302.0122 6v1
内容简介:
我们提出了因子场,一个用于建模和表示信号的新框架。因子场将信号分解为因子的乘积,其中每个因子都由在坐标转换的输入信号上操作的神经场或规则场表示。我们表明,这种分解产生了一个统一的框架,概括了最近的几种信号表示方法,包括NeRF、PlenOxels、EG3D、Instant-NGP和TensoRF。此外,该框架允许创建强大的新信号表示法,如我们在本文中提出的系数基数分解(CoBaFa)。正如我们的实验所证明的那样,CoBaFa在神经信号表征的三个关键目标方面比以前的快速重建方法有所改进:近似质量、紧凑性和效率。通过实验,我们证明了与以前的快速重建方法相比,我们的表示在二维图像回归任务中实现了更好的图像近似质量,在重建三维有符号距离场时实现了更高的几何质量,在辐射场重建任务中实现了更高的紧凑性。此外,我们的CoBaFa表示通过在训练过程中分享不同信号的基础来实现泛化,从而实现泛化任务,如用稀疏的观测值进行图像回归和少数照片的辐射场重建。
▌Boosting Low-Data Instance Segmentation by Unsupervised Pre-training with Saliency Prompt
论文作者:Hao Li,Dingwen Zhang,Nian Liu,Lechao Cheng,Yalun Dai,Chao Zhang,Xinggang Wang,Junwei Han
论文链接: http:// arxiv.org/abs/2302.0117 1v1
内容简介:
最近,受DETR变体的启发,基于查询的端到端实例分割(QEIS)方法在大规模数据集上的表现超过了基于CNN的模型。然而,当只有少量训练数据可用时,它们会失去功效,因为关键的查询/内核很难学习定位和形状先验。为此,这项工作为低数据制度提供了一种新的无监督的预训练解决方案。受最近成功的Prompting技术的启发,我们引入了一种新的预训练方法,通过给查询/内核提供Saliency Prompt来提高QEIS模型。我们的方法包含三个部分:1)Saliency Masks Proposal负责从未标记的图像中生成基于saliency机制的伪掩码。2)提示-内核匹配将伪面具转移到提示中,并向最佳匹配的内核注入相应的定位和形状预设。3)内核监督被应用于在内核水平上提供监督,以实现稳健学习。从实用的角度来看,我们的预训练方法有助于QEIS模型实现类似的收敛速度,并在低数据状态下与基于CNN的模型具有可比性。实验结果表明,我们的方法在三个数据集上明显提升了几个QEIS模型。代码将被提供。
▌Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using Pixel-aligned Reconstruction Priors
论文作者:Zhangyang Xiong,Di Kang,Derong Jin,Weikai Chen,Linchao Bao,Xiaoguang Han
论文链接: http:// arxiv.org/abs/2302.0116 2v1
内容简介:
快速生成高质量的三维数字人类对于从娱乐到专业领域的大量应用都很重要。最近在可分化渲染方面的进展使三维生成模型的训练成为可能,而不需要三维地面实况。然而,生成的3D人类的质量在保真度和多样性方面仍有很大的改进空间。在本文中,我们提出了Get3DHuman,一个新颖的3D人类框架,它可以通过只使用有限的3D地面实况数据预算来大幅提高生成结果的真实性和多样性。我们的关键观察是,三维生成器可以从通过二维人类生成器和三维重建器学到的人类相关先验中获益。具体来说,我们通过一个专门设计的先验网络将Get3DHuman的潜在空间与StyleGAN-Human的潜在空间连接起来,其中输入的潜在代码被映射到像素对齐的三维重建器所跨越的形状和纹理特征卷。先验网络的结果随后被用作主生成器网络的监督信号。为了确保有效的训练,我们进一步提出了三种适用于生成的特征体和中间特征图的定制损失。广泛的实验表明,Get3DHuman大大优于其他最先进的方法,可以支持广泛的应用,包括形状插值、形状重塑和通过潜在反演进行单视图重建。
▌UW-CVGAN: UnderWater Image Enhancement with Capsules Vectors Quantization
论文作者:Rita Pucci,Christian Micheloni,Niki Martinel
论文链接: http:// arxiv.org/abs/2302.0114 4v1
内容简介: 研究方向:水下图片增强。本文提出 UWCVGAN,用于提高水下图像的质量。UWCVGAN结合一个编码网络,它将图像压缩成其潜像,与一个解码网络,能够从唯一的潜像中重建图像的增强。UWCVGAN 利用胶囊层的聚类能力实现特征量化,使模型完全可训练,易于管理。模型在基准数据集上进行了定量和定性分析,并与现有技术进行了比较,结果相当。
▌SceneScape: Text-Driven Consistent Scene Generation
论文作者:Rafail Fridman,Amit Abecasis,Yoni Kasten,Tali Dekel
论文链接: http:// arxiv.org/abs/2302.0113 3v1
项目链接: https:// scenescape.github.io/
内容简介:
我们提出了一种文本驱动的永久视图生成方法--仅从描述场景和相机姿势的输入文本中合成任意场景的长视频。我们引入了一个新的框架,通过将预先训练好的文本到图像模型的生成能力与预先训练好的单眼深度预测模型学到的几何先验相结合,以在线方式生成这种视频。为了实现三维一致性,即生成描述几何上可信的场景的视频,我们部署了一个在线测试时间训练,以鼓励当前帧的预测深度图与合成的场景在几何上保持一致;深度图被用来构建一个统一的场景网格表示,该表示在整个生成过程中被更新并用于渲染。与以往只适用于有限领域(如风景)的工作相比,我们的框架可以生成多样化的场景,如宇宙飞船、洞穴或冰城堡中的走道。项目页面: https:// scenescape.github.io/
▌A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with Full-range Angles
论文作者:Huayi Zhou,Fei Jiang,Hongtao Lu
论文链接: http:// arxiv.org/abs/2302.0111 0v1
项目链接: https:// github.com/hnuzhy/Direc tMHP
内容简介: 研究方向:多人头部姿势估计。本文主要研究多人头部姿态估计问题,认为单人头部姿态估计方法在多人场景中是脆弱和低效的,因为它们依赖于单独训练的人脸检测器,无法很好地推广到全景视点,特别是对于面部区域不可见的头。本文提出一种直接端到端的简单基准算法DirectMHP,首先构建了两个基准,从AGORA和CMU Panoptic公共数据集中提取头部检测和头部姿态的 ground-truth 标签,这些基准具有挑战性,因为有许多截断、遮挡、小和不均匀照明的人头。然后,通过联合回归多个头的位置和姿态来设计新的端到端可训练一阶段网络架构,以解决MPHPE问题。在公共基准上提出了与最先进的单一HPE方法的综合比较,以及在所构建的MPHPE数据集上的卓越基线结果。数据集和代码发布在 https:// github.com/hnuzhy/Direc tMHP 。
▌GraphReg: Dynamical Point Cloud Registration with Geometry-aware Graph Signal Processing
论文作者:Zhao Mingyang,Ma Lei,Jia Xiaohong,Yan Dong-Ming,Huang Tiejun
论文链接: http:// arxiv.org/abs/2302.0110 9v1
内容简介: 研究方向:点云配准。本文提出了一种高精度、高效率、物理启发的3D点云配准方法。不同于现有的仅考虑空间点信息忽视表面几何的物理学方法,研究了几何感知的刚体动力学来调节粒子(点)的运动,从而使配准更加精确和稳健。实验结果表明,该方法在精度和适用于大规模点云配准方面表现优异,比大多数竞争对手更快、更稳健。
▌LesionAid: Vision Transformers-based Skin Lesion Generation and Classification
论文作者:Ghanta Sai Krishna,Kundrapu Supriya,Mallikharjuna Rao K,Meetiksha Sorgile
论文链接: http:// arxiv.org/abs/2302.0110 4v1
内容简介: 研究方向:皮肤病检测。本研究提出一个新的多类预测框架,基于ViT和ViTGAN对皮损进行分类。基于ViT的GANs(生成对抗网络)用来解决类的不平衡问题。该框架由四个主要阶段组成。ViTGANs、图像处理和explainable AI。第一阶段包括生成合成图像以平衡数据集中的所有类别。第二阶段包括应用不同的数据增强技术和形态学操作来增加数据的大小。第3和第4阶段涉及为边缘计算系统开发一个ViT模型,可以从图像中可见的用户皮肤中识别模式并对皮肤病变进行分类。在第三阶段,在用ViT将病变分类到所需的类别后,将使用可解释的人工智能(XAI),导致更多的可解释的结果(使用激活图等),同时确保高预测精度。皮肤病的实时图像可以由医生或病人使用移动应用程序的摄像头捕捉,以进行早期检查并确定皮肤病变的原因。整个框架与现有的皮损检测框架进行了比较。
▌Curriculum Learning for ab initio Deep Learned Refractive Optics
论文作者:Xinge Yang,Qiang Fu,Wolfgang Heidrich
论文链接: http:// arxiv.org/abs/2302.0108 9v1
内容简介:
深度透镜优化最近已成为设计计算成像系统的一个新范例,然而它被限制在由单一DOE或metalens组成的简单光学系统,或从良好的初始设计中对复合透镜进行微调。在这里,我们提出了一种基于课程学习的深度透镜设计方法,它能够从随机初始化的表面中学习复合透镜的光学设计,因此克服了对良好初始设计的需求。我们用一个手机式外形、高度非球面和短后焦距的扩展景深计算相机的全自动设计来证明这种方法。
▌IKOL: Inverse kinematics optimization layer for 3D human pose and shape estimation via Gauss-Newton differentiation
论文作者:Juze Zhang,Ye Shi,Ye Shi,Lan Xu,Jingyi Yu,Jingya Wang
论文链接: http:// arxiv.org/abs/2302.0105 8v1
内容简介: 研究方向:三维人体姿态估计。总结:本文提出inverse kinematic optimization layer(IKOL),用于3D人体姿态和形状估计,结合了优化和回归方法的优势,通过高斯牛顿差分(GN-Diff)线性化非凸目标函数,使得可以端到端训练。实验证明IKOL在3D人体姿态和形状估计方法上具有优越性。
▌Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense
论文作者:Zunzhi You,Daochang Liu,Chang Xu
论文链接: http:// arxiv.org/abs/2302.0105 6v1
内容简介:
遮蔽图像建模(MIM)一直是自我监督的视觉表征学习的一个普遍的框架。在预训练-微调范式中,MIM框架通过在解码器的帮助下重建遮蔽图像斑块来训练编码器,当编码器被用于微调时,解码器将被放弃。尽管MIM模型在干净的图像上具有最先进的性能,但它容易受到对抗性攻击,限制了它在现实世界的应用,很少有研究关注这个问题。在本文中,我们发现噪声图像建模(NIM)是MIM的一个变种,它使用去噪作为预文本任务,不仅能提供良好的预训练视觉特征,还能为下游模型提供有效的对抗性防御。为了实现更好的准确性-鲁棒性权衡,我们进一步提出从随机分布中对控制重建难度的超参数进行抽样,而不是全局设置,并利用去噪图像对下游网络进行微调。实验结果表明,我们预先训练的去噪自动编码器能够有效对抗不同的白盒、灰盒和黑盒攻击,而不需要用对抗性图像进行训练,同时也不会损害微调模型的清洁精度。源代码和模型将被提供。
▌Paced-Curriculum Distillation with Prediction and Label Uncertainty for Image Segmentation
论文作者:Mobarakol Islam,Lalithkumar Seenivasan,S. P. Sharan,V. K. Viekash,Bhavesh Gupta,Ben Glocker,Hongliang Ren
论文链接: http:// arxiv.org/abs/2302.0104 9v1
内容简介:
目的:在课程学习中,想法是先在较容易的样本上训练,然后逐渐增加难度,而在自定进度的学习中,一个节奏函数定义了适应训练进度的速度。虽然这两种方法都严重依赖对数据样本的难度进行评分的能力,但最佳评分函数仍在探索之中。方法学。蒸馏法是一种知识转移方法,教师网络通过输入一连串的随机样本来指导学生网络。我们认为,用有效的课程策略指导学生网络可以提高模型的泛化和稳健性。为此,我们设计了一个基于不确定性的有节奏的课程学习,用于医学图像分割的自我提炼。我们融合了预测的不确定性和注释边界的不确定性,开发了一个新的有节奏的课程蒸馏(PCD)。我们利用教师模型来获得预测的不确定性,利用高斯核的空间变化标签平滑来产生来自注释的分割边界不确定性。我们还通过应用各种类型和严重程度的图像扰动和损坏来研究我们方法的稳健性。结果。所提出的技术在乳房超声图像分割和机器人辅助手术场景分割的两个医学数据集上得到了验证,并在分割和鲁棒性方面取得了明显更好的性能。结论。P-CD提高了性能,并在数据集的转变中获得了更好的泛化和鲁棒性。虽然课程学习需要对起搏函数的超参数进行广泛的调整,但性能改善的程度抑制了这一限制。
▌An Efficient Convex Hull-Based Vehicle Pose Estimation Method for 3D LiDAR
论文作者:Ningning Ding
论文链接: http:// arxiv.org/abs/2302.0103 4v1
内容简介: 研究方向:车辆姿态估计。研究解决了由于LiDAR点云密度分布不同,使用现有姿态估计方法难以实现基于3D LiDAR的精确方向提取的问题,提出一种新的基于 convex hull 的车辆姿态估计方法,通过将提取的3D聚类减少到convex hull,减少计算负担,并使用基于最小遮挡面积的搜索算法开发了新的评价标准,从而实现精确的姿态估计。该方法在KITTI数据集和在工业园区获取的手动标记数据集上得到验证,结果表明所提出的方法比三种主流算法具有更好的准确性,同时保持实时速度。
▌FCB-SwinV2 Transformer for Polyp Segmentation
论文作者:Kerr Fitzgerald,Bogdan Matuszewski
论文链接: http:// arxiv.org/abs/2302.0102 7v1
内容简介: 研究方向:息肉分割。
使用深度学习模型在结肠镜视频帧内进行息肉分割有可能使临床医生的工作流程自动化。这可能有助于提高早期检测率和可能发展为结直肠癌的息肉的特征。最近最先进的深度学习息肉分割模型结合了完全卷积网络架构和变形器网络架构的输出,这些架构是平行工作的。在本文中,我们提出对目前最先进的息肉分割模型FCBFormer的修改。FCBFormer的变压器架构被替换为SwinV2变压器-UNET,并对完全卷积网络架构进行了微小的改动,以创建FCB-SwinV2变压器。FCB-SwinV2变换器的性能在流行的结肠镜分割基准数据集Kvasir-SEG和CVC-ClinicDB上得到了评估。还进行了可推广性测试。在所有测试中,FCB-SwinV2转化器能够持续获得更高的mDice分数,因此代表了新的最先进的性能。文献中发现的关于结肠镜分割模型性能评估的问题也被重新报告和讨论。其中一个最重要的问题是,在评估CVC-ClinicDB数据集的性能时,最好能确保在训练/验证/测试数据分区期间没有视频序列的数据泄漏。
▌Open-Set Multi-Source Multi-Target Domain Adaptation
论文作者:Rohit Lal,Arihant Gaur,Aadhithya Iyer,Muhammed Abdullah Shaikh,Ritik Agrawal
论文链接: http:// arxiv.org/abs/2302.0099 5v1
内容简介: 研究方向:域适应。
单源单目标域适应(1S1T)的目的是在有标签的源域和无标签的目标域之间架起桥梁。尽管1S1T是一个经过充分研究的课题,但它们通常没有被部署到现实世界中。像多源域适应和多目标域适应这样的方法已经发展到可以对现实世界的问题进行建模,但仍然不能很好地推广。事实上,这些方法大多假设源和目标之间有一个共同的标签集,这是非常有局限性的。最近的开放集领域适应方法可以处理未知的目标标签,但不能在多个领域中进行推广。为了克服这些困难,首先,我们提出了一个新的通用领域适应(DA)设置,名为开放集多源多目标领域适应(OS-nSmT),n和m分别是源域和目标域的数量。接下来,我们提出了一个名为DEGAA的基于图注意的框架,它可以在不知道目标的确切标签集的情况下,从多个源域和目标域获取信息。我们认为,我们的方法虽然是为多源和多目标提供的,但也可以不受其他各种DA设置的影响。为了检验DEGAA的稳健性和多功能性,我们提出了大量的实验和消融研究。
▌Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning
论文作者:Xiaozheng Zheng,Chao Wen,Zhou Xue,Jingyu Wang
论文链接: http:// arxiv.org/abs/2302.0098 8v1
内容简介: 研究方向:3d手部姿势估计。研究解决了依赖于大量标注数据集的改进限制,通过多视图协作自监督学习框架HaMuCo,仅使用伪标签训练估计手势姿态,并通过两阶段策略处理噪声标签和多视图“groupthink”问题,通过跨视图相关特征的交互网络、多视图一致性损失实现协作学习,并通过融合所有视图的结果监督单视图网络。实验表明该方法在多视图自监督手势姿态估计上达到了最先进水平,并通过消融实验证明了各个组件的有效性,多数据集的结果进一步证明了该网络的泛化能力。
▌Domain Generalization Emerges from Dreaming
论文作者:Hwan Heo,Youngjin Oh,Jaewon Lee,Hyunwoo J. Kim
论文链接: http:// arxiv.org/abs/2302.0098 0v1
内容简介: 研究方向:域泛化。最近的研究证明,与人类视觉不同,DNNs倾向于利用纹理信息而不是形状。这种纹理偏差是导致DNN泛化性能差的因素之一。我们观察到,纹理偏差不仅对域内泛化有负面影响,而且对域外泛化,即领域泛化也有负面影响。在这一观察的激励下,我们提出了一个新的框架,通过一个新的基于优化的数据增强来减少模型的纹理偏向,被称为风格化的梦想。我们的框架利用自适应实例规范化(AdaIN)来增强原始图像的风格,同时保留其内容。然后,我们采用正则化损失来预测Stylized Dream和原始图像之间的一致输出,从而鼓励模型学习基于形状的表示。广泛的实验表明,所提出的方法在公共基准数据集的非分布式设置中实现了最先进的性能。PACS, VLCS, OfficeHome, TerraIncognita和DomainNet。
▌QR-CLIP: Introducing Explicit Open-World Knowledge for Location and Time Reasoning
论文作者:Weimin Shi,Mingchen Zhuge,Zhong Zhou,Dehong Gao,Deng-Ping Fan
论文链接: http:// arxiv.org/abs/2302.0095 2v1
内容简介: 研究方向:图像语义推理。 总结:本文研究的目的是通过教会机器预测图像的位置和拍摄时间,来提高机器的抽象思维能力。通过Horn的QR理论的启发,设计一种新颖的QR-CLIP模型,其中Quantity模块先回顾了更多的开放世界知识作为候选语言输入,Relevance模块则仔细地评估视觉和语言线索,并推断出位置和时间。实验证明了QR-CLIP的有效性,在位置和时间推理方面,平均比以前的最新技术水平提高了10%和130%。本研究为位置和时间推理奠定了技术基础,并提出了有效引入开放世界知识是解决任务的万能良药之一。
▌An optimization method for out-of-distribution anomaly detection models
论文作者:Ji Qiu,Hongmei Shi,Yu Hen Hu,Zujun Yu
论文链接: http:// arxiv.org/abs/2302.0093 9v1
内容简介: 研究方向:工业异常检测。总结:本文研究的目的是提高无监督异常检测算法在工业应用中的推广。通过调查预测分数在异常检测任务中的密度概率分布,揭示了依赖于训练检测器的误报的潜在特征。利用SVM为基础的分类器作为后处理模块,以识别异常地图中的误报。此外,还设计了一种样本合成策略,以将特定应用的模糊先验知识纳入异常免费训练数据集。实验结果表明,该方法全面提高了两个分割模型在图像和像素层面上两个工业应用的性能。
▌Adaptive Siamese Tracking with a Compact Latent Network
论文作者:Xingping Dong,Jianbing Shen,Fatih Porikli,Jiebo Luo,Ling Shao
论文链接: http:// arxiv.org/abs/2302.0093 0v1
内容简介: 研究方向:目标跟踪。在本文中,作者将跟踪任务转化为分类以简化基于Siamese的跟踪器。通过对它们的深入分析,发现一些具有挑战性的情况中的失败案例可以被视为离线训练中缺少决定性样本的问题。作者提出了一个统计基础的紧凑潜在特征,以快速调整基模型以适应新场景。此外,还设计了一种新的多样性样本挖掘策略,以进一步提高所提出的紧凑潜在网络的区分能力。最后,作者提出一种条件更新策略,以在跟踪阶段有效地更新基础模型以处理场景变化。实验结果表明,所有三个调整过的跟踪器在准确性方面均获得了卓越的表现,同时运行速度也很高。
▌Visual Realism Assessment for Face-swap Videos
论文作者:Xianyun Sun,Beibei Dong,Caiyong Wang,Bo Peng,Jing Dong
论文链接: http:// arxiv.org/abs/2302.0091 8v1
内容简介: 研究方向:换脸。本文介绍了一种评估深度学习换脸视频的真实性的方法,其中包括使用手工特征和深度学习特征,基于DFGC 2022数据集进行评估,结果表明了所设计的VRA模型对换脸视频和方法的评估的可行性,并将代码和评估基准公开。
▌Cooperative Saliency-based Obstacle Detection and AR Rendering for Increased Situational Awareness
论文作者:Gerasimos Arvanitis,Nikolaos Stagakis,Evangelia I. Zacharaki,Konstantinos Moustakas
论文链接: http:// arxiv.org/abs/2302.0091 6v1
内容简介: 研究方向:自动驾驶汽车安全。解决自动驾驶车辆遇到意外情况(如道路上未预料到的物体)时安全风险的问题,通过传感器和通信技术、物联网提高协作驾驶的情境意识,采用以挡风玻璃形式的新型AR技术显示信息,提出一种基于显著性的分布式协作障碍物检测方案,通过(i)自动障碍物检测,(ii)AR可视化和(iii)与其他连接的车辆或道路基础设施的信息共享(即将到来的潜在危险)来提高驾驶员的情境意识。实验研究表明该方法具有优良的结果和特征。
▌Advances and Challenges in Multimodal Remote Sensing Image Registration
论文作者:Bai Zhu,Liang Zhou,Simiao Pu,Jianwei Fan,Yuanxin Ye
论文链接: http:// arxiv.org/abs/2302.0091 2v1
内容简介: 研究方向:多模态遥感图像配准。总结:解决全球航空遥感技术的快速发展导致传感器从单模态发展到多模态,如何整合多模态遥感图像的关键问题,通过对现有方法的概括及剩余挑战的讨论,探讨未来发展的前景。
▌GANalyzer: Analysis and Manipulation of GANs Latent Space for Controllable Face Synthesis
论文作者:Ali Pourramezan Fard,Mohammad H. Mahoor,Sarah Ariel Lamer,Timothy Sweeny
论文链接: http:// arxiv.org/abs/2302.0090 8v1
内容简介: 研究方向:人脸合成。本文提出 GANalyzer 的框架,用于分析和操纵已训练好的 GAN 的隐空间。通过分析人脸属性在 GAN 隐空间的耦合情况,并应用所提出的转换函数编辑解耦的人脸属性。实验结果证明了 GANalyzer 在编辑人脸属性和生成任意所需面部方面的实力。此外,还创建和发布了一个平衡的逼真人脸数据集,代码在 GitHub 上公开可用。
▌No One Left Behind: Real-World Federated Class-Incremental Learning
论文作者:Jiahua Dong,Yang Cong,Gan Sun,Yulun Zhang,Bernt Schiele,Dengxin Dai
论文链接: http:// arxiv.org/abs/2302.0090 3v1
内容简介: 本文提出 Local-Global Anti-forgetting(LGA)模型来解决局部和全局对旧类别的灾难性遗忘,这是FL领域中探索全局类增量模型的一项开创性工作。该模型通过平衡 hard-to-forget 和 easy-to-forget 的旧类别的不同忘记速度,并通过代理服务器来解决非IID类别不均衡导致的全局遗忘问题,实验证明了该模型优于其他方法。
▌Longformer: Longitudinal Transformer for Alzheimer's Disease Classification with Structural MRIs
论文作者:Qiuhui Chen,Yi Hong
论文链接: http:// arxiv.org/abs/2302.0090 1v1
项目链接: https:// github.com/Qybc/LongFor mer
内容简介:
结构性磁共振成像(sMRI)被广泛用于脑神经疾病的诊断;而纵向磁共振成像通常被收集来监测和捕捉疾病的进展,如临床上用于诊断阿尔茨海默病(AD)。然而,目前的大多数方法忽略了AD的渐进性,只采取单一的sMRI来识别AD。在本文中,我们考虑利用受试者的纵向MRI来识别AD的问题。为了捕捉sMRI的纵向变化,我们提出了一个新的模型Longformer,这是一个时空转换网络,在每个时间点对sMRI进行空间上的注意机制,并随着时间的推移整合脑区特征,以获得纵向嵌入的分类。我们的Longformer在使用ADNI数据集分离AD的不同阶段的两个二元分类任务上取得了最先进的性能。我们的源代码可在 https:// github.com/Qybc/LongFor mer 。
▌KST-Mixer: Kinematic Spatio-Temporal Data Mixer For Colon Shape Estimation
论文作者:Masahiro Oda,Kazuhiro Furukawa,Nassir Navab,Kensaku Mori
论文链接: http:// arxiv.org/abs/2302.0089 9v1
内容简介:
我们提出了一种时空混合运动学数据估计方法,以估计结肠镜插入时引起的变形的结肠形状。为了减少器官穿孔等并发症,需要内窥镜跟踪或导航系统将医生引向目标位置。尽管以前的许多方法集中于跟踪支气管镜和外科内窥镜,但很少有人提出结肠镜跟踪方法。这是因为在结肠镜插入过程中,结肠大部分会发生变形。这种变形会导致显著的跟踪误差。在跟踪过程中应考虑到结肠的变形。我们提出了一种使用运动学时空数据混合器(KST-Mixer)的结肠形状估计方法,可以在结肠镜插入结肠时使用。结肠镜和结肠的运动学数据,包括其中心线的位置和方向,是通过电磁和深度传感器获得的。拟议的方法将数据沿空间和时间轴分离成子组。KST-混合器提取运动学特征并沿空间和时间轴多次混合。我们在幻影研究中评估了结肠形状估计的准确性。提出的方法取得了11.92毫米的平均欧氏距离误差,是以前的方法中最小的。统计分析表明,与以前的方法相比,拟议的方法明显减少了误差。
▌AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object Detection and Panoptic Segmentation
论文作者:Yixuan Xu,Hamidreza Fazlali,Yuan Ren,Bingbing Liu
论文链接: http:// arxiv.org/abs/2302.0088 5v1
内容简介: 研究方向:基于LiDAR的三维目标检测和全景分割。这篇文章提出 All-in-One Perception Network (AOP-Net),一种基于 LiDAR 的多任务框架,它结合了 3D 目标检测和全景分割。方法中,开发了一种双任务 3D 骨干,从 LiDAR 点云中提取全景和检测层级的特征,并设计一个由 MLP 和卷积层交织的 2D 骨干,以进一步提高检测任务性能。最后,提出一种新的模块,通过恢复在 3D 骨干的下采样操作中丢弃的有用特征来指导检测头。这个模块利用估计的实例分割掩模来从每个候选对象中恢复详细信息。AOP-Net 在 nuScenes 基准测试中实现了 3D 目标检测和全景分割任务的最新性能。实验表明,该方法易于适应和显著提高任何基于 BEV 的 3D 目标检测方法的性能。
▌Exploring Invariant Representation for Visible-Infrared Person Re-Identification
论文作者:Lei Tan,Yukang Zhang,Shengmei Shen,Yan Wang,Pingyang Dai,Xianming Lin,Yongjian Wu,Rongrong Ji
论文链接: http:// arxiv.org/abs/2302.0088 4v1
内容简介: 研究方向:跨光谱人员重识别。在这篇文章中,研究了如何在不同光谱间识别人员身份,其中的挑战在于不同模态之间的差异。作者提出 Robust Feature Mining Network (RFM),一个端到端混合学习框架,从图像和特征两个层面解决了这个问题。具体来说,作者观察到在不同波长的照片中,相同表面的反射强度可以使用线性模型转换,同时发现变量线性因子是引发模态差异的罪魁祸首。作者将这样的反射观察结果整合到了图像级数据增强中,并提出 linear transformation generator(LTG)。此外,在特征层面上,作者引入了跨中心损失来探索更紧凑的类内分布和模态感知的空间注意力,以更有效地利用纹理区域。在两个标准的跨光谱人员重新识别数据集 RegDB 和 SYSU-MM01 上的实验结果证明了该方法的最新性能。
▌Vision Transformer-based Feature Extraction for Generalized Zero-Shot Learning
论文作者:Jiseob Kim,Kyuhong Shim,Junhan Kim,Byonghyo Shim
论文链接: http:// arxiv.org/abs/2302.0087 5v1
内容简介: 研究方向:广义零样本学习。文中提出一种利用 Vision Transformer (ViT) 提取图像属性信息的新 GZSL 方法,在ViT中处理整个图像而不降低分辨率,并将局部图像信息保存在patch feature中,并提出一个基于注意力的模块——属性注意力模块(AAM),通过实验证明该方法优于现有的GZSL方法。
▌Online Continual Learning via the Knowledge Invariant and Spread-out Properties
论文作者:Ya-nan Han,Jian-wei Liu
论文链接: http:// arxiv.org/abs/2302.0085 8v1
内容简介:
持续学习的目标是提供能够利用从以前的任务中获得的知识持续学习一系列任务的智能代理,同时在以前的任务中表现良好。然而,这种持续学习模式的一个关键挑战是灾难性遗忘,即适应新任务的模型往往会导致先前任务的严重性能下降。目前基于记忆的方法通过在学习新任务时重放过去任务的例子,显示了他们在缓解灾难性遗忘问题上的成功。然而,这些方法在转移以前任务的结构性知识方面是不可行的,即不同实例之间的相似性或不相似性。此外,当前任务和先前任务之间的学习偏差也是一个迫切需要解决的问题。在这项工作中,我们提出了一种新的方法,名为通过知识不变和扩散属性的在线持续学习(OCLKISP),其中我们通过知识不变和扩散属性(KISP)来约束嵌入特征的演变。因此,我们可以进一步转移以前任务的实例间结构知识,同时减轻由于学习偏差造成的遗忘。我们在四个流行的持续学习基准上对我们提出的方法进行了实证评估。Split CIFAR 100, Split SVHN, Split CUB200 和 Split Tiny-Image-Net。实验结果表明,与最先进的持续学习算法相比,我们提出的方法是有效的。
▌SHINE: Deep Learning-Based Accessible Parking Management System
论文作者:Dhiraj Neupane,Aashish Bhattarai,Sunil Aryal,Mohamed Reda Bouadjenek,Uk-Min Seok,Jongwon Seok
论文链接: http:// arxiv.org/abs/2302.0083 7v1
内容简介:
科学和技术的提高帮助城市的扩张,这是前所未有的。由于拥有私家车有不可否认的好处,在世界许多地方,包括韩国,汽车的数量已经飙升。然而,这些车辆数量的逐渐增加导致了与停车有关的问题,包括滥用残疾人停车位(以下简称无障碍停车位)。由于监控摄像机的高帧率,传统的车牌识别(LPR)系统在实时性方面是无效的。另一方面,自然和人工噪音以及照明和天气条件的差异使这些系统难以检测和识别。随着停车4.0概念的不断发展,许多传感器、物联网和基于深度学习的方法已被应用于自动LPR和停车管理系统。然而,研究表明,在韩国需要一个强大而有效的模型来管理无障碍停车位。我们提出了一个名为 "SHINE "的新颖系统,它使用基于深度学习的物体检测算法来检测车辆、车牌和残疾人徽章(以下简称卡、徽章或通行证),然后通过与中央服务器协调来验证使用无障碍车位的权利。这个模型,达到92.16%的平均精度,被认为可以解决无障碍车位滥用的问题。
▌RobustNeRF: Ignoring Distractors with Robust Losses
论文作者:Sara Sabour,Suhani Vora,Daniel Duckworth,Ivan Krasin,David J. Fleet,Andrea Tagliasacchi
论文链接: http:// arxiv.org/abs/2302.0083 3v1
项目链接: https:// robustnerf.github.io/pu blic
内容简介:
神经辐射场(NeRF)擅长在给定静态场景的多视图、校准图像时合成新的视图。当场景包括干扰物时,这些干扰物在图像采集过程中并不持久(移动物体、光照变化、阴影),伪影就会以视线相关的效果或 "漂浮物 "出现。为了应对干扰因素,我们主张对NeRF的训练进行一种稳健的估计,将训练数据中的干扰因素建模为一个优化问题的离群值。我们的方法成功地从场景中消除了异常值,并在合成和真实世界的场景中改进了我们的基线。我们的技术很容易被纳入现代的NeRF框架,只有很少的超参数。它不需要对干扰物的类型有先验的了解,而是专注于优化问题,而不是预处理或对瞬态物体进行建模。更多结果请见我们的网页 https:// robustnerf.github.io/pu blic 。
▌SpaceYOLO: A Human-Inspired Model for Real-time, On-board Spacecraft Feature Detection
论文作者:Trupti Mahendrakar,Ryan T. White,Markus Wilde,Madhur Tiwari
论文链接: http:// arxiv.org/abs/2302.0082 4v1
内容简介:
不合作的航天器和空间碎片在轨道上的迅速扩散,催生了对在轨服务和空间碎片清除的急剧需求,其规模只有自主任务才能解决,但要安全地捕获一个未知的、不合作的、翻滚的空间物体,先决条件是自主导航和飞行路径规划。这需要实时、自动识别航天器特征的算法,以确定碰撞危险(如太阳能电池板或天线)和安全对接特征(如卫星体或推进器)的位置,从而可以计划安全、有效的飞行路径。该领域先前的工作显示,计算机视觉模型的性能高度依赖于训练数据集及其对与部署中发生的真实场景视觉类似的场景的覆盖。因此,在某些照明条件下,即使追逐者与目标航天器的会合机动条件相同,该算法的性能也可能下降。这项工作通过对有航天器形状和部件经验的航天工程学生如何识别三个航天器的特征的调查,深入研究人类如何执行这些任务。Landsat, Envisat, Anik, 和Mir轨道器。调查显示,人类检测过程中最常见的模式是考虑特征的形状和纹理:天线、太阳能板、推进器和卫星体。这项工作介绍了一种新颖的算法SpaceYOLO,它将最先进的物体检测器YOLOv5与基于这些利用形状和纹理的人类启发的决策过程的独立神经网络融合在一起。在佛罗里达理工学院的ORION实验室进行的不同照明和追逐者机动条件下的硬件在环实验中,SpaceYOLO的自主航天器探测性能与普通YOLOv5进行了比较。
▌SkinCon: A skin disease dataset densely annotated by domain experts for fine-grained model debugging and analysis
论文作者:Roxana Daneshjou,Mert Yuksekgonul,Zhuo Ran Cai,Roberto Novoa,James Zou
论文链接: http:// arxiv.org/abs/2302.0078 5v1
内容简介:
对于在医疗保健等高风险环境中部署人工智能(AI),提供可解释性/可解释性或允许细粒度错误分析的方法至关重要。许多最近的可解释性/可说明性和细粒度错误分析的方法使用了概念,这些概念是对人类有语义的元标签。然而,只有少数数据集包括概念级的元标签,而且这些元标签大多与不需要领域专业知识的自然图像有关。医学中密集注释的数据集集中在与单一疾病相关的元标签上,如黑色素瘤。在皮肤病学中,皮肤病的描述是使用一个既定的临床词典,该词典允许临床医生相互描述体检结果。为了提供一个由领域专家密集注释的医学数据集,我们开发了SkinCon:一个由皮肤科医生密集注释的皮肤病数据集。SkinCon包括来自Fitzpatrick 17k数据集的3230张图片,这些图片上有48个临床概念,其中22个至少有50张图片代表该概念。所用的概念是由两位皮肤科医生考虑到用于描述皮损的临床描述词而选择的。例子包括 "斑块"、"鳞片 "和 "糜烂"。同样的概念也被用来标记来自多样化皮肤病图像数据集的656张皮肤病图像,提供了一个具有多样化肤色表示的额外的外部数据集。我们回顾了SkinCon数据集的潜在应用,如探测模型、基于概念的解释和概念瓶颈。此外,我们用SkinCon演示了其中的两个用例:用概念调试现有皮肤学人工智能模型的错误,用事后概念瓶颈模型开发可解释的模型。
▌NDJIR: Neural Direct and Joint Inverse Rendering for Geometry, Lights, and Materials of Real Object
论文作者:Kazuki Yoshiyama,Takuya Narihira
论文链接: http:// arxiv.org/abs/2302.0067 5v1
内容简介:
逆向渲染的目标是对给定姿势的多视图图像进行几何、灯光和材料的分解。为了实现这一目标,我们提出了神经直接和联合逆向渲染,即NDJIR。与之前依靠渲染方程的一些近似值的工作不同,NDJIR直接解决了渲染方程中的积分问题,并利用强大而灵活的体积渲染框架、体素网格特征和贝叶斯先验,联合分解了几何:带符号的距离函数、灯光:环境和隐含灯光、材料:基色、粗糙度、镜面反射率。我们的方法直接使用基于物理的渲染,因此我们可以将提取的网格与材质无缝输出到DCC工具,并展示了材质转换的例子。我们进行了大量的实验,以证明我们提出的方法能够对摄影测量环境中的真实物体进行良好的语义分解,以及哪些因素有助于实现准确的逆向渲染。
▌Deep-Learning Tool for Early Identifying Non-Traumatic Intracranial Hemorrhage Etiology based on CT Scan
论文作者:Meng Zhao,Yifan Hu,Ruixuan Jiang,Yuanli Zhao,Dong Zhang,Yan Zhang,Rong Wang,Yong Cao,Qian Zhang,Yonggang Ma,Jiaxi Li,Shaochen Yu,Wenjie Li,Ran Zhang,Yefeng Zheng,Shuo Wang,Jizong Zhao
论文链接: http:// arxiv.org/abs/2302.0095 3v1
内容简介:
背景:开发一个人工智能系统,能够根据非对比CT(NCCT)扫描准确识别急性非创伤性颅内出血(ICH)的病因,并研究临床医生在诊断中是否能从中受益。材料和方法:利用2011年1月至2018年4月期间收集的1868张符合条件的非外伤性ICH的NCCT扫描件开发了深度学习模型。我们在2018年4月后收集的两个独立数据集(TT200和SD 98)上测试了该模型。该模型的诊断表现与临床医生的表现进行了比较。我们进一步设计了一个模拟研究,比较有无深度学习系统增强的临床医生的表现。结果:提出的深度学习系统在动脉瘤上的接收操作曲线下面积为0.986(95% CI 0.967-1.000),在高血压出血上为0.952(0.917-0.987),在动静脉畸形上为0.950(0.860-1. 000)的动静脉畸形(AVM),0.749(0.586-0.912)的Moyamoya病(MMD),0.837(0.704-0.969)的海绵状畸形(CM),和0.839(0.722-0.959)的TT200数据集的其他原因。鉴于90%的特异性水平,我们的模型对动脉瘤和AVM诊断的敏感度分别为97.1%和90.9%。该模型在一个独立的数据集SD98中也显示出令人印象深刻的通用性。通过提议的系统增强,临床医生在某些出血病因诊断的敏感性、特异性和准确性方面取得了显著改善。结论:提出的深度学习算法可以成为基于NCCT扫描的早期识别出血病因的有效工具。它还可以为临床医生提供更多的信息,用于分诊和进一步的影像检查选择。