Single-Domain Generalized Object Detection in Urban Scene via Cyclic-Disentangled Self-Distill阅读笔记_s

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

奔跑的青椒 · Domain-Driven Design ...· 2 周前 ·

粗眉毛的蚂蚁 · Shubao2s / ...· 3 天前 ·

有胆有识的豆腐 · php复选框删除数据 - CSDN文库· 1 年前 ·

没有腹肌的水煮肉 · 人民画报—古生物学家徐星：寻找亿万年前的恐龙族群· 2 年前 ·

温柔的木耳 · 简单一百应用涉及权限· 2 年前 ·

奔放的排球 · Is there a good Unity ...· 2 年前 ·

霸气的大蒜 · 车银优韩文名怎么打_百度知道· 2 年前 ·

研究背景:

在本文中考虑的问题是Single-Domain Generalized Object Detection(Single-DGOD), Single-DGOD解决的是to learn a detector that performs well on many unseen target domains with only one source domain for training ,也就是得到能够在不同domain下表现较好的检测器。

对于Single-DGOD问题,提取包含了目标内在特点的 domain-invariant representation(DIR) 是相当重要的。

主要工作:

提出cyclic-disentangled self-distillation,首先设计了一个cyclic-disentangled module 能够cyclically从输入图像特征中提取DIR,并通过循环操作来提升disentangled能力。

将DIR看成教师模型,设计了一个self-distillation模块来进一步提升泛化能力

实验结果:
在5种天气场景下相比于baseline都取得了性能上的gain,尤其是对于night-sunny场景，本文方法超出了baseline 3%。

(三) Problem Statement

当前目标检测任务通常假设的是训练集和测试集在同一个domain下,当domain发生变换时,就会产生poor generalization,由于 domain-shift impact 。
如何解决domain-shift impact问题呢？主要的工作集中在domain adaption以及 domain generalization 两种方法上。

domain adaption(域自适应)：将数据分布从source domain对齐到target domain，不过存在的两个问题：1.在训练过程中需要同时source和target数据.2.并且当target domain是多个不同的数据分布的混合时,这种方法的表现就比较差。

Domain Generation(DG):从多个source domain中learning，接着将模型推广到一个unseen的target domain当中去，性能比较依赖source domain的数量,造成了这种方法同样也比较受限制。

为了对上述domain-shift问题进行研究,本文提出了一个问题：Single-Domain Generalization Object Detection(Single DGOD)问题,也就是给定一个场景,使在其上训练的模型能够在unseen target domain上有不错的表现,现有的Domain Generation方法在这个问题上没法得到较好的表现。
当domain-related annotations不能用的时候,如何从输入的图像特征中提取到 Domain-invariant Representations(DIR) 这个问题目前仍然没有得到很好地解决。

(四) Method

首先,本文设计了一个cyclic-disentangled method来获取DIR,如下图所示：

在循环的前向过程,分别设计了一个Domain-invariant Representations(DIR)和一个Domain-Specific Representations(DSR)提取器,从骨干的feature map中提取DIR和DSR,然后循环的后向过程则是将提取的DIR和DSR作为提取器的输入,再次进行提取。

这里可以假设DIR和DSR的提取效果很好,即输入

F_{di}

，同理输入

F_{ds}

此外,这里还探究了self-distillaiton，将DIR作为teacher representations，蒸馏集中在DIR和骨干输出的中间特征上,从而使得骨干提取的特征中包含了更多地domain-invariant 信息

这里的设计思想真的是很巧妙啊~~~~

主要的设计包括两个：cyclic-disentanglement以及self-distillaiton
Cyclic Disentanglement

使用Faster R-CNN作为基础的检测模型,将骨干ResNet101分成三个部分(

E_1,E_2,E_3

坚持努力不放弃: 现在有GTs,track queries,detect queries。Track queries不需要使用bipartite matching进行匹配,follow the same assignment of previous frames(这里说的比较抽象，实际上应该是当前已有的track queries中在之前已经将gt的label给到这儿了，接只需要确定当前track queries中和gt id对应上的那个就是要track queries需要对应的gt，如果GTs中没有能够同track queries对应上的,则将当前的track queries设置成无效，应该是将该track query删除)，接着剩下的没有匹配上的就看成是detect queries，将detect queries同剩下的GTs做一次匈牙利匹配，也就是一一对应上。 ———————————————— 你好，你说的这段内容，我还是有些没看明白，我想分享一下我的见解，你看我说的是否是你表达的这个意思在经过编码器之后，提取了图像的特征，同时初始化了固定长度的检测查询，再加上上一帧的跟踪查询，一同输入到解码器，通过自注意力的查询交互，跟踪查询首先已经跟真实框匹配了，检测查询只会和剩下的真实框进行匹配最后输出跟踪查询，以及只有新生目标的检测查询这大概就是我的理解，你能再说说你的看法吗 Verilog刷题-10-Wire_dec zzzzzzzzzzzzzzzzh: 下午学习了一下综合软件，这个题目用三条wire和两条wire综合出来的RTL网表是一样的。没有节约什么资源。 Verilog刷题-10-Wire_dec zzzzzzzzzzzzzzzzh: 少写一个wire有少用资源吗，我记得有工具可以综合出来实际电路图，2个wire和3个wire应该没差吧，我还不会用综合工具，以上是我的猜测。 Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection阅读笔记李小小.: 原论文中说了，训练到一半的时候切换到L1损失。For the experiments with our loss functions, we defined a default setup where we start training with L2 loss for half of the total iterations, and then switch to L1. PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefﬁcient阅读笔记 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising阅读笔记 DAB-DETR:Dynamic Anchor Boxes Are Better Queries for DETR阅读笔记