添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

研究背景:

  • 在本文中考虑的问题是Single-Domain Generalized Object Detection(Single-DGOD), Single-DGOD解决的是to learn a detector that performs well on many unseen target domains with only one source domain for training ,也就是得到能够在不同domain下表现较好的检测器。
  • 对于Single-DGOD问题,提取包含了目标内在特点的 domain-invariant representation(DIR) 是相当重要的。
  • 主要工作:

  • 提出cyclic-disentangled self-distillation,首先设计了一个cyclic-disentangled module 能够cyclically从输入图像特征中提取DIR,并通过循环操作来提升disentangled能力。
  • 将DIR看成教师模型,设计了一个self-distillation模块来进一步提升泛化能力
  • 实验结果:
    在5种天气场景下相比于baseline都取得了性能上的gain,尤其是对于night-sunny场景,本文方法超出了baseline 3%。

    (三) Problem Statement

    当前目标检测任务通常假设的是训练集和测试集在同一个domain下,当domain发生变换时,就会产生poor generalization,由于 domain-shift impact
    如何解决domain-shift impact问题呢?主要的工作集中在domain adaption以及 domain generalization 两种方法上。

  • domain adaption(域自适应):将数据分布从source domain对齐到target domain,不过存在的两个问题:1.在训练过程中需要同时source和target数据.2.并且当target domain是多个不同的数据分布的混合时,这种方法的表现就比较差。
  • Domain Generation(DG):从多个source domain中learning,接着将模型推广到一个unseen的target domain当中去,性能比较依赖source domain的数量,造成了这种方法同样也比较受限制。
  • 为了对上述domain-shift问题进行研究,本文提出了一个问题:Single-Domain Generalization Object Detection(Single DGOD)问题,也就是给定一个场景,使在其上训练的模型能够在unseen target domain上有不错的表现,现有的Domain Generation方法在这个问题上没法得到较好的表现。
    当domain-related annotations不能用的时候,如何从输入的图像特征中提取到 Domain-invariant Representations(DIR) 这个问题目前仍然没有得到很好地解决。

    (四) Method

    首先,本文设计了一个cyclic-disentangled method来获取DIR,如下图所示:
    在这里插入图片描述
    在循环的前向过程,分别设计了一个Domain-invariant Representations(DIR)和一个Domain-Specific Representations(DSR)提取器,从骨干的feature map中提取DIR和DSR,然后循环的后向过程则是将提取的DIR和DSR作为提取器的输入,再次进行提取。

  • 这里可以假设DIR和DSR的提取效果很好,即输入 F d i F_{di} F d i (DIR)到DIR提取器后能够输出更多地Domain-invariant 表示 ,同理输入 F d s F_{ds} F d s (DSR)到DSR提取器之后能够输出更多地Domain-Specific信息。接着最关键的来了,利用一个contrastive loss来约束该假设
  • 此外,这里还探究了self-distillaiton,将DIR作为teacher representations,蒸馏集中在DIR和骨干输出的中间特征上,从而使得骨干提取的特征中包含了更多地domain-invariant 信息
  • 这里的设计思想真的是很巧妙啊~~~~

    在这里插入图片描述
    主要的设计包括两个:cyclic-disentanglement以及self-distillaiton
    Cyclic Disentanglement

  • 使用Faster R-CNN作为基础的检测模型,将骨干ResNet101分成三个部分( E 1 , E 2 , E 3 E_1,E_2,E_3 E 1 , E 2 , E 3 ),用于进行self-distillation,经骨干输出的特征图为 F b ∈ R w × h × c F_b \in \mathbf{R}^{w \times h \times c} F b R w × h × c ,然后两个Extractor: E D I R E_{DIR} E D I R E D S R E_{DSR} E D S R 分别用来提取 F d i ∈ R w × h × c F_{d i} \in \mathbb{R}^{w \times h \times c} F d i R w × h × c (DIR)和 F d s ∈ R w × h × c F_{d s} \in \mathbb{R}^{w \times h \times c} F d s R w × h × c (DSR),即:
    F d i = E D I R ( F b ) , F d s = E D S R ( F b ) F_{d i}=E_{\mathrm{DIR}}\left(F_{b}\right), \quad F_{d s}=E_{\mathrm{DSR}}\left(F_{b}\right) F d i = E D I R ( F b ) , F d s = E D S R ( F b )
    这里的 E D I R E_{DIR} E D I R E D S R E_{DSR} E D S R 是由多个卷积层组成,接着在 F d i F_{di} F d i 上提取一组object proposals O O O ,然后通过ROIAlign得到输出 P ∈ R n × s × s × c P \in \mathbb{R}^{n \times s \times s \times c} P R n × s × s × c ,其中 n n n 表示proposals的数量, s s s 表示proposal的大小,然后在re-disentanglement过程中将 F d i F_{di} F d i F d s F_{ds} F d s 作为输入:
    F i 2 i = E D I R ( F d i ) , F i 2 s = E D S R ( F d i ) F s 2 i = E D I R ( F d s ) , F s 2 s = E D S R ( F d s ) \begin{array}{l} F_{i 2 i}=E_{\mathrm{DIR}}\left(F_{d i}\right), \quad F_{i 2 s}=E_{\mathrm{DSR}}\left(F_{d i}\right) \\ F_{s 2 i}=E_{\mathrm{DIR}}\left(F_{d s}\right), \quad F_{s 2 s}=E_{\mathrm{DSR}}\left(F_{d s}\right) \end{array} F i 2 i = E D I R ( F d i ) , F i 2 s = E D S R ( F d i ) F s 2 i = E D I R <
  • 坚持努力不放弃: 现在有GTs,track queries,detect queries。Track queries不需要使用bipartite matching进行匹配,follow the same assignment of previous frames(这里说的比较抽象,实际上应该是当前已有的track queries中在之前已经将gt的label给到这儿了,接只需要确定当前track queries中和gt id对应上的那个就是要track queries需要对应的gt,如果GTs中没有能够同track queries对应上的,则将当前的track queries设置成无效,应该是将该track query删除),接着剩下的没有匹配上的就看成是detect queries,将detect queries同剩下的GTs做一次匈牙利匹配,也就是一一对应上。 ———————————————— 你好,你说的这段内容,我还是有些没看明白,我想分享一下我的见解,你看我说的是否是你表达的这个意思 在经过编码器之后,提取了图像的特征,同时初始化了固定长度的检测查询,再加上上一帧的跟踪查询,一同输入到解码器,通过自注意力的查询交互,跟踪查询首先已经跟真实框匹配了,检测查询只会和剩下的真实框进行匹配 最后输出跟踪查询,以及只有新生目标的检测查询 这大概就是我的理解,你能再说说你的看法吗 Verilog刷题-10-Wire_dec zzzzzzzzzzzzzzzzh: 下午学习了一下综合软件,这个题目用三条wire和两条wire综合出来的RTL网表是一样的。没有节约什么资源。 Verilog刷题-10-Wire_dec zzzzzzzzzzzzzzzzh: 少写一个wire有少用资源吗,我记得有工具可以综合出来实际电路图,2个wire和3个wire应该没差吧,我还不会用综合工具,以上是我的猜测。 Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection阅读笔记 李小小.: 原论文中说了,训练到一半的时候切换到L1损失。For the experiments with our loss functions, we defined a default setup where we start training with L2 loss for half of the total iterations, and then switch to L1. PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefficient阅读笔记 DN-DETR: Accelerate DETR Training by Introducing Query DeNoising阅读笔记 DAB-DETR:Dynamic Anchor Boxes Are Better Queries for DETR阅读笔记