https://kami.app/XxVJqozf8md0
,
https://github.com/yzou2/CRST
这篇文章通过对模型进行正则化,迫使输出的 vector 不那么 sharp(参考 label smooth 的作用),从而减轻使用软伪标签学习的伪标签不正确或模糊所带来的误导效果。
该文的大致流程可见下图:
方法一:在打标签的过程中添加 label regularization (LR),增加 pesudo label 的熵,类似于 label smooth 的作用。
方法二:在网络重新训练的过程中添加 model regularization (MR),增加网络输出概率的熵。
作者提出了多项正则化手段,其目的在于增加 pesudo label 的熵。通过求解 KKT 条件,作者还解出了在该条件下模型的输出概率。可以看出是本质上都是熵增正则化项或者类似于熵增正则化项。
作者在后面通过实验论证为什么置信正则化平滑(Confidence regularization smooths)有效,两种正则化均能够使(被模型预测为正的正样本的 confidence/置信度,换句话说就是伪标签与真实标签相同时,伪标签对应类的概率值)略微降低,同时能够使(被模型预测为正的负样本的 confidence/置信度,换句话说就是伪标签与真实标签不同时,伪标签对应类的概率值)明显降低,实验结果可见下图:
https://github.com/microsoft/UST
核心贡献:使用贝叶斯不一致主动学习(Bayesian Active Learning by Disagreement, BALD)的思想评估样本标签的不确定性,利用不确定性选择用于 re-train 模型的伪标签样本。
https://github.com/google-research/noisystudent
这篇文章最大的亮点就在于“noisy student”,产生伪标签的过程与之前无二,但是在重新训练模型(student)的时候需要加噪声(dropout, stochastic depth and augmentation)。整体框架如下:
除此之外有两点需要注意:
teacher 和 student 模型架构可以相同也可以不同,但是要想使噪音学生模型学习的好,模型容量必须足够大,以拟合大量的无标注数据集。这里使用的是基准模型,即第一次的 teacher model 是 EfficentNet-B7,而 student model 是一个更大的模型,并逐渐增大直到 EfficientNet-L2。
平衡数据:这是 self-training 很多都会做的一个工作,让每个类的未标记图像数量相同。
文章实验居多,标签数据使用了 imagenet,无标签数据使用了 JFT,使用最初在 ImageNet 上训练的 EfficientNet-B0 来预测标签,并且只考虑那些标签的置信度高于 0.3 的图像。对于每个类,选择 130K 个样本,对于少于 130K 个样本的类,随机复制一些图像。文章得到的效果如下:
https://github.com/google-research/uda
一个比较经典的self-training框架,使用监督数据计算交叉熵损失,使用无监督数据进行数据增强,然后计算增强后的样本和原始样本预测的一致性损失(KL散度,交叉熵等)。
https://zhuanlan.zhihu.com/p/350701042
本文提出的
U
ncertainty-Aware
P
seudo-Label
S
election Framework (UPS)策略,正是结合了不确定性估计(Uncertainty estimation)和Negative learning的技术,不仅在传统的半监督学习任务上与一致性正则法达到旗鼓相当的水平,而且在视频半监督分类和图片多标签半监督分类领域打破了一致性正则的垄断,取得了更优的效果。
https://mp.weixin.qq.com/s/c5grUkfdqo96vnRVr0vf2Q
NLP
NLG
Conversations Are Not Flat Modeling the Dynamic Information Flow across Dialogue Utterances
2021-07-19