Self-Training综述 | Helic

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

Introduction

Self-training 是最简单的半监督方法之一，其主要思想是找到一种方法，用未标记的数据集来扩充已标记的数据集。算法流程如下：

首先，利用已标记的数据来训练一个好的模型，然后使用这个模型对未标记的数据进行标记。

然后，进行伪标签的生成，因为已训练好的模型对未标记数据的所有预测都不可能都是完全正确的，因此对于经典的 Self-training，通常是使用分数阈值（confidence score）过滤部分预测，以选择出未标记数据的预测标签的一个子集。

其次，将生成的伪标签与原始的标记数据相结合，并在合并后数据上进行联合训练。

整个过程可以重复 n 次，直到达到收敛。

Self-training 最大的问题在就在于伪标签非常的 noisy，会使得模型朝着错误的方向发展。以下文章大多数都是为了解决这个问题。

Paper

Confidence Regularized Self-Training

ICCV 2019, https://kami.app/XxVJqozf8md0 , https://github.com/yzou2/CRST
这篇文章通过对模型进行正则化，迫使输出的 vector 不那么 sharp（参考 label smooth 的作用），从而减轻使用软伪标签学习的伪标签不正确或模糊所带来的误导效果。

该文的大致流程可见下图：

方法一：在打标签的过程中添加 label regularization (LR)，增加 pesudo label 的熵，类似于 label smooth 的作用。

方法二：在网络重新训练的过程中添加 model regularization (MR)，增加网络输出概率的熵。

作者提出了多项正则化手段，其目的在于增加 pesudo label 的熵。通过求解 KKT 条件，作者还解出了在该条件下模型的输出概率。可以看出是本质上都是熵增正则化项或者类似于熵增正则化项。

作者在后面通过实验论证为什么置信正则化平滑（Confidence regularization smooths）有效，两种正则化均能够使（被模型预测为正的正样本的 confidence/置信度，换句话说就是伪标签与真实标签相同时，伪标签对应类的概率值）略微降低，同时能够使（被模型预测为正的负样本的 confidence/置信度，换句话说就是伪标签与真实标签不同时，伪标签对应类的概率值）明显降低，实验结果可见下图：

Uncertainty-aware Self-training for Text Classification with Few Labels

MSR，NIPS2020， https://github.com/microsoft/UST
核心贡献：使用贝叶斯不一致主动学习（Bayesian Active Learning by Disagreement, BALD）的思想评估样本标签的不确定性，利用不确定性选择用于 re-train 模型的伪标签样本。

Background: Bayesian neural network(BNN)

给定网络参数 $p(W|X,Y)$，贝叶斯推断是想要找一个后验分布：
$$
p(y=c \mid x)=\int_{W} p\left(y=c \mid f^{W}(x)\right) p(W \mid X, Y) d W
$$
$f$ 即 NN，这个积分显然是 intractable，因此就有很多工作用到了随机正则化的工具（dropout）来构建易于处理的分布族中 $q_{\theta}(w)$，它可以替代难以计算的真实模型后验。如果我们使用不同的 dropout 采样T个 masked model $\left\{\widetilde{W}_{t}\right\}_{t=1}^{T} \sim q_{\theta}(W)$，那么近似后验可以通过 MC 积分得到：
$$
\begin{aligned}
p(y=c \mid x) & \approx p\left(y=c \mid f^{W}(x)\right) q_{\theta}(W) d W \\
& \approx \frac{1}{T} \sum_{t=1}^{T} p\left(y=c \mid f^{\widetilde{W}_{t}}(x)\right)=\frac{1}{T} \sum_{t=1}^{T} \operatorname{softmax}\left(f^{\widetilde{W}_{t}}(x)\right)
\end{aligned}
$$

Method

如何得到伪标签？对于选出的每个 unlabeled 的数据，我们可以将其传入 NN T 次，因为使用了 dropout，我们会得到不同的 T 个预测结果，直接将预测结果求平均就得到了预测标签（当然也可以采取其他方式）。

如何选择样本？接下来的 Bayesian Active Learning by Disagreement（BALD）即文章选择的选取带伪标签数据的方式。它具体的计算公式如下：
$$
\widehat{\mathbb{B}}\left(y_{u}, W \mid x_{u}, D_{u}^{\prime}\right)=-\sum_{c}\left(\frac{1}{T} \sum_{t} \widehat{p}_{c}^{t}\right) \log \left(\frac{1}{T} \sum_{t} \widehat{p}_{c}^{t}\right)+\frac{1}{T} \sum_{t, c} \widehat{p}_{c}^{t} \log \left(\widehat{p}_{c}^{t}\right)
$$
BALD的值大就说明模型对预测的标签非常不确定，因此我们可以用 BALD 对模型进行排名然后挑选，本文提出的策略可以概括为：先对每个类选择相同数目的样本，防止某些类特别容易造成的样本极度不均衡。然后在每个类中使用 BALD 对样本进行排名并依概率抽取。如果我们想要挖掘简单样本就以 1-BALD 排名，否则以 BALD 排名。论文做了消融实验验证easy模式大多数情况下优于hard模式。
$$
p_{u, c}^{e a s y}=\frac{1-\widehat{\mathbb{B}}\left(y_{u}, W \mid x_{u}, D_{u}^{\prime}\right)}{\sum_{x_{u} \in S_{u, c}} 1-\widehat{\mathbb{B}}\left(y_{u}, W \mid x_{u}, D_{u}^{\prime}\right)} \quad p_{u, c}^{h a r d}=\frac{\widehat{\mathbb{B}}\left(y_{u}, W \mid x_{u}, D_{u}^{\prime}\right)}{\sum_{x_{u} \in S_{u, c}} \widehat{\mathbb{B}}\left(y_{u}, W \mid x_{u}, D_{u}^{\prime}\right)}
$$