2019年主动学习有哪些进展？答案在这三篇论文里

目前推广应用的机器学习方法或模型主要解决分类问题，即给定一组数据（文本、图像、视频等），判断数据类别或将同类数据归类等，训练过程依赖于已标注类别的训练数据集。在实验条件下，这些方法或模型可以通过大规模的训练集获得较好的处理效果。然而在应用场景下，能够得到的数据实际上都没有进行人工标注处理，对这些数据进行类别标注所耗费的人力成本和时间成本非常巨大。在一些专门的应用领域，例如医学图像处理，只有专门学科的专业医生能够完成对医学影像图像的数据标注。显然，在这种情况下必须依赖大规模训练集才能使用的方法或模型都不再适用。为了减少对已标注数据的依赖，研究人员提出了主动学习（Active Learning）方法。主动学习通过某种策略找到未进行类别标注的样本数据中最有价值的数据，交由专家进行人工标注后，将标注数据及其类别标签纳入到训练集中迭代优化分类模型，改进模型的处理效果。

根据最有价值样本数据的获取方式区分，当前主动学习方法主要包括基于池的 查询获取方法 （query-acquiring/pool-based）和 查询合成方法 （query-synthesizing）两种。近年来提出的主动学习主要都是查询获取方法，即通过设计查询策略（抽样规则）来选择最具有价值信息的样本数据。与查询获取方法「选择（select）」样本的处理方式不同，查询合成方法「生成（generate）」样本。查询合成方法利用生成模型，例如生成式对抗网络（GAN, Generative Adversarial Networks）等，直接生成样本数据用于模型训练。

我们从 2019 年机器学习会议中选出三篇关于主动学习方法的文章进行针对性的分析，这三篇文章为：

Learning loss for active learning（CVPR 2019，oral）
Variational Adversarial Active Learning (ICCV 2019，oral)
Bayesian Generative Active Deep Learning (ICML 2019)

其中，前两篇提出基于池的查询获取方法：《Learning loss for active learning》通过添加损失函数设计一种任务不可知的主动学习方法，《Variational Adversarial Active Learning》设计了一种利用 VAE 和对抗网络来学习潜在空间中已标注数据分布情况的查询策略。第三篇 ICML 的文章《Bayesian Generative Active Deep Learning》介绍了一种利用对抗性网络的查询合成方法。

1. Learning Loss for Active Learning（CVPR 2019）

其中 p 和 q 分别表示编码器和解码器，p(z) 为高斯先验知识。由 VAE 学习的潜在空间表示是已标注数据和未标注数据相关的潜在特征的混合。

第二步，本文的抽样策略为训练一个对抗性网络，以学习如何区分隐藏空间中不同类别数据的编码特征。训练对抗网络，将潜在表示映射为二进制标签：如果样本数据为已标注，则为 1，否则为 0。

在上一步处理中，VAE 将已标注和未标注的数据映射到具有相似概率分布的同一潜在空间，它愚弄鉴别器将所有输入均定义为已标注的数据。另一方面，鉴别器则试图有效地估计该数据属于未标注数据的概率。关于 VAE 的对抗角色目标函数表述为：

其中 L_bce 为简单的二元交叉熵成本函数。由上面的分析，VAAL 中 VAE 的完整目标函数如下：

由于参与数据标注的人员专业性水平不同，专家标注（Oracle）的结果并不完全可靠。本文假设存在两种类型的 Oracle：一种是理想的 Oracle，它总是能够提供正确的标签；另一种是有噪声的 Oracle，它非自愿地为某些特定的类提供错误的标签。为了更加真实地评估有噪声 Oracle 情况下 VAAL 的效果，本文添加目标噪声，使用与鉴别器预测相关的概率作为一个打分项，收集每批样本中置信度最低的 B 个样本发送给 Oracle。

实验结果

本文实验条件为：初始训练集中已标注和未标注数据的比例为 10%、90%。从未标注数据集中选择需要由 Oracle 标注的样本，标注完毕后将这些数据添加到初始训练集中，并在新的训练集中重复训练。

实验通过准确度和平均 IoU 来评估 VAAL 在图像分类和分割中的性能，当有 Oracle 提供的标签可用时，分别以训练集的 10%、15%、20%、25%、30%、35%、40% 的比例进行训练。除 ImageNet 外，最终结果均为 5 次实验结果的平均值。ImageNet 中的结果则为使用 10%、15%、20%、25%、30% 的训练数据 2 次实验结果的平均值。

图像分类

实验结果见图 2。

数据库：CIFAR10、CIFAR100、Caltech-256、ImageNet。
对比算法：random sampling、Core-set、Monte-CarloDropout、Ensembles using Variation Ratios、Deep Bayesian AL(DBAL)。

在 CIFAR-10 上，VAAL 使用 40% 的样本数据达到了 80.9% 的平均准确度，而使用整个样本数据集得到的准确度为 90.16%。在 CIFAR-100 上，VAAL 与 Ensembles w. VarR 和 Core-set 都获得较好效果，并且优于所有其他基线。在拥有类别真实图像的 Caltech-256 上，VAAL 始终优于其它算法，超过 Core-set 1.01%。在大规模数据集 ImageNet 中的实验结果证明了 VAAL 的可扩展性。由图 2 实验可知，VAAL 在图像分类实验中准确度最高，在获得同样准确度的情况下 VAAL 所需的样本数量最少。

图像分割

实验结果见图 3。

数据库：BDD100K、Cityscapes。
对比算法：random sampling、Core-set、Monte-CarloDropout、 Query-By-Committee (QBC)、suggestive annotation (SA)。

图3： 与QBC、Core-set、MC-Dropout和Random Sampling相比，使用Cityscapes和BDD100K的VAAL在分割任务上的性能更好

在已标注数据比率不同的情况下，VAAL 在 Cityscapes 和 BDD100K 两个数据库中都能获得最高的平均 IoU。VAAL 仅使用 40% 的标注数据就可以实现 57.2 和 42.3 的%mIoU。当使用 100% 标注数据的情况下，VAAL 在 Cityscapes 和 BDD100K 两个数据库中可以达到 62.95 和 44.95 的%mIoU。

进一步，本文在 BDD100K 库中进行实验，以验证本文方法中所采用的 VAE 和鉴别器的有效性。实验考虑三种情况：1）取消 VAE；2）给定一个鉴别器，固定 VAE；3）取消鉴别器。实验结果见图 4。

图4： 分析VAE和鉴别器效果的控制变量结果。

实验结果表明，由于鉴别器只用于存储数据，仅采用鉴别器的模型处理效果最差。VAE 除了能够学习潜在空间，还能够利用鉴别器进行最小-最大博弈，从而避免过度拟合。而 VAAL 能够有效学习 VAE 和鉴别器之间对抗性博弈的不确定性，实验效果最优。

最后，本文给出了 CIFAR100 库中初始标注偏移情况（bias）、预期规模（budget）、噪声 oralce 对 VAAL 的影响，实验结果见图 5，实验证明了 VAAL 对不同参数的鲁棒性。

图5： 使用CIFAR100分析VAAL对噪声标签、预算大小和有偏初始标签池的鲁棒性。

总结与分析

VAAL 的关键是以一种对抗性的方式同时学习 VAE 和对抗性网络，从而找到最有价值的抽样策略（准则）。本文基于各种图像分类和语义分割基准数据集对 VAAL 进行了广泛评估，VAAL 在 CIFAR10/100、CALTECH-256、IMAGENET、CITYSCAPE 和 BDD100K 上均获得了较好的效果。实验结果表明，本文的对抗性方法在大规模数据集中能够学习有效的低维潜在空间，并提供计算有效的抽样策略。

3、Bayesian Generative Active Deep Learning(ICML 2019)

原文地址： https://arxiv.org/pdf/1904.11643.pdf

本文提出了一种新的贝叶斯生成式主动深度学习模型，该模型的目标是用生成的样本扩充已标注数据集，而这些生成样本对训练过程具有一定的参考价值。本文使用贝叶斯不一致主动学习（Bayesian active learning by disagreement，BALD）从未标注数据集中抽样，样本进行专家标注后使用对抗性模型 VAE-ACGAN（（variational autoencoder，VAE）-（auxiliary-classifier generative adversarial networks，ACGAN)）处理，生成与输入样本具有相似信息的新人工样本。将新样本添加到已标注数据集中，供模型迭代训练使用。

本文的研究主要受到最近提出的一种生成性对抗性主动学习方法（Generative adversarial active learning，GAAL）(Zhu and Bento, 2017 (https://arxiv.org/abs/1702.07956v5)) 启发，不同于传统的根据抽样策略选择信息量最大样本的主动学习方法，GAAL 依靠一个优化问题生成新样本（这种优化平衡了样本信息性和图像生成质量）。本文提出的贝叶斯生成式主动深度学习模型利用传统的基于池的主动学习方法选择样本，之后利用生成性对抗模型生成样本。传统的基于池方法、GAAL 和本文模型的对比图示见图 1。

图1： （基于池）的主动学习的对比

2.2. Data Augmentation

In active learning, it is assumed that a model can be trained with a small data set. That assumption is challenging in the estimation of a deep learning model since it often re- quires large labeled data sets to avoid over-fitting. One reasonable way to increase the labeled training set is with data augmentation that artificially generates new synthetic training samples (Krizhevsky et al., 2012). Gal et al. (2017) also emphasized the importance of data augmentation for the development of deep active learning. Data augmenta- tion can be performed with “label-preserving” transforma- tions (Krizhevsky et al., 2012; Simard et al., 2003; Yaeger et al., 1996) – this is known as “poor’s man” data augmen- tation (PMDA) (Tanner, 1991; Tran et al., 2017). Alter- natively, Bayesian data augmentation (BDA) trains a deep generative model (using the training set), which is then used to produce new artificial training samples (Tran et al.,2017). Compared to PMDA, BDA has been shown to have a better theoretical foundation and to be more beneficial in

practice (Tran et al., 2017). One of the drawbacks of data augmentation is that the generation of new training points is driven by the likelihood that the generated samples belong to the training set – this implies that the model produces samples that are likely to be close to the generative distribu- tion mode. Unfortunately, as the training process progresses, these points are the ones more likely to be correctly classi- fied by classifier, and as a result they are not informative. The combination of active learning and data augmentation proposed in this paper addresses the issue above, where the goal is to continuously generate informative training samples that not only are likely to belong to the learned gen- erative distribution, but are also informative for the training process – see Fig. 2.　　

算法分析

与 GAAL 不同，本文方法首先利用基于池的方法（BALD）选择出信息量最大的样本，具体公式为：

其中 a(x ;M) 为抽样策略函数，使用香农熵表征预测值和分布情况。样本 x 被标记为 y 后进入样本库用于后续训练。具体抽样函数使用 Monte Carlo (MC) dropout 方法：

f 表示在 t 次迭代时从后验估计中取样的网络函数。

在建立生成模型主动生成样本数据的过程中，本文没有像 GAAL 一样直接应用 GAN，而是借鉴了数据增加（data augmentation）的理念，采用了贝叶斯数据增加（Bayesian Data Augmentation，BDA）模型。BDA 模型包括一个生成器（用于从潜在空间中生成新的训练样本）、鉴别器（区分真实和虚假样本）和分类器（确定样本类别）。首先，给定一个潜在变量 u 和类别标签 y，用函数 g 表示生成函数，将 (u,y)映射为点 x=g(u,y)，之后已标注的数据 x 以（x,y）格式加入到训练集中。本文对 BDA 进行改进，在样本生成阶段不使用潜在变量 u 和类别标签 y，而是使用样本 x 和类别标签 y，即样本 x 直接推送到 VAE 中：

VAE 的训练过程通过最小化重建损失实现。此外，本文证明了从信息量最大的样本中生成的样本同样具有信息量。

本文的主要贡献是通过结合 BALD 和 BDA，有效生成对训练过程有参考意义的新的标记样本。本文模型的结构见图 2。

图2： 本文所提出模型的网络架构

由图 2 可知，本文提出的模型由四部分组成：分类器、编码器、解码器/生成器、鉴别器。其中分类器可使用主流的各种深度卷积神经网络分类器，这使得该模型具有很好的灵活性，可以有效利用各种优秀分类器。生成器部分本文使用的是 ACGAN 和 VAE-GAN。将 VAE 的重建误差引入 GAN 的损失函数中构成 VAE-ACGAN 的损失函数，实现对 GAN 训练过程中的不现实性和模式崩溃进行惩罚。VAE-ACGAN 的损失函数为：

其中 VAE 损失表示为重建损失 Lrec 和正则化先验 Lprior 的组合：

ACGAN损失函数则为：

实验结果

本文根据 Top-1 精度测量的分类性能评估贝叶斯生成式主动深层学习模型的效果。

实验对比的方法包括：贝叶斯生成式主动深层学习模型（AL w. VAEACGAN）、使用 BDA 的主动学习模型（AL w. ACGAN）、未使用数据增加处理的 BALD（AL without DA）、未使用主动学习方法的 BDA（BDA）以及随机生成样本的方法。
实验数据库：MNIST、CIFAR-10、CIFAR-100、SVHN。
实验中使用的分类器：ResNet18、ResNet18pa。

图3： 训练和分类性能

图 3 给出了在采集初始训练集迭代次数、样本百分比不同的情况下各个模型的实验结果。图 3 中曲线的每个点表示一次采集迭代的结果，其中每个新点表示训练集的增长百分比。使用完整训练集和 10 倍数据扩充建模的 BDA 的实验结果作为所有其他方法的上限（BDA（full training））。本文提出的模型（AL w. VAEACGAN）效果优于使用 BDA 的主动学习模型（AL w. ACGAN）。这说明尽管 AL w. ACGAN 使用样本信息训练，但生成的样本可能不具有信息性，因此是无效样本。尽管如此，AL w. ACGAN 生成的样本分类性能仍然优于未使用数据增加处理的主动学习方法（AL without DA）。

此外，图 3 的实验还表明，本文提出的模型在仅依赖部分训练集数据的情况下，能够获得与依赖 10 倍训练集大小数据量的数据增强方法相当的分类性能。这表明，本文模型仅需要消耗较少的人力和计算资源来标记数据集和训练模型。

进一步，本文在不同随机初始化的情况下完成三次实验，给出最终的分类结果见表 1。表 1 的数据表明，本文提出的模型效果优于其他方法。

表1： 经过3次运行，迭代150次后在MNIST、CIFAR-10和CIFAR-100上分类准确率的平均标准差

图 4 给出在不同数据库中使用本文提出的模型生成的图像。本文模型的主要目标是改进训练过程以获得更好的分类效果，然而由图 4 结果可知，模型的生成数据具有非常高的图像质量。

图4： 本文提出的AL w. VAE-ACGAN方法生成的各类图像。

总结与分析

本文是受 (Zhu and Bento, 2017 ) 启发提出的查询合成类（生成样本）主动学习模型，由于 (Zhu and Bento, 2017 ) 文章中仅探讨了二进制分类问题，本文未与其进行实验对比。本文提出的方法是模型不可知的（model-agnostic），因此它可以与目前提出的几种主动学习方法相结合。现有模型的样本生成方式是：以从未标注数据集中选择出的具有较高信息量的样本为基础来生成样本，后续研究将着重考虑如何使用复杂的采集函数直接从未标注数据集中生成样本，而不再需要样本选择的步骤。此外，模型的计算性能还需进一步提升。

作者介绍：仵冀颖，工学博士，毕业于北京交通大学，曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理，现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉，爱好科研，希望能保持学习、不断进步。

zz2019年主动学习有哪些进展？答案在这三篇论文里

2019年主动学习有哪些进展？答案在这三篇论文里

1. Learning Loss for Active Learning（CVPR 2019）

实验结果

图像分类

图像分割

总结与分析

3、Bayesian Generative Active Deep Learning(ICML 2019)

算法分析

实验结果

总结与分析

个人收藏笔记记录

2019年主动学习有哪些进展？答案在这三篇论文里

1. Learning Loss for Active Learning（CVPR 2019）

实验结果

图像分类

图像分割

总结与分析

3、Bayesian Generative Active Deep Learning(ICML 2019)

算法分析

实验结果

总结与分析

个人收藏笔记记录

开通VIP