添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

问题描述

在如今的大数据时代,社会的各个方面时时刻刻产生着大量的数据。很多时候,数据之间并不是独立的,而是建立了方方面面的联系。这种类型的数据被称作“关系型数据”。对于数据间的联系,图是一种有效的表达方式。一些数据间的关系结构,比如语音或文本中的序列结构和图片中的栅格结构,都可以视为一种特殊的图。

作为一个典型的例子,社交网络分析已经被用于朋友推荐、内容推荐和计算广告等具体业务。在基于图的机器学习中,每个样本作为图中的一个节点,样本之间的相似性将作为样本之间的关系反映到图中的边上,相似性越大,边的权重也就越大。

在一些情况下,可以通过节点活动产生的自然关系来构建图,例如社交网络中的关注和转发行为,以及引用网络中的引用关系。这种自然关系提供了节点特征中不存在的附加信息。利用这些信息,研究者可以更好地掌握数据背后的规律并提高模型的推理性能。但是在一些其他情况下,这些产生关系的行为缺失了或者不存在。 一个常用的方法是构建K近邻图(K-Nearest Neighbor Graph, K-NNG) miller1997separators 。暴力K近邻图构造方法的计算复杂度为$O(n^2)$,这对于大规模数据集来说并不实用。一些近似方法被提出来,在降低复杂度的同时保持高质量的图结构 dong2011efficient zhang2013fast 。本文关注的是图已经显式给定的情况。

在一个典型的图结构数据集中,除了图的结构外,还有两个重要的方面: 节点的特征 节点的标签 。有监督学习方法需要在训练集(标记数据)上训练,然后在测试集上做推断。因此,模型的性能很大程度上受训练集大小的影响。当训练数据不够时,很容易出现过拟合问题,模型的泛化性能不能得到保障。 然而,实际中的样本并不都是有标记的,由于繁重的标注过程,实际上只有极少的样本被标记,大量未知标签的数据每时每刻都在生成。再者,因为网络结构的限制,无法随意地把未标记的样本扔出训练集,这样会照成网络的不完整。由于未标记的样本是很好获得的,在图上做半监督学习是一个很自然并且很重要的任务。

本文研究了基于图的半监督节点分类问题。下图给出了该问题的任务描述:对一个部分标注图中的未标记节点进行分类。
基于图的半监督节点分类的任务描述
采用半监督学习方法,大量的未标记样本也被利用到模型训练过程中来。事实上,因为网络结构从某种程度上反映了节点之间的相似性,图上大量未标记的样本也能提供有助于分类的信息,比如上图中虚线框所示的社区结构信息,相同社区内的节点倾向于具备相同的类别。借助网络上的社区结构,需要的标记样本数量将会大大较少,分类结果将会更加准确。直接用节点特征训练分类器的传统方法,会受限于特征的质量和训练样本的数目。合理利用网络结构这一异构信息,在少量标记样本下做半监督学习,利用大量的未标记样本,使得模型获得更好的分类性能,是一个很有现实意义和迫切需求的研究工作。

可能的应用场景有:

  • 数据标注 :极大减少标注成本
  • 节点分类 :用户画像、图像描述、异常点检测
  • 链接预测 :推荐系统、网络重构
  • 社区发现 :人群发现、社会网络分析、广告投放
  • 符号定义

    本节首先给出关于半监督图节点分类问题的一些定义和符号表达。
    图结构可以表述为$G = (V,E)$,其中$V$为图中节点的集合,$E$为图中边的集合。在实际中,相关方法更多地采用邻接矩阵$A \in \mathbb{R}^{n \times n}$来反映图的结构。在本文处理的问题中,除了图结构以外,图中节点还拥有特征$X$和标签$Y$这两类信息。更加具体地,本文处理的是部分标记的图。令$L$和$U$分别表示标记节点集合和未标记节点集合,并且$L \cup U = V$。对应地,$X^L$ 和 $Y^L$ 为标记节点的特征和标签。一个部分标记属性图的定义如下:

    定义一: 部分标记属性图
    一个完整部分标记属性图被定义为$G_p = (X^L, X^U, A, Y^L)$,图中节点拥有特征 $X = X^L \cup X^U$ ,部分标记的节点$V^L$还拥有类别标签信息 $Y^L$ 。

    基于定义一,给定一个部分标记属性图$G_p$,半监督节点分类的目的是通过学习一个预测函数$f$来推断未标记节点$V^U$的类别标签:

    值得注意的是,并不是所有方法都是基于这个完整的部分标记属性图$G_p$,在有些情况下,样本特征矩阵是缺失的。这个时候样本特征矩阵$X$就等同于邻接矩阵$A$,用连接关系这一上下文来代表样本的特征。

    不难发现,图半监督方法的核心是通过邻接矩阵来利用未标记样本的信息。在图未知时,邻接矩阵$A$是通过计算节点特征间的相似性得到的相似性矩阵。本文关注的是图已经被显式给出的情况,此时边的权重$a_{ij}$反映了节点$v_i$和节点$v_j$之间的独立于样本特征之外的相似性(自然相关性),边权重越大,节点之间就越相似。不同方法对图结构的利用的一个很重要的不同之处在于利用多大范围的邻居信息,一般方法仅仅只利用直接相连的邻居的信息,这部分仅仅反映图的局部结构。由于实际中图的稀疏性,一阶邻居的信息可能并不能充分的代表节点的上下文,因此二阶邻居甚至更高阶的邻居被考虑进来,这部分信息反映了图的全局结构。本文首先给出一阶近似与二阶近似的定义。

    定义二: 一阶近似
    一阶近似指的是网络中节点之间的局部成对相似性,但是仅限于通过边连接的节点对。对于每个节点对$(v i, v_j)$,如果$(v_i, v_j) \in E$,节点$v_i$和节点$v_j$之间的一阶近似就是边的权重$a {ij}$,其他情况下一阶近似为0。一阶近似捕获节点之间的直接相邻关系,也就是一阶相邻关系。

    定义三: 二阶近似
    如果令$N u = {a {u,1}, \cdots, a_{u,|V|}}$表示节点$v_u$与其他节点的一阶近似,那么节点$v_i$和节点$v_j$之间的二阶近似就是$N_i$和$N_j$之间的相似性。二阶近似捕获每对节点之间的二阶关系。一种简单的计算方式是统计两个节点的共同的邻居数目,另一种方式计算从节点$v_i$随机游走到$v_j$的转移概率。

    下图,给出了一阶近似与二阶近似对邻居利用范围的示意。图中红色节点是目标节点$v_i$,蓝色节点是其需要汇集信息的一阶和二阶近邻节点。
    一阶近似与二阶近似利用邻居范围的示意图

    自然地,模型必须维持一阶近似,因为它意味着现实网络中的两个节点如果被观测到有边相连,那么它们总会在某些方面相似。例如,如果一篇论文引用了另一篇论文,它们应该存在一些共同的主题。直观上,二阶近似假设如果两个节点拥有很多共同的邻居,它们往往是相似的。这样的假设在许多领域已被证明是合理的。例如,在语言学中,如果单词总是被类似的语境所包围,那么它们将会是相似的 dash2008context 。如果两个人有许多共同的朋友,他们很有可能成为朋友 jin2001structure 。二阶近似已经被证明是定义一对节点相似性的一个很好的度量,即使这对节点没有直接相连 liben2007link ,因此二阶近似可以高度丰富节点间的关系。

    除了一阶近似和二阶近似外,还有更高阶的近似。结合二阶近似的定义,不难给出高阶近似的定义:

    定义四:高阶近似
    与二阶近似相比,高阶近似的目的是捕获更大范围的全局结构(节点间的$k$阶关系),比如社团结构。对于节点对$(v_i, v_j)$,他们之间的高阶近似是通过计算两个节点间的$k$阶($k\geq 3$)转移概率。

    为了保持一阶近似,目前的一些方法大多通过图拉普拉斯正则化来约束节点之间的特征或者类别分布。对于二阶近似和高阶近似,图编码方法(Graph Embedding)是最近比较流行的方法。需要强调的是,起初的图编码的目的是将单纯的图结构这一信息编码入节点的向量表达,编码过程只采用了图结构,并有利用节点本身的特征。节点带有特征的图叫做属性图,属性图是本文的工作关注的。在属性图中,图编码函数$f_{embed}$不仅仅是将图结构编码进节点的特征表达,节点原本的特征也被利用起来。

    下面给出更一般的在属性图上的图编码的定义:

    定义五:图编码
    给定一个属性图$G=(V,E,X)$,图编码的目的是学习一个映射函数:
    $ f {embed}: (G, v_i) \rightarrow g_i \in \mathbb{R}^{d}, \forall i \in [n] $。其中$d\ll |V|$,图编码 $ f {embed} $ 将节点编码到一个低维特征空间并且保持了某些定义在图上的节点间的相似性,比如一阶近似、二阶近似和高阶近似。

    图编码的思想是使相似的节点在编码空间上邻近,从而将不同类型的节点区分开。由于其较好的节点特征表示学习性能,图编码方法已经被广泛应用于图结构数据的各个应用场景。

    图拉普拉斯正则

    在半监督图节点分类任务中,图中节点是部分标记的。基于图的半监督学习通过某种形式的的基于图的正则化将标签信息在图上进行平滑,因此,大多数图半监督学习方法的损失函数具有如下的形式:

    其中,$\mathcal{L}_{label} = \sum_{i \in V^L} l(Y i, f(X_i))$ 表示采用损失函数$l$的有监督损失,$\mathcal{L}\ {reg}$ 为基于图的正则项, $\lambda$是正则权重参数。这里的$f$就是上节公式中的预测函数,为了简练起见省略了部分标记属性图$G_P$ 。损失函数$l$就是常见的损失函数,比如平方损失、log损失、hinge损失和交叉熵等。不同图半监督学习方法在损失函数上的差异主要体现在预测函数$f$和图正则化的选取。基于图的正则化依赖的假设是:图中相连的节点倾向于拥有相同的类别标签。最常用的是图拉普拉斯正则,其具体表达如下式:

    $\Delta = D - A$ 为图$G$的非标准化图拉普拉斯算子, 其中$A$为邻接矩阵(二值或加权矩阵),$ D_{ii} = \sum j A {ij}$ 是一个对角矩阵,反映节点的度信息,$X i$为节点$v_i$的特征向量。早期的方法是非参数化的,比较著名的是标签传播算法(Label Propagation, LP) zhu2002learning zhu2003semi 。标签传播算法迫使$f$与有标记节点的类别$Y^L$一致,$f$是图中未标记节点的标签查找表,可以用封闭形式的解决方案获得, 并且采用上诉公式所示的图拉普拉斯正则,当具有较大边权重$A {ij}$的节点对被预测为具有不同的标签$f(X_i) \neq f(X_j)$时,产生较大的惩罚。ManiReg belkin2006manifold 用支持向量机中的hinge损失来替换LP中的有监督损失。ICA lu2003link 通过允许更一般的本地更新来推广标签传播算法。ICA使用以相邻节点的标签作为输入的本地分类器,并且在估计本地分类器和分配新标签之间采用迭代过程。

    标签传播算法是在标签层面上利用网络结构的信息,最近比较流行的图编码方法首先在特征层面上利用图结构信息,学习得到节点的低维特征表示,使得网络相连的相似的节点在该特征空间上邻近。图编码方法主要可以分为神经网络方法和矩阵分解方法,但是其损失函数具备同样的形式。对于基于图的正则化,不同方法也有一些细微的不同,但是基于的假设不变,都是促使网络上相连的相似的节点在编码空间上邻近。此时,图拉普拉斯正则变为:

    其中$g(\cdot)$为特征编码函数,结合网络结构将原始特征$X$编码到低维空间。与上文图拉普拉斯公式不同的是,图编码方法将正则约束作用在了编码后的特征$g(X_i)$上,而不是推理出的分类结果$f(X_i)$上。图编码的这种处理方式显然更合理,节点间有边相连,自然的反映了节点之间存在必然的某方面的相似性,但是这个相似性是否体现为类别标签一致就不得而知了。约束编码后的特征相似,并不意味着约束分类结果一致,特征相似但是也存在一些细微差别,这些差别可以使相连的两个节点分类为两个不同的类别。本文所提出的三种方法同样也都是基于该图编码方式。

    研究现状

    基于图的半监督学习是一种典型的半监督学习方法,其将整个数据集映射成一个图,图中的每个点代表一个样本,图中边的权重与样本之间的相似性成正比。 基于图的方法与一般机器学习方法不同的地方在于对图结构这一样本间关系的利用,不同方法从不同角度以不同的方式利用图结构、节点的类别标签和节点的特征,具体可以分为三大类:

  • 标签传播方法 :标签传播算法(Label Propagation, LP) zhu2003semi 将有标记样本的标签信息在图上传播,并在邻近节点的标签上定义图拉普拉斯正则,该正则用于约束具有较大边权重的相邻节点拥有相同的类别。这类方法只使用网络结构和节点的标签。
  • 无监督图编码方法 :无监督图编码方法利用网络结构和节点的特征来学习节点的特征表示,忽略了节点的标签。当学得编码后,标准有监督学习应用于这些编码特征以训练模型对节点进行分类。
  •