ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Learning from Labeled and Unlabeled Data with Label Propagation

2022-06-05 13:33:29  阅读:196  来源: 互联网

标签:mathbb Unlabeled uu sum Label overline Propagation ij rightarrow


目录

Zhu X. and Ghahramani Z. Learning from labeled and unlabeled data with label propagation. Technical Report CMU-CALD-02-107, 2002.

本文通过将有标签数据传播给无标签数据, 并获得相应的无标签数据的一种可行标注. 所提出的算法是收敛的, 且有显式解.

符号说明

  • \((x_1, y_1), \cdots, (x_l, y_l)\), 带标签数据, \(x_k \in \mathbb{R}^D\), \(y_k \in \mathbb{R}^C\) 是已知的概率向量.
  • \((x_{l+1}, y_{l+1}), \cdots, (x_{l + u}, y_{l + u})\), 无标签数据, \(y_{l + k}\) 是未观测的;
  • \(l \ll u\);
  • \(X = \{x_1, \cdots, x_{l+u}\}\), \(Y_L = \{y_1, \cdots, y_l\}\), \(Y_{U} = \{y_{l+1}, \cdots, y_{l+u}\}\).

主要内容

我们的任务是通过 \(X, Y_L\) 来估计 \(Y_U\). 直观上, 我们希望靠的近的点拥有类似的标签, 我们首先定义 \(x_i, x_j\) 直接的一个距离:

\[w_{ij} := \exp(- \frac{d_{ij}^2}{\sigma^2}) = \exp(-\frac{\sum_{d=1}^D(x_i^d - x_j^d)^2}{\sigma^2}). \]

假设图 \(\mathcal{G}\) 由顶点 \(X\) 和边 \(\mathcal{E}\) 构成, \(x_i, x_j\) 之前的权重定义为 \(w_{ij}\). 我们定义由 \(x_j\) 到 \(x_i\) 的转移概率为

\[\mathbb{P}(x_j \rightarrow x_i) = \mathbb{P}(x_i|x_j) := T_{ij} = \frac{w_{ij}}{\sum_{k=1}^{l+u} w_{kj}}. \]

倘若我们令

\[Y' = TY, \]

其中

\[Y = \left [ \begin{array}{c} Y_L \\ Y_U \end{array} \right ] \in \mathbb{R}^{(l+u) \times C}. \]

则有

\[Y_{ij}' = \sum_k T_{ik} Y_{kj} = \sum_k \mathbb{P}(x_k \rightarrow x_i) \mathbb{P}(y = j | x_k). \]

换言之, 通过聚合周围点为 \(j\) 的概率的能量为了 \(Y_{ij}'\),

\[\{Y_{i1}', \cdots, Y_{iC}'\} \]

代表了转移后 \(x_i\) 在不同标签上的一个能量分布状况. 但是需要注意的是, 此时我们并不能够保证

\[\sum_{j} Y_{ij}' = 1. \]

所以我们需要将其进行归一化, 以保证其符合概率分布.

于是, 我们可以将这些步骤总结为:

  1. \(Y' \leftarrow TY\);
  2. 对 \(Y'\) 进行行归一化得到 \(Y\);
  3. 将 \(Y\) 中的 \(Y_L\) 部分替换为真实标签信息.
  4. 反复迭代直到收敛.

注: \(Y_U\) 一开始是未知的, 故需要初始化, 但是通过下面的收敛性证明和显式解可以了解,
其实初始化是无关紧要的.

可以发现, 我们多了步骤三. 我们可以将 \(Y_L\) 看作是水源, 每次 \(TY\) 的过程实际上就是将水源中的真实信息推广到其它数据点的过程而已, 为此, 每次迭代用真实的 \(Y_L\) 以保证每次迭代的源头是新鲜活跃的.

收敛性证明和显式解

实际上, 步骤 1, 2 可以归纳为

\[Y \leftarrow \overline{T}Y, \]

其中

\[\overline{T}_{ij} := \frac{T_{ij}}{\sum_{k}T_{ik}}. \]

接下来我们证明其收敛性. 首先我们注意到对\(\overline{T}\)在 \(l\) 行 \(l\) 列进行分划, 可以得到

\[\overline{T} := \left [ \begin{array}{ll} \overline{T}_{ll}, \overline{T}_{lu} \\ \overline{T}_{ul}, \overline{T}_{uu} \\ \end{array} \right ]. \]

则有

\[Y_L \leftarrow Y_L \\ Y_U \leftarrow \overline{T}_{uu} Y_U + \overline{T}_{ul} Y_L. \]

反复迭代之后, 我们有

\[Y_U = \lim_{n \rightarrow \infty} \overline{T}_{uu}^n Y^0 + [\sum_{i=1}^n \overline{T}_{uu}^{(i-1)}]\overline{T}_{ul}Y_L, \]

其中 \(Y^0\) 是 \(Y_U\) 的一个初始化.
我们首先证明 \(\overline{T}_{uu}^n \rightarrow 0\), 首先注意到

\[\sum_j [\overline{T}_{uu}]_{ij} < 1. \]

故由下方的 Lemma 1 可得 \(\overline{T}_{uu}^n \rightarrow 0\). 此外

\[\lim_{n \rightarrow \infty} \sum_{i=1}^n \overline{T}_{uu}^{(i-1)} = (1 - \overline{T}_{uu})^{-1}, \]

\[Y_U = (I - \overline{T}_{uu})^{-1} \overline{T}_{ul} Y_L. \]


Lemma 1: 假设矩阵 \(A \in \mathbb{R}^{m \times n}\), 且

\[A_{ij} > 0, \forall i, j, \\ \sum_{j} A_{ij} < 1, \forall i, \]

\[\lim_{n \rightarrow \infty} A^n = 0. \]

proof:

注意到, 存在 \(\gamma\) 使得

\[\sum_{j} A_{ij} \le \gamma < 1, \forall i. \]

\[\sum_j [A^n]_{ij} =\sum_j \sum_k [A^{n-1}]_{ik}A_{kj} =\sum_k [A^{n-1}]_{ik} \sum_j A_{kj} \le \sum_k [A^{n-1}]_{ik} \gamma \le \gamma^n. \]

\[0 < A^n \le \gamma^n ee^T, \]

故极限为0.


注: 作者还讨论关于超参数 \(\sigma\) 的选择问题, 并和诸如平均场理论进行了联系, 这些是有助于理解本文的工作的.

标签:mathbb,Unlabeled,uu,sum,Label,overline,Propagation,ij,rightarrow
来源: https://www.cnblogs.com/MTandHJ/p/16343806.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有