半监督学习

  • 未标记样本

因为未标记样本与标记样本符合同一个模型生成(假设),因此希望学习器通过未标记样本来提高学习性能

  • 生成式方法

假设所有数据由一个潜在模型生成,假设一种模型,通过极大似然估计求解(EM法)

  1. 通过当前模型参数计算未标记样本x_j属于高斯混合成分的概率
  2. 基于1步计算出的概率来更新模型参数(极大似然估计)
  • 半监督SVM(S3VM)

视图找到能将两类有标记样本分开,且穿过数据低密度区的划分超平面

TSVM

尝试将每个未标记样本分别作为正例和反例,然后在所有组合结果中寻找间隔最大化的超平面

  1. 使用有标记样本学习一个SVM,并预测无标记样本的类别
  2. 交换两个异类最可能错误的样本的类别,更新划分超平面和松弛向量,循环
  3. 增大未标记样本对优化目标的影响
  • 图半监督学习

结点对应样本,边和权值对应相似度,学习过程类似与颜色在图上扩撒的过程

  • 基于分歧的方法

使用多学习器中不同学习器对未标记数据的分类不同来标记数据

  • 半监督聚类

必联约束和勿联约束。

约束k均值算法

给定样本数据和 必连、勿连约束,在K均值聚类的过程中确保M和C的约束满足‘’

约束种子k均值算法

直接将有标记样本作为中心

概率图模型

生成式模型考虑联合分布 P(Y,R,O) , 判别式模型考虑条件分布 P(Y,R|O)

用图来表达变量相关关系的概率模型,节点为一个或一组随机变量,边表示变量间的相互关系

  1. 使用有向图表示变量间依赖,称为有向图模型或贝叶斯网
  2. 使用有向图表示变量相关关系,成为无向图模型或马尔科夫网
  • 隐马尔科夫模型(HMM)

结构最简单的动态贝叶斯网,分为“状态变量(隐藏,不可加分)”和“观测变量”

任何时刻观测变量的取值仅依赖于状态变量,且模型还包含三组参数:
1. 状态转移概率:模型在各个状态间转换的概率
2. 输入观测概率:模型根据当前状态获得各个观测值的概率
3. 初始状态概率:模型在初始时刻各状态出现的概率

  • 马尔科夫随机场

典型的马尔科夫网

  1. 全局马尔科夫性:给定两个变量子集的分离集,则这两个变量子集独立
    1. 局部马尔科夫性:给定某变量的邻接变量,则该变量条件独立与其他变量
    2. 成对马尔科夫性:给定所有其他变量,两个非邻接变量条件独立
  • 条件随机场

一种判别式无向图模型。试图对多个变量在给定观测值后的条件概率进行建模。

  • 学习与推断

概率图的推断方法
1. 精确推断,希望能计算出目标变量的边际分布或条件分布的精确值,但由于计算复杂度而变的困难
2. 近似推断,希望在较低的时间复杂度下获得原问题的近似解

变量消去

通过利用分配率,将多个变量积的求和问题转化为对部分变量交替求积求和。

缺点是若需计算多个边际分布,会造成大量的冗余计算

信念传播

一个节点仅接受到来自与其他所有节点的消息才向另一个节点发送消息,且节点的边际分布正比于它接收的消息乘积

  1. 指定一个根接点,向所有叶节点开始向根节点传递消息,直到根节点收到所有邻接节点的消息
  2. 从根节点开始向叶节点传递消息,直到所有叶节点均收到消息
  • 近似推断
  1. 采样:通过随机化方法完成近似
  2. 使用确定性近似完成推断,如变分推断

MCMC采样(马尔科夫蒙特卡洛方法)

先构造出符合p分布的独立同分布随机变量,并得到无偏估计(构造平稳分布为p的马尔可夫链)

变分推断

使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优但具有确定解的近似后验分布

  • 话题模型

一个话题包含这个概念下出现概率高的词。通过分析词频与所属话题来判断全文最终所属话题