贝叶斯方法

  • 贝叶斯决策论

基于概率和误判损失来选择最优标记

当属性是离散的: 类的先验概率 = 该类样本数量 / 样本总数

  • 极大似然估计

通过极大似然估计得到的正态分布均值=样本均值,方差=(x-\\overline{u}_c)(x-\\overline{u}_c)^T的均值

  • 朴素贝叶斯分类器

假设所有属性条件是相互独立的

基本算法

计算每个属性对应最终分类的先验概率 P(x_i|c)

将样本的每个属性对应类别的先验概率相乘取最大的

拉普拉斯平滑

避免训练集中未出现的属性取值造成某些分类概率为0

在计算先验概率时,分子分母都+1

  • 半朴素贝叶斯分类器

适当考虑一部分属性间的相互依赖关系——独依赖(假设悲歌属性在类别外至多依赖一个其他属性)

SPODE方法

假设所有属性均依赖于同一个属性(超父)

TAN方法

  1. 计算任意两个属性之间的条件互信息
  2. 以属性为节点构建完全图
  3. 以图构建最大带权生成树,挑选根变量,将边置为有向
  4. 加入类节点y,增加y到每个属性的有向变,得到相互依赖关系

AODE

尝试将每个属性作为超父,然后将具有足够训练数据支持的SPODE集成为最终结果

  • 贝叶斯网(信念网)

使用无环图表示依赖关系,然后通过依赖关系可得出联合概率分布

学习

评分搜索:将此类问题看作数据压缩问题,目标是找到一个以最短编码长度描述数据的模型 NP难问题

用贪心和剪枝来求得近似解

推断

直接通过贝叶斯网定义的联合概率分布求后验概率 NP难

使用近似推断:吉布斯采样(一种随机采样)

吉布斯采样

在贝叶斯网联合状态空间中与E=e证据一致的控件中进行随机漫步,每一步仅依赖前一步状态

马尔科夫链:在一定条件下,无论从何处开始,第t次状态分布在t趋向无穷大时是平稳分布

当贝叶斯网中存在极端概率 0 or 1 时,不能保证上条定则。此时吉布斯采样会给出错误估计结果

  • EM算法

存在缺失属性值的情况下,估计

  1. 期望(E)步,利用当前估计的参数来计算对数似然的期望值
  2. 最大化(M)步,寻找能使E步产生的似然期望最大化的参数值,循环1,2直到收敛

集成学习

将多个个体学习器通过一定的结合策略组合在一起为集成学习

  • Boosting

个体学习器间存在强依赖关系,主要关注降低偏差

先从初始训练级训练出一个基学习器,再根据该学习器表现对样本分布进行调整,使错误的数据得到更多关注,然后训练下一个基学习器,直到达到学习器数目上限,再将这些学习器输出进行加权结合

AdaBoost

对于每个分类器,他的准确率决定了他的权值

\\epsilon_m=\\sum_{n=1}^N w_n^m(I*y_m(x_n)\\not=t_n)

标准化后:\\alpha_m=ln(\\frac{1-\\epsilon_m}{\\epsilon_m})

同时,会根据上一个分类器的结果对数据的权值进行调整,提高错误数据的权值

最终分类器投票来得到最终结果

Y_M(x)=sign(\\sum^M_{m=1}\\alpha_my_m(x))

  • Bagging与随机森林

不存在强依赖关系,可以同时生成

Bagging

从数据集中随机挑选出T个子集,T为个体学习器的个数。然后基于这些数据分别训练个体学习器,并对输出做投票处理。

如票数相同,则随机选择或依据分类器置信度来选择

主要关注降低方差,在不剪枝决策树和神经网络上表现较好

随机森林 RF

是Bagging的一个变体,引入了随机属性选择

先从所有属性中选出一个包含k个属性的子集,再从中取出最优划分属性。k决定了随机性的程度,推荐 K=lon_2d

  • 组合策略

采用组合策略可以增强泛化性能

  1. 平均法 简单平均或者加权平均
  2. 投票法 绝对多数投票(超过一般则预测,否则拒绝预测)、相对多数投票(最多得票)、加权投票法
  3. 学习法 将个体学习器的输出作为输入来训练一个次级学习器
  • 多样性

误差-分歧分解

分歧:\\overline{A}(h|x)=\\sum^T_{i=1} w_i(h_i(x)-H(x))^2 体现个体学习器在样本x上的不一致性

E=\\overline{E}-\\overline{A} 表示出个体准确地越高,多样性越大则集成越好

其中\\overline{E}表示个体学习器的泛化误差的加权均值,\\overline{A}表示加权分歧值

多样性度量

h_i=+1 h_i=-1
h_j=+1 a c
h_j=-1 b d

a表示两个个体分类器均预测为正的样本数量,bcd以此类推,a+b+c+d=m

  1. 不合度量 dis_{ij}=\\frac{b+c}{m} 值越大多样性越大
  2. 相关系数 \rho_{ij}=\\frac{ad-bc}{\\sqrt{(a+b)(a+c)(c+d)(b+d)}} 两分类器正相关则取正,否则为负
  3. Q-统计量 Q_{ij}=\frac{ad-bc}{ad+bc}
  4. k-统计量 k=\\frac{p_1-p_2}{1-p_2}

    其中 p_1 = \\frac{a+d}{m},p_2=\\frac{(a+b)(a+c)+(c+d)(b+d)}{m^2}

  • 多样性增强
  1. 数据样本扰动 随机抽取数据子集
  2. 输入属性扰动 随机抽取属性子集
  3. 输出表示扰动 对训练样本的类标记稍作变动
  4. 算法参数扰动 随机设置算法参数

不同多样性增强机制可同时使用。