聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

偏多标记最优间隔分布学习机

2021-09-20 17:06 浏览: 126679 次 我要评论(0 条) 字号:

偏多标记学习(Partial Multi-label Learning, PML)是一类重要的弱监督学习框架,其中每个样本对应一个候选标记集合,在候选标记集合中,可能存在错误引入的标记,PML即从这类样本中学习出一个多标记模型。目前针对PML问题的主要解决方法是通过“消歧”策略将候选标记集合中的错误标记进行识别,同时结合多标记模型进行学习。原有的PML算法主要通过固定特征原型(一种反映特征与标记之间关联的结构)对不精确的标记集进行“消歧”,或基于“低维结构”假设进行矩阵分解达到“消歧”目的,前者采用的固定特征原型会在模型训练过程中引入噪声,而后者的假设条件过于苛刻,部分场景下难以满足,并且通常无法结合核方法提升模型在线性不可分数据集上的表现。 
本文中我们提出偏多标记最优间隔学习机PML-ODM,以“标记对”的排序间隔分布作为优化目标,同时对每个候选标记为真实标记的置信度进行估计,从而达到“消歧”的目的;另一方面,在迭代优化的过程中,我们每轮结合最新的模型输出对特征原型进行更新,以更准确地对候选类别的置信度进行估计,反过来也可以促进得到更好的模型;此外,PML-ODM还采用了核方法提升在线性不可分数据集上的表现。在多个真实数据集上的实验结果表明,PML-ODM在多个评估指标上优于目前最好的偏多标记学习算法。
该成果“Partial Multi-Label Optimal Margin Distribution Machine”发表于第30届人工智能联合会议(IJCAI'21),该会议是人工智能领域的非营利性公司IJCAI(International Joint Conferences on Artificial Intelligence)主办的年会。在中国计算机学会推荐的学术会议和期刊列表中,IJCAI被列为人工智能领域的A类会议。以往IJCAI只在奇数年举办,自2016年起因投稿量激增改为每年都举办。IJCAI'21在全球共收到4204篇投稿,最终接收587篇论文,录用率仅为13.9%。
论文链接:https://www.ijcai.org/proceedings/2021/303

背景与动机
偏多标记学习是一类非常重要的弱监督学习框架,其中每个样本对应一个候选标记集合,在候选标记集合中,存在某些被错误引入的标记,并且错误标记的数量也是未知的,我们的任务即从这类数据中学习出一个可以正确识别样本类别的多标记模型。
由于候选标记集合中可能存在多个错误标记,因此需要在模型训练过程中逐步识别出错误标记,该过程称为“消歧”。目前的“消歧”策略大致可以分为两类,一类是基于“低维结构”假设进行矩阵分解达到“消歧”目的,另一类是通过学习置信度矩阵进行“消歧”。前者需要的假设条件过于苛刻,并且大多无法结合非线性核函数提升模型在线性不可分数据集上的表现,而基于后者的偏多标记学习大多采用固定特征原型(一种反应特征与标记关联的结构)的策略进行置信度矩阵的学习,而固定的特征原型会在模型学习过程中引入噪声,最终只能得到次优的多标记模型。

方法与模型
本文中我们提出偏多标记最优间隔学习机PML-ODM,以“标记对”的排序间隔分布作为优化目标,同时对每个候选标记为真实标记的置信度进行估计,从而达到“消歧”的目的。具体来说,我们基于得分函数的差值定义候选标记与其他标记之间的排序间隔: 
其中Y为候选标记集,为无关标记集。引入排序间隔后,不同于最大间隔理论中仅最大化最小间隔的方法,我们对排序间隔的分布进行优化,即最大化排序间隔均值的同时最小化间隔的方差,这样使得几乎所有样本点均参与决策面的确定,因此得到的模型对噪声具有更好的鲁棒性以及拥有更好的泛化性能,如下图1所示,hmin 为最大化减小间隔得到的分界面,hdist 为优化间隔分布得到的分界面,显然hdist 是一个更优的划分。 

图1   Large margin与Margin distribution

同时,我们将标记对之间置信度的差值作为衡量“标记对”重要性的指标,置信度差值越大,则该标记对包含的信息更多,其重要性也更高,从另一个角度来说,也可以帮助模型过滤掉一部分不重要的标记对,从而达到“消歧”的效果。结合置信度矩阵以及最优间隔分布模型,我们的得到如下优化目标式: 
其中Zi =Y x Y为第i个样本的所有标记对集合,pikl =max(0,pik -pil为置信度差值。若能直接给定置信度矩阵P,则上式为一个凸优化问题,可以直接进行求解,然而,在实际应用中,P矩阵通常无法获取,因此在我们的模型中,将其视为一个变量结合最优间隔分布学习机进行联合求解。具体来说,我们首先引入一个特征原型qk,其表示样本特征与第k个标记之间的关联,然后根据每个样本的特征与特征原型之间的距离对该标记属于此样本的置信度进行估计,具体公式如下: 
其直观含义为,如果一个样本特征与第k个标记的特征原型距离较远,则该样本在第k个标记上的置信度应该较小。为求解上式,我们需要先对特征原型进行计算,已有的特征原型计算方法是对所有样本点中包含第k类标记的样本特征求均值,并且在模型优化过程中保持不变。然而,由于初始标记集中包含错误标记,这些错误标记必然会影响特征原型的精度,进而影响模型的泛化性能。因此,我们提出了一种动态更新特征原型的策略,具体来说,当模型迭代到t轮时,我们利用当前的最新模型对训练集进行预测,得到每个训练样本在当前模型下的标记集合,以该标记集合为基础,利用每个样本临近的Ni个样本,根据其到该样本的距离远近,计算该样本里每个标记的权重cik,具体公式如下: 
其中dmax与dmin分别为Ni个邻近样本点中距离样本点xi的最大值和最小值。这种做法潜在的含义是,如果两个样本在特征空间中距离较近,那么它们的标记也应该是相似的。在得到每个样本的标记权重后,我们基于此权重值,对包含有某类标记的样本点特征进行加权求和,作为该类标记的特征原型,计算式如下: 
其中Vk为包含第k个标记的所有样本点的集合。随着模型的不断更新,其预测精度会不断提高,进而所得到的标记集合中噪声标记会更少,使得当前的特征原型受到噪声标记的影响更小,也更能精确地反映特征与标记之间的关系,从而促进得到更好的模型。
结合上述公式,我们最终得到PML-ODM模型的目标式如下: 


模型求解
由于在PML-ODM模型中,置信度矩阵与模型参数存在耦合关系,使得直接求解非常困难,因此,我们采用交替求解的方法,分别固定置信度矩阵和模型参数,将原问题转变为易求解的二次规划和线性规划问题,交替求解最终得到最优的模型参数。其训练和求解过程如图1所示,具体来说,当我们固定置信度矩阵时,目标问题转变为一个带约束的二次规划问题,我们利用拉格朗日乘子法将其转化为仅有下界约束的对偶形式,并采用坐标下降算法求解出当前的模型参数,基于此参数,我们计算出训练样本在当前模型下的标记集合,并根据其邻近点的距离计算每个标记权重,然后基于当前的权重值对特征原型进行更新。接下来,我们固定模型参数,求解置信度矩阵,目标问题转变为一个线性规划问题,线性规划问题已经有大量文献进行研究,且有较为成熟的工具包用于求解此类问题,在本文中,我们利用CVX工具包采用内点法进行求解,最后我们根据得到的模型参数,基于最小化分类误差确定每个标记的阈值,若测试样本在某个类别上的得分函数值大于该类别的阈值,则该样本包含此类标记。 

图2  PML-ODM训练过程
 
实验部分
我们在8个不同的现实数据集上进行实验,通过在每个数据集上分别随机加入{1,2,3}个噪声标记得到实验所需的偏多标记数据集,数据集信息如下表: 

表1  数据集信息

其中agv#GL表示数据集平均真实标记个数,agv#CL表示数据集平均候选标记个数。在对比方法上,我们选取最新的偏多标记模型PAR-VLS、PAR-MAP和PML-LRS进行对比实验,其中PAR-VLS和PAR-MAP同样采用置信度矩阵进行“消歧”,PML-LRS则使用低秩矩阵分解的“消歧”策略,同时,我们还将PML-ODM与最新的多标记学习模型mlODM进行对比,mlODM采用最优间隔分布理论对多标记问题进行求解。
在实验中,我们采用6个评估指标对上述模型在偏多标记数据集上的表现进行评估,实验结果如下图所示:

图3  模型对比实验

其中上箭头表示该指标数值越大反映模型表现更优,下箭头则相反。从结果可以看到,PML-ODM在多个数据集的多个指标上优于其他方法。为了验证PML-ODM模型与其他对比模型在上述评估指标上的相对表现,我们也进行了Friedman测试和后验Bonferroni-Dunn测试,测试结果分别如表2和图4所示: 

表2  Friedman测试结果
 

图4  后验Bonferroni-Dunn测试结果

从表2可以看到,在6个评估指标上的Friedman统计值均大于临界值,表示我们的方法在上述6个指标上的表现与其他方法的表现有显著差异。从图4的测试结果可以看到,除了在Macro-F1和Micro-F1上与PAR-VAL的平均排名差值低于临界差 (Critical difference) 外,在其他指标上与对比算法的平均排名差值均大于临界差,表明我们的PML-ODM在多个指标上的表现都显著优于对比方法。
另外,为了验证我们的动态更新特征原型策略的效果,我们在Emotions, Scene和Flags三个数据集上对比了使用固定特征原型的PML-ODM的效果,评估指标为Average precision (AP)和One error (OE),其中PML-ODMf表示使用固定特征原型的模型,PML-ODM为采用动态更新策略的模型,实验结果如表3所示: 

表3  特征原型对比

其中AP数值越大表示效果越好,OE越小表示效果越好,从上表中可以看到,采用动态更新策略的模型相比于固定特征原型取得了更优秀的表现,从而验证了我们动态更新策略的有效性。

总结
在该项工作中,我们提出了偏多标记最优间隔分布学习机 (PML-ODM),将最优间隔分布理论引入到偏多标记学习框架中,同时提出了一种动态调整的特征原型更新策略,并且结合核方法提升模型在线性不可分数据集上的表现。最后通过在多个现实数据集上的对比实验验证了PML-ODM的有效性和优越性。
 
详细内容参见:
Nan Cao, TengZhang and Hai Jin. Partial Multi-Label Optimal margin Distribution Machine. In Proceedings of the 30th International Joint Conference on Artificial Intelligence (IJCAI’21), Montreal, Canada, 2021. 



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复