作者:李清波 来源:中国科学报 发布时间:2022/10/11 11:19:33
选择字号:
山西大学在随机一致性的可学习理论方面取得进展

 

近日, 山西大学大数据科学与产业研究院DIG(Data Intelligence Generation)团队在人工智能领域国际顶尖期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE TPAMI, 影响因子:24.314)在线刊发了题为《Generalization Performance of Pure Accuracy and Its Application in Selective Ensemble Learning》的研究论文。青年教师王婕婷为第一作者,钱宇华教授为通讯作者,青年教师李飞江与梁吉业教授、香港城市大学张青富教授为合作者。

该研究通过构建可消除随机一致性的一致性度量范式,导出纯准确度度量,通过理论和实验得出了其相对于准确度指标的三大优势:类别分布不敏感性、低偏差性和高辨识性。 这些性质为基于纯准确度的可学习理论与方法提供了理论支撑。

学习能力考察学习模型在未知数据上的泛化能力,理论内涵是探索真实风险与经验风险之间差距上界的收敛因子和收敛速度,从而评估学习模型的推广能力。更紧的差距上界不仅有助于更精确地估计模型达到指定泛化能力所需的样本量,还可指导设计泛化能力更强的学习原则与学习算法。为了给出纯准确度的更紧的上界,文章首先证明可加性函数的离差上确界是自界的,使得自界性诱导的次泊松不等式适用于改善可加性函数的泛化上界。 接着,证明了次泊松不等式的置信度函数是不可逆的,这导致从概率上界到泛化误差上界的推导不可行。本研究给出了一个更紧的基本不等式放大次泊松不等式,使其可用于上界的表示。基于上述基本理论,给出可加性函数、准确度和纯准确度更紧的泛化界。

研究将进一步提出的随机一致性可学习理论用于集成学习类方法的重构,提出了优化纯准确度的选择性集成模型PASE,并通过分式规划和一维全局最优搜索方法求解模型,基准测试集和图像数据集表明,PASE比现有的基于准确度的选择性集成方法更有效。 与现有可以优化纯准确度的方法相比,PASE能够更好地优化PA值。通过高维图像数据集,验证了PASE适用于提升弱分类器。

研究工作得到计算智能与中文信息处理教育部重点实验室、山西省机器视觉与数据挖掘工程研究中心、国家自然科学基金重点基金、国家重点研发计划、国家自然科学基金青年基金、山西省三晋学者人才计划的支持。

相关论文信息:DOI: 10.1109/TPAMI.2022.3171436

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: