|
|
|
|
|
FCS 文章精要 | 清华大学李国良等:监督学习任务中的表格生成模型 |
|
|
论文标题:Synthesizing tables for supervised learning
期刊:Frontiers of Computer Science
作者:Yaoyu ZHU, Guoliang LI, Jianhua FENG, Nan TANG
发表时间:8 Jan 2025
DOI:10.1007/s11704-025-40424-2
微信链接:点击此处阅读微信文章

引用格式:
Yaoyu ZHU, Guoliang LI, Jianhua FENG, Nan TANG. Synthesizing tables for supervised learning. Front. Comput. Sci., 2026, 20(3): 2003603
阅读原文:

问题概述
学习数据分布面临着几个独特的挑战。首先,样本空间需要进一步讨论,包括单个样本的特征和数据域的范围。其次,传统的生成对抗网络(GAN)难以捕捉多个记录之间的隐藏关系。最后,在某些情况下,引入差分隐私是必不可少的。

技术步骤
为了捕捉组的局部分布,本文提出使用组打包与组填充的方式将记录转化成组矩阵。给定组矩阵后,文章使用离散数据作为条件,连续数据作为值,训练一个条件生成对抗网络,以控制生成多少组/记录以及如何生成它们,进而满足组级和表级的相似性。此外,文章还优化了离散嵌入的训练方式,以更好地处理离散值。

实验结果
使用本文的合成数据训练的模型与使用真实数据集训练的模型具有相似的F1分数、高匹配率和高余弦相似度,这远远优于使用其他方法生成的表格训练的模型。

期刊简介
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。