电子设计工程ElectronicDesignEngineering第31卷Vol.31第4期No.42023年2月Feb.2023收稿日期:2021-10-31稿件编号:202110156基金项目:国家自然科学基金资助项目(61828601);山西省重点研发计划项目(201903D321003)作者简介:王怡(1997—),女,山西长治人,硕士研究生。研究方向:人工智能,机器学习。当前,数据摘要逐渐成为机器学习的研究热点。然而数据摘要算法被证明在性别、种族和民族等敏感属性方面存在偏见[1-2],尤其在教育、招聘、银行和司法系统等领域中[3-5],所引起的公平性问题[6]得到了广泛的关注。对于上述问题,该文引入流式子模最大化算法[7],在此基础上改进算法约束,考虑数据项的组成性,在每组中选取指定范围内的元素构成具有代表性的子集,从而使提取出的子集更具有公平性和多样性。1基于公平约束的流式子模算法1.1拟阵约束下的流式子模最大化模型在很多情况下,考虑算法的稳定性以及成本等问题,通常采用拟阵约束下的流式子模优化模型[8-10]。定义1:假设V表示原有数据集中n个元素的集基于数据摘要的流式子模优化算法研究王怡1,常青1,王耀力1,郝慧琴2(1.太原理工大学信息与计算机学院,山西晋中030600;2.中国电信股份有限公司山西分公司,山西太原030000)摘要:针对如何从数据中提取出公平摘要的问题,文中采用流式子模最大化方法来解决该问题,并对其算法进行改进,提出一种公平约束下的流式子模最大化算法。该算法根据摘要的个数以及数据属性范围设置上下界构成公平约束,能够确保提取出代表性子集涵盖原始数据集的所有属性范围。仿真结果表明,该文算法与其他流式子模最大化算法相比,不仅时间复杂度减少了8.6%以上,而且在不同数据集下都能保证数据摘要结果的公平性与多样性。关键词:数据汇总;子模优化;公平约束;流算法;多样性中图分类号:TP391文献标识码:A文章编号:1674-6236(2023)04-0016-05DOI:10.14022/j.issn1674-6236.2023.04.004ResearchofstreamingsubmodularoptimizationalgorithmbasedondatasummarizationWANGYi1,CHANGQing1,WANGYaoli1,HAOHuiqin2(1.CollegeofInformationandComputer,TaiyuanUniversityofTechnology,Jinzhong030600,China;2.ShanxiBranchofChinaTelecomCo.,Ltd.,Taiyuan030000,China)Abstract:Aimingattheproblemofhowtoextractfairsummarizationfromdata,thispaperadoptsthestreamingsubmodularmaximizationmethodtosolveit,improvesthealgorithm,...