第51卷第2期2023年2月硅酸盐学报Vol.51,No.2February,2023JOURNALOFTHECHINESECERAMICSOCIETYhttp://www.gxyb.cbpt.cnki.netDOI:10.14062/j.issn.0454-5648.20220991面向材料领域机器学习的数据质量治理刘悦1,4,马舒畅1,杨正伟1,邹欣欣1,施思齐2,3(1.上海大学计算机工程与科学学院,上海200444;2.上海大学材料科学与工程学院,上海200444;3.上海大学材料基因组工程研究院,上海200444;4.上海市智能计算系统工程技术研究中心,上海200444)摘要:数据驱动的机器学习凭借其准确高效的预测能力广泛应用于材料的性能预测和构效关系研究。数据决定了机器学习的上限。然而,目前材料领域的数据存在来源广、噪音大、样本少、维度高等数据质量问题,阻碍了机器学习在材料领域更广泛的应用。本文从数据品质和数据数量2个视角系统梳理并全面剖析了材料领域数据质量问题及其相关治理工作,发现数据品质与数据数量共同决定数据质量。基于此,提出了面向材料领域机器学习全过程的领域知识嵌入的数据质量治理框架。该框架定义了12种维度用于解析材料数据质量的内涵;构建了数据质量治理的生命周期模型以确保数据质量治理活动有序进行;建立了一系列数据质量治理处理模型,从领域知识与数据驱动2个方面对数据质量进行精准全面治理,为生命周期模型的具体实施提供技术支持。该框架实现了材料数据质量的综合评估与提升,为高质量数据获取提供理论指导与候选方案,加速机器学习在材料研发中的深入应用。关键词:材料科学;机器学习;数据质量;领域知识中图分类号:TP181;TB3文献标志码:A文章编号:0454–5648(2023)02–0427–11网络出版时间:2023‒01‒17ADataQualityandQuantityGovernanceforMachineLearninginMaterialsScienceLIUYue1,4,MAShuchang1,YANGZhengwei1,ZOUXinxin1,SHISiqi2,3(1.SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China;2.SchoolofMaterialsScienceandEngineering,ShanghaiUniversity,Shanghai200444,China;3.MaterialsGenomeInstitute,ShanghaiUniversity,Shanghai200444,China;4.ShanghaiEngineeringResearchCenterofIntelligentComputingSystem,Shanghai200444,China)Abstract:Data-drivenmachinelearningiswidelyusedinmaterialspropertypredictionandstructure-activityrelationshipresearchduetoitsaccurateandefficientpredictiveability.Datadeterminestheupperlimitofmachinelearning.Ho...