面向材料领域机器学习的数据质量治理_刘悦.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 1.54 MB
约11页
2023-05-06
收藏
评论
点赞(0)
海报
举报

/11

第51卷第2期2023年2月硅酸盐学报Vol.51，No.2February，2023JOURNALOFTHECHINESECERAMICSOCIETYhttp://www.gxyb.cbpt.cnki.netDOI：10.14062/j.issn.0454-5648.20220991面向材料领域机器学习的数据质量治理刘悦1,4，马舒畅1，杨正伟1，邹欣欣1，施思齐2,3(1.上海大学计算机工程与科学学院，上海200444；2.上海大学材料科学与工程学院，上海200444；3.上海大学材料基因组工程研究院，上海200444；4.上海市智能计算系统工程技术研究中心，上海200444)摘要：数据驱动的机器学习凭借其准确高效的预测能力广泛应用于材料的性能预测和构效关系研究。数据决定了机器学习的上限。然而，目前材料领域的数据存在来源广、噪音大、样本少、维度高等数据质量问题，阻碍了机器学习在材料领域更广泛的应用。本文从数据品质和数据数量2个视角系统梳理并全面剖析了材料领域数据质量问题及其相关治理工作，发现数据品质与数据数量共同决定数据质量。基于此，提出了面向材料领域机器学习全过程的领域知识嵌入的数据质量治理框架。该框架定义了12种维度用于解析材料数据质量的内涵；构建了数据质量治理的生命周期模型以确保数据质量治理活动有序进行；建立了一系列数据质量治理处理模型，从领域知识与数据驱动2个方面对数据质量进行精准全面治理，为生命周期模型的具体实施提供技术支持。该框架实现了材料数据质量的综合评估与提升，为高质量数据获取提供理论指导与候选方案，加速机器学习在材料研发中的深入应用。关键词：材料科学；机器学习；数据质量；领域知识中图分类号：TP181；TB3文献标志码：A文章编号：0454–5648(2023)02–0427–11网络出版时间：2023‒01‒17ADataQualityandQuantityGovernanceforMachineLearninginMaterialsScienceLIUYue1,4,MAShuchang1,YANGZhengwei1,ZOUXinxin1,SHISiqi2,3(1.SchoolofComputerEngineeringandScience,ShanghaiUniversity,Shanghai200444,China;2.SchoolofMaterialsScienceandEngineering,ShanghaiUniversity,Shanghai200444,China;3.MaterialsGenomeInstitute,ShanghaiUniversity,Shanghai200444,China;4.ShanghaiEngineeringResearchCenterofIntelligentComputingSystem,Shanghai200444,China)Abstract:Data-drivenmachinelearningiswidelyusedinmaterialspropertypredictionandstructure-activityrelationshipresearchduetoitsaccurateandefficientpredictiveability.Datadeterminestheupperlimitofmachinelearning.Ho...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容