温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
FAIR
原则
科学
数据
融合
路径
实践
进展
研究
李建霞
情报资料工作 2023年1月第44卷第1期1引言随着“大数据”理念的普及和科学研究“第四范式”的兴起,数据驱动和跨学科协作的研究特征日益显现。然而现有以学科分割为基本架构的科研范式,仍然无法有效解决科学技术领域的数据“卡脖子”难题及能源短缺、环境污染、健康威胁等诸多重大经济社会问题,实现科学数据共享与互操作、形成协同开放的科研基于FAIR原则的科学数据融合路径及实践进展研究李建霞袁杉杉王庆(华东理工大学科技信息研究所上海200237)摘要:目的/意义科学数据融合是跨越学科边界以解决重大经济、社会问题的有效路径,其目标是实现融合科研的全学科、全流程和全景式数据开放与共享,FAIR原则为科学数据融合指明了具体的实施规范。方法/过程文章运用文献调研法,辨析科学数据融合的概念内涵;以FAIR原则为基础,分析科学数据融合路径;基于国内外科学数据领域不同分支方向的重要进展,从宏观、中观、微观三个层面,构建包括技术与工具、政策与指南、模式与行动的多视角科学数据融合实践协同方案关系映射模型。结果/结论文章提出未来研究应从融合网络的视角,思考科学数据开放共享过程中存在的问题,探索跨学科、跨部门、跨行业的科学数据融合体系、协调机制、模式策略和实施效果。关键词:科学数据融合数据共享FAIRResearch on the Path and Practice Progress of Scientific Data Fusion Based on FAIR PrinciplesLi JianxiaYuan ShanshanWang Qing(Institute of Science and Technology Information,East China University of Science and Technology,Shanghai,200237)Abstract:Purpose/significance Scientific data harmonization is an effective way to solve major economic and socialproblems across disciplinary boundaries.Its purpose is to realize the opening and sharing of data in the whole discipline,whole process and panorama of integrated scientific research.FAIR principle points out the specific implementation norms for scientific dataharmonization.Method/process Using the method of literature investigation,the concept of scientific data harmonization is differentiated;scientific data harmonization path is analyzed based on the FAIRprinciple;on the basis of important progress in different branches of scientific data field at home and abroad,multi-perspective of relational mapping model of scientific data harmonization practice synergy scheme,including technologyand tools,policies and guidelines,patterns and actions?is constructed from macro,meso and micro three levels.Result/conclusion This paper proposed that future research should consider the problems existing in the process of scientific data opening and sharing from the perspective of harmonization network,and explore the scientific data harmonization system,coordination mechanism,pattern strategy and implementation effect of interdisciplinary,cross-departmentand cross-industry.Keywords:scientific data harmonizationdata sharingFAIRDOI:10.12154/j.qbzlgz.2023.01.010实践研究103情报资料工作 2023年1月第44卷第1期环境,已成为服务全人类共同福祉的迫切需求。为此,众多研究组织纷纷探索基于融合的科学数据管理与利用方案,其中欧洲开放科学云(European Open ScienceCloud,EOSC)可发现、可访问、可互操作、可重用的科学数据治理FAIR原则1受到广泛关注,也为推动科学数据融合发展指明了方向。理论层面,美国国家研究理事会2014年提出“融合”是跨越学科边界以解决数据开放共享和重大经济社会问题的有效路径。实践层面,国际科技数据委员会及欧洲云计划“Gaia-X”等已为实现融合科研的全学科、全流程和全景式数据开放奠定了重要基础。技术层面,IFDS(Internet of FAIR Dataand Services)依据FAIR原则研发了融合平台Matrix,实现了标准与技术的统一。政策层面,2018年,世界数据系统(WDS)联合90多个国际组织签署 赋能FAIR数据承诺声明(Enabling FAIR Data Commitment Statement),发布 WDS 20192023战略计划;中国 国家科学数据管理办法 提出对科技资源共享服务平台进行优化调整,构建统一规划、互联互通、安全可控的国家数据开放体系。在此背景下,科学数据融合的理论与实践推进已成为当前政府与学界关注的重要议题。本文采用文献分析法,解析科学数据融合概念内涵,以FAIR原则为基础,分析科学数据融合路径及实践进展,构建基于技术与工具、政策与指南、模式与行动的科学数据融合实践协同方案关系映射模型,以便全面准确把握科学数据融合路径,为后续相关研究提供借鉴。2科学数据融合概念演进科学数据,国外研究一般表述为“scientific data”“research data”“science and research data”,国内通常译作“科学数据”“研究数据”或“科研数据”“科学研究数据”。我国 科学数据管理办法 将科学数据定义为自然科学、工程技术等领域在基础应用研究、试验开发过程中通过观测、考察、检测等方式取得的数据,包含可用于科学研究活动的原始数据及其衍生数据。本文认为科学数据融合是“数据科学”和“融合科学”发展的产物,是“数据融合开放共享融合科学”这一科学发展进程中知识的凝练升华。数据融合源于1973年美国军事领域,指利用来自多个传感器的数据和信息进行联合、相关及组合分析处理,以获得更为精确的位置及身份估计,实现对环境或目标的重要程度、发展趋势判断测量及实时评价的处理过程2。传统的数据融合倾向于工程学研究范畴,强调的是对于传感器数据及相关记录进行整合,重点关注融合的技术研究,并向遥感技术、地质探测等领域延伸和应用。随着大数据的发展,数据融合的范畴不断扩大且逐渐向计算机等领域的网络大数据扩展。以数据密集为特征的科学研究第四范式的兴起,欧美发达国家开始关注“开放数据”“开放科学”“开放获取”研究,越来越多的科学数据共享平台不断涌现。目前,数据开放共享已逐渐成为学界共识,数据管理制度、标准与体系被广泛提出,相关研究与实践蓬勃发展。然而,随着科学数据量的显著增长,其类型和表示格式也愈加多样复杂,加之科学数据在横向组织层面的分割状态及纵向时间层面的片段保存,严重阻碍了其共享重用。为此,以各类学科交叉融合为使命导向的“融合科学”范式在21世纪初期逐渐兴起。科研领域的“融合”概念是指将原本处于互相割裂分离状态的用于科学研究的技术、方案、流程等进行整合,以推进科学研究的发展与进步3。同年美国麻省理工学院发布“融合科学”白皮书,首次明确提出生命科学、物理学和工程学的“融合”,推动了生命科学研究第三次重大变革4。2014年,美国国家研究理事会提出“融合式研究”“融合科学领域”的概念,发布 融合:推动生命科学、物理科学、工程学等跨学科整合5,并将“融合”定义为跨越学科领域边界,将生命科学、物理学、工程学等自然科学领域的科学数据进行整合共享,以解决涉及范围广泛且具有现实性、复杂性等特点的重大社会难题。肖小溪等6将“融合科学”定义为打破各学科领域间壁垒,融合多门学科领域的科学数据、知识、技术等形成的问题解决框架和以解决重大问题为导向的科研新范式,以实现全学科、全流程、全景式科学数据开放与共享,为人类解决重大经济社会问题提供新机遇。张文萍等7以科学数据管理FAIR标准为基础,将实现可发现、可访问、可互操作、可重用的数据处理过程定义为“科学数据融合”,提出从解决跨平台数据访问技术、满足系统实现、规范数据格式等方面进行科学数据融合探索与实践。可见,科学数据融合与数据融合、开放共享和融合科学都有着紧密联系,数据融合是科学数据融合的基础,而科学数据融合则是为实现开放共享和“融合科学”而必备的桥梁和战略协同过程。据此,本文对科学数据融合的内涵进行界定:从广义来看,基于FAIR原则,科学数据融合是指将不同学科领域的科学数据通实践研究104情报资料工作 2023年1月第44卷第1期过深层次的知识关联,以实现跨学科、跨领域的开放、共享和重用;从狭义来看,科学数据融合包括了从数据创建到共享重用的整个过程及所涉及的数据管理服务、开放共享、溯源监管等一系列活动。区别于其他相关概念,科学数据融合不仅包含了创建、服务、共享、重用等数据处理的全阶段,同时还包含了为实现FAIR原则可发现、可访问、可互操作、可重用所需的技术支撑、制度保障、政策机制等。3FAIR原则下科学数据融合路径3.1FAIR原则与科学数据融合2014年,EOSC提出对科研活动产出的数据实现可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的4项核心目标,即FAIR标准,倡导要基于科学研究全领域的整体视角,从表示格式、语义标注、身份识别、元数据及服务等方面对科学数据进行跨学科的、高度抽象的统一规范和部署。2016 年,学术社区 Force11(The future of research communication and e-scholarship)将FAIR标准细化为15个具体条目,并宣布在科学数据管理领域推广应用8。(1)可发现。可发现是实现科学数据共享与利用的前提,为后续的数据访问与互操作奠定基础。可发现原则的4个细化条目详细规定了科学数据的标识、描述、注册、索引。数字对象标识符(DOI或URL)、档案资源键(ARK)等是目前常用的数据标识符,其唯一性确保了数据与标识符的一一对应和强关联,提供了数据资源全面开放的可能;对元数据进行丰富的描述能够表现数据资源的内容、质量等质化特征;而对数据标识符的准确描述和对元数据的注册或索引,则确保了能够按不同用户的使用需求对各渠道来源的数据集进行无缝集成和呈现7。(2)可访问。要实现数据可发现基础上的有效访问,则必须具有相关