温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
空间
基础设施
技术
挑战
联网
解决方案
超然
BIG DATA RESEARCH 大数据110数据空间基础设施的技术挑战及数联网解决方案罗超然1,2,马郓1,2,3,景翔1,2,4,黄罡1,2,51.数据空间技术与系统全国重点实验室,北京 100091;2.北京大数据先进技术研究院,北京 100091;3.北京大学人工智能研究院,北京 100871;4.北京大学软件与微电子学院,北京 102627;5.北京大学计算机学院,北京 100871摘要数据空间是网络空间从“以计算为中心”向“以数据为中心”转型的一种新形态,蕴含着变革性重大科技问题和换道超车创新机遇。类似互联网是网络空间的主要基础设施,数据空间也需要“以数据为中心”的新型基础设施,其核心功能是实现数据的一阶实体化。从数据空间的视角出发,分析总结互联网、万维网和数字对象架构等主流技术体系对数据一阶实体化的支持和不足,给出数据空间基础设施的基本内涵与技术挑战。提出基于数据语用原理的数据一阶实体化方法,通过融合数字对象架构、分布式账本和智能合约等技术形成数联网解决方案,支撑互联网规模的数据空间基础设施构造和运行。关键词数据空间基础设施;数联网;数字对象架构;数据语用中图分类号:TP311 文献标志码:A doi:10.11959/j.issn.2096-0271.2023024Internet of data:a solution for dataspace infrastructure and its technical challengesAbstractDataspace is the transformation of cyberspace from computing centric to data centric,which contains great technological issues and innovative opportunities.Similar to the internet,which is the main infrastructure of cyberspace,dataspace also needs a new data-centric infrastructure,whose core function is to realize the first-class entity of data.From the perspective of dataspace,the supports and shortcomings of mainstream technologies such as the internet,the World Wide Web,and the LUO Chaoran1,2,MA Yun1,2,3,JING Xiang1,2,4,HUANG Gang1,2,51.National Key Laboratory of Dataspace Technology and System,Beijing 100091,China2.Advanced Institute of Big Data Technology,Beijing 100091,China3.Institute of Artificial Intelligence,Peking University,Beijing 100871,China4.School of Software and Microelectronics,Peking University,Beijing 102627,China5.School of Computer Science,Peking University,Beijing 100871,China2023024-1111STUDY 研究2023024-2digital object architecture for the first-class entity of data were analyzed and summarized,and then the basic connotations and technical challenges of dataspace infrastructure were given.Finally,a first-class data substantialization method based on data pragmatics was proposed.Based on this method,a solution called the internet of data by integrating digital object architecture,distributed ledger,smart contract,and other technologies was proposed to support the construction and operation of internet-scale dataspace infrastructure.Key wordsinfrastructure of dataspace,internet of data,DOA,data pragmatic0 引言互联网以开放式体系结构和标准化协议在物理网络之上构建了一个由主机(host)组成的虚拟数据传输网络,从而屏蔽了下层物理网络的通信细节,在异构的物理网络之上形成了全球一体化的网络空间。随着互联网的发展和大数据时代的到来,数据成了互联网中最具价值的资源,高效地发现、访问、使用互联网中的数据也成了用户对互联网的主要诉求。然而,互联网数据的分散性及互联网环境本身开放、动态、异构的特点,使得访问和使用互联网数据面临协调成本高、责权利难保障,以及低效、易错、难复盘等挑战1。当前互联网“以计算为中心”的技术体系将计算资源视为一阶实体,围绕某个数据计算任务,以计算资源为中心调用所需数据,并临时性地赋予其身份标识,使其成为一个局部实体。在这个过程中,数据作为计算资源的附属,对外是不可见的,且其生命周期也会随着计算任务的结束而消亡,数据的价值通常被限定在一个个既定的计算任务之中2。随着大数据时代的到来,数据成了与计算资源同等甚至更重要的战略资源,大数据技术的发展将会在互联网和其他网络之上催生出一个虚拟的数据空间。数据空间是网络空间从“以计算为中心”向“以数据为中心”转型的一种新形态。数据空间以数据为一阶实体,基于数据的自然属性构建数据的逻辑模型,并将其抽象为直接可见、可用的独立实体。一方面不依赖下层软硬件,软硬件环境的改变不会导致数据实体的变化;另一方面独立于上层应用,应用场景的变化不会导致数据自然属性的改变。数据空间“以数据为中心”的特征势必需要一套“以数据为中心”的新型基础设施将网络空间中资源的表征和组织从计算架构转变为数据架构,支撑数据的一阶实体化表达。万维网(World Wide Web,WWW)和 数 字 对 象 架 构(d i g i t a l o b j e c t architecture,DOA)是互联网环境下“以数据为中心”的两大主流技术体系。二者从各自的数据应用场景出发,以超文本和数字对象的模型表示数据,赋予数据唯一的标识使其可直接访问,基于开放式软件体系结构组织数据,并通过标准协议规范数据的交互行为。经过数十年的发展,WWW和DOA已经在网络空间中形成了互联网规模的网页空间和数字出版物空间,支撑了大量的数据融合应用。本文从WWW和DOA切入,分析其需求动机和技术发展脉络,归纳总结数据空间基础设施的技术特征和关键挑战,进而提出一种数据空间基础设施解决方案数联网。BIG DATA RESEARCH 大数据1121 数据空间视角下的互联网、万维网和数字对象架构互联网面向计算机之间的数据传输场景,将计算机抽象为主机,以IP地址作为主机的识别符和地址,以传输控制协议(transmission control protocol,TCP)建立起主机之间的虚拟通信链路,进而在链路中传输数据。在互联网的数据传输场景下,数据被抽象为计算机之间传输的数据包(packet),通过计算机之间的虚拟通道顺序传输。这种对数据的抽象并未将数据视为一阶实体,数据包依附于机器之间建立的传输通道,其生命周期也会随着TCP连接的释放而结束。数据的一阶实体化是数据空间的核心理念:一阶代表数据的直接性,即数据是直接可见、可用的,应用直接通过数据的标识访问数据而非通过接口调用等间接方式获取数据;实体代表数据的独立性,即数据是自然存在的,不依附于其他任何实体。“以数据为中心”的数据空间势必需要一套“以数据为中心”的新型基础设施,构建一阶数据实体的资源模型和访问架构,将分散在网络空间中的数据资源有效组织起来,从而高效地发现、访问和使用数据。从数据空间的角度来看,WWW和DOA是目前互联网上两个主流的“以数据为中心”的技术体系,二者从各自最初的数据使用场景出发,逐渐泛化对目标数据资源的定义、扩展数据模型、演进系统架构,最终实现了互联网规模的数据发现、访问和使用。1.1 万维网:从网页到资源表征WWW诞生于1989年,当时就职于欧洲粒子物理研究所的 Berners-Lee T设计WWW的初衷是使实验组里各国的高能物理学家能通过计算机网络方便地传递、共享科研信息3。WWW将数据抽象为HTML文档(网页),不仅包含了数据本身的内容,还包含视觉展示内容的语义标签。将浏览器/服务器架构作为系统实现的模型,并制定了用于二者间传输网页的HTTP 1.0协议,以可见、可读的文本作为HTML文档的序列化方式。在这个场景下,WWW解决的是人与人之间信息共享的问题,因此WWW的设计也主要侧重于如何便捷地公开数据及如何方便地浏览信息。对于数据提供方而言,仅需一台连接互联网的机器,将数据封装为HTML文档,并提供一个HTTP访问端口,即可公开数据。而对于数据使用方而言,仅需知道数据的统一资源定位器(uniform resource locator,URL),即可通过浏览器访问、使用目标数据。访问WWW数据的前提是知道目标数据的URL。尽管可以通过网页之间的超链接跳转来发现新的网页,但随着WWW上信息规模的爆发式增长,如何高效地发现所需信息成为WWW面临的关键挑战。人与人之间信息的开放与共享是WWW的核心理念,因此WWW上绝大部分数据是公开可访问的文本数据。搜索引擎基于爬虫技术,通过网页之间的超链接爬取大量网页、建立文本索引并提供搜索服务,基本解决了WWW公开数据搜索、发现的难题。在WWW最初的基础设施系统架构中,并没有搜索引擎这一角色,然而随着WWW规模的增长,受高效发现数据的需求驱动,目前搜索引擎已经成了WWW不可或缺的一部分。随着WWW的进一步发展,人与人之间的信息共享已不是WWW的唯一用途。如何使机器也可以利用WWW基础设施、2023024-3113STUDY 研究使用WWW数据,构建跨互联网的分布式应用,成为WWW的另一大数据使用场景。面向这一使用场景,WWW出现了两个技术发展方向:Berners-Lee T提出的语义网4(semantic web)及Fielding R T提出的表述性状态转移5(representational state transfer,REST)。语义网的思路是通过为网页添加机器可解释的语义标签,使网页的数据可以被机器解释、使用。REST则不再使用网页来表示数据,而是将WWW上的数据都抽象为资源,通过交换资源的表征(representation)访问资源的内容、修改资源的状态。从实际发展的角度来看,REST无疑是更成功的技术方案,并且其设计理念也在HTTP1.1中得到了体现和标准化。REST是一种软件体系结构风格,其架构的核心约束包括以下几点:所有资源需要被资源描述符标识;所有访问资源的操作语义需要统一;对资源的操作通过交换其表征来实现;交换资源表征的消息需要是自描述的,包含所有本次交互所需的信息。Fielding R T在参与HTTP