温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
白皮书
2018
大大 数数 据据 白白 皮皮 书书 (20182018年)年)中国信息通信中国信息通信研究院研究院 2012018 8年年4 4月月 版权声明版权声明 本白皮书本白皮书版权属于版权属于中国信息通信研究院中国信息通信研究院,并受法律保,并受法律保护护。转载、摘编或利用其它方式使用转载、摘编或利用其它方式使用本白皮书文字或者观本白皮书文字或者观点的,应点的,应注明注明“来源:来源:中国信息通信研究院中国信息通信研究院”。违反上述。违反上述声明者,本声明者,本院院将追究其相关法律责任。将追究其相关法律责任。前前 言言 随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。近年来,我国的大数据在政策、技术、产业、应用等方面均获得了长足发展。本白皮书是继大数据白皮书(2014 年)、大数据白皮书(2016 年)之后中国信息通信研究院第三次发布大数据白皮书。本白皮书在前两版的基础上,集中梳理介绍了我国大数据的最新发展态势和成果。本白皮书首先对我国大数据的发展进行了回顾与梳理,对大数据发展的总体情况进行了研判。白皮书还对大数据的技术发展、行业应用进行了梳理,探讨了利用大数据提升政府治理能力的关键问题,并对数据法律法规体系和地方大数据产业发展的新实践、新动向进行了追踪研究,力求重点介绍我国大数据发展的最新成果。随着近年来数据资产管理的概念逐渐深入人心,本白皮书专门用一章对这一问题进行了探讨。最后,结合我国大数据发展最新状况及问题,提出了进一步促进大数据发展的相关策略建议。目目 录录 一、大数据发展概述.1 二、大数据政策环境.4(一)我国大数据政策回顾与大数据战略的提出.4(二)国家大数据战略的内涵.5 三、大数据技术创新.8(一)数据分析技术.8(二)事务处理技术.11(三)数据流通技术.13 四、大数据与实体经济融合应用.15(一)行业应用大数据的特点.15(二)行业应用大数据的深层分析.16(三)行业应用大数据的关键因素.19 五、政务大数据发展.19(一)政务大数据总体要求.20(二)政务信息系统整合.22(三)政务信息共享交换.24(四)政务信息对外开放.26 六、地方大数据产业发展.29(一)大数据产业发展主要模式.29(二)地方大数据产业发展策略分析.30(三)地方大数据产业发展成效与问题.32 七、数据资产管理体系.33(一)数据资产管理的定位和范畴.33(二)数据资产管理面临的挑战.35(三)数据资产管理的发展趋势.37 八、数据立法重点.41(一)政府数据开放.41(二)个人信息保护.43(三)数据流通规则.46 九、建议与展望.48(一)制度与技术双管齐下,打破数据孤岛.48(二)内部与外部多重并举,推动数据治理.49(三)业务与数据加速融合,深化数据应用.49(四)监管与自律同时推进,保障数据安全.50 图表目录 表 1 数据流通技术工具对比.14 表 2 部分行业代表性企业大数据应用情况.17 表 3 地方政府大数据产业发展定位 .31 图 1 我国大数据市场产值图.2 图 2 事务型数据库架构演进图.11 图 3 我国主要政府数据开放平台上线时间.28 图 4 数据资产管理在大数据体系中的定位.34 图 5 数据资产管理体系架构.35 中国信息通信研究院 大数据白皮书(2018)1 一、大数据发展概述 大数据是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。在刚刚过去的 2017 年里,大数据在政策、技术、产业、应用等多个层面都取得了显著进展。在政策层面,大数据的重要性进一步得到巩固。党的十九大提出“推动互联网、大数据、人工智能和实体经济深度融合”,习近平总书记在政治局集体学习中深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了更高的要求。在技术层面,以分析类技术、事务处理技术和流通类技术为代表的大数据技术得到了快速的发展。以开源为主导、多种技术和架构并存的大数据技术架构体系已经初步形成。大数据技术的计算性能进一步提升,处理时延不断降低,硬件能力得到充分挖掘,与各种数据库的融合能力继续增强。在产业层面,我国大数据产业继续保持高速发展。权威咨询机构Wikibon 的预测表示,大数据在 2018 年将深入渗透到各行各业(every business)1。对于我国大数据产业的规模,目前各个研究机构均采取间接方法估算。中国信息通信研究院结合对大数据相关企业的调研测算,2017 年我国大数据产业2规模为 4700 亿元人民币,同比增长 1 来源:https:/ 2 指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。大数据白皮书(2018)中国信息通信研究院 2 30%。在这其中,大数据软硬件产品的产值约为 234 亿元人民币,同比增长 39%。而中国信息通信研究院中国数字经济发展与就业白皮书(2018 年)中的数据显示,2017 年我国数字经济总量达到 27.2万亿元,同比名义增长超过 20.3%,占 GDP 比重达到 32.9%。在这其中,以大数据为代表的新一代信息技术对于数字经济的贡献功不可没。图 1 我国大数据市场产值图(单位:亿元)在应用层面,大数据在各行业的融合应用继续深化。大数据企业正在尝到与实体经济融合发展带来的“甜头”。利用大数据可以对实体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目标市场,更成为众多大数据企业技术进步的重要推动力。随着融合深度的增强和市场潜力不断被挖掘,融合发展给大数据企业带来的益处和价值正在日益显现。根据中国信息通信研究院 2017 年大数据产业地图的统计,为金融、政务、电商三个行业提供大数据产品和解决方案的企业最多,分别占比 63%、57%、47%。但实践中仍然面临着缺乏2800 3600 4700 6200 8000 10100 0200040006000800010000120002015201620172018E2019E2020E中国信息通信研究院 大数据白皮书(2018)3 高质量数据、缺乏平台级工具、缺乏成熟商业模式等一系列问题,阻碍了实体经济行业充分利用大数据的价值。在利用大数据提升政府治理能力方面,我国在 2017 年出台了 政务信息系统整合共享实施方案、政务信息资源目录编制指南(试行)等多项政策文件推进政府数据汇聚、共享、开放,取得了诸多进展。各地纷纷将大数据作为提升政府治理能力的重要手段,通过高效采集、有效整合、深化应用政府数据和社会数据,提升政府决策和风险防范水平,提高社会治理的精准性和有效性。在地方大数据发展实践方面,截至 2018 年 2 月底,我国各地方政府对外公布了超过 110 份大数据相关政策文件,覆盖全国 31 个省级行政区划。总体来看,我国大数据产业目前仍处于蓬勃发展阶段,各地更加注重结合当地发展特色和优势进行大数据产业发展,区域协调的发展局面正在形成。在大数据的发展过程中,无论是政府还是企业,近年来都愈发关注数据治理和数据资产管理的重要性。2018 年 3 月,银监会出台银行业金融机构数据治理指引,要求银行金融机构建立自上而下、协调一致的数据治理体系。企业的数据资产管理也正在从理论走向实践,为大数据应用打下坚实的基础。为应对大数据发展带来的各种问题和需求,各国政府在立法方面也动作频频,在政府数据开放、个人信息保护和数据跨境流动方面都有了一些进展。无论是政策还是立法,都旨在实现数据价值的安全释放,提升数据管理的科学化水平。我国要实现从“数据大国”向“数据强国”转变,还面临诸多挑大数据白皮书(2018)中国信息通信研究院 4 战。一是技术创新与支撑能力依然不够,我国无论是新型计算平台、分布式计算架构,还是大数据处理、分析和呈现方面与国外均存在较大差距,总体上难以满足各行各业大数据应用需求。二是信息安全和数据管理体系仍未建立,数据所有权、隐私权等相关法律法规和信息安全、开放共享的规范和标准缺乏或可操作性不强,技术安全防范和管理能力不够。三是人才队伍建设亟需加强,大数据人才远不能满足发展需要,尤其是缺乏既熟悉行业业务需求,又掌握大数据技术与管理的综合型人才。未来,需要我们继续坚持国家大数据战略,审时度势精心布局,努力开拓大数据发展新局面,更好服务我国经济社会发展和人民生活改善。二、大数据政策环境 在刚刚过去的 2017 年里,大数据从政策层面备受关注。在党的十九大报告“贯彻新发展理念,建设现代化经济体系”一章中,专门提到“推动互联网、大数据、人工智能和实体经济深度融合”,高屋建瓴地指出了我国大数据发展重点方向。2017 年 12 月 8 日,十九届中共中央政治局就实施国家大数据战略进行了集体学习,习近平总书记深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了五个方面的要求。本章将对国家大数据政策进行梳理,并对国家大数据战略的内涵进行分析。(一)(一)我国大数据政策我国大数据政策回顾回顾与大数据战略的提出与大数据战略的提出 2014 年,大数据首次写入政府工作报告,而这一年也成为实际中国信息通信研究院 大数据白皮书(2018)5 意义上的“中国大数据政策元年”。从这一年起,“大数据”逐渐成为各级政府关注的热点,政府数据开放共享、数据流通与交易、利用大数据保障和改善民生等概念逐渐深入人心。2015 年 8 月 31 日,国务院正式印发了促进大数据发展的行动纲要(以下简称“行动纲要”),成为我国发展大数据产业的战略性指导文件。行动纲要作为我国推进大数据发展的战略性、指导性文件,充分体现了国家层面对大数据发展的顶层设计和统筹布局,为我国大数据应用、产业和技术的发展提供了行动指南。2016 年,中华人民共和国国民经济和社会发展第十三个五年规划纲要(以下简称“十三五规划纲要”)正式公布。“十三五规划纲要”的第二十七章题目为“实施国家大数据战略”。这也是“国家大数据战略”首次被公开提出。十三五规划纲要对“国家大数据战略”的阐释,成为各级政府在制订大数据发展规划和配套措施时的重要指导,对我国大数据的发展具有深远意义。2016 年底,工业和信息化部正式发布大数据产业发展规划(2016-2020 年)。大数据产业发展规划以大数据产业发展中的关键问题为出发点和落脚点,明确了“十三五”时期大数据产业发展的指导思想、发展目标、重点任务、重点工程及保障措施等内容,成为大数据产业发展的行动纲领。农业林业、环境保护、国土资源、水利、交通运输、医疗健康、能源等主管部门纷纷出台了各自行业的大数据相关发展规划,大数据的政策布局逐渐得以完善。(二)(二)国家大数据战略的内涵国家大数据战略的内涵 大数据白皮书(2018)中国信息通信研究院 6 全面准确的理解国家大数据战略的内涵与意义,才能形成广泛的社会共识、充分的调动社会资源、完成构建国家大数据体系的各项任务。全面深入了解大数据及其相关技术的发展脉络和历史轨迹,可以引导我们准确深刻的把握大数据与国家总体目标相关性和内生性。2017 年 12 月 8 日,中共中央政治局就实施国家大数据战略进行第二次集体学习,习近平总书记在主持学习时,深刻分析了我国大数据发展的现状和趋势,对我国实施国家大数据战略提出了五个方面的要求,一是推动大数据技术产业创新发展;二是构建以数据为关键要素的数字经济;三是运用大数据提升国家治理现代化水平;四是运用大数据促进保障和改善民生;五是切实保障国家数据安全与完善数据产权保护制度。我们认为,上述五大要求构成了国家大数据战略的“五大内涵”。一是推动大数据技术产业创新发展。总书记指出,我们要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。近年来,我国在大数据技术产业方面取得了不少突破。2014-2016 年,百度、阿里和腾讯先后拿下国际上知名的 Sort Benchmark 大赛冠军。这个竞赛全面比拼分布式系统软件架构能力,包括如海量数据分布式存储、计算任务切片调度等方面的能力。而这一赛事 2014 年之前的冠军均被微软、Yahoo、亚马逊等包揽。这从一个侧面反映了我国产业界在大数据处理技术水平的快速提升,但是在互联网与大数据技术的创新与发展方面,同世界先进水平相比还有很大距离。中国信息通信研究院 大数据白皮书(2018)7 二是构建以数据为关键要素的数字经济。总书记提出,要坚持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合,继续做好信息化和工业化深度融合这篇大文章,推动制造业加速向数字化、网络化、智能化发展。2016 年,我国数字经济总量达 22.6 万亿元,占 GDP 比重达 30.3%。数字经济已经成为带动中国经济增长的核心动力。工业互联网、分享经济、网络零售、移动支付等领域的快速发展,既为大数据的发展提供了重要应用场景,也对大数据产业的技术水平提升起到了促进作用。三是要运用大数据提升国家治理现代化水平。总书记强调,要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。要实现这一目标,不但要重点推进政府数据本身的开放共享,还应当将各级政府的平台与社会多方数据平台进行互联与共享,并通过大数据管理工具和方法,全面提升国家治理现代化水平。四是要用大数据促进保障和改善民生。总书记指出,大数据在保障和改善民生方面大有作为。要坚持问题导向,抓住民生领域的突出矛盾和问题,强化民生服务,弥补民生短板。民生大数据应用一向是大数据的重点行业应用,医疗、教育、社保、交通等行业的大数据应用在 2017 年也不断取得突破。大数据在流行病预测、个性化医疗、智能交通、治安管理等更广泛的社会场景中,将为增进民生福祉创造更大的技术红利。大数据白皮书(2018)中国信息通信研究院 8 五是要切实保障国家数据安全。总书记强调,要加强关键信息基础设施安全保护,强化国家关键数据资源保护能力,增强数据安全预警和溯源能力。要加强政策、监管、法律的统筹协调,加快法规制度建设。目前,关键数据基础设施的公权力属性、数据的生成、数据的权属、数据的开放、数据的流通、数据的交易、数据的保护、数据的治理以及法律责任等问题,都亟需得到法律的确认。以上五个角度共同构成了国家大数据战略的主要内涵。大数据是信息化发展的新阶段,推动了信息化发展模式的变革创新,开启了数字中国建设的新时代。三、大数据技术创新 如今,大数据技术体系纷繁复杂,但其中有诸多技术格外受到关注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。从 2005 年 Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着数据量的急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需要向分布式转型,形成了事务处理技术体系这一热点。然而,时代的发展使得单个企业、甚至单个行业的数据都难以满足要求,数据融合的价值更加显现,形成了数据流通技术体系这一热点。本章将对数据分析、事务处理、数据流通这三类典型的技术体系的最新进展进行介绍。(一)(一)数据分析技术数据分析技术 从数据在信息系统中的生命周期看,数据分析技术生态主要有 5中国信息通信研究院 大数据白皮书(2018)9 个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了 Sqoop、Flume、Kafka 等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS 已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了 K-V(key-value)、列式、文档、图这四类 NoSQL 数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j 等数据库是各个领域的领先者。计算处理引擎方面,Spark 已经取代 MapReduce 成为了大数据平台统一的计算平台,在实时计算领域 Flink 是 Spark Streaming 强力的竞争者。在数据查询和分析领域形成了丰富的 SQL on Hadoop 的解决方案,Hive、HAWQ、Impala、Presto、Spark SQL 等技术与传统的大规模并行处理(massively parallel processor,MPP)数据库竞争激烈,Hive 还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能(business intelligence,BI)分析工具 Tableau、QlikView 通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。相比传统的数据库和 MPP 数据库,Hadoop 最初的优势来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对 SQL 的支持度。经过 10 多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和 MPP 数据库的优点,从技术的演进来看,大数据技术正在发生以下变化:1)更快 大数据白皮书(2018)中国信息通信研究院 10 Spark 已经替代 MapReduce 成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是 Spark2.0 增加了更多了优化器,计算性能进一步增强。2)流处理的加强 Spark 提供一套底层计算引擎来支持批量、SQL 分析、机器学习、实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在,Spark Streaming 受到 Flink 激烈的竞争。3)硬件的变化和硬件能力的充分挖掘 大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从 CPU 的单核到多核演变转化为向 GPU、FPGA、ASIC 等多种类型芯片共存演变。而存储中大量使用SSD 来代替 SATA 盘,NVRAM 有可能替换 DRAM 成为主存。大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。4)SQL 的支持 从 Hive 诞生起,Hadoop 生态就在积极向 SQL 靠拢,主要从兼容标准 SQL 语法和性能等角度来不断优化,层出不穷的 SQL on Hadoop技术参考了很多传统数据库的技术。而 Greenplum 等 MPP 数据库技术本身从数据库继承而来,在支持 SQL 和数据精细化操作方面有很大的优势。5)深度学习的支持 深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以 Spark 为首的计算平台开始积极探索如何支持深度学习能力,中国信息通信研究院 大数据白皮书(2018)11 TensorFlow on Spark 等解决方案的出现实现了 TensorFlow 与 Spark的无缝连接,更好地解决了两者数据传递的问题。(二)事务处理(二)事务处理技术技术 随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为,生产业务系统面临大规模并发事务处理要求的挑战。传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效(底层硬件的变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过 10 多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft 等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。图 2 事务型数据库架构演进图 大数据白皮书(2018)中国信息通信研究院 12 如图 2 所示,经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界以及产业界工作成果,目前主要分为三类:1)基于原有单机事务处理关系数据库的分布式架构改造:利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。2)基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。3)基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。故应用上述技术进行交易类业务进行服务时,应充分考虑“可持续发展”、“透明开放”、“代价可控”三原则,遵循“知识传递先行”、“测试评估体系建立”、“实施阶段规划”中国信息通信研究院 大数据白皮书(2018)13 三步骤,并认识到“应用过度适配和改造”、“可用性管理策略不更新”、“外围设施不匹配”三个误区。大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。(三)数据流通(三)数据流通技术技术 数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。为了解决这些问题,大数据从业者从诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分的、定制化的提供安全性服务,使得各参与方在无需对外提供原始大数据白皮书(2018)中国信息通信研究院 14 数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。除了以上两种技术框架外,近年来还涌现出多种数据流通的技术工具,这里将其列表总结如下。表 1 数据流通技术工具对比3 3 来源:数据流通关键技术白皮书(1.0 版),大数据发展促进委员会,2018 年。技术工具 同态加密 零知识证明 群签名 环签名 差分隐私 原理概述 对原始数据进行加密,使得加密数据和原始数据进行相同处理时,结果相同 证明者向验证者证明一个声明的有效性,而不会泄露除了有效性之外任何信息 允许群体中的任意成员以匿名方式代表整个群体对消息进行签名,并可公开验证 一种简化的群签名,环签名中只有环成员没有管理者,不需要环成员间的合作 通过添加噪音来达到隐私保护效果 技术特点 可在不解密的情况下对密文进行计算和分析 证明者无需任何事件相关数据,就能向验证者证明事件的真实可靠 能为签名者提供较好的匿名性,同时在必要时又通过可信管理方追溯签署者身份 不需要分配指定的密钥,无法撤销签名者的匿名性 具有严谨的统计学模型,能够提供可量化的隐私保证 适用领域 云计算、电子商务、物联网等 电子商务、金融、银行、电子货币等 公共资源管理、电子商务、金融等 云存储、电子货币等 电子商务、物联网等 成熟度 全同态加密理论上可行,商用化程度还需提高 通用场景的零知识证明理论较为成熟,性能优化后逐渐商用 广泛应用在网络安全中,需要提高计算效率 建立更好的安全性模型,与群签名、CPK结合,优势互补 还需研究复杂数据的差分隐私保护和有效控制连续数据的累计误差 中国信息通信研究院 大数据白皮书(2018)15 四、大数据与实体经济融合应用 党的十九大报告中指出,要加快大数据与实体经济的深度融合。经过几年的发展,各行各业对于大数据应用的重要性基本得到统一,但受限于各种各样的因素,各行业的大数据应用水平还有较大差异。本节将以部分行业为例,分析各行业大数据发展现状及原因,并给出行业大数据应用发展的路径。(一)行业应用大数据的特点(一)行业应用大数据的特点 近年来,在全球经济数字化浪潮的带动下,我国大数据与实体经济的融合应用不断拓展。大数据企业正在尝到与实体经济融合发展带来的“甜头”。利用大数据可以对实体经济行业进行市场需求分析、生产流程优化、供应链与物流管理、能源管理、提供智能客户服务等,这不但大大拓展了大数据企业的目标市场,更成为众多大数据企业技术进步的重要推动力。随着融合深度的增强和市场潜力不断被挖掘,融合发展给大数据企业带来的益处和价值正在日益显现。然而总体来看,目前我国在大数据与实体经济融合领域整体上还处于发展初期。相对于发达国家,在融合行业数量、融合应用深度、融合业务规模、融合发展均衡性等方面还有一定差距。这一阶段主要特点如下:一是一是业务类型不均衡:业务类型不均衡:大数据融合应用主要集中在外围业务上,而在核心业务方面的渗透程度还有待提高。据调查显示4,在应用大数据的行业企业中,营销分析、客户分析和内部运营管理是应用最广 4数据来自中国大数据发展调查报告,大数据发展促进委员会 2018 年 4 月发布 大数据白皮书(2018)中国信息通信研究院 16 泛的三个领域。61.7%的企业将大数据应用于营销分析,50.2%的企业将大数据应用于客户分析,将近 50%的企业将大数据应用于内部运营管理。相比之下大数据分析在产品设计、产品生产、企业供应链管理等核心业务的应用比例还有待提升,大规模应用尚未展开。二二是是地域分布不均衡:地域分布不均衡:大数据融合应用在地区之间发展不均衡,各地大数据应用发展程度差距较大。受经济发达程度、人才聚集程度和技术发展水平影响,大数据应用的产学研力量仍主要分布在北京、上海、广东、浙江等东部发达地区。相关的数据显示5,中西部地区的大数据应用虽然市场需求较大,但发展水平仍较低。三三是是行业分布不均衡:行业分布不均衡:大数据融合应用主要集中在部分行业中,如前所述,大数据与金融、政务、电信等行业的融合效果较好,而在其它众多行业的融合效果则有待深化。在下文中将着重对此现象的原因进行深入分析。(二)(二)行业应用大数据的深层分析行业应用大数据的深层分析 企业和行业大数据应用体系其实就是在生产业务系统之外构建统一的企业级数据仓库。回顾各个领先行业企业级数据仓库建设路径,从技术架构上大都经历了从传统数据库或者数据仓库的架构到 MPP数据库架构再到 Hadoop 的架构体系。除技术架构外,企业级数据仓库的建设还包括数据模型、数据管理体系以及数据应用体系的建设,整个企业级数据仓库最终实施效果依赖于企业内部专业而有力度的组织机构来推动。以下以金融、电信、能源、交通、互联网等几个行 5数据来自中国大数据产业发展评估报告(2017 年)中国信息通信研究院 大数据白皮书(2018)17 业为例,选取代表企业对其行业大数据应用情况进行简要梳理。表 2 部分行业代表性企业大数据应用情况 大型国有银行(以中国工商银行为例)运营商(以中国联通为例)电网(以国家电网为例)石化(以中石化为例)大型互联网(以阿里巴巴为例)数据平台 2000 年开始建立数据仓库。2011 年开始建立数据仓库。2014 年开始大数据平台试点。2016 年打造云计算大数据平台。2004年开始建立数据仓库。数据管理体系 2007 年建立了全行统一的数据体系。2013 年搭建Hadoop 信息库。2012 年开始整合全国数据建立大数据中心。2009 年启动国网SG-CIM 模型和主数据标准研究。2016 年启动 ERP 系统主数据管理平台。2010 年引入Hadoop&Hive平台进行新一代的数据平台的构建。数据应用 2014 年研发了流数据平台,具备实时大数据应用能力。2015 年开始运营数据,与各行业结合做大数据应用。2015 年开始大数据应用的建设和推广。2015 年宣布借助阿里等企业打造数据商业服务新模式。2008 年,阿里巴巴建立了数据平台,将交易核心过程进行重组,成立用户中心开展数据应用。组织机构 1996 年即成立软件开发中心专注电子化建设。2017 年成立专门的大数据运营公司。2013 年成立专业的大数据团队,负责服务内部和外部客户。早期即建立信息化管理部,无专门数据管理部门。2008年确定了数据和云计算两个重要战略,建立全球顶尖团队,搭建全新技术架构。从上表中不难看出,各行业(以代表性企业为例)在企业级数据仓库建设方面进展不一。从技术角度来看数据仓库建设较早的行业经历了从传统的数据仓库过渡到 Hadoop 和 MPP 数据库架构的过程,而数据仓库建设较晚的行业由于后发优势直接使用 Hadoop 或者 MPP 数据库来了构建企业级数据仓库。从数据管理的角度来看,国有大型银行、电信领域是最早建立统大数据白皮书(2018)中国信息通信研究院 18 一数据标准和数据模型的行业,尤其是国有大型银行有上百套业务系统,数据标准化、数据建模、数据治理的复杂度高,实践的难度最大,有很多可供参考的经验。在数据应用方面,互联网公司、运营商和国有银行的进展也相对较快,这些行业都有较强的精细化经营的诉求,尤其是互联网行业,数据平台直接融入到业务之中,无论是精准广告、内容推荐、用户标签、风险控制都高度依赖于数据分析体系的支持。互联网公司和电信运营商都在经历由内向外的路径,即不仅服务支持企业内部经营分析,而且能够将数据价值释放到社会和其他行业。从组织架构的情况来看,企业级数据仓库建设既需要大数据相关技术人员的支持,也需要数据管理团队的推动,前者负责平台搭建、运维,后者负责数据标准、数据模型、数据治理、数据生命周期的实施。相比之下,电网、石化部门的数据仓库建设起步较晚,一方面在于这些行业所处的经营的阶段不同,另一方面因为前期信息的任务主要在于支撑各类业务系统的运行。但随着这些实体经济巨头企业对数据管理和应用的重视,这些行业与大数据的融合步伐将会不断加快。借助后发优势和企业规模效应,我们有理由相信这些行业的大数据应用前景将非常广阔。对比一些传统企业和部分政府机构,大部分在数据应用方面往往还处于初级阶段:统一的数据仓库还未创设,一体化的大数据平台还未搭建,数据治理或管理体系尚处于初级阶段,数据管理的专门机构未设置。对此,需要这些行业和企业建立科学的数据治理和资产管理体系,提升与大数据融合的能力。中国信息通信研究院 大数据白皮书(2018)19(三)行业(三)行业应用大数据的关键因素应用大数据的关键因素 根据上文的分析,我们可以总结出行业应用大数据的关键因素。这些因素对于行业利用大数据提升业务能力具有一定的指导效果。一是要建立一体化的大数据平台。大数据应用效果较好的行业,通常都建立了生产业务和数据分析深度融合的系统。通过一体化大数据平台,数据的汇聚和共享得以实现,从而提升了数据价值。二是要形成良好的数据管理体系。大数据应用效果较好的行业,通常都已经开展了成熟的数据治理和数据资产管理实践。数据的共享和集成水平比较高,标准化的数据管控体系得以建立,数据的质量、安全得以保证。三是形成了平民化的数据应用。大数据应用效果较好的行业,通常都建立了与需求深度耦合又简单易用的数据应用工具。这使得大数据的使用者从企业数据专家扩展到了普通业务人员,从而真正实现了“人人产生数据、人人应用数据”。四是组建了强有力的数据管理部门。数据管理职能应该有专门的部门实施,因此应成立专门数据管理领导小组和数据管理(处理)部门,将数据的监管职责赋予数据管理部门,由数据管理部门集中管理监控数据,各有关职责部门配合。五、政务大数据发展 大数据是提升政府治理能力的重要方式之一。我国政府多年的信息化发展积累了海量的政务数据,如何健全和完善政务数据的应用机制、厘清政务存量数据、将数据进行共享开放、从数据中挖掘价值,大数据白皮书(2018)中国信息通信研究院 20 最终用于政府治理,切实解决人民群众在同政府打交道时的实际困难、社会企业对于政务数据的迫切需求和提升政府工作效率成为政务大数据深层次应用的最主要问题。(一)政务大数据总体要求(一)政务大数据总体要求 国家大数据战略实施以来,我国政府出台了多项顶层设计,为大数据产业的快速成长提供良好的发展环境。2015 年促进大数据发展行动纲要的发布吹响了我国大数据发展的号角。2016 年以来,关于电子政务、政务信息、政务系统相关文件频发,循序渐进、有条不紊的指导政务大数据的有序发展。特别是 2017 年起,“加快国务院部门和地方政府信息系统互联互通,形成全国统一政务服务平台”、“深入推进互联网+行动和国家大数据战略”等要求陆续提出,为政府信息化建设提供了新的商业机遇和建设方向。2016 年 4 月 14 日,发布了推进“互联网+政务服务”开展信息惠民试点实施方案。2016 年 9 月 19 日发布了政务信息资源共享管理暂行办法。2016 年 12 月 27 日,发布了国务院关于印发“十三五”国家信息化规划的通知。2017 年 1 月 12 日,“互联网+政务服务”技术体系建设指南。总体说来,各指导性文件逐步明确了四个方面的内容,一是在政务信息共享原则方面,提出以共享为原则,不共享为例外;需求导向,无偿使用;统一标准,统筹建设;建立机制,保障安全。二是在政务信息资源分类方面,提出将现有的政务信息按照重要程度和等级分类,划分为无条件共享、有条件共享和不予共享三类。三是在平台建设方面,提出共享平台是管理国家政中国信息通信研究院 大数据白皮书(2018)21 务信息资源目录、支撑各政务部门开展政务信息资源共享交换的国家关键信息基础设施,包括共享平台(内网)和共享平台(外网)两部分。四是在分工职责方面,提出了国家发展改革委、国家网信办组织编制信息共享工作评价办法,国家网信办负责组织建立政务信息资源共享网络安全管理制度,国家发展改革委、财政部、国家网信办建立国家政务信息化项目建设投资和运维经费协商机制。经过了多个指导性政策文件的发布与宣贯,政务信息系统和资源整合也逐步走向了落地的进程。2017 年 5 月 18 日,发布了政务信息系统整合共享实施方案提出,2017 年底完成国务院部门系统整合清理工作,2018 年 6 月实现各个部门整合后的政务信息系统统一接入国家数据共享交换平台。具体提出十项主要任务和方法,包括上下联动,开展“互联网+政务服务”试点;一体化服务,规范网上政务服务平台体系建设;完善标准,加快构建政务信息共享标准体系;构建目录,开展政务信息资源目录编制和全国大普查;强化协同,推进全国政务信息共享网站建设;推动开放,加快公共数据开放网站建设;促进共享,推进接入即统一数据共享交换平台;设施共建,提升国家统一电子政务网络支撑能力;推进整合,加快部门内部信息系统整合共享;审、清