温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2016
年中
数据
驱动
互联网
企业
产品
研究
报告
中国数据驱动型互联网企业大数据产品研究报告2016年2内容综述聚焦网络媒体大数据,研究其体系架构及相关产品发展阶段:从信息驱动向数据智能驱动进阶;产业结构:由数据源、技术服务及应用类型共同构成;数据来源:企业自有数据是主流数据源,数据的流通和共享将成趋势;数据管理:数据挖掘与可视化成行业热点,数据管理向垂直行业分化;分析处理:文本、图像、语音分析相对成熟,视频分析存在探索空间;应用类型:从独立数据产品向完整行业解决方案发展,定制化将成趋势。优势体现:互联网基因有利于大数据的获取与处理;现状分析:互联网行业是大数据应用的领跑者。1)已上市互联网企业中,以BAT为首的数据驱动型媒体整体表现较好;2)未上市互联网企业中,数据驱动型企业成为领跑者;机遇:1)手机网民持续增长,可采集群体更加广泛;2)移动端使用时长占比超77%,信息采集更加丰富连贯;3)场景化特征为大数据发展带来新契机;挑战:屏幕变小、行为碎片化对大数据的应用提出更高要求。海外发展:1)企业技术探索先行,政策推动产业发展进程;2)将自主研发与投资收购相结合,技术推动企业发展;优势体现:具有强媒体属性的网络服务的发展策略相对成熟;现状分析:中国网络媒体的数据生态系统雏形已成,多维度输出大数据能力;发展策略:大媒体以流量+广告服务为起点,推进产业生态形成。本报告将聚焦于中国网络媒体,研究其大数据体系架构及相关产品,探讨大数据发展趋势。大数据Data来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I互联网大数据Internet网络媒体大数据Media3中国大数据产业现状分析1中国网络媒体大数据产业分析2中国网络媒体大数据企业分析3中国网络媒体大数据的机遇与挑战44大数据定义与特征4V:数据规模大,数据流转快,数据类型多,价值密度低抽样数据 全量数据精确数据 混杂数据因果关系 相关关系数据类型多除了以文本为主的结构化数据、以网页数据为代表的半结构数据,也存在大量网络日志、音频、视频、图片、地理位置信息等非结构化数据。Variety数据流转快1秒定律:要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。Velocity大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。为了适应数据量的爆发式增长,数据处理方式正逐步向全量性、混沌性及相关性发展。为了避免信息损失,越来越多的场景倾向于对全量数据进行挖掘与分析,其中,只有一小部分数据是结构化的,而非结构化数据中同样蕴含着大量信息,因此,能够处理各式各样的混杂数据的大数据技术得到了广泛应用和迅速发展。其中,占据着重要地位的大数据预测分析,也从主要基于因果关系进行分析发展成了建立在相关关系的基础上的分析模式。Volume数据规模大IDC预计,到2020年,全球新建和复制的信息量将达到44ZB,中国数据量将超过8ZB。Value价值密度低海量数据中,如何通过强大的机器算法,更迅速有效地完成数据的价值“提纯”,已成为目前大数据背景下亟待解决的难题。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I5大数据集成与存储数据仓库基于企业整体建立,是大数据集成和存储的基础作为大数据集成与挖掘的基础,数据仓库是在企业范围内共享准确一致的集成数据、针对分析需求进行数据重组的工具,基于整个企业的数据模型建立。而数据集市基于单个部门或业务主题建立,为部门业务运行提供数据服务,可以根据仓库建设也可以独立建设,形成从属数据集市和独立数据集市。所有的从属数据集市都从属于同一个数据仓库,各子系统的数据均能保持一致。而每个独立数据集市都从各源应用环境中单独提取数据,独立拥有硬件平台、软件平台、数据和应用程序,彼此没有任何约束,无法保证数据的一致性,从长远来看,既不稳定也不可行。数据仓库能够对海量数据进行集成,满足大数据发展对数据存储的需求,为企业提供局部解决方案和全面解决方案。注释:ETL是指从源系统中提取数据,清洗、转换数据为一个标准的格式,并加载数据到目标数据存储区(通常是数据仓库)的工具。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。面向主题、集成、不可更新且随时间不断变化的数据集合,用来支持管理人员的决策。源应用环境从属数据集市独立数据集市Data Warehouse数据仓库数据集市Data Mart数据源ETL数据仓库数据集市终端用户大数据处理的数据价值流转过程数据仓库与数据集市工作原理示意6大数据产业生态产业结构由数据源、技术服务及应用类型共同构成如:精准化营销搜索引擎精准营销RTB实时竞价广告重定向精准营销如:互联网金融高频交易社交情绪分析信贷风险分析大数据Big Data数据源Data Source官方数据行业数据企业数据第三方数据技术服务Technical Services应用类型Application Types数据准备存储管理计算处理分析技术可视化解决方案智慧城市智慧政务智慧社区智慧旅游工具/产品化服务精准营销个性化推荐舆情监测网站/App分析工具行业应用电信行业金融行业医疗行业电商行业如:智慧农场生长监测产量预测农业预警数据挖掘来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I大数据产业结构示意图7行业应用按类型数据交易大数据产业图谱工具/产品化服务解决方案舆情监测网站/App分析工具精准营销征信电信医疗娱乐(城管)(社区)(农业)智慧政务智慧公安智慧城市行业联盟官方数据地理、水利、卫星、气象等第三方数据服务基础数据信息类关系类注释:此大数据产业链地图为示意图,未将所有企业标出,举例企业顺序不涉及排名,按企业中文名称首字母排列。如有分类不当,请联系:。企业数据数据应用数据来源金融房地产物流天气地图服务农业体育教育人力资源能源旅游交通数据安全图像分析语音分析文本分析视频分析计算处理可视化全技术支持数据管理数据分析数据挖掘BI按数据类型AI按应用类型数据集成云存储数据存取交易类按行业金融医疗交通物流旅游体育娱乐能源建筑农业个性化推荐贵阳、上海、东湖等大数据交易中心8大数据产业图谱大数据应用广泛,价值升级来源于数据流通及共享数据应用数据分析数据管理数据来源应用类型分析技术基础架构数据源应用存储、分析、挖掘、可视化收集/采集目前数据来源已较为多元,维度也越加丰富,尤其是互联网行业,在数据深度与广度方面具有天然优势,而物联网、车联网等的出现丰富了数据的采集方式与采集范围。应用情况:目前企业内部的数据打通已成行业趋势,未来将进一步实现行业内外的数据流通乃至共享。价值体现:1)大数据能够对人群进行细化管理,并提高对特定人群的覆盖率;2)数据价值的实现与其鲜活度相关;3)大数据的核心价值不在于数据量大,而在于通过数据的沉淀与应用产生价值,其价值升级来源于数据的流通和共享。大数据基础架构包括多种数据库及相关分析计算技术,能够支持数据的采集、清洗、集成、存取、分析、挖掘等环节,从功能角度来看,除传统的数据处理过程外,可视化分析等分析服务也是基础架构的一环。应用情况:企业(含互联网企业)的数据相关部门(如数据中心/数据分析平台/数据商业部等),主要通过对数据的管理、分析及整合,服务于自有业务,同时不断拓展应用类型和范围。价值体现:大数据处理过程中流转的数据形态可划分为静态数据和动态数据,主要通过计算过程实现其价值,其中,模型算法为数据深度挖掘的核心,能够实现预测等功能。大数据应用已渗透电信、金融、医疗、人力资源、物流、天气等多个行业,从产品角度来看,除传统的工具/产品化服务、行业应用及解决方案外,大数据应用也包括商业智能等分析服务。应用情况:目前大数据应用的主要输出形式是可视化报表,未来将在功能方面进一步融合提升。典型大数据行业应用:物流:优化整体运输流程,实现实时查询把控。营销:应用形式成熟落地,既提高了用户对目标商品的获取效率,又改善了商家的投放效果。产品功能流程来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I数据应用数据管理与分析数据来源概述:本报告的大数据产业图谱以大数据产品的角度出发,对产业链角色进行划分。其中,数据管理与数据分析部分包括了大数据基础架构及相关分析技术,能够实现大数据的存储、分析、挖掘、可视化等环节。而在数据源与数据应用方面,从功能和流程角度来看具有高度的关联性及一致性,涉及行业极其广泛。9产业链:数据来源企业自有数据是主流数据源,数据的流通和共享将成趋势注释:企业数据的数据类型主要可以分为四类,分别是基础类(LBS/设备等),信息类(搜索/浏览数据),交易类(网购/O2O),关系类(社交等)。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I数据来源Data Sources近年来,官方数据开放程度提高,行业联盟兴起,第三方数据服务蓬勃发展,各大企业(以互联网核心企业为主)也开始逐步开放群体画像数据,单一数据的跨界融合放大了其价值。但目前大数据应用的数据源仍以企业自有数据为主。整体来看,数据产生量爆炸式增长,可分析的数据维度越来越丰富。尚未形成完善统一的监管政策与行业规则,企业之间的数据孤岛情况仍然存在。数据交易方面,数据交易模式与数据资产定价标准有待建立,发展程度尚不成熟。艾瑞分析认为,大数据行业的发展将在政策法规和行业自律的约束下,从探索期步入高速发展的成熟期;在市场客观需求的驱动下,数据的流通和共享将成为趋势。1)发展现状2)主要困局3)前瞻视点伴随着数据资源价值逐步得到认可,数据流通的需求不断上升,除企业直接合作外,数据交易市场开始出现,建立数据需求方与供给方之间成规模化的联系。而数据的开放需要多方助力,数据的流通与分享能够为大数据的价值提升赋能,尤其在经济价值和社会价值方面会有较大提升。行业数据第三方数据企业自有数据数据交易官方数据,包括国家统计局、工信部等及国家地理、水利、卫星、气象等部门发布的公开数据行业联盟数据等运营商数据第三方机构数据包括CRM、ERP数据等企业内部数据,以及投资并购企业的相关数据外部企业数据主要通过企业合作、数据交易等方式获取,形式多样,来源广泛10产业链:数据管理(1/2)数据管理囊括从数据收集到应用的全过程,且外延仍在拓展包括数据采集、清洗、转换、集成等环节,从业务过程中提取多数据类型的数据信息,转化为便于计算和存储的形式。数据准备存储管理计算处理数据挖掘可视化数据安全包括数据存取、云存储等方面。数据量爆发式增长,数据存储由集中式向分布式发展,提高存取效率,同时易于扩展。以可读形式展现数据结果,在人与大数据系统间传递、交换信息。交互形式越发丰富,降低了大数据的使用门槛。包括大数据查询分析计算、批处理计算、流式计算等多种计算需求。此外,云计算极大提升了对大数据的处理能力。伴随着数据量的增加,数据安全的重要性越发凸显,既包括外来黑客攻击防护,也包括用户个人信息管理。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I基于不同的数据类型和格式提出的数据挖掘算法能够更科学地呈现数据本身的特点,实现预测等更深入的分析需求。数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,经历了人工管理、文件系统、数据库系统三个发展阶段。狭义的数据管理包括数据准备、存储管理、计算处理及数据安全等环节,伴随着非结构化数据的爆发式增长,对数据的处理和管控提出了更高的要求,因此将数据挖掘和可视化也纳入广义数据管理过程,以满足更深入的数据处理需要,在此过程中,数据管理的外延还将持续拓展。11产业链:数据管理(2/2)数据挖掘与可视化成行业热点,数据管理向垂直行业分化来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I技术服务Data Management数据挖掘和可视化成为行业热点,一方面,数据挖掘算法渐趋成熟,数据洞察深度提升,另一方面,可视化工具种类越来越多,应用需求的多样化催生了从场景衍生出来的定制化服务。1)发展现状技术方面,大数据的运作效率始终是行业发展的痛点之一,基础设施尚不完善。此外,在信息泄露事故频发的情况下,数据安全领域还有待进一步深耕,以应对越发丰富复杂的大数据应用场景。2)主要困局艾瑞分析认为,云环境下的大数据存储和计算是未来数据管理的发展方向,大数据存储与计算效率将不断提高;数据管理整体将向更垂直、更贴合具体行业特征的方向发展。3)前瞻视点大数据的数据管理环节数据准备存储管理计算处理数据安全数据挖掘可视化12产业链:数据分析文本、图像、语音分析相对成熟,视频分析存在探索空间文本分析图像分析语音分析视频分析来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I技术关键词检索机器翻译语义洞悉应用舆情评估态度追踪口碑管理技术图像识别人脸识别相似图像对比应用人脸建模身份认证摄影测量技术语音识别语音理解语音合成应用语音听写情绪洞察人声模拟技术运动目标检索目标路径追踪侦察预警应用活体检测交通监测场景布控分析处理Data Analysis文本和图像的分析技术已相对成熟,可以达到较高精度,应用也相对落地。语音分析技术取得突破,可将非结构化的语音信息(语义、语调、语速、音量等)转换为结构化的索引,实现对海量音频文件的的知识挖掘和快速检索。而伴随着视频类应用的盛行和监控摄像头的普及,视频分析的需求也在逐年上涨。语音分析整体发展相对成熟,但在自然语言处理方面还存在难点;视频形成的多维非结构化数据的存储与挖掘技术仍不成熟,视频内容分析还存在优化空间。艾瑞分析认为,视频分析和语音分析的需求将继续增大,在机器学习的基础上,未来将不断提高智能程度,进一步解放人工劳动,如应用于直播行业的内容监测工作。1)发展现状2)主要困局3)前瞻视点13产业链:数据应用从独立数据产品向完整行业解决方案发展,定制化将成趋势解决方案工具/产品化服务行业应用将基础设施和信息资源联合起来,结合政务、公安、旅游等领域的典型行业特征,共同为对应产业提供智慧解决方案。正逐步从通用型产品向更加场景化的方向拓展,应用层面也更加落地,尤以智能分析类软件的快速发展为代表。越来越多的行业开始探索利用大数据提升产业效能。互联网化程度较高的行业转变得更快,较早开始转型的领域积淀得更深。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I应用类型Data Application大数据应用从独立的工具产品向完整的行业解决方案发展,相关产品和企业的数量大量增加,涉及领域越来越广。各行业的数字化发展程度并不均匀,行业智慧解决方案所涉及的各领域数据的关联程度和挖掘深度还有待继续加强。此外,各行各业的数据应用需求具有较大差别,难以通过一类或几类数据产品全面覆盖。艾瑞分析认为,产业赋能方面,未来智慧城市领域的政企合作将进一步延伸;工具属性方面,具体的大数据产品/服务将向轻量级、定制化方向发展,满足多样的需求。1)发展现状2)主要困局3)前瞻视点14中国大数据产业发展宏观政策环境不断完善,大数据已上升为国家战略2013 推动2015 强化2012 支持【国务院】支持海量数据存储、处理相关软件的研发和产业化,推进信息安全关键产品研发和产业化。【国务院】推动商业企业加快信息基础设施演进升级,增强信息产品供给能力,形成行业联盟,制定行业标准,构建大数据产业链,促进创新链与产业链有效嫁接。【工信部】定义个人信息范围,提出个人信息收集和使用规则、安全保障等要求。【国务院】推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展。【发改委】运用互联网与大数据的技术来创新监管的方式。【工信部】大数据产业将纳入“十三五”规划。【工信部】加快云计算与物联网、移动互联网、现代制造业的融合发展与创新应用,积极培育新业态、新产业,加快推进云计算与大数据标准体系建立。【国务院】运用大数据加强对市场主体服务和监管。【国务院】推动政府信息系统和公共数据互联共享,建立市场化应用机制,深化大数据在各行业的创新应用,强化信息安全保障,顺应潮流引导支持大数据产业发展。国家对大数据产业的重视程度不断上升,从数据存储、软件研发到信息安全,从产业链、行业联盟到跨行业融合的新业态,不断完善宏观政策,推动数据互联共享和标准体系建立,引导支持大数据产业健康发展。一些地方政府也已开始着力发展大数据产业,自2013 年以来陆续出台了推进计划,强调研发及公共领域应用,促进相关政策法规的完善;重视通过大数据引领产业转型升级,与企业合作共建地区大数据生态;建立大数据基地,吸纳优秀企业落户扎根。伴随着宏观政策环境的逐步完善,我国大数据产业茁壮发展。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I2012年-2015年中国大数据政策梳理15中国大数据产业发展从信息驱动向数据智能驱动进阶中国大数据产业的发展正在从信息技术驱动向数据驱动方向进阶,未来在数据挖掘、机器学习、人工智能等技术的基础上,还将以智能化的形式赋能各行各业。大数据趋势正从互联网向各个领域延展,各行各业的决策正在向“数据智能驱动”转变。信息驱动Information Technology数据驱动Data Technology智能驱动Intelligence TechnologyITDTIT时代以自我控制、自我管理为主。信息技术驱动生产,以信息流为核心,通过传感技术、通信技术和计算机技术等实现占有、掌握、传输和控制。数据作为“附加产物”,碎片化严重。DT时代以服务大众、激发生产力为主。数据驱动业务,以数据流为中心,注重开放、透明、体验和分享,基于产业协同关系以及云计算等技术,通过数据整合打通数据链路,加快产业升级。“IT”时代通过智能技术为产业智能提供解决方案、解放劳动力。智能驱动决策,在数据挖掘、机器学习、人工智能等技术逐渐成熟的基础上,赋能产业,改变人与场景的交互方式。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I“IT”中国大数据产业发展阶段的演变16中国大数据产业发展互联网基因有利于大数据的获取与处理大数据结合互联网行业的发展相较于其他行业而言,发展速度更快,应用更加落地。其优势在于:1)数据获取:互联网形式更有利于与用户发生交互,能够采集到连续数据;2)数据处理:互联网的形态更有利于海量数据的存储和分析,特别是将大数据与云计算的结合,改变了传统的高成本低效率的数据存取方式。在此基础上,互联网大数据能够结合大数据技术在金融、医疗等传统行业的发展经验,助力互联网+金融、互联网+医疗等互联网大数据的应用高效健康地发展。同时,互联网大数据各应用类型的高速发展,也推动了传统行业对数据资产的重视程度,加快了其数字化进程。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I提供行业经验互联网大数据传统行业推动数字化进程互联网形式更有利于与用户发生交互,能够采集到连续数据。数据获取互联网的形态更有利于海量数据的存储和分析。数据处理中国互联网大数据的核心优势1784.0 115.9 20142015E2014年-2015年中国大数据市场规模中国大数据市场规模(亿元)中国大数据产业发展从互联网大数据向各领域延展根据中国信息通信研究所统计,2014年中国大数据市场规模约为84亿元,预计2015年中国大数据市场规模将达到115.9亿元,增速达38%,2016至2018年中国大数据市场规模还将维持40%左右的高速增长。自2006年以来,我国出台多项规定,促进数据开放共享,引导大数据产业的健康发展。从行业来看,互联网行业是大数据应用的领跑者,其次,大数据应用水平相对较高的主要是电信、金融等行业,而医疗、零售、交通、物流等传统行业也在大数据方面有所探索,并且已出现部分相对成熟的应用类型。企业大数据的应用情况相较于上一年度而言,整体呈增长态势。各行业的数字化进程并不均衡,部分传统行业的大数据技术与应用的渗透率还较低,仍有较大增长空间。金融互联网电信物流制造医疗交通农业能源汽车来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I来源:中国信息通信研究所2015年中国大数据发展调查报告,艾瑞咨询研究院自主研究及绘制。2016.10 iResearch I增速38%2016年中国大数据产业分布18中国互联网大数据产业发展已上市互联网企业:以BAT为首的数据驱动型媒体整体表现好Top20席位中网络媒体占据半壁江山企业市值Top3均为数据驱动型企业640.4亿元663.8亿元538.4亿元943.6亿元174.7亿元1028.6亿元广告营收总营收广告营收总营收广告营收总营收注释:1.各企业广告营收统计标准以其财务报表中公布的广告营收数字为准,不考虑因税收和返点引起的统计口径差异;2.阿里巴巴集团广告营收由财报及其他公开信息结合艾瑞咨询集团推算模型估算,淘宝广告营收为中国商业零售业务中的核心收入来源,其广告营收不包含佣金收入及其他店铺费用。来源:根据企业公开财报、行业访谈、iAdTrackar监测数据及艾瑞统计预测模型估算,仅供参考。艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I12966.112295.24251.0 2065.2 1537.2 1499.3 1091.0 796.1 591.7 509.3 475.4 459.9 423.3 414.2 409.7 268.9 256.6 252.3 228.3 224.3 阿里巴巴腾讯百度京东网易携程乐视58同城去哪儿 三七互娱科大讯飞昆仑万维网宿科技 唯品会 恺英网络微博汽车之家 人民网搜房网新浪2016年已上市互联网公司Top20市值市值(亿元)注释:统计时间节点为2015年12月31日收盘后企业市值,美元汇率统一按照6.5核算。来源:综合企业财报、招股说明书、公开新闻报道及专家访谈,根据艾瑞统计模型核算,艾瑞咨询研究院自主研究及绘制。2016.11 iResearch I19300.0 75.0 69.0 37.0 30.0 23.1 8.0 25.6 76.9 25.4 23.9 35.0 4.6 3.8 27.5 55.0 22.1 5.1 4.8 16.5 蚂蚁金服小米科技 滴滴出行 陆金所新美大 今日头条 大疆创新 菜鸟网络 借贷宝 众安保险 京东金融uber中国魅族链家网 乐视移动微众银行神州专车 饿了么 美图秀秀 乐视体育2016年未上市互联网估值Top20企业增长指数数据驱动型企业,通常自有完整大数据系统,以数据为支撑进行各环节分析决策,从而实现企业运营管理。相较于传统企业,数据驱动型企业在企业数据的时间纬度、颗粒度及覆盖度方面都趋于精细化,并通过与实际运营流程的结合,实现其数据价值。中国互联网大数据产业发展未上市互联网企业:数据驱动型企业成为领跑者增长指数=2016年企业估值成立年份距2016年的年限数据驱动型企业估值Top3均为数据驱动型企业注释:统计范围为2013年1月1日至2016年7月15日间,获得过融资、主营业务在中国大陆,并在未来筹备独立上市的初创企业。不含已上市企业(包括新三板上市)。以2016年企业估值排名为序。来源:综合公开资料及专家访谈,根据艾瑞统计模型核算,艾瑞咨询研究院自主研究及绘制。2016.11 iResearch I来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I增长指数较高的均为数据驱动型企业20中国大数据产业现状分析1中国网络媒体大数据产业分析2中国网络媒体大数据企业分析3中国网络媒体大数据的机遇与挑战421海外数据驱动型网络媒体的大数据奠基企业技术探索先行,政策推动产业发展进程来源:根据企业财报、公开资料整理。艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I探索期(部分国家早期探索)宏观环境技术积淀期(非结构化数据爆发)企业技术应用探索期(并行计算与分布式系统形成)价值拓展期(人工智能、机器学习等兴起)发展期(上升到国家战略高度)爆发期(更多国家参与)2003年-2015年海外网络媒体大数据政策及技术发展历程 Google推出大数据查询和存储工具BigQuery;Twitter收购BackType,发布分布式计算系统Storm;美国政府发布大数据研究和发展倡议,并向大数据领域投资2亿美元,是大数据技术从商业行为上升到国家科技战略的分水岭200320052003年Google发布第一个大规模用分布式文件系统GFS2004年Google发布Map Reduce和Big Table2005年Yahoo发布Hadoop分布式计算系统2009年Facebook推出数据仓库架构Hive;2009年Spark诞生于伯克利大学AMPLab麦肯锡发布第一份大数据报告,定义“大数据”2006年Amazon推出企业云业务AWS2009年美国政府开始开放政府数据2010年德国启动“数字德国2015”战略英国政府宣布注资1.89亿英镑发展大数据技术互联网巨头纷纷发布机器学习产品,IBM Watson 系统、微软小冰、苹果Siri等,标志着大数据进入人工智能、机器学习深层价值阶段更多企业开始将大数据作为企业决策的重要支撑,但使用的数据仍以内部运营数据为主 美国白宫发布了2014年全球“大数据”白皮书研究报告;数据开放运动已覆盖全球44个国家2009美国软件公司Splunk在纳斯达克成功上市,是第一家上市的大数据处理公司201220112013201520142010 年Google公开交互分析引擎Dremel IBM的沃森超级计算机每秒可扫描并分析4TB数据量,并在电视节目上击败两名人类选手夺冠22海外数据驱动型网络媒体的大数据奠基自主研发与投资收购相结合,技术推动企业发展大数据已成海外网络媒体标配,其大数据发展历程与技术的迭代紧密相关,一方面,根据业务需求自主研发尖端技术,为数字化发展奠定基础;另一方面,通过投资或收购大数据技术相关公司,整合业务,提高整体效能。无论是大数据的存储形式还是运行机制的优化,都给产业带来了深远的影响。这对中国互联网媒体的大数据产业发展起到了示例作用。19%56%-3%28%同比变化率注释:Google总营收为Alphabet财报中谷歌业务收入。来源:根据企业财报、公开资料整理。艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I12.0 24.0 118.2 414.1TwitterYahooFacebookGoogle2016H1国外主要媒体营收情况总营收(亿美元)从2003年起,分别发布GFS、Map Reduce、Big Table、BigQuery及Dremel等先进技术产品。投资或收购云商务公司Orbitera、图像识别技术公司Moodstacks、可穿戴设备技术公司Magic Leap、人工智能技术公司DeepMind等公司。GoogleFacebook 以2004年Facebook创立为标志,社交网络的流行导致大量非结构化数据涌现,推动大数据发展进程,并推出Hive等先进技术产品。投资或收购云管理公司SMS Assist、语音识别技术公司wit.ai、人工智能公司Vicarious等公司。从2005年起,发布Hadoop等先进技术产品。投资或收购移动数据分析公司Flurry、大数据服务公司Hortonworks、社交数据分析及挖掘服务商Ztelic等公司。YahooTwitter 从2011年起,发布Storm等先进技术产品。投资或收购数字化营销服务公司TellApart、人工智能公司Madbits、社交数据服务提供商Gnip、数据分析公司BackType等公司。23中国数字信息量快速膨胀中国数字量在世界总数字量中的占比预计达到40%2015年底,全球网民数量达到31.7亿,中国网民数量为6.9亿,中国网民数量约占全球网民数量的22%。此外,2015年-2018年中国网络经济复合增长率为34%,其中,中国移动端的网络经济增速为55%,移动端对网络经济的整体贡献率达到74%,中国互联网发展的重点已向移动端转移。根据Zenith,2015年全球人均单日上网时长约为110分钟,其中,移动端的上网时长为86分钟;而根据艾瑞网民行为监测系统iUserTracker以及移动网民行为监测系统mUserTracker的监测数据显示,2016年初,中国人均单日上网时长达到251分钟,其中,移动端的上网时长约为160分钟。在整体上网时长与移动端上网时长两个人均单日指标上,中国水平均为世界平均水平的两倍左右。根据以上信息推论,中国数字量在世界总数字量中的占比预计达到40%左右。2015年中国数字量与世界数字量对比推算全球网民数量31.7亿中国网民数量6.9亿渗透率22%时长倍数2倍中国数字量在世界总数字量中的占比预计达到40%左右来源:2015年全球网民数量来自国际电信联盟,中国网民数量来自CNNIC,全球人均单日上网时长来自Zenith,中国人均单日上网时长以及网络经济增速、移动端对网络经济的整体贡献率等数据来自艾瑞。艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I全球人均单日上网时长110分钟中国人均单日上网时长251分钟全球人均单日移动端上网时长86分钟中国人均单日移动端上网时长160分钟245.1 5.6 6.2 6.5 6.9 7.2 7.3 7.4 3.6 4.2 5.0 5.6 6.2 6.5 6.6 6.6 12.3%9.9%9.6%5.0%6.1%1.7%2.9%1.4%17.5%18.1%19.0%11.3%11.3%4.9%1.4%0.8%201120122013201420152016e2017e2018e2011-2018年中国整体网民及手机网民规模整体网民规模(亿)手机网民规模(亿)整体网民规模增长率(%)手机网民规模增长率(%)网民规模不断扩大,增速持续放缓手机网民持续增长,可采集群体更加广泛2015年,中国整体网民规模已达6.9亿,其中手机网民规模达到6.2亿,占比近九成。手机网民规模在过去三年均呈迅速扩张趋势,增速远远高于整体网民增速。未来整体网民规模与手机网民规模增长都将持续放缓,预计到2018年,整体网民规模将达到7.4亿,手机网民规模将达到6.6亿,这为大数据的采集提供了规模更大、覆盖群体更全面、分布结构更为合理的样本群体。来源:2011年-2015年数据来自CNNIC,2016年及以后数据为艾瑞预测。2016.12 iResearch I25PC端与移动端月度使用时长继续攀升移动端使用时长占比超77%,信息采集更加丰富连贯根据艾瑞网民行为监测系统iUserTracker以及移动网民行为监测系统mUserTracker的监测数据显示,2016年8月,整体上网时长已突破500亿小时,其中,移动端总体使用时长达392亿小时,占整体上网时长超过77%。PC端月度使用时长趋于平稳,而移动端月度使用时长呈现较大幅度增长。伴随着流量从PC端向移动端的迁徙,网民对移动设备的依赖性不断增强,为互联网行业大数据产业在更长、更连贯的时间跨度上实现更加多元的信息采集提供了契机。来源:1.iUserTracker.家庭办公版 2016.10,基于对40万名家庭及办公(不含公共上网地点)样本网络行为的长期监测数据获得;2.mUserTracker.2016.9,基于日均400万手机、平板移动设备软件监测数据,与超过1亿移动设备的通讯监测数据,联合计算研究获得。2016.12 iResearch I010020030040050060020072008200920102011201220132014201520162017iUserTracker&mUserTracker-2006年7月-2016年8月PC端网页、手机端App、Pad端App月度使用时长情况pc端网页月度使用时长(亿小时)手机端App月度使用时长(亿小时)Pad端App月度使用时长(亿小时)300200100PC端2016年8月同比变动-4.7%手机端2016年8月同比增长40.2%Pad端2016年8月同比上升78.4%40050026移动互联网时代的大数据挑战与机遇屏幕变小、行为碎片化提出更高要求,场景化带来新的契机在移动互联网时代,用户的注意力从大屏转移向小屏,上网行为更加碎片化,产生的非结构化数据的类型更多,量级也更大,因而相较于PC端,移动互联网产品对互联网企业的大数据能力要求更高。而伴随着移动互联网的发展,用户的触网场景愈加丰富,通过移动设备能够更方便地获取用户地理位置等场景信息,进而判断其所处场景,并进行相应的内容推送,提高个性化精度,获得更好的点击转化效果。移动端比之PC端,屏幕变小,单位展示空间也相应减少(整体展示并未减少,如原生信息流广告的应用),因而要更加注重用户体验,更精准地提供内容或服务。屏幕小通过移动设备能够获取用户的场景信息,判断用户当下场景,并结合其偏好进行信息推送。场景化移动端的用户行为更碎片化,也更具有实时性。移动设备覆盖了用户更完整的上网时间,产生了更丰富数据。碎片化来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I移动互联网时代的大数据挑战与机遇27移动互联网时代的产品发展策略来源:mUserTracker.2016.9,基于日均400万手机、平板移动设备软件监测数据,与超过1亿移动设备的通讯监测数据,联合计算研究获得。艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I具有强媒体属性的网络服务的发展策略相对成熟娱乐类网络服务目前主要通过拓展用户付费实现变现,工具类网络服务则主要通过交易行为及少量广告服务获利,而媒体类网络服务经过数年积淀已有了相对成熟的商业模式,能够通过输出广告服务实现持续稳定变现。不同类型网络服务的产品发展策略中国移动App大类别月独立设备数TOP15的网络服务类别可归纳为四个大类,即娱乐、工具、媒体和其他,它们均拥有广泛用户基础,能够聚集大量流量,具有一定的媒体属性。其中,媒体属性较强的是综合资讯、视频服务、社交网络等网络服务类别。1.61.82.82.93.84.95.45.56.06.16.36.59.09.29.2办公管理学习教育电子阅读旅行预订拍摄美化综合资讯社交网络音乐音频游戏服务金融理财电子商务便捷生活通讯聊天视频服务实用工具mUserTracker-2016年8月中国移动App大类别月独立设备数月独立设备数(亿台)28中国数据驱动型网络媒体的大数据战略媒体间的数据联动提升其数据使用价值媒体数据对外开放的程度正在逐步提高,同时应用范围渐趋丰富,除指导广告投放、实现精准触达外,还将向产品优化指导、运营决策支持、舆情监测分析等方向拓展;此外,媒体数据还将进一步支持智能技术的发展和实现。而外部数据获取和使用的行业标准,将伴随着加密技术的发展而加速形成;同时,外部数据也将对来源广泛的多维数据进行数据联动的方式和价值进行进一步探索。伴随着媒体数据的开放程度进一步提高,甚至形成企业间的战略联动,媒体数据的使用价值将提升,在数据话语权上占据主导地位。注释:外部数据包括媒体以外的wifi、路由等数据。来源:艾瑞咨询研究院自主研究及绘制。2016.12 iResearch I媒体数据Media外部数据External媒体自有数据主要由用户数据组成,通过打通企业内部数据链路,主要服务于自身的数据洞察。目前大媒体数据的使用较为封闭,中小媒体的数据重视度不高,数据价值有待挖掘。外部数据的来源广泛且维度多样,通过第三方、数据交易等途径进行跨企业跨行业的流动。由于统计口径及数据形态不一,数据整合难度较大;且数据融汇贯通的程度不足,联动效果的发挥尚不明显。完备程度()开放程度()商用程度()挖掘程度()完备程度()开放程度()商用程度()挖掘程度()媒体数据与外部数据对比分析29中国数据驱动型网络媒体的大数据战略大媒体以流量+广告服务为起点,推进数据生态形成媒体属性为网络媒体带来了巨大流量,产生了海量数据,为加快企业数字化建设进程,以BAT为首的互联