温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
20161010
长江
证券
汽车
汽车零部件
行业
无人驾驶
系列
报告
深度
学习
厚积薄发
助力
升华
请阅读最后评级说明和重要声明 1/29 研究报告 汽车与汽车零部件行业 2016-10-10 行业研究(深度报告)无人驾驶系列报告之无人驾驶系列报告之七七:深度学习厚积薄深度学习厚积薄发,助发,助力无人驾驶升华力无人驾驶升华 评级 看好 维持 分析师 黄细里 (8621)68755308 执业证书编号:S0490516030003 联系人 高伊楠 021-68755308 联系人 邓晨亮 021-68755308 联系人 杨靖凤 (8621)68751636 市场表现对比图(近 12 个月)-20%-10%0%10%20%30%40%2015/92015/122016/32016/6汽车与汽车零部件沪深300 资料来源:Wind 相关研究 无人驾驶系列报告之六:控制执行“智驾”之基,底盘电子大放异彩2016-10-09 无人驾驶系列报告之五:“政策+行业”交相辉映,技术千般“路线”为引 2016-8-29 无人驾驶系列报告之四:V2X 扬帆起航,孕育四层投资空间 2016-07-24 报告要点?契合智驾,无人驾驶是深度学习最佳落脚点 深度深度学习学习可应用可应用无人驾驶环境感知和无人驾驶环境感知和驾驶驾驶决策决策,能能突破无人驾驶关键难题突破无人驾驶关键难题,同,同时时无人驾驶也是深度学习最佳的无人驾驶也是深度学习最佳的应用场景应用场景。1)可以精确识别传感器所捕获的环境信号,相比于传统模式识别算法,深度学习算法具备精确度更高、环境适应性更强等特点。2)能够自如应对复杂驾驶情景,为车辆执行端提供驾驶方案,在大量行驶数据的训练下,深度学习算法可以提升驾驶的安全性。传统传统算算法法技术技术成熟、成本较低成熟、成本较低适用适用辅助驾驶辅助驾驶,仍有仍有极大需求极大需求。深度学习完成深度学习完成无人驾驶无人驾驶最后最后 5%潜力巨大。潜力巨大。?老树逢春,计算能力升级+数据量提升促进深度学习重焕生机 深度学习起落深度学习起落三次,而目前三大瓶颈逐渐三次,而目前三大瓶颈逐渐突破突破,深度学习迎来春天。,深度学习迎来春天。1)算法算法瓶颈瓶颈:Hinton 所提出的“局部预训练+全局微调”模式,有效解决网络参数梯度扩散的难题,实现了算法突破;2)数据瓶颈)数据瓶颈:随着物联网技术和信息系统迅速发展,我们已经进入大数据时代,利用更多的训练样本,可以提升模型在复杂环境中的适用性,避免深度学习模型的过拟合;3)计算瓶颈)计算瓶颈:从 GPU 升级到 FPGA、ASIC 成熟,芯片计算能力的增强是深度学习商用的基础。?动作频出,各大巨头携深度学习抢占无人驾驶蓝海 深度学习算法潜力巨大,而无人驾驶又是深度学习极佳的落地场景,目前各大厂商积极布局。短期看好处理芯片提供商享受深度学习第一波红利的机会;另外整车厂坐拥行驶数据黄金资源,具有向上整合深度学习技术的实力。从长期看,算法供应商将受益于专用芯片推广浪潮,释放算法商用潜力。国内厂商在国内厂商在基于深度学习的无人驾驶趋势下,将不只是看客:基于深度学习的无人驾驶趋势下,将不只是看客:1)关注智能驾驶传统)关注智能驾驶传统算法算法向深度学习升级向深度学习升级潜力潜力:建议建议关注:关注:汉邦高科(minieye);2)GPU+算法类上市算法类上市公司在无人驾驶领域布局公司在无人驾驶领域布局,建议关注:科达讯飞、海康威视等。3)关注国内)关注国内初创公司初创公司或存在参股或存在参股收购收购机会机会,目前国内深度学习初创公司处于百花齐放,已经成为一级市场宠儿,已涌现出诸如地平线机器人、寒武纪等优质公司。风险风险提示提示:无人驾驶行业发展不及预期,国内深度学习突破不及预期 请阅读最后评级说明和重要声明 2/29 行业研究(深度报告)目录 契合智驾,无人驾驶是深度学习最佳落脚点.4 汽车大脑:深度学习加速无人驾驶实现.4 环境感知:传统算法仍然适用 ADAS 阶段,深度学习完成最后 5%.4 行驶决策:复杂情景,深度学习是最优解.7 老树逢春,三大瓶颈逐步解决,深度学习横空出世.9 算法瓶颈:解决多隐含层难题,深度学习算法实现突破.9 数据瓶颈:传感器技术和大数据普及,越来越多的信息被收集并存储.12 计算瓶颈:从 GPU 升级到 FPGA、ASIC 成熟,深度学习应用带来想象空间.14 动作频出,各大巨头携深度学习抢占无人驾驶蓝海.18 处理芯片提供商:享受深度学习第一波红利.19 算法供应商:迎专用芯片推广浪潮,高筑行业门槛.23 整车厂:坐拥行驶数据黄金资源,向上整合深度学习技术.24 基于深度学习的无人驾驶趋势下,国内企业不只是看客.25 图表目录 图 1:感知、控制算法是环境感知和行驶决策的核心.4 图 2:模式识别对车辆和车道线的识别.5 图 3:深度学习图像识别过程.6 图 4:深度学习在 ImageNet 视觉挑战比赛中傲视群雄(人类对测试图片识别错误率为 5.1%).7 图 5:mobieye 深度学习模型.7 图 6:丰田基于深度学习的无人驾驶演示.8 图 7:神经网络发展历史.9 图 8:M-P 神经元模型.10 图 9:两层神经网络.11 图 10:B-P 神经网络.11 图 11:深度学习模型.12 图 12:数据量对模型的影响效果.13 图 13:数据量对模型的影响效果(ZB).13 图 14:CPU 与 GPU 对比图.14 图 15:GPU 价格曲线.15 图 16:GPU 性能曲线.15 图 17:FPGA 发展历史.15 图 18:FPGA 结构图.16 图 19:FPGA 应用加速.17 图 20:FPGA 对比 ASIC.18 图 21:比特币挖矿机芯片.18 请阅读最后评级说明和重要声明 3/29 行业研究(深度报告)图 22:深度学习产业链.19 图 23:比特币挖矿机芯片.19 图 24:英伟达在全球高性能 GPU 中占据绝对领导地位.20 图 25:Drive PX 2.20 图 26:英伟达营收预测.21 图 27:英伟达 2016 年股价表现.21 图 28:15 年下半年后高通移动端业绩持续下滑.22 图 29:谷歌无人车.23 图 30:百度无人车.24 表 1:深度学习和传统算法在智能驾驶中的对比.4 表 2:传统模式识别算法.5 表 3:深度学习和传统算法在智能驾驶中的对比.8 表 4:几类神经网络模型对比.12 表 5:现有深度挖掘系统对数据的要求.13 表 6:英伟达大力推广基于 GPU 的深度学习算法.14 表 7:FPGA 和 ASCI 对比.17 表 8:国内智能驾驶相关公司举例.25 表 8:国内 GPU 相关厂商一览.25 表 9:国内深度学习算法相关厂商一览.26 表 10:国内深度学习初创公司一览.27 请阅读最后评级说明和重要声明 4/29 行业研究(深度报告)契合智驾,无人驾驶是深度学习最佳落脚点 汽车大脑:深度学习加速无人驾驶实现 无人驾驶无人驾驶迅速发展,感知、控制算法迅速发展,感知、控制算法进一步进一步升级成为升级成为行业行业突破关键突破关键。随着自动驾驶技术迅速发展,感知端:摄像头、毫米波雷达等实现辅助驾驶已经完全成熟,激光雷达成本逐渐下降。控制执行端:制动、转向、照明、油门等执行技术也一直是汽车行业的传统优势项目。但针对更加复杂的环境路况、更加多变的驾驶情景,如何正确识别传感器所捕获的信息,并根据这些信息,对车辆行驶做出正确的控制决策,是需要极其精密的算法来控制的。目前传统的算法面对无人驾驶环境已经捉襟见肘,急需新的算法突破行业瓶颈。图 1:感知、控制算法是环境感知和行驶决策的核心 环境感知算法集成控制执行油门照明制动转向控制策略执行感知、控制算感知、控制算法法环境感知摄像头模组芯片毫米波雷达夜视雷达用PCB板CMOS镜头激光雷达 资料来源:长江证券研究所 深度学习提出深度学习提出,无人驾驶无人驾驶算法端有望突破算法端有望突破,汽车,汽车大脑正逐渐成熟。大脑正逐渐成熟。深度学习是一种最接近人脑学习过程的算法,它并未受到很多规则的约束,如同是一个学习驾驶的年轻人,不需要告诉他应该做什么,只需向他展示不同的驾驶范例,并告诉车辆什么是正确的驾驶行为,什么是错误的,怎样是安全的驾驶,哪些是车辆,哪些不是车辆,之后他就会自己生成一套内生的规则,并学会如何在道路上行驶。深度学习算法凭借其强大学习能力和处理复杂环境的能力,正逐渐被用于无人驾驶中的环境感知和行驶决策过程,并成为汽车大脑的主流选择。环境感知:传统算法仍然适用 ADAS 阶段,深度学习完成最后 5%在无人驾驶技术中,感知是第一步,即通过传感器对周围环境信息进行获取,再利用环境感知算法对信息进行解析,以达到识别周围环境的目的。表 1:深度学习和传统算法在智能驾驶中的对比 深度学习算法深度学习算法 传统算法传统算法 算法特点 利用大数据自动学习特征 程序员设计特征 适用情景 应对车辆行驶过程中的复杂情形 适用于简单情景下的自动驾驶:如高速公路上的车道保持,自动巡航等 优点 适合于复杂的环境 训练数据需求量少,对机器计算能力要求低 缺点 对数据的质量和数量要求高,对计算能力 针对复杂情境的适用度差;针对恶劣环境 请阅读最后评级说明和重要声明 5/29 行业研究(深度报告)要求高;面对简单情景时,效率低于传统算法 适应性差 资料来源:第一电动网,长江证券研究所 传统模式识别适宜 ADAS 需求,但无人驾驶场景略显不足 传统模式识别算法有着较长的历史,从早期的 SIFT 到后来的对象模板,通过不断的改进,已具备较为成熟的应用。表 2:传统模式识别算法 算法名称算法名称 研究时间研究时间 算法特征算法特征 应用场景应用场景 SIFT(局 部特 征 描 述符)1999年 基于物体上的一些局部外观的兴趣点,与影像的大小和旋转无关。由于构造SIFT特征时,在很多细节上进行了特殊处理,使得SIFT对图像的复杂变形和光照变化具有了较强的适应性,同时运算速度比较快,定位精度比较高。海量特征数据库中进行快速、准确的匹配不同时间不同分辨率不同光照不同m角度的同一物体。SURF(加速健壮特征算法)2006年 它使用不同矩形尺寸中的一系列加法和减法取代了 SIFT 中浩繁的运算。而且,这些运算容易矢量化,需要的内存较少。基于特征点匹配的实时目标跟踪系统,需要在毫秒级内完成特征点的搜索、特征矢量生成、特征矢量匹配、目标锁定等工作 HOG(梯度方 向 直 方图)2005年 在汽车行业中常用的热门行人检测算法可以变动,采用不同的尺度来检测不同大小的对象,并使用块之间的重叠量来提高检测质量,而不增加计算量。车辆、行人检测 ORB(特征提取算法)2011年 ORB采用FAST算法来检测特征点。FAST核心思想就是找出那些卓尔不群的点,即拿一个点跟它周围的点比较,如果它和其中大部分的点都不一样就可以认为它是一个特征点。ORB性能介于SIFT和SURF之间,但是其速度是SURF算法速度的10倍。快速高效识别,对精确度要求不高 资料来源:互联网,长江证券研究所 模式识别模式识别是成本低是成本低技术技术成熟成熟,适用于适用于目前目前 ADAS 阶段对环境感知的需求阶段对环境感知的需求:1)传统机器视觉系统主要是围绕摄像头搭建,包含有镜头、摄像系统和图像处理系统,而其核心则是专用高速图像处理单元,实现成本低。2)摄像头技术在汽车中的应用已经十分成熟,芯片的处理能力已经可以满足算法要求,实现难度小。图 2:模式识别对车辆和车道线的识别 请阅读最后评级说明和重要声明 6/29 行业研究(深度报告)资料来源:互联网,长江证券研究所 复杂环境复杂环境和和高准确率高准确率需求需求下下,传统算法传统算法难以难以满足。满足。针对复杂环境下算法应对模式较为简单,将限制算法在未来无人驾驶阶段的应用。诸如在一下场景中,传统算法显得力不从心:?高精确度的需求:车辆驾驶对精确度要求很高,如果出现一次失误,可能面临车毁人亡的局面,而传统的视觉算法天花板明显,很难达到深度学习的高精确度。?复杂环境下:面对非道路环境,传统算法无法和数据库中的道路信息匹配,可能会做出错误的判断。深度学习带来自动驾驶识别技术质的飞跃 深度学习强调的是你使用的模型(例如深度卷积多层神经网络),模型中的参数通过从数据中学习获得。然而,深度学习也带来了一些其他需要考虑的问题。因为你面对的是一个高维的模型,所以你需要大数据和强大的运算能力才能优化这个模型。图 3:深度学习图像识别过程 资料来源:CSDN 云计算,长江证券研究所 深度学习,满足最后关键深度学习,满足最后关键 5%的的识别识别精度精度。深度学习出现以后,视觉识别任务的精度都进行了大幅度的提升。如果我们把人体识别的精度用到汽车的辅助驾驶系统里边,如果出现了漏报或错包,这是非常头大的事。如果是 95%的精度,有 100 个人经过,在一定距离范围内,他可能就有五次错报或者漏报,这肯定是无法接受的。但如果精度再提升 10 倍或者 100 倍,比如一米之内的 1 万个人只有 5 次漏报的话,那这件事可能就是 请阅读最后评级说明和重要声明 7/29 行业研究(深度报告)可行了。所以,深度学习的出现使得传统视觉方法不太实用的一些应用领域,基本上都可以通过深度学习的方法来获得一个良好的应用。图 4:深度学习在 ImageNet 视觉挑战比赛中傲视群雄(人类对测试图片识别错误率为 5.1%)资料来源:CSDN,长江证券研究所 MOBILEYE 应用深度学习用于环境感知 行业龙头 MOBILEYE 占据 ADAS 市场 75%的市场份额,在推出的基于摄像头的环境感知产品中,已经开始使用深度学习算法来识别运动和静止的物体,例如当前行驶车道的左右车道线、左右车道的左右线以及道路分叉等等,均通过深度神经网络识别。就深度学习具体算法而言,mobileye 使用 End-to-End 方法,通过将感知任务划分成多个模块,每个对应一个人工监督的神经网络,所得出的效果已经可以产品化。图 5:mobieye 深度学习模型 资料来源:网络,长江证券研究所 行驶决策:复杂情景,深度学习是最优解 深度学习要解决复杂条件下,对车辆的驾驶控制 深度学习区别于传统算法,是因为深度学习并非通过人为设定规则,让程序强行根据规则行事。在某种程度上,深度学习更像是父母对子女的培养过程。正是通过对父母言行的模仿,行事的参照,使得孩子也具有如同他们一样的处世能力。请阅读最后评级说明和重要声明 8/29 行业研究(深度报告)传统模型传统模型难以难以应对复杂的驾驶情景。应对复杂的驾驶情景。在智能驾驶过程中,即使设计最为缜密的算法也无法应对驾车行驶过程中的所有情景,比如车辆行驶过程中当遇见中国式过马路、车辆变道加塞将如何控制,在没有道路的荒野将如何把车开出去。因为传统算法的规则是人事先设定的,但是当我们无法保证外界也都遵守这些规则的时候,应用这些规则的车辆有时候就会犯错误。100%专注度专注度+经验经验积累积累,每个无人驾驶车辆都是,每个无人驾驶车辆都是经验经验老老到驾驶员到驾驶员。通过深度学习的过程,车辆掌握了驾驶司机的驾驶行为,在遇见不同情况的时候,车辆也将“模仿”人类驾驶员的操作,做出相应的处理。相比于传统驾驶员,“电子大脑”控制的车辆将会更加专注。另外,通过学习专业司机的驾驶行为,使得控制系统比一般驾驶员“经验更加丰富”。所以,在智能驾驶领域中,深度学习相比于其他算法将会更加具有优势。深度学习对于每一个应用场景来说,需要的精度也不一样。在无人驾驶当中,需要的精度都是很高的,千万不能误判,如果有任何误判,造成的损失可能是非常巨大的。基于深度学习的无人驾驶技术一定要有足够多的数据、足够强的处理能力、足够长的时间训练,能够在不同国家、不同地区训练之后才能上市。表 3:深度学习和传统算法在智能驾驶中的对比 深度学习算法深度学习算法 传统算法传统算法 算法特点 利用大数据自动学习特征 程序员设计特征 适用情景 应对车辆行驶过程中的复杂情形 适用于简单情景下的自动驾驶:如高速公路上的车道保持,自动巡航等 优点 适合于复杂的环境 训练数据需求量少,对机器计算能力要求低 缺点 对数据的质量和数量要求高,对计算能力要求高;面对简单情景时,效率低于传统算法 针对复杂情境的适用度差;针对恶劣环境适应性差 资料来源:第一电动网,长江证券研究所 CES2016 丰田展上显示深度学习在决策端巨大潜力 在今年的 CES 展上,丰田展示了一套类似的自动驾驶演示系统,在一块布有障碍并有指示方向的方形地形中,8 辆没有驾驶经验的模型车,将传感器监测到的环境信息输入深度学习系统,并将深度学习系统与油门、制动和方向输出连接。经历约 4 个小时的学习后,基本实现了零事故。图 6:丰田基于深度学习的无人驾驶演示 请阅读最后评级说明和重要声明 9/29 行业研究(深度报告)资料来源:AutoLab,长江证券研究所 老树逢春,三大瓶颈逐步解决,深度学习横空出世 算法瓶颈:解决多隐含层难题,深度学习算法实现突破 深度学习起源神经网络,后遇计算能力和数据量瓶颈 神经网络起源于 19 世纪 40 年代,是人工智能领域发展最快的一个分支,所用模型通过模拟生物神经系统对世界物体所做出的交互反应,来完成信号处理、模式识别或复杂系统控制等功能。神经网络从单层神经网络(感知机)开始,到包含一个隐藏层的两层神经网络(BP 神经网络),再到多层的深度神经网络(DBN),一共有三次兴起过程,但受限于计算能力和数据量计算能力和数据量,技术发展一直无法达到预期。实际上,我们可以不考虑神经网络或深度学习是否模拟生物大脑,只需要将神经网络视为包含了许多参数的数学模型。而我们需要做的是使用有限计算资源,和数据集来求解模型参数,使得该带参模型可以尽可能多的反映数据集信息,换而言之,神经网络学习到的蕴含在求解的参数中。图 7:神经网络发展历史 请阅读最后评级说明和重要声明 10/29 行业研究(深度报告)194019501960197019801990200020101943MP诞生1949Hebb1958感知机1969Al Winter1982Hopfield1986BP神经网络1995SVM2006DBN2012CNN第一次兴起第一次兴起第二次兴起第二次兴起第三次兴起第三次兴起资料来源:长江证券研究所 M-P 神经元模型:神经网络的起点 神经元模型神经元模型是是神经网络的起点,具有最简单的神经网络结构神经网络的起点,具有最简单的神经网络结构。在神经元模型中,输入层和输出层通过参数连接,神经元将输入信号加权求和,神经元收到的总输入后与神经元的阙值进行比较,然后通过“激活函数”处理以产生神经元的输出。其中,激活函数将输入值映射成“0”或“1”以显示神经元的兴奋或抑制。虽然神经元模型功能比较单一,但在后来神经网络的发展中,研究人员通过将众多神经元按照不同层次、不同结构连接起来,就逐渐形成各类不同架构的神经网络模型。图 8:M-P 神经元模型 X1输出值19431943:MM-P P神经元模型神经元模型1inXiXn阈值y输出 资料来源:机器学习,长江证券研究所 感知机:两层神经元模型 感知机由两层神经元组成,输入层接收外界信号后传输给输出层,输出层是 M-P 神经元。利用感知机,可以很容易实现与、或、非等逻辑运算,并完成线性可分问题。但是,虽然感知机具备两层神经元,但由于只有输出神经元具备“激活函数”,因此只拥有一层功能性神经元(functional neuron),学习能力有限,对于非线性问题则需要多层神经网络。请阅读最后评级说明和重要声明 11/29 行业研究(深度报告)图 9:两层神经网络 输入值输入层输出层输出值19581958:两层:两层神经网络(感知机)神经网络(感知机)资料来源:长江证券研究所 BP 神经网络:深度学习前最为成功的神经学习算法 BP 神经网络是深度学习问世前最成功的神经网络算法,实际任务中大部分是采用 BP算法进行训练。BP 神经网络利用最速下降法,在无需事前揭示描述映射关系的前提下,使得机器能够学习和存贮大量的输入-输出模式映射关系。但是,由于模型训练困难,复杂度高,目标函数容易陷入局部极值而远离全局最优解,应用场景受到很大局限。图 10:B-P 神经网络 输入值输入层输出层隐含层输出值19861986:BPBP神经网络神经网络 资料来源:长江证券研究所 提升模型学习能力的方式有两种:1)增加隐含层神经元数量;2)增加隐含层层数。理论上说,增加隐含层层数所带来模型学习效果提升要远好于增加隐含层神经元数量。因此在B-P神经网络模型后有人提出通过简单增加隐含层数量试图快速提升模型的学习能力。然而,多隐含层神经网络无法套用经典算法(如 B-P 模型中用到的最速下降法)进行训练,因为误差在多层内传播时,会遇到网络参数梯度扩散的问题,该瓶颈在 B-P 神经网络算法后也一直无法很好解决。深度学习:开创神经网络发展新局面 神经网络算法也因此沉寂了数十年,直到 2006 年 Hinton 提出基于深度置信网络所提出的非监督贪心逐层训练算法(DBN),深度结构优化难题才有了突破性进展。该算法主要思想是每次训练一层隐节点,训练时将上一层节点的输出作为输入,而本层隐节点 请阅读最后评级说明和重要声明 12/29 行业研究(深度报告)的输出作为下一层隐节点的输入,即首先通过非监督方法对深度神经网络逐层进行预训练,再利用 BP 训练算法对整个网络的参数进一步微调。这样“局部预训练+全局微调”的模式不仅可以利用模型大量参数所提供的自由度的同时,也可以有效节省训练开销。图 11:深度学习模型 资料来源:长江证券研究所 表 4:几类神经网络模型对比 模型名称模型名称 学习规则学习规则 正向正向/反向传播反向传播 应用领域应用领域 缺点缺点 感知器 有监督 正向 线性分类,预测等 输出单一,收敛慢 BP网络 有监督 正向 分类,模式识别等 易局部极小,收敛慢 深度学习 有监督/无监督 正向传播,误差反向 模式识别、语言处理、知识利用、逻辑推理、自动控制等 对数据量、计算能力要求大,耗时长 资料来源:长江证券研究所 数据瓶颈:传感器技术和大数据普及,越来越多的信息被收集并存储?深度学习对数据的需求深度学习对数据的需求遵从十倍定律遵从十倍定律?在一般模型中,要训练出一个性能良好的模型,所需训练样本数量应是模型参数数量的 10 倍。?在深度学习模型中,要想获得一个性能良好的训练模型,所需训练数据最少为模型参数的 10 倍,实际上所需的训练数据应该比这个还多。如图 12 所示,X 轴表示训练样本数量与模型参数数量的比值,y 轴是模型的 f-score 值,不同颜色曲线代表不同的参数值,我们可以得出以下结论:1)f-score 值不随着参数尺度的变化而变化。2)当训练样本数量与模型参数数量之比为 10:1 时,f-score 值在 0.85上下浮动,我们可以称此时的训练模型是一个具有良好性能的模型。为了防止模型的过度拟合,我们需要大量的数据来训练模型,以达到模型不仅在训练数据下表现良好,在测试数据中,表现依然可以达到预期。针对车辆行驶的这一特殊领域,所用深度学习算法会对数据要求很高,丰田丰田 TRI 研究院认为:研究院认为:我们需要我们需要 1 万亿英里的驾万亿英里的驾驶数据训练才能使得车辆适应复杂情况下的自动驾驶。驶数据训练才能使得车辆适应复杂情况下的自动驾驶。请阅读最后评级说明和重要声明 13/29 行业研究(深度报告)图 12:数据量对模型的影响效果 资料来源:新智元,长江证券研究所 表 5:现有深度挖掘系统对数据的要求 深度挖掘深度挖掘系统系统 数据要求数据要求 百度广告CTR点击量深度学习系统 百亿以上样本 谷歌深度学习DistBelief系统 10亿参数 腾讯Mariana深度学习平台 超过5000万参数,100亿训练实例 来源:网络,长江证券研究所?随着信息收集随着信息收集、存储技术的发展存储技术的发展,数据瓶颈数据瓶颈正逐渐正逐渐解决解决 信息获取端技术发展增加深度学习样本数量:随着目前物联网技术以及信息系统迅速发展,大数据时代逐渐到来,根据 IDC 预测,全球在 2010 年正式进入 ZB 时代(1ZB=10亿 GB),全球数据量大约每两年翻一番,意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。爆炸式增长的数据,正推动人类进入大数据的时代。图 13:数据量对模型的影响效果(ZB)1.82.814.326.627.9150246810121416201120122013201420152020E 资料来源:IDC,长江证券研究所 随着数据量的增加,深度学习的样本数增加,可以提升模型在复杂环境中的适用性,避随着数据量的增加,深度学习的样本数增加,可以提升模型在复杂环境中的适用性,避免深度学习模型的过拟合。免深度学习模型的过拟合。请阅读最后评级说明和重要声明 14/29 行业研究(深度报告)计算瓶颈:从 GPU 升级到 FPGA、ASIC 成熟,深度学习应用带来想象空间 深度学习领域,计算能力是基础。深度学习模型复杂、训练数据多、涉及的参数量也十分庞大,在早期由于缺乏足够的计算能力,也限制了深度学习的实际应用。目前主流的方法是使用 GPU 来实现。预计未来会通过 FPGA 进行过渡,等到深度学习算法成熟,有望通过 ASIC(专用芯片)的方式进行深度学习算法计算。当下主流:通用芯片领域的 GPU 计算 GPU 在通用芯片在通用芯片范围内,相较于范围内,相较于 CPU 更适合深度学习计算更适合深度学习计算。GPU 和 CPU 由于架构和使用特性的不同,计算任务也会有所不同。其中:?GPU 是由数以千计的更小、更高效的核心和大量高速内存组成,这些核心专为同时处理多任务而设计,也被称为众核。每个核的缓存较小,逻辑运算单元简单,适用于通用计算领域的海量数据运算。?CPU 主要由专为顺序串行处理而优化的几个核心组成,CPU 虽然是多核,但核心数大大少于 GPU,总数没超过两位数,每个核都具有足够大的缓存与足够多的逻辑运算单元,适用于具有复杂计算步骤和复杂数据依赖的计算任务。图 14:CPU 与 GPU 对比图 资料来源:网络,长江证券研究所 在深度学习应用领域,在深度学习应用领域,GPU 是主流处理器是主流处理器?芯片特性优势:由于 GPU 多核心,可以快速处理海量性数据,因此,尤其适合于深度学习模型的处理工作。通过提供深度学习所需的内在并行度、大量的浮点计算能力、矩阵预算。在相同的精度下,相对传统 CPU 的方式,拥有更快的处理速度、更少的服务器投入和更低的功耗。?主流 GPU 厂商大力推广:作为全球市场占有 77%的 GPU 供应商,英伟达首先从深度学习框架以及软硬件等三个方面推动深度学习产业发展。表 6:英伟达大力推广基于 GPU 的深度学习算法 布局方向布局方向 描述描述 构建基础的深度学习框架 主要指由开源社区开发的诸如Caffe、Torch都支持GPU,请阅读最后评级说明和重要声明 15/29 行业研究(深度报告)NVIDIA所做的是在它的下面构建cuDNN,即深度神经网络库,现在更新到5.1版本,可以支持很多常用的函数和功能。增加算法开发友好性 发布了Digits软件第二版升级本,增加了图形用户界面。与单一GPU相比,这种扩展在图像分类方面能够令深度神经网络训练的速度翻一番。推出深度学习软硬结合的设备 英伟达发布DIGITS DevBox整机,是面向专业开发者的工作站,配备四路GTX Titan X显卡,预装了一套DIGITS软件包,包括Caffe、Theano、Torch及支持GPU加速的cuDNN等深度学习软件。资料来源:网络,长江证券研究所?处理器价格下降提升深度学习应用场景:以英伟达 GPU 为例,其所发布的旗舰GPU 在价格上每年有 40%的降幅,发布 5 年后约下降 90%;性能上,英伟达旗舰 GPU 计算性能平均以每两年增长一倍的速度快速发展,其在 2016 年推出的深度学习拳头产品 pascal 从性能上已经可以很好满足目前深度学习民用计算需求。图 15:GPU 价格曲线 图 16:GPU 性能曲线 资料来源:网络,长江证券研究所 资料来源:英伟达官网,长江证券研究所 趋势变化:灵活性+高性价比,FGPA 有望接棒深度学习 FPGA 是一种半定制化的集成电路。是一种半定制化的集成电路。和 CPU、GPU 这些通用处理器的是,用户可以通过编程的方式,对购买的 FPGA 芯片进行二次定制,将 FPGA“刻画”成自己需要的硬件。而不管是 CPU 还是 GPU,在出厂后,内部的电路结构、缓存大小都是不可更改的。FPGA 诞生于 80 年代,目前逐渐在深度学习计算中兴起。图 17:FPGA 发展历史 请阅读最后评级说明和重要声明 16/29 行业研究(深度报告)19871992199419962005200619871987VHDL 成为IEEE标准FPGA 市场价值接近 20 亿美元Synopsys 推 出 第一代FPGA 行为综合方案Altera 推 出OpenCL,支持FPGAVIP 成 为首个FPGA 的CNN 实现方案首次利用BP算法在FPGA上 实 现 5GOPS的处理能力在微软Catapult项目的基础上,出现基于FPGA的数据中心CNN算法加速GANGLION成为首个FPGA神经网络硬件实现项目 资料来源:网络,长江证券研究所 相比于相比于 GPU 等等 GPP(通用处理器通用处理器),),FPGA 灵活性和性价比更高。灵活性和性价比更高。FPGA 属于一类更通用的可编程逻辑设备,并且简单来说,是一种可重新配置的集成电路。对于深度学习而言,FPGA 提供了优于传统 GPP 加速能力的显著潜力。GPP 在软件层面通过指令和数据存储于外部存储器中,在需要时再取出。这推动了缓存的出现,大大减轻了昂贵的外部存储器操作。该架构的瓶颈是处理器和存储器之间的通信,这严重削弱了 GPP 的性能,尤其影响深度学习经常需要获取的存储信息技术。相比较而言:1)可实现普通逻辑功能中的数据和控制路径,功耗更低可实现普通逻辑功能中的数据和控制路径,功耗更低:它们也能够利用分布式片上存储器,以及深度利用流水线并行,这与前馈性深度学习方法自然契合。根据XILINX 数据应用开发中心的测试,基于 FPGA 应用加速的开发环境,可以带来软件定义的、类似于 CPU/GPU 的开发体验,并且实现 25 倍的性能功耗比提升。图 18:FPGA 结构图 资料来源:CSDN,长江证券研究所 2)支持部分动态重新配置,芯片运行效率提升支持部分动态重新配置,芯片运行效率提升:当 FPGA 的一部分被重新配置时另一部分仍可使用。这将对大规模深度学习模式产生影响,FPGA 的各层可进行重新配置,而不扰乱其他层正在进行的计算。这将可用于无法由单个 FPGA 容纳的模型,同时还可通过将中间结果保存在本地存储以降低高昂的全球存储读取费用。3)为应用程序专门定制,算法灵活性增强为应用程序专门定制,算法灵活性增强:与 GPP 算法适应模型不同,在开发 FPGA的深度学习技术时,较少强调使算法适应某固定计算结构,从而留出更多的自由去探索算法层面的优化。目前目前 FPGA 发展迅速,有望接棒深度学发展迅速,有望接棒深度学习习 请阅读最后评级说明和重要声明 17/29 行业研究(深度报告)虽然目前相比于 GPU,FPGA 由于实现程序每一句话都是在直接控制实际硬件模块,对于复杂程序实现难度较大,开发周期较长,但随着深度学习软件工具的增加,以及实际应用中对低功耗下进行深度学习算法普及的需求提升,FPGA 有望接棒 GPU,在未来逐渐成为深度学习处理芯片主流。图 19:FPGA 应用加速 资料来源:openhw,长江证券研究所 目前 FPGA 市场主要由 Xilinx 和 Alter 主导,两家公司占据 85%的 FPGA 市场份额,由于对 FPGA 深度学习领域前景持续看好,越来越多公司尝试参与其中,其中 CPU 巨头英特尔在 2015 年以 167 亿收购 Alter,而 IBM 则与 Xilinx 开展合作,随着巨头们的加入,预计未来 FPGA 市场将得到急速发展。未来主导:待深度学习算法成熟,ASCI 将主导 AI 处理器市场 ASIC(专用集成电路)是根据特定用户要求和特定电子系统的需要而设计、制造的集成电路。在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。对比对比 FPGA,ASIC 牺牲灵活性换取尺寸和功耗下降牺牲灵活性换取尺寸和功耗下降 相比于 FPGA,ASCI 去除了芯片中与算法实现无关的组件,在牺牲灵活性的同时,极大提升了实现特定功能时的效率。表 7:FPGA 和 ASCI 对比 优势优势 优势描述优势描述 FPGA 可加速上市进程 更快的上市时间-无需布局、掩模和其它制造步骤。非提前支付的一次性开支(NRE)这些成本通常与 ASIC 设计相关 更简化的设计周期 由于软件可以处理很多布线、布局和时序问题 更具预测性的项目周期 由于消除了潜在的重新设计和晶圆容量等 现场可重编程功能 可以远程上传的新比特流 ASCI 完整的定制功能 由于器件是根据设计规格来生产的 降低器件成本 可实现大批量设计 更小巧的尺寸 由于器件是根据设计规格来生产的 资料来源:长江证券研究所 请阅读最后评级说明和重要声明 18/29 行业研究(深度报告)图 20:FPGA 对比 ASIC 资料来源:互联网,长江证券研究所 算法算法成熟成熟+产品化程度加深产品化程度加深,ASIC 在深度学习领域潜力在深度学习领域潜力巨大巨大 我们可以类比比特币矿机芯片,在比特币挖矿过程中,经历了 CPU 到 GPU 再到 FPGA,目前,主流的挖矿机芯片是基于 ASIC 的处理芯片,虽然牺牲了灵活性,但芯片设计的目的就是为了挖矿,去除无用功能,效率也得到极大提升。随着 ASIC 芯片被比特币矿工的认可,FPGA 和 GPU 矿机被迅速赶出市场。图 21:比特币挖矿机芯片 CPU(2009)GPU(2010)FGPA(2011)ASCI(2013)资料来源:互联网,长江证券研究所 同样依赖芯片的大规模计算,深度学习算法目前还不成熟,ASIC 在无法大规模量产的情况下,单个成本较高,也许短期内无法大规模量产的,但随着深度学习算法的成熟以及产品化的提升,未来前景广阔。动作频出,各大巨头携深度学习抢占无人驾驶蓝海 目前,从深度学习切入自动驾驶的绝大多数是国外企业,如英伟达,高通,Mobieye等,国内企业中也有百度等等公司逐渐积累自身实力,与生产商供应商建立联系,发布相关深度学习产品。因为深度学习的高门槛,以下企业可以依托自身传统优势,受益于自身领域:请阅读最后评级说明和重要声明 19/29 行业研究(深度报告)?硬件生产方:提供高性能车载处理芯片,如英伟达、高通、Mobileye 等芯片巨头。?数据收集方:拥有车辆行驶数据,如整车制造企业。?技术提供方:具备深度学习算法的研发实力,如谷歌,百度,东软。?高精地图供应方:高精地图为无人驾驶提供了重要的环境支撑,也因此成为无人驾驶解决方案中必不可少的因素。图 22:深度学习产业链 )传感器mobileye、Velodyne、中海达行驶数据整车厂商提供高精地图高德、四维图新、tomtom、here解决方案英伟达、mobileye、百度、谷歌、特斯拉无人驾驶汽车谷歌、百度、特斯拉处理芯片英伟达、高通、地平线机器人无人驾驶平台英伟达、高通深度学习云平台百度、阿里巴巴、谷歌深度学习算法谷 歌、百 度、mobilete产产业业链链核核心心 资料来源:长江证券研究所 处理芯片提供商:享受深度学习第一波红利 英伟达:GPU 市场占据绝对领导地位 游戏显卡业务是英伟达增长的主驱动力。游戏显卡业务是英伟达增长的主驱动力。虽然整个 PC 市场处于萎缩的态势,并且随着低端显卡业务受到英特尔 CPU 核显产品的侵蚀(即仅需要 CPU 就可以完成低端 GPU的功能),但随着 3D 游戏发展所带来的高性能 GPU 需求,全球 GPU 结构中枢向高端