温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
百度
大脑
AI
技术成果
白皮书
2019.10
48
i 目录目录 引言.1 一、百度大脑进化到 5.0.2 二、基础层.3 2.1 算法.3 2.2 算力.5 2.3 数据.10 三、感知层.11 3.1 语音.11 3.2 视觉.13 3.3 增强现实/虚拟现实.17 四、认知层.19 4.1 知识图谱.20 4.2 自然语言处理.22 五、平台层.27 5.1 飞桨(PaddlePaddle)深度学习平台.28 5.2 UNIT 智能对话训练与服务平台.32 5.3 开放数据集.33 六、AI 安全.35 结语与展望.40 1 引言引言 回顾过去的一年,科技与商业发展的一个关键词就是“人工智能”。在近一年的时间里,百度科学家和工程师们不仅在人工智能算法、核心框架、芯片、计算平台、量子计算、语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等诸多方面取得了令人瞩目的技术成果,还将这些技术成果与行业相结合,成功应用于众多产品之中,取得了丰硕的人工智能应用成果。2019 年 2 月,世界知识产权组织(World Intellectual Property Organization,简称 WIPO)发布了首份技术趋势报告,聚焦人工智能领域专利申请及发展状况。报告显示,百度在深度学习领域的专利申请量位居全球第二,超越 Alphabet、微软、IBM 等企业和国外学术机构,在全球企业中居于首位。过去的一年,百度基础技术体系、智能云事业群组和 AI 技术平台体系进行了重大组织机构调整,三个体系统一向集团 CTO 汇报,这为技术中台建设和人工智能技术落地提供了良好的组织保障。本报告总结了百度大脑在 2018-2019 年度取得的部分技术成果:第一章主要概述百度大脑 5.0,第二至六章分别介绍百度大脑在基础层、感知层、认知层、平台层和安全方面的技术成果。面向未来,百度将继续打造领先的 AI 技术能力,构建更加繁荣的人工智能生态系统,助力各行各业进入智能化的工业大生产阶段,在智能时代创造更广泛的社会经济价值。2 一、百度大脑进化到一、百度大脑进化到5.0 百度大脑是百度AI集大成者。百度大脑自2010年起开始积累基础能力,后逐步完善。2016 年,百度大脑 1.0 完成了部分基础能力和核心技术对外开放;2017 年,2.0 版形成了较为完整的技术体系,开放 60 多项 AI 能力;2018 年,3.0 版在“多模态深度语义理解”上取得重大突破,同时开放 110 多项核心 AI 技术能力;2019 年,百度大脑升级为 5.0,核心技术再获重大突破,实现了 AI 算法、计算架构与应用场景的创新融合,成为软硬件一体的 AI 大生产平台。如图 1 所示,百度大脑如今已形成了包括基础层、感知层、认知层、平台层以及 AI 安全五大核心架构在内的技术布局。同时,安全一直都贯穿 AI 技术研发的始终,已经融合在百度大脑的所有模块中。基于数据、算法和算力强大的基础能力支持,百度大脑拥有包括语音、视觉、增强现实(AR)/虚拟现实(VR)以及语言与知识等技术能力,并通过 AI 平台对外开放,形成以百度大脑为核心的技术和产业生态。多年来,百度大脑支持百度几乎所有业务,并面向行业和社会全方位开放,助力合作伙伴和开发者,加速 AI 技术落地应用,赋能各行各业转型升级,其核心技术及开放平台荣获 2018 年度中国电子学会科技进步一等奖。图 1 百度大脑 3 二、二、基础层基础层 2.1 算法算法 百度持续在算法和理论方面深入研究,在语音、图像、语言与知识等多个领域取得重大突破。在语音识别方面,百度将注意力机制的建模技术用于在线语音识别,提出了流式多层截断注意力模型 SMLTA,实现了流式的基于注意力机制的声学语言一体化建模,并在 2019年初实现了基于该技术的大规模产品上线,大幅提升了语音识别产品在线识别准确率和用户体验,相对准确率提升 15%至 20%。该算法使用 CTC(Connectionist Temporal Classification)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当前建模单元的注意力建模。通过该方法把原来的全局整句 Attention 建模,变成了局部语音小段的 Attention 建模。同时,为了克服 CTC 模型中不可避免的插入删除错误对系统造成的影响,该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择。最终,这种创新建模方法的识别率不但超越了传统的全局 Attention 建模,同时还能够保持计算量、解码速度等在线资源耗费和传统 CTC 模型持平。图 2 流式多层截断注意力模型 SMLTA 在个性化语音合成方面,百度还提出了语音风格和音色迁移的个性化韵律迁移语音合成技术 Meitron。该技术在训练时,交叉组合不同声音的训练样本,实现了声音的音色、风格和情感的解耦。语音的个性化信息、风格信息和情感信息等沉淀到全局声音的基 4(basis)空间中,并将声音共有信息沉淀到一个统一的声学模型中。在做语音合成的时候,用户仅仅输入少量目标语音作为指导,在全局声音基空间中进行注意力选择,选择出和当前用户个性化声音更加匹配的基。之后可以根据这个基,并结合训练好的共有信息声学模型,生成与目标语音的音色和风格高度相似的任意语音。依靠 Meitron 的解耦和组合机制,我们能够在不同音色、风格和情感之间进行风格转化和迁移,仅仅使用少量用户语音,就可以实现多种音色、情感和风格的转换。该技术成果已经落地百度地图产品,地图用户只需要提供约20句话的目标语音,就可以合成与目标语音非常相似的个性化声音,用于地图任意导航场景的语音播报和任意名胜景点的语音播报等。图 3 Meitron 个性化韵律迁移合成技术 在计算机视觉领域,百度研发了基于图文关系的大规模图像分类弱监督算法,提出了Ubiquitous Reweighting Network(URNet),给予每张图片训练过程中不同的权重,与原始的分类模型相比,Top5 提升了 8 个点左右。该方法在最大的图像分类数据比赛 Webvision比赛中获得冠军。在图像超分辨率领域,百度提出了基于级联回归的 CDSR 模型,用于图像的超分增强;还提出了自适应注意力多帧融合技术,用于视频的超分增强。2019 年 5 月,在计算机视觉 Low-level Vision 领域中影响力最大的竞赛 NTIRE 上获得了图像超分辨率项目的冠军和视频超分辨率项目亚军。在医学图像领域,百度提出全新的基于深度学习的病理切片肿瘤检测算法1,在公共数据集 Camelyon16 大赛上的肿瘤定位 FROC 分数高达 0.8096,5 超过专业病理医生水平以及之前由哈佛、MIT 等保持的大赛最佳成绩。研究成果发表于2018 深度学习医学图像大会。在自然语言处理领域,百度开发了更具表现力的主题嵌入和知识图嵌入表示学习模型,能够高精度地从语言数据中捕获主题信息。同时,通过联合恢复知识图嵌入空间中的头实体、谓词和尾实体表示,问答系统的回答准确性得到进一步提高。这项工作发表在 IEEE Big Data 20182,SDM 20193,WSDM 20194和 NAACL 20195。很多高维的特征空间,如词嵌入、图像的特征向量等,都有非常有趣的几何结构。另一方面,多个在语义上有相关性的空间又有一定的相似性。百度深入研究了这些高维空间的特性,提出的全新 Hubless Nearest Neighbor(HNN)Search 算法,能够大幅提高在标准数据集上的单词翻译准确率。以词嵌入空间为例,HNN 能够只用极少量标注数据,实现不同语种间单词的翻译。HNN 此项基础研究能够帮助提升机器翻译系统在低频词、术语、小语种等情况下的效果。另外,HNN 作为一种新的信息检索方法,对广义上的多特征空间匹配都有指导意义,如零样本图像识别等。这项工作发表在 ACL 20196。百度提出的 Logician 逻辑家代理可以从开放领域自然语言句子中提取事实,实现了更深层次的语言理解,其性能明显优于现有的开放信息提取系统。百度还建立了一个 Orator演说家代理,可以将几个事实叙述连成一个流利的自然语言句子。通过将提取和叙述作为双重任务,百度在自然语言和知识事实之间搭建了双向的桥梁,使得系统性能得到进一步的提升。这项工作发表在 WSDM 20187和 EMNLP 20188上。2.2 算力算力 人工智能时代,算法能力快速提升,同时,算法对算力的要求也越来越高。为了应对算力、效率和多元化场景等核心挑战,百度提出了端到端的 AI 计算架构,通过芯片、连接、系统和调度的协同设计和技术创新,满足 AI 训练方面 IO 密集、计算密集、通信密集的需求,以及 AI 推理方面大吞吐和低延迟的需求。与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。在系统层兼顾端云,软硬一体,实现了对算力资源的灵活调度。6 2.2.1 芯片芯片 云端通用云端通用AI处理器处理器百度百度昆仑昆仑 硬件的进展是这次 AI 发展的基础推动力量之一。云端的 AI 推理与训练芯片,成为了各大互联网公司、传统芯片厂商以及创业公司聚焦的战场。业界正在尝试使用特定领域架构(DSA)解决算力及功耗问题。2018 年开发者大会,百度发布了国内首款云端通用 AI 处理器“百度昆仑”。它基于XPU 架构,采用 14nm 三星工艺,在 150 瓦功耗限制下,运算性能高达 260Tops,能解决数据中心对芯片的高性能、低成本、高灵活性三大诉求。百度昆仑芯片具备完整的toolchains,并开放给开发者,与飞桨(PaddlePaddle)实现了深度结合,打造全栈国产技术生态。功能上同时支持视觉、语音、自然语言处理、推荐、无人车等场景,在众多业界深度学习模型上均拥有很好的性能和效率表现;即将量产的芯片在多个模型上实测性能均超过业界主流芯片。远场语音交互芯片远场语音交互芯片百度百度鸿鹄鸿鹄 远场语音交互芯片“百度鸿鹄”变革了传统芯片设计方法,体现了软件定义芯片的全新设计思路。百度鸿鹄拥有契合 AI 算法需求的核内内存结构设计、分级的内存加载策略、依据 AI 算法调教的 cache 设计和灵活的双核通信机制,最终实现了深度学习计算过程和数据加载的高度并行,一颗芯片即同时满足了远场阵列信号实时处理和超低误报高精度唤醒实时监听的需求。百度鸿鹄可以支持多达六路的麦克阵列语音信号输入;支持百度领先的麦克阵列信号处理技术,即双声道立体声AEC消除、声源定位、波束生成等;支持百度领先的Deep Peak和 Deep CNN 语音唤醒技术,实现复杂内外噪场景下的高精准唤醒以及低于一天一次的误报率。同时,该芯片还支持百度创新的双麦克模型波束算法,实现唤醒后 360 度无死角识别,首次在中文语音识别上实现双麦克阵列的识别率超越传统 6 麦克系统,实现了行业领先的芯片模型波束技术突破。7 2.2.2 AI计算计算平台平台 百度推出的 AI 计算平台,提供了一个端到端的解决方案来应对人工智能计算的挑战。AI 计算平台由超级计算模块 X-Man、高性能存储系统 Fast-F、大型分布式 AI 计算训练平台KongMing 组成。X-Man 是百度研发的人工智能超级计算模块,是针对训练场景定制优化的 AI 计算产品。百度在 18 年年底正式发布 X-Man 3.0,单机具备 2000TFlops 算力,并具备灵活的模块化设计功能,能够支持不同的互连架构以及不同的 AI 加速芯片。X-Man 系列产品创造了6 项业界第一,相关专利荣获了 2018 年中国国家专利优秀奖。百度与 Faceboook、微软等联合创立了 OAI(Open Accelerator Infrastructure)开放 AI 加速基础架构项目,旨在促进 AI 芯片多元化生态格局的健康持续发展。百度在主导 OAI 标准定义的同时,也以实际行动推动 OAI 标准落地,在 19 年 9 月发布了业界首款支持 OAI 标准和液冷散热的超级 AI计算机 X-Man 4.0。图 4 百度人工智能超级计算模块 X-Man 4.0 Fast-F 是一种高性能并行文件系统解决方案,硬件上基于 Open Channel SSD 实现 KV 接口,合并 FW 和存储引擎层,软件栈实现全无锁设计,解决了 AI 场景下分布式训练集群中的海量小文件 I/O 难题。8 KongMing 是人工智能训练集群,具备自研的高速通信库,充分利用 RDMA 和 NVLink等特性,并且引入了全网络架构拓扑感知调度,能够以最佳的计算和通信效率将作业映射到多样化的 AI 加速芯片和系统上。KongMing 与 X-Man 及 Fast-F 紧密结合,可支持大规模分布式训练,将训练时间从周级别缩短到天级别。百度 AI 计算平台已经广泛应用在各行各业的人工智能解决方案中。同时为支撑平台更好地服务业界用户,百度超大规模资源管理系统提供了几十万台服务器托管服务,常驻容器数目达到 500 万,并提供数十万并发计算能力,为大数据处理、模型训练提供支持。2.2.3 5G边缘计算边缘计算 5G 会在许多垂直领域显著提升人工智能服务的能力。近年来,百度一直积极布局边缘计算和 5G 领域。2018 年,百度成功打造出面向互联网的边缘计算统一平台 Over The Edge(OTE),并先后与联通、Intel 等知名企业合作加速 5G 建设。OTE 平台将百度人工智能与5G 基础设施连接起来,可以使百度人工智能融入万物互联的世界,接近用户,服务用户,成为一个新的生态系统。OTE 平台的架构如图 5 所示,包括资源层的管理,IaaS(Infrastructure as a Service)资源的虚拟化,实现边缘服务管理的 PaaS(Platform as a Service),以及基于 IaaS 和 PaaS 的各种边缘解决方案,可以在边缘提供全面的计算加速支持。OTE Stack 是面向 5G 和 AI 的边缘计算平台。通过底层的虚拟化,可以屏蔽边缘硬件的异构特性,对外输出标准的算力资源;通过 OTE 层次化的集群管理和全局的智能调度,将5G 时代大量的边缘节点有效调度起来,从而在边缘为 AI 提供低延迟、高可靠和成本最优的算力支持。同时,通过 OTE Stack 多层集群的统一调度,将设备、移动边缘、云边缘、云中心协同起来,为 Device-Edge-Cloud 的协同计算提供了可能。9 图 5 OTE 边缘计算架构 2.2.4 量子计算量子计算 量子计算被认为是未来计算技术的心脏。2018 年百度宣布成立量子计算研究所,开展量子计算软件和信息技术应用业务研究,致力于量子信息科学中量子技术的研发和储备,重点关注量子架构、量子算法、以及量子人工智能应用91011121314。在量子架构方面,百度致力于用半正定规划等优化工具给出任意信道的量子容量可计算上界和信道模拟所需资源估计,这可作为近期量子计算中的量子信道编码、量子纠错和量子电路合成的测试标准。此外,百度探索了量子纠缠这一量子分布式信息处理中最重要物理资源的提纯问题,获得在非渐进(有限资源)情形下的三大参数,即提纯比率、状态拷贝数、以及保真度之间的消长关系。10 在量子算法方面,百度利用量子效应设计快速算法来处理非负矩阵分解问题,提供了将量子与经典计算结合起来的“量子分治”策略来加速机器学习的新路径,有望对计算机视觉和机器学习等人工智能应用产生影响。百度还关注与量子进程有关的问题,回答了“一个量子进程何时比另外一个量子进程更加无序”这一重要问题,从而将著名的优超关系拓展到了量子情形。该关系也给出了量子热力学的一组完整墒条件。经典算法的改进对于量子计算研究也有极大促进作用。通过改造已有优化算法,百度开发出全新的量子脉冲计算系统“量脉”(Quanlse),其在量子架构中承接量子软件和量子硬件。对于每一个量子逻辑门,该系统可以快速生成相应的脉冲序列,从而实现对量子硬件的控制。经过实际测试,在相同精度和实验条件下,单量子比特门计算性能比目前最快的工具提升 8 倍以上,而两量子比特门性能则至少提升 23 倍,极大地提升了实验效率。2.3 数据数据 过去的一年,百度推出了联邦学习解决方案和数据科学平台等最新成果,并成功运用人工智能技术促进数据工程技术的提升。联邦学习解决方案联邦学习解决方案 机器学习和深度学习通常需要将数据集中在一个数据中心。近年来,随着整个社会对数据安全及数据隐私的日益重视,以及相关法律法规的出台,使得数据共享和流通面临很多现实挑战。如何在保护数据隐私和数据安全的前提下,利用分散在不同地方的数据来训练机器学习和深度学习模型,成为一个迫切需要解决的问题。联邦学习通过密码学方法和精心设计的模型训练协议,为解决上述问题提供了一种可能的技术手段,能确保隐私数据不出本地的前提下,通过多方协作训练得到一个高精度的机器学习和深度学习模型。在这个新兴的领域,百度已经设计并实现了针对数据垂直切分场景的分布式 Logistic Regression 联邦学习解决方案,该方案基于参数服务器架构,能够支持在多个节点上并行训练模型,具有良好的可扩展性,可以实现海量数据的联合建模。同时,百度构建了 11 GBDT 联邦学习的原型系统,并探索了基于深度学习的联邦学习解决方案,包括基于预训练模型的联邦迁移学习以及基于孪生网络结构的联邦学习两类方案。数据科学平台数据科学平台 百度推出的 Jarvis 数据科学平台,为公司各业务提供易用、高效、自动、安全、节约的统一数据科学环境,大幅提升了开发效率和业务效果,节约大量资源。Jarvis 平台基于Jupyterlab的全托管交互分析环境,提供按需弹性的计算资源,成为内部广泛应用的交互环境;基于异构计算的端到端算法加速方案,通过数据科学全流程在 GPU 显存中计算,单机体验好、系统简单易用,分析建模的效率高、成本低,且 GPU 单机比 Spark 集群加速 13倍,而成本仅为 1/10;支持全流程自动机器学习 AutoML,覆盖预处理、特征工程、模型选择及超参调优等全流程,引入单阶段调优及人工规则优化搜索空间,通过元学习、迁移学习提升搜索效率;支持基于 Jarvis 软件的安全联合建模方案,兼顾安全性和算法效率,保障数据共享、算法分发、建模过程的安全性;支持GPU 细粒度管理方案,在GPU 分时复用基础上引入 GPU 卡上计算单位的空分复用,提供任务隔离性和服务质量保证、大幅提升GPU 资源利用率。此外,百度在开源社区建设方面也取得突出进展,开源的分布式分析型数据库Doris当前在百度以及其他知名互联网公司已大规模使用。在 2018 年进入 Apache 基金会进行孵化后,百度又提供了流式导入功能,对接 Kafka 和增加 SQL 兼容性以及提升查询性能等。三、三、感知感知层层 百度大脑的感知层包括语音、视觉、增强现实/虚拟现实等技术,这些技术使得百度大脑具备了仿人的听觉和视觉能力。3.1 语音语音 端到端的模型充分发挥了模型联合训练的优势,显著提升了语音识别、语音合成等技术的性能,受到学术界和工业界的一致关注。12 语音识别语音识别 在流式多层截断注意力模型 SMLTA 的基础上,百度进一步提出了中英文一体化建模和方言大一统模型技术,一方面在保持原有中文识别率的基础上,实现用户中英文混杂和纯英文自由说;另一方面有机融合了普通话和方言的建模单元,使得同一个声学模型既能识别方言又能识别普通话。针对嵌入式终端,百度提出的基于 SMLTA 的离线嵌入式建模技术采用语音语言一体化建模技术,极大地压缩了传统语音识别所使用的语言模型体积。应用该技术的离线语音输入法性能显著领先于行业平均水平。在语音交互方面,百度提出的基于大数据仿真技术的信号前端和声学后端联合优化的整套端到端语音交互方案,使绝对句准率相对提升3%以上,同时首次推出业内领先的一次唤醒多次交互技术,极大地提升了用户体验。语音合成语音合成 在语音合成方面,百度提出了 End to End Parallel waveRNN(端到端的并行 waveRNN)语音合成技术,解决了语音合成系统上线时的 bad case 消除问题,明显提升了语音合成系统的自然度和表现力,适合大规模在线实时语音合成服务。相比于国际上主流的 Tacotron和waveRNN 技术,该技术主要有以下两方面创新:首先,传统方法将文本韵律预测与语音波形生成作为两个独立阶段进行建模学习,由于统计模型误差累积,最终合成语音的 bad case 较多,情感表现力也较弱。端到端的waveRNN 直接根据输入文本信息,训练一个深度学习waveRNN 网络以合成语音。整个过程采用端到端训练,不需要中间的梅尔谱的过渡转换过程,减少了合成的 bad case,提升了最终合成语音的自然程度。其次,传统的waveRNN 是逐点递推过程,递推过程冗长,难以适用于在线实时语音合成的场合。百度能够按照音素、音节、或者音节组合等语音片段单元来独立且并行的合成一个个语音片段,最终再把这些语音片段拼在一起。在进行每个片段的独立合成时候,该片段的RNN/LSTM/GRU 隐状态的初始状态用传统的拼接系统的决策树提供,从而保证每个独立合成片段的合成稳定性。百度还提出了一种全新的基于 WaveNet 的并行音频波形(Raw Audio Waveform)生成模型 ClariNet15,合成速度比起原始的 WaveNet 提升了数千倍,可以达到实时合成速度的二十倍即合成 1 秒语音,只需要 0.05 秒。ClariNet 是语音合成领域第一个完全端到端 13 的模型,即使用单个神经网络,直接从文本输入到原始音频波形输出。对比 Google DeepMind 提出的 Parallel WaveNet,ClariNet 中所用到的 teacher WaveNet 的输出概率分布是一个方差有下界的单高斯分布,直接使用最大似然估计来学习,并且直接闭式(colsed-form)地计算目标函数,大大简化了训练算法,使训练时间比 Parallel WaveNet 减少数十倍。另外,百度提出了针对语音合成领域的全并行模型 ParaNet16。该模型直接采用前馈神经网络(Feedforward Neural Network),不依赖于任何自回归神经网络(Autoregressive Neural Network)或者循环神经网络(RNN),从文本生成音频波形仅需一次前馈传导(Feed-Forward Pass),合成速度较全卷积的自回归模型提升了 46.7 倍。在长句的合成过程中,ParaNet 提供了更为稳定的文本与频谱之间的对齐关系,减少了重复词、跳词、以及错误发音,相比于自回归模型有更高的鲁棒性。3.2 视觉视觉 在计算机视觉方面,百度在基础图像技术、视频理解技术、软硬件结合等多个技术方向,取得了重要突破,多次获得顶级赛事的冠军。图像技术图像技术 目标检测是计算机视觉和模式识别领域的基础问题之一,百度在大规模图像检测和检测网络的性能两个方面开展研发工作。一方面,在图像基础算法方面,百度研发了大规模图像检测算法。该算法提出的动态采样方案,对于不同类别,数据量差别较大的情况下效果有明显提升。2018 年,百度在图像检测数据 Open Images 比赛中获得全球第一名的成绩。该技术并已被应用于商品检索、Logo 检索等多个业务中。另一方面,百度在图像检测领域获得 2019 年“Objects365 物体检测”国际竞赛 Full Track冠军。在这次比赛中,百度通过使用基于强化学习的网络结构搜索技术,大幅增强了Two-Stage检测网络模型的性能,并针对大规模图像检测任务提出的Class Aware Sensitive采样方案,有效的缩短了模型收敛所需的迭代次数,进一步提高了模型的最终效果。14 视频技术视频技术 百度视频理解技术持续优化,支持百度搜索的视频数据分析的相关业务需求。目前小视频分类准确率超过 90%,业务上优质视频增益率达 95%以上。百度连续三年在视频理解领域影响力最大的赛事 ActivityNet 上获得冠军。在视频编辑方面,百度结合多模态嘴型生成、GAN、TTS 等技术,实现了业界首个可以量产视频的真人形象虚拟主播,并成功应用于好看视频天气预告、新闻播报等场景。百度还提出了选择性迁移单元技术用于提升 GAN 的表现效果,在公开数据集 CelebA 取得了世界领先的效果,相关算法 STGAN 的工作内容发表于国际顶级学术会议 CVPR 201917。图 6 百度真人形象虚拟主播 在人体视觉理解方面,百度对以往基于多尺度全卷积神经网络的模型(例如 Pyramid Scene Parsing Network,DeepLab v3+等)进行改进,使每个卷积核能对图片的细节进行感知,同时输出精度更高的特征图,解决了人体关键目标区域较小,难以检测的问题。此外,百度还进行了图片增强、数据扩张,在训练中动态调整输入图片尺度,使用 mIOU loss 损失函数等,使得模型能够更精确地捕捉肢体的细节以及被遮盖的部分。最终根据各个不同模型的效果进行融合,在 CVPR 2019 LIP(Look Into Person)竞赛中,百度取得 65.18%的mIoU,获得了单人人体解析的冠军,超过上届冠军 7.2 个百分点,总计获得人体检测领域三项冠军。15 在智能城市视频分析领域,百度参加了由 NVIDIA 在 CVPR 2019 上举办的 AI CITY 比赛,并拿到车辆 RE-ID 第一。在车辆重识别技术方面,百度深耕检测、跟踪、属性分析、关键点定位等核心技术,设计出基于关键点的特征图变换网络,并结合车型识别、摄像头时空分布信息等辅助手段提升车辆重识别准确率。这项技术广泛服务于城市安防、智能城市、智能交通等重要的 AI2B 场景。图 7 百度车辆识别技术效果 在视频跟踪方面,百度还在多尺度特征提取、改善物体模板以提升对微小目标的召回能力、利用时空特征来降低密集多目标跟踪的轨迹交换等方面,取得重要进展,并在国际权威的视频多目标追踪挑战(Multiple Object Tracking Challenge,MOT)的MOT16榜单上,获得第一名。这些视频能力对内支持百度智能城市、智能零售、自动驾驶等业务,并通过百度大脑 AI 开放平台对外开放,服务各行各业。图 8 百度多目标追踪效果 16 人脸检测与识别人脸检测与识别 在人脸技术方向,百度在 PyramidBox 基础上提出的 PyramidBox+算法在国际权威评测集 Widerface 最难的 Hard 子集上排名世界第一18;在人脸关键点技术上,百度应用AutoDL 技术取得了 ICME 2019 人脸关键点比赛的冠军。在 CVPR 2019 首次举办的人脸活体检测比赛中,百度作为邀请参赛团队取得了 ACER 指标第一名的优异成绩,即平均错误率最低。这项技术也作为百度 FaceID 解决方案的一项重要功能在多个人脸场景里得到了应用。文字识别文字识别 在文字识别 OCR 领域,百度在端到端文字识别任务上取得了 RCTW-17 世界第一的成绩。在文字检测、结构化文字信息提取、视频 OCR 等多个研究方向上百度也持续探索,相关的成果在 CVPR 2019 和 ICDAR 2019 发表,并在 ICDAR 2019 MLT 多语种文字检测竞赛中,取得了第一的优异成绩。基于在文字识别领域多年的研究和应用经验,百度联合学术界举办了 ICDAR 2019 的两项文字识别竞赛:LSVT(Large-scale Street View Text with Partial Labeling,大规模弱标注街景文字)、ArT(Arbitrary-Shaped Text,任意形状场景文字),吸引了世界范围内高校、知名企业等 100 多支队伍参赛,在弱监督文字识别和任意形状文字识别两个新任务方向上为学术界提供了有力的研究数据和工具。软硬结合软硬结合 在视觉模型小型化技术方向,百度形成了一套从模型压缩到模型自动搜索比较完备的体系,囊括了量化、减枝、蒸馏、模型自动压缩、模型自动搜索、硬件搜索等方面,已经在视觉各项任务上得到应用。面向硬件的模型加速,百度研发了 Leopard 系统。该系统综合利用模型压缩、动态训练策略、以及并行化训练架构,实现视觉识别模型的训练推理的显著加速。这项技术在斯坦福大学举办的 DAWN 竞赛(Data Analytics for Whats Next)中共取得 CIFAR10 推理速度和成本,以及 CIFAR10 训练速度和成本四项第一。在实际应用中,视觉语义化往往依赖大量传感器的综合信息,并需要大量计算资源和融合推理的难题,百度研发了多传感器视觉语义化技术。依托边缘视觉计算技术、多种类型自研传感器、以及高 SLA 软件架构,可以实现多人复杂任务的视觉语义化推理。以一个便利店环境为例,百度安装了超过 1000 个多种类型传感器(重力、光幕、相机、深度相 17 机)。依靠端云结合的人体追踪、肢体检测、商品取放检测、SKU 分类、融合推理等算法,可以在 4 平米/人的密度下准确追踪和分析消费者购物行为,即使多人靠近同时拿取相邻商品也可以准确分辨。为了提升系统运行速度,百度利用 300 多个端计算芯片分担服务器计算负担,减少了 95%的网络传输和 GPU 服务器需求。该技术能够支持更多的单位面积购物人数以及单位面积 SKU 数量,并且可以更快速的完成视觉语义化推理并推送账单。在机器人避障技术方向,其难点在于检测障碍物的同时需要对自身准确定位,并判断可通过空间的大小。百度提供了市场上领先的机器人视觉 SLAM 定位技术(boteye);并进一步开发了技术领先的机器人避障技术,利用强化学习算法模型有效融合视觉和激光传感器,以及端到端输出底盘控制信号,提升避障成功率。相比 ROS,在多个场景下,百度机器人避障技术的避障成功率均大幅领先。3.3 增强现实增强现实/虚拟现实虚拟现实 2018 年以来,百度在增强现实和虚拟现实方面取得了许多重要进展。百度构建了生态开放平台 DuMix AR,开放多种 AR 核心能力和 AR 引擎,为开发者及合作伙伴提供优质的一站式解决方案。百度 VR 已在全景、3D 图像内容的采集、处理、传输、展示及交互技术形成了深厚积累。百度还开发了一种增强现实的自动驾驶仿真系统。增强现实增强现实 百度大脑 DuMix AR 平台作为百度大脑的重要组成部分之一,目前已成为国内最具影响力的 AR 技术开放平台之一,累计开放技术能力超过 40 项。最新发布的 DuMix AR 5.0,带来人机交互和感知跟踪两个方向的重大升级。人机交互方面,百度打造人脸人体手势环境一体化交互系统,为业界及合作伙伴提供优质的一站式娱乐互动解决方案。感知跟踪方面,百度自主研发视觉定位与增强服务 VPAS,通过离线高精地图构建、在线定位、融合跟踪等三大关键模块,构建了国内首个达到商用落地标准的大场景物理世界交互系统。DuMix AR 平台联合 40 多个生态合作伙伴在品牌营销、视频娱乐、景区、教育和汽车等多个垂直行业开展创新探索。继AR太极大屏落地全球首个AI公园海淀公园后,2019年,AR 太极大屏迅速推广至全国多个城市,丰富线下互动体验、引发全民健身热潮,累计落地九个公园,十五块 AR 互动屏,并衍生出八段锦等创新互动内容形态;2019 年,春晚 18 切红包、虚拟主播“小灵”先后登陆央视;“听障儿童无障碍阅读计划”携手百度公益、壹基金、58 同城,以 AR 技术变革传统出版物,关爱弱势群体,创造良好的社会效益;此外,还与百度地图场景化能力结合,率先实现大场景实景 AR 互动,以 VPAS 再现圆明园大水法的辉煌盛景,将历史画卷生动呈现。截止目前,DuMix AR 平台承载的累计互动量超过19 亿,深入 6 大行业发布解决方案,显著推动了 AR 技术与应用的发展。虚拟现实虚拟现实 百度也在深耕 VR 核心技术和行业落地解决方案。在全景、3D 图像内容的采集、处理、传输、展示及交互技术持续积累,已支持 K12、高校培训、营销等业务场景的落地。在内容生产方面,通过高精度拍摄、智能拼接、基于深度学习的图像精准分割技术,构建了软硬一体化的 3D 图像采集方案;在内容展示方面,基于自研 webVR 渲染引擎、自研高性能全景和3D图片视频播放引擎以及长期积累的VR头显硬件适配能力,推出了可覆盖Unity、Web 平台的全格式内容展示 VR Suite SDK,为合作伙伴提供基础的 VR 内容播放技术支持。目前,教育方向产品“百度 VR 教室”已经在安徽、浙江、上海、湖北、天津等多地学校落地并常态化运营;“VR 新商科实验室”也已在山大、矿大多所高校落地中。百度还积极推动 VR 技术在 5G+教育场景有效落地,上海市愚一小学已成为全国首家应用 5G Cloud VR的教学点。营销方面,百度 VR 联合优信二手车,推出了全国领先的“VR 看车”软硬一体化解决方案,助力优信二手车全国购战略升级。增强现实的自动驾驶仿真增强现实的自动驾驶仿真 自动驾驶系统对安全性有着严苛的要求,相比于花费几年甚至更久时间让自动驾驶车辆接受足够的道路测试,通过仿真系统测试来评估、提高其安全性极具可操作性和现实意义。百度开发了一种增强现实的自动驾驶仿真系统,通过模拟交通流来增强现实世界图像,进而创建逼真的、媲美现实世界渲染的仿真场景,为自动驾驶车辆提供更为可靠且廉价的仿真模拟方法,可大规模用于训练和测试评估自动驾驶系统的感知、决策和路径规划算法。该系统相较于现有仿真系统,在真实感、扩展性等方面都实现了突破性的技术进展,并发表于科学杂志机器人学子刊19。19 四、四、认知层认知层 多年来,百度深耕语言与知识技术,并在知识图谱、语义理解、机器翻译等方面取得了一系列丰硕的成果,实现了大规模产业化应用,获得国家科技进步二等奖、中国电子学会科技进步一等奖、中国专利银奖等奖励。百度知识图谱依托海量互联网数据,综合运用语义理解、知识挖掘、知识整合与补全等技术,提炼出高精度知识,并组织成图谱,进而基于知识图谱进行理解、推理和计算。目前,百度知识图谱已经拥有数亿实体、数千亿事实,并广泛应用于百度众多产品线,并通过百度大脑 AI 开放平台开放了实体标注、知识问答、百度汉语、图数据库 BGraph 等核心技术,以及行业知识图谱平台和智能写作平台。百度研发了基于深度学习的语义理解技术并应用于智能搜索,大幅提升了搜索精度;百度提出了持续学习语义理解框架艾尼(ERNIE),在中英文多项任务上均取得最好的效果;百度机器翻译在大规模翻译知识获取、翻译模型、多语种翻译技术等方面取得重大突破,在2015年发布了全球首个互联网神经网络翻译系统,在2018年推出了端到端同传系统和翻译机;百度在基于多文档校验的阅读理解技术、基于交互式学习的对话理解技术、篇章生成算法等方面取得突破性创新,在AI for Prosthetics Challenge、国际语义评测比赛(International Workshop on Semantic Evaluation)、国际机器翻译比赛(WMT)等国际权威赛事中屡获冠军。图 9 百度语言与知识技术布局 20 4.1 知识图谱知识图谱 知识自学习知识自学习 知识自动学习和更新是开放域大规模知识图谱构建面临的主要挑战。百度研发了一套自下而上的基于主动学习的大规模知识图谱构建方法,包括开放信息抽取、本体自动构建、图谱自动补全、多源数据融合,以及人机结合的知识验证等多项核心技术。百度提出了基于远监督学习训练语料构建的信息抽取技术,基于 Bootstrapping 算法和深度学习的本体自动构建和图谱补全技术,并通过多源数据融合和人机结合进行知识验证,进一步提升知识获取质量。该方法实现了本体层及数据层知识的自我学习完善及更新,大幅提高了知识图谱构建效率。基于该方法,百度知识图谱扩大了几个数量级,显著提高了百度知识图谱的覆盖率。复杂知识图谱复杂知识图谱 传统的知识图谱以实体为核心,被称为实体知识图