温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
华西证券
【华西证券】AIGC行业深度报告4:ChatGPT:百度文心一言畅想
华西
证券
AIGC
行业
深度
报告
ChatGPT
百度
文心一言
畅想
华西计算机团队华西计算机团队2023年3月2日ChatGPT:百度文心一言畅想请仔细阅读在本报告尾部的重要法律声明请仔细阅读在本报告尾部的重要法律声明证券研究报告|行业深度研究报告分析师:刘泽晶SAC NO:S1120520020002邮箱:AIGC行业深度报告(4)扫码进群领取3、最新业报告、公司研究、专业咖分享1、优质研报免费获取,业报告定期打包2、每推送业最新深度研报(精选10篇)核心逻辑:国产“ChatGPT”扬帆启航。OpenAI的商业模式为API接口收费。我们认为此种商业模式具有“卡脖子”的风险,因此我国需要发展自主可控的“ChatGPT”。国产生态正在逐步繁荣,百度打响国产ChatGPT领域“第一枪”,其在算法、算力、数据、生态、平台五方面皆有储备;ChatGPT的竞争本质即大模型储备竞赛,大模型是人工智能发展的必然趋势,也是辅助式人工智能向通用性人工智能转变的坚实底座。大模型分为NLP(自然语言处理)、CV(计算机视觉)、多模态和科学计算四类。此外,中美科技巨头已经开启大模型储备“军备赛”。百度文心一言,开启国产ChatGPT新征程。百度是少有大模型语言训练能力的公司,模型储备方面,百度实现了全生态布局。1 1、NLP(NLP(自然语言处理),已经具备智能创作、摘要生成、问答、语义检索、情感分析、信息抽取等能力,且可以让机器人像人一样具有逻辑且自由对话;2 2、CV(CV(计算机视觉),可用于应用于图像分类、目标检测、语义分割等场景,此外还可以应用于文档、卡证、票据等图像文字识别和结构化理解;3 3、跨境大模型,可实现AI作画、场景融合视觉常识推理、跨模态图像检索、跨模态文本检索等多场景;4 4、生物计算,应用场景为蛋白结构预测和小分子药物研发等领域。百度为国产ChatGPTChatGPT“领军企业”,具有算力积累和生态优势。平台方面:拥有自主生态的百度百舸 AI异构计算平台,具备高效率、多密度、高易用性、多场景部署、乐高式拼接等能力。算力方面:百度自身具有建设智能算力中心的实力,技术领先且自主可控,已有典型落地案例;服务器方面拥有自研的昆仑芯云服务器;芯片方面,昆仑芯AI芯片是百度自主研发的芯片,2代芯片已量产,具备算力支撑强、高速互联等多重优势。生态:百度大模型赋能千行百业,已有落地应用,合作厂商分别覆盖科技、金融、航天、影视、汽车、电子制造等诸多产业。此外,我们推测ChatGPT有望成为搜索引擎的流量入口,百度搜索引擎有望借助文心一言大模型的能力重回巅峰。此外,目前国产科技巨头已经开启大模型的“军备竞赛”,因此,我们判断,未来AI+有望赋能千行百业,具有AI+能力的厂商有望呈现“百花齐放”的态势。投资建议:关注三条投资主线 1)具备算力基础的厂商,重点推荐中科曙光,其他受益标的为寒武纪、商汤、海光信息、浪潮信息、景嘉微、拓维信息、神州数码、龙芯中科;2)具备AI算法商业落地的厂商,重点推荐科大讯飞、拓尔思,其他受益标的为海天瑞声;3)AIGC相关技术储备的应用厂商,受益标的为:百度、同花顺、三六零、金山办公。风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。目录301 国产ChatGPT扬帆启航02 百度文心一言,开启国产ChatGPT新征程03 投资建议:梳理AIGC相关受益厂商04 风险提示01国产“ChatGPT”扬帆启航1.1 ChatGPT为API接口收费,我国需自主可控ChatGPTChatGPT,AIAI的旷世之作,持续引爆市场:是OpenAI于 2022年11月推出的聊天机器人,由于其功能强大,例如实现文章创作、代码创作、回答问题等功能,我们认为其具有跨时代的意义,例如实现勒“模糊搜索”到“精准推送”的跨越,因此持续引爆市场。ChatGPTChatGPT为AIAI接口收费,我国需自主可控:OpenAI(ChatGPT母公司)的商业模式为API接口收费,客户可以通过接入OpenAI的API接口获取获取相关图像、语言、代码调整服务,我们认为此种商业模式具有“卡脖子”的风险,一旦海外禁止API接口权限,会对我国AIGC生态造成严重影响,因此我国需要发展自主可控的“ChatGPT”。国产生态正在逐步繁荣,百度打响“ChatGPTChatGPT”领域“第一枪”:百度是少有预训练模型(大模型)语言训练能力的公司,其在算法、算力、数据、生态、平台五方面皆有储备,根据百度官方公众号,百度计划于2023年3月16日在北京总部召开新闻发布会,围绕国产版ChatGPT文心一言,我们认为此举正式意味着我国自主可控的“ChatGPT”即将问世。5资料来源:OpenAI官网,百度官方公众号,华西证券研究所ChatGPT在回答“费马小定理”百度官方预告1.2 ChatGPT的竞争本质即大模型储备竞赛大模型的是人工智能发展的必然趋势:大模型即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。大模型是辅助式人工智能向通用性人工智能转变的坚实底座:大模型增强了人工智能的泛化性、通用性,生产水平得到质的飞跃,过去分散化模型研发下,单一AI应用场景需要多个模型支撑,每个模型需要算法开发、数据处理、模型训练、参数调优等过程。大模型实现了标准化AI研发范式,即简单方式规模化生产,具有“预训练+精调”等功能,显著降低AI开发门槛,即“低成本”和“高效率”。数据、平台、算力是打造大模型生态的必备基础:数据是训练大模型参数的必备,我们认为可以理解成“燃料”;算力是训练大模型的底层动力源泉,一个优秀的算力底座在大模型(AI算法)的训练和推理具备效率优势;平台是大模型和算力之间的“桥梁”,可针对不同的模型和硬件,实现资源的合理分配,达到软硬件的最优组合,从而大幅提升训练模型的效率。6资料来源:IDC,华西证券研究所数据、平台、算力、算法关系示意图1.3 大模型带来的AI技术与应用变革潜能被广泛验证大模型带来的AIAI技术与应用变革潜能被广泛验证,可以分为四类,分别是NLPNLP(自然语言处理)、CV(CV(计算机视觉)、多模态和科学计算。NLPNLP:近年来,随着预训练技术(大模型)、算力提升以及NLP海量数据和任务特性,大模型预训练在该领域取得显著突破,2018年,随着BERT(谷歌)的诞生,是利用海量无标注文本的监督学习,已经刷新多个AI权威技术榜单,3亿参数的BERT模型在权威GLUE的11任务刷新纪录,基准值推至80.4%,绝对值提升7.6个点。CVCV:目前,主要以卷积神经网络(CNN)和Transformer为支撑的计算机大模型快速发展,比如,2021年的150亿参数的V-MoE推出,在ImageNET准率高达90.35%,此外,国内厂商也逐渐发力,盘古CV大模型可提供OCR文字识别,并在多个场景落地。多模态:大模型技术推动多模态模型不断迭代升级,比如阿里大模型M6,模型参数10万亿级别,持续拓宽大模型应用广度,覆盖电商、智能交互等场景,此外,OpenAI的CLIP(文本图像匹配)以及DALLE2(文生图)持续落地。科学计算:AI+科学计算持续引发大变革,比如生物制药、气象预报、地震探查、材料等领域,例如Deep-Mind推出的AlphaFold2能够覆盖98.5%的人类蛋白质组,并对20种其他生物蛋白结构进行预测。7资料来源:IDC,CSDN,华西证券研究所NLP和CV的发展现状与挑战对比NLPCV现状分别在语言理解与生成、智能创作、机器翻译、智能对话、知识图谱和定制化语言解决方案落地应用,整体算法发展顺利,数据源可获得性较强2D数据工业质检、智慧城市落地完善,应用场景多、可商业化市场大,拥有最佳实践;人脸、OCR识别发展较为成熟挑战语言的歧义、文化差异及多样化、情感分析困难3D/4D数据识别面临变形、光照、遮挡等可以依靠大规模预训练模型解决部分痛点的问题;数字人、数字孪生的数据获取困难,算法处理复杂预期未来发展以多个数据信息维度约束来验证情感分析及文本分析的准确性打通数据融合以突破3D/4D获取瓶颈科学计算中药物发现和合成化合物示意图1.4 中美科技巨头厂商开启大模型储备“军备赛”美国科技巨头公司开启AIAI大模型“军备赛”:谷歌:谷歌推出聊天机器人Bard,底层代码为LaMDA,我们认为LaMDA与ChatGPT算法具备一战之力。此外,BERT算法具备库时代的意义。微软:目前,根据智东西报道,微软推移动版Bing,语音接入、AI群聊等功能。此外,微软本身也有在NLP、CV相关大模型的技术储备。其他:例如FaceBook、亚马逊、DeepMind、英伟达等厂商已经加入大模型的“军备赛”,并分别在NLP、CV或多模态方面已有相应的技术储备,应用在语言生成、推理、代码生成、跨模态搜索等领域中。我国需有自主可控AIAI大模型,生态正逐渐繁荣:百度:是少有预训练模型(大模型)语言训练能力的公司,已经经历多次迭代,目前已覆盖众多方向,目前已有近百万开发者使用文心大模型,生态正在逐步繁荣,合作厂商覆盖科技、教育、工业、媒体、金融等诸多产业。阿里:根据钛媒体数据,M6模型是中文多模态模型,参数规模高达万亿,已在超40个场景中应用,可以实现剧本创作等功能。其他:例如腾讯、京东、科大讯飞、字节跳动、网易等纷纷加入“军备赛”,分别拥有独特技术架构,应用在智慧音效、AI视频创作、AI语音、AI作文、AI搜索等应用场景中。8资料来源:公开资料整理,腾讯AIGC发展趋势报告2023,华西证券研究所国内外科技公司部分模型储备及应用场景厂商厂商AIAI大模型大模型参数参数领域领域应用场景应用场景谷歌BERT4810亿NLP语言理解与生成LaMDANLP对话系统PaLM5400亿NLP语言理解与生成、推理、代码生成Imagen110亿多模态语言理解与图像生成Parti200亿多模态语言理解与图像生成微软Florence6.4亿CV视觉识别Turing-NLG170亿NLP语言理解、生成FacebookOPT-175B1750亿NLP语言模型M2M-100150亿NLP100种语言互译Deep MindGato12亿多模态多面手的智能体Gopher2800亿NLP语言理解与生成AlphaCode414亿NLP代码生成OpenAICLIPDALL-E120亿NLP图像生成、跨模态检索Codex120亿多模态代码生成ChatGPT-NLP语言理解与生成、推理等百度NLP大模型千亿级别NLP语言理解、生成CV大模型CV图像试别跨模态计算大模型多模态语言理解与图像生成生物计算大模型CV化合物表征学习、分子结构预测阿里巴巴M6万亿级别多模态语言理解与图像生成腾讯混元大模型-NLP语言理解与生成京东K-PLUG-NLP语言理解与生成、推理、代码生成三六零-NLP智能搜索字节跳动DA-NLP语言理解科大讯飞中文预训练模型-NLP语言理解与生成、语言互译02百度文心一言,开启国产ChatGPT新征程2.1 百度文心一言开启国产ChatGPT新征程百度是少有大模型语言训练能力的公司:其文心大模型和Open AI的GPT模型类似,在2019年就已经推出,并且已经迭代了多代,从单一的自然语言理解延伸到多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。我们认为百度作为国产ChatGPTChatGPT“领军企业”,符合数据、平台、算力、大模型、生态多重要素需求:算力方面,百度拥有自主生态的算力底座,比如百度智算中心;AIAI芯片方面,坐拥昆仑芯加速器,实现了核心自主可控,且性能优异;平台方面,百度具备百度百舸 AI异构计算平台,具有高性能、高弹性等优势;大模型储备方面,百度实现了全生态的布局,其中包括NLP、CV、大模型、生物计算等领域,且在不同场景中已有较多应用。数据方面,根据IDC数据,其拥有5500亿条知识,且已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等产品。10资料来源:百度文心一言官网,华西证券研究所百度文心全景图百度文心全景图2.2.1 百度文心一言大模型储备齐全:NLP(:NLP(自然语言处理)百度文心一言NLPNLP方向算法储备齐全:其中著名的 ERNIE系列,是基于知识增强的千亿模型,用于智能创作、摘要生成、问答、语义检索、情感分析、信息抽取、文本匹配、文本纠错等各类自然语言理解和生成任务,并且模型已经可应用于医疗、金融、图语言、编程、跨模态、信息抽取等各个方面。此外,PLATO模型,是全球首个超百亿参数规模的中英文对话训练模型,可以让机器人像人一样具有逻辑且自由对话。百度文心一言NLPNLP功能强大:例如ERNIE系列,ERNIE3.0基于知识增强的多范式统一预训练框架,深入融合的千亿级知识,具备强大的语言理解能力与小说、摘要、文案创意、歌词、诗歌等文学创作能力。其中与鹏城实验室合作发布了知识增强千亿大模型“鹏城-百度文心“。目前文心ERNIE已经刷新93个中文NLP任务基准,并多次登顶SuperGLUE全球榜,已在机器阅读理解、文本分类、语义相似度计算等60多项任务中实际应用。11资料来源:百度文心一言官网,IDC,华西证券研究所ERNIE 3.0 Zeus算法框架ERNIE 3.0 Zeus在公开数据集上零样本/小样本学习的效果2.2.2 百度文心一言大模型储备齐全:CV(:CV(计算机视觉)百度文心一言CVCV具有颠覆性:VIMER:VIMER-CAE:CAE:为视觉自监督预训练大模型,创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,在图像分类、目标检测、语义分割等经典下游任务上刷新SOTA结果。VIMERVIMER-UFO 2.0:UFO 2.0:多任务学习模型,行业最大170亿参数视觉多任务模型,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+CV 基础任,具备支持各类任务、各类硬件的灵活部署等优势,可以有效解决大模型参数量大,推理性能差等问题。OCR OCR-VIMERVIMER-StrucTexT 2.0:StrucTexT 2.0:为表征学习预训练模型解决了训练数据匮乏和传统 OCR+NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于文档、卡证、票据等图像文字识别和结构化理解,例如泛卡证票据信息抽取应用、政务办公文档还原应用等场景。VIMERVIMER-UMS:UMS:是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型,可实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,可以显著改善商品视觉检索和商品多模态检索体验。12资料来源:百度文心一言官网,IDC,华西证券研究所OCR-VIMER-StrucTexT 2.0典型应用场景百度CV大模型VIMER-UMS功能介绍统一商品视觉与图文表征2.2.3 百度文心一言大模型储备齐全:跨模态、生物计算文心跨境大模型优势显著:ERNIE:ERNIE-ViLG2.0ViLG2.0是知识增强的 AI 作画大模型,在公开权威评测集MS-COCO上取得了当前该领域的领先效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势;跨模态文档智能大模型ERNIEERNIE-LayoutLayout,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,在文档抽取、布局理解等5类11项任务刷新业界SOTA;ERNIEERNIE-VILVIL是首个只是业界首个融合场景图知识的多模态预训练模型。在视觉常识推理、跨模态图像检索、跨模态文本检索等 典型多模态任务中刷新了世界记录。文心生物计算大模型在全球具有领先优势:HelixFold:HelixFold-SingleSingle是秒级别的蛋白结构预测大模型,从近3亿的无标注蛋白质数据中隐式的学习MSA信息,在90%的单体蛋白场景上预测效果持平AF2,在抗体结构预测场景下,比AlphaFold2预测结果更优;HelixGEMHelixGEM-2 2为小分子药物研发模型,在量子化学属性预测和虚拟筛选双场景上达到领先效果,其上个版本是业界首个基于几何构象增强的化合物表征模型,引入化合物的三维空间信息,在14个药物属性预测相关的benchmarks上效果达到业界最优;HelixFoldHelixFold模型可以端到端地学习蛋白质结构,在国产DCU环境下训练千万级别蛋白仅需到2.6天,在 GPU 上相同硬件环境配置下,训练性能和部分场景效果显著优 AlphaFold2。13资料来源:公开资料整理,腾讯AIGC发展趋势报告2023,华西证券研究所文心 ERNIE-ViLG 2.0自动生成创意图片百度HelixFold蛋白质结构模型与世界经典模型训练性能对比2.3.1 百度底层算力技术实力强劲:百度智算中心百度智算中心是数字经济的重要底座:百度自身具有建设智能算力中心的实力,百度智算中心面向人工智能应用场景,为政府和行业客户提供普惠算力、算法模型和数据服务的人工智能基础设施。可面对人工智能应用场景,支持大规模部署的同时,满足高并发、高弹性、高精度等不同计算需求,可支撑城市大脑、产业金融、自动驾驶等各个垂直化行业。方案优势强大,具备多重领先优势:1:1、技术领先,现有千卡并行环境下实现加速比90%,可支持大规模模型训练场景;2 2、绿色低碳,数据中PUE可以低至1.08,左到低能耗、高性能运行;3 3、自主可控,AI芯片、AI框架、开发平台、大模型层面、可以做到全栈自研自主可控;4 4、开放生态,飞桨已累计凝聚477万开发者等。目前已在江苏盐城、湖北宜昌等地落地,建设内容包括智算中心、城市级视频中台、数据中台系统、核心物联网通信系统、大规模图谱分析体系,以及超过270类不同人工智能算法模型。14资料来源:百度智能云官网,华西证券研究所百度智算中心架构2.3.2 百度底层算力技术实力强劲:百度百舸 AI异构计算平台百度AIAI异构计算平台技术积累浓厚:包含AI计算、AI存储、AI加速、AI容器四大核心套件,具有高性能、高弹性、高速互联、高性价比等特性,其中平台已经充分汲取了百度多年技术积累,具备深度融合推荐、无人驾驶、生命科学、NLP等场景的实践经验,能为AI场景提供软硬一体解决方案,加速AI工程化落地。百度智能计算平台具备多重优势:1:1、高效率,提供AI超级服务器、RDMA网络、大吞吐低延时的并行文件系统,可大幅提升训练速度和推理效率;2 2、高密度,支持GPU资源共享与隔离、架构感知调度,提升异构资源的容器化部署密度,提升资源利用率;3 3、良好易用性,支持PaddlePaddle、TensorFlow、Pytorch等多种主流深度学习框架;4 4、多场景部署,可根据业务需求在不同场景部署落地,公有云、IDC等场景;5 5、乐高式拼接,AI计算、AI存储、AI容器三大核心产品均可各自独立提供服务。应用场景广泛:可用于营销广告、无人驾驶、生物科技、语音语义、计算机视觉等场景中的训练及推理。15资料来源:百度智能云官网,华西证券研究所百度百舸 AI异构计算平台架构百度百舸 AI异构计算平台AI计算示意图2.3.3 百度底层算力技术实力强劲:昆仑芯云服务器百度昆仑云服务器服务器专为AIAI算力而生:昆仑芯云服务器是一种弹性按需、提供高性能通用AI算力的云服务器,应用于AI推理和AI训练加速。昆仑芯云服务器是搭载昆仑芯的云服务器,支持K100和R200型号。其中昆仑芯为自主研发的 AI 通用处理器芯片。其中R200 AI芯片采用7nm制成,广泛应用于计算机视觉、自然语言处理、大规模语音识别、大规模推荐等场景。昆仑芯云服务器技术壁垒浓厚:1:1、领先的AIAI计算能力,基于7nm制程,单卡算力达到128TFLOPS,支持推理和训练;2 2、生态兼容,支持主流深度学习开发框架,例如Tensorflow、Pytorch、PaddlePaddle等;3 3、具备硬件虚拟化能力,优化了加速芯片的利用率,在保证延时和吞吐量的情况下支持推理和训练等混合工作负载;4 4、易开发,支持多种开发组件工具,编译引擎支持C和C+编程。典型案例:1:1、互联网搜索,可支持搜索系统对高并发要求,提高NLP推理的效率;2 2、超算中心,实现人工智能算力大规模、高密度部署;3 3、工业质检,利用深度学习技术替代人工质检,大大节省了人力成本,提高整厂的智能化水平,帮助企业降低损耗,提升约10%的良品率;4 4、智慧城市,全方位支撑智慧政务、综合治理等智慧城市核心板块。16资料来源:百度智能云官网,华西证券研究所百度昆仑芯云服务器架构百度昆仑芯云服务器架构互联网搜索应用场景2.3.4 百度底层算力技术实力强劲:昆仑芯AI芯片百度自身AIAI芯片技术实力浓厚:昆仑芯AI芯片是百度自主研发的芯片,昆仑芯科技前身是百度智能芯片及架构部昆仑芯科技深耕AI加速领域已十余年,是一家在体系结构、芯片实现、软件系统和场景应用均有积累的AI芯片企业。昆仑芯1代是百度自妍的第一一代昆仑芯片,2020年底实现量产;昆仑芯2代也已于2021年8月量产;根据百度集团执行副总裁沈抖透露,昆仑芯3代将于2024年初量产。昆仑芯2 2代AIAI芯片可提供庞大算力支撑,具有性能优势:采用7nm架构,对比上一代,R200全面提升AI负载的运行效率,巅峰算力可达256 TOPSINT8,昆仑芯2代具备多重优势,1 1、创新架构,通用和专用指令集融合,支持训练、推理、虚拟化;2 2、算力支撑强大,通用计算能力明显增强,可灵活支持AI算法的演进,3 3、高速互联,高性能分布式AI系统,加速AI数据和模型并行中的数据交换。此外,昆仑芯在著名算法的功耗比已有显著优势。17资料来源:百度智能云官网,昆仑芯官网,百度百科,华西证券研究所昆仑芯1-2代产品差异型号型号型号:型号:K100 K100 加速卡加速卡型号:型号:R200 R200 加速卡加速卡精度INT4/8/16 XFP16/32INT8/16/32 FP16/32算力INT8:128 TOPS FP16:32 TOPs FP32:8 TOPSINT8:256TOPS FP16:128TOPS FP32:32TOPS显存8GB16GB访存带宽256 GB/s512 GB/s系统互联PCI-E Gen4 x 8,兼容3.0/2.0/1.0PCI-E Gen4 x 8,兼容3.0/2.0/1.0功耗75W150W昆仑芯2代芯片与主流芯片对比2.4 百度文心一言生态愈发繁荣百度模型评估结果属于第一梯队,彰显其强大技术实力:根据IDC的数据评估先实,百度文心大模型在市场格局中处于第一梯队,产品能力、生态能力达到L4水平,应用能力达到L3水平。产品能力呈现出较强技术实力和平台积累,“文心大模型+深度学习平台”创新了人工智能研发应用范式达到行业前端水平;应用能力方面,百度已在金融、能源、制造、城市、传媒、互联网等行业拥有实际落地的标杆案例,截止目前文心已累计发布11个行业大模型;在生态能力方面,百度文心大模型在社区用户的基础上,可以实现与开发者、行业用户、上下游产业的正向互动,在评估厂商中处于行业领先位置。百度大模型赋能千行百业,已有落地应用:目前百度文心在能源、金融、航天、制造、传媒、城市、社科以及影视等领域与国网、浦发、吉利、TCL、人民网、哈尔滨、上海辞书出版社等均有案例应用的行业大模型。这些行业大模型作为重要AI底座,在各行业的技术效果突破、产品创新、生产流程变革、降本增效等维度产生价值。18资料来源:IDC,华西证券研究所百度文心行业大模型全景图百度文心大模型评估结果2.4 百度文心一言生态愈发繁荣百度文心一言场景愈发繁荣,目前已有诸多厂商开展合作,我们认为其商业模式同样为APIAPI接口收费,属于SAASSAAS商业模式,合作厂商分别覆盖科技、金融、航天、影视、汽车、电子制造等诸多产业。19资料来源:百度文心大模型官网,华西证券研究所百度文心一言合作部分场景2.5 百度文心一言五大要素齐全,开启全新篇章我们认为大模型成功必备的五要素,分别是数据、算力、平台、模型和生态,而百度作为国产ChatGPTChatGPT的领头羊,五大要素皆已配备。海量数据:即训练大参数模型的“燃料”,根据IDC数据,其拥有5500亿条知识,且已经应用于百度搜索、信息流、智能驾驶、百度地图、小度等产品。模型储备:百度实现了全生态的布局,其中包括NLP、CV、跨境大模型、生物计算等领域。NLPNLP领域:ERNIE系列,是基于知识增强的千亿模型,用于智能创作、摘要生成、问答、语义检索、情感分析、信息抽取等能力。PLATO模型,是全球首个超百亿参数规模的中英文对话训练模型,可以让机器人像人一样具有逻辑且自由对话的功能。CVCV领域:VIMER-CAE,应用于图像分类、目标检测、语义分割等场景;VIMER-UFO,拥有170亿参数,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+的视觉多任务模型;OCR-VIMER-StrucTexT广泛应用于文档、卡证、票据等图像文字识别和结构化理解;VIMER-UMS业内首发多源图文模态表征的商品多模态预训练模型;跨境大模型:可实现AI作画、场景融合视觉常识推理、跨模态图像检索、跨模态文本检索等多场景。生物计算:应用场景为蛋白结构预测和小分子药物研发等领域。平台方面:拥有自主生态的百度百舸 AI异构计算平台,具备高效率、多密度、高易用性、多场景部署、乐高式拼接等能力。算力底座:百度自身具有建设智能算力中心的实力,技术领先且自主可控,已有典型落地案例;服务器方面拥有自妍的昆仑芯云服务器,具有AI计算能力领先、生态兼容、兼具硬件虚拟化、易开发等能力;芯片方面,昆仑芯AI芯片是百度自主研发的芯片,2代芯片已量产,具备算力支撑强、高速互联等多重优势。生态:百度大模型赋能千行百业,已有落地应用,合作厂商分别覆盖科技、金融、航天、影视、汽车、电子制造等诸多产业。20资料来源:华西证券研究所2.6 百度文心一言畅想,搜索引擎的下一篇章ChatGPTChatGPT有望重新定义搜索“入口”:我们已经在ChatGPT:重新定义搜索“入口”论证过ChatGPT有望成为下一代搜索引擎的催化剂,原因有二,第一,ChatGPT实现了从“模糊搜索”到“精准推送”跨越;第二,ChatGPT符合方便、快捷、便于交互、安全且生态完善四大关键因素。商业巨头开启搜索引擎争夺战:科技巨头微软和谷歌开启的下一时代搜索引擎争夺战也论证了我们的结论,新版Bing浏览器将有ChatGPT支持,可实现在线客户交流,此外,微软已经推出移动版Bing,包括安卓和IOS系统;谷歌浏览器已经开启新版谷歌发布会,并推出聊天机器人Bard,具有对话、多重搜索等功能,底层算法为LaMDA算法。我们认为文心一言对百度搜索引擎而言“如虎添翼”:根据Statcounter数据,2021年12月,百度搜索引擎国内市占率为85.48%,2023年百度市占率55.92%,虽依旧市占率国内第一,但是占比大幅下降。目前文心一言大模型已经具备语义检索、情感分析、逻辑思考、自然对话等功能,我们认为其具有新版Bing类似功能,参考新版Bing用户增值数量(根据腾讯网消息,微软公布ChatGPT版BING不到48小时,申请用户数量已经超过百万),我们推测百度搜索引擎市占率有望重回巅峰。21资料来源:TechWeb,Statcounter,腾讯网,华西证券研究所用户可以和新版BING搜索引擎交流中国搜索引擎市场份额(2021年12月至2023年2月)2.7 国产大模型“军备竞赛”已开启,AI+生态将百花齐放22资料来源:公开资料整理,中国科技,澎拜新闻,华西证券研究所京东ChatJD125计划图阿里版ChatGPT目前国产科技巨头已经开启大模型的“军备竞赛”,且此类科技巨头已有部分AI+AI+的落地,我们认为未来AI+AI+将赋能千行百业,且具备AI+AI+能力的厂商将处于百花齐放的状态。阿里巴巴:根据钛媒体表示,阿里巴巴达摩院在2020年初启动中文多模态预训练模型M6项目,2021年10月,M6的参数规模扩展到10万亿,成为当时全球最大的 AI 预训练模型。M6已在超40个场景中应用,日调用量上亿。在阿里云内部,M6大模型的应用包括但不限于在犀牛智造为品牌设计的服饰已在淘宝上线、为天猫虚拟主播创作剧本,以及增进淘宝、支付宝等平台的搜索及内容认知精度等场景。京东将推出产业版ChatGPTChatGPT,名为ChatJD:ChatJD:据中国科技网2月10日消息,ChatJD旨在打造优势、高频、刚需的产业版通用ChatGPT。未来,ChatJD智能人机对话平台有望落实在零售、金融等领域,内容包括内容生成、人机对话、用户意图理解、信息抽取、情感分类等,在客户咨询与服务、营销文案生成、商品摘要生成、电商直播、数字人、研报生成、金融分析等领域将发挥广泛的落地价值。2.7 国产大模型“军备竞赛”已开启,AI+生态将百花齐放23资料来源:公开资料整理,AIGC发展趋势报告2023,腾讯网,MindSpore,华西证券研究所大模型训练框架veGiantModel与世界一流算法对比华为云脑成功训练千亿级开源中文大模型腾讯:根据AIGC发展趋势报告2023在广告领域,腾讯混元AI大模型能够支持广告智能制作,即利用AIGC将广告文案自动生成为广告视频,大大降低了广告视频制作成本。巨大的应用前景将带来市场规模的快速增长。字节跳动:字节跳动已经拥有强大的推送算法,此外根据腾讯网消息,为应对大模型对算力带来的显著压力(例如BERT、GPT-3等),字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel,为应用于自然语言处理领域的大模型训练,最高可将大模型训练的性能提升6.9倍,大幅降低训练系统的压力。目前火山引擎已在机器学习平台上支持该算法,目前该平台正在公测中。华为:根据MindSpore介绍,早在2021年,华为诺亚方舟实验室、华为中央软件院、鹏城实验室以及北京大学相关技术团队组建的盘古首次基于“鹏城云脑”训练,该模型属于中文大规模预训练语言模型,主要用于中文理解与生成,参数数量超过2000亿。其他:科大讯飞、网易、三六零等国内科技巨头纷纷加入大模型技术战中,分别拥有独特技术架构,应用在智慧音效、AI视频创作、AI语音、AI作文、AI搜索等应用场景中。03投资建议:梳理AIGC相关受益厂商3.1 投资建议:梳理AIGC的受益厂商我们认为AIGC的出世会产生革命性的影响,同时有望赋能千行百业。我们梳理了三条路径图,积极的推荐以下三条投资主线:1)具备算力基础的厂商,重点推荐中科曙光,其他受益标的为寒武纪、商汤、海光信息、浪潮信息、景嘉微、拓维信息、神州数码、龙芯中科;2)具备AI算法商业落地的厂商,重点推荐科大讯飞、拓尔思,其他受益标的为海天瑞声;3)AIGC相关技术储备的应用厂商,受益标的为:百度、同花顺、三六零、金山办公。25资料来源:华西证券研究所AIGC的A股受益标的公司名称公司名称股票代码股票代码收盘价收盘价市值市值(亿元亿元)EPS(EPS(元元)PE(PE(倍倍)2023/3/12023/3/12023/3/12023/3/1202120212022E2022E2023E2023E202120212022E2022E2023E2023E寒武纪*688256.SH90.60 363.14-2.06-2.79-1.78-拓维信息*002261.SZ10.96 137.64 0.07-0.040.15156.6-72.3 神州数码*000034.SZ27.74 185.54 0.371.561.9075.2 17.8 14.6 龙芯中科*688047.SH119.65 479.80 0.660.430.72181.3 278.0 166.3 浪潮信息*000977.SZ42.88 627.64 1.381.672.0131.1 25.7 21.3 景嘉微*300474.SZ75.02 341.39 0.970.640.9377.3 118.0 80.6 中科曙光603019.SH34.33 502.60 0.801.031.4742.9 33.3 23.4 海光信息688041.SH53.50 1243.52 0.160.350.64331.1 152.9 83.6 科大讯飞002230.SZ49.88 1158.75 0.700.250.9471.3 199.5 53.1 拓尔思300229.SZ23.72 183.03 0.340.420.6069.1 56.5 39.5 海天瑞声*688787.SH230.30 98.57 0.890.481.23258.8 476.9 188.0 同花顺300033.SZ125.11 672.59 3.563.154.4035.1 39.7 28.4 三六零*601360.SH11.31 808.14 0.13-0.350.0787.0-163.7 金山办公688111.SH300.00 1383.79 2.262.423.88132.8 124.0 77.3 3.2.1 浪潮信息:中国服务器/AI服务器市占率稳居榜首浪潮信息是全球领先的新型ITIT基础架构产品、方案及服务提供商:公司是全球领先的 AI 基础设施供应商,拥有业内最全的人工智能计算全堆栈解决方案,涉及训练、推理、边缘等全栈 AI 场景,构建起领先的 AI 算法模型、AI 框架优化、AI 开发管理和应用优化等全栈 AI 能力,为智慧时代提供坚实的基础设施支撑。公司算力技术壁垒浓厚:生产算力方面,公司拥有业内最强最全的 AI 计算产品阵列,业界性能最好的Transformer 训练服务器NF5488、全球首个 AI 开放加速计算系统 MX1、自研 AI 大模型计算框架 LMS。聚合算力层面,公司针对高并发训练推理集群进行架构优化,构建了高性能的NVMe 存储池,深度优化了软件栈,性能提升 3.5 倍以上。调度算力层面,浪潮信息 AIstation 计算资源平台可支持 AI 训练和推理,是业界功能最全的 AI 管理平台;同时,浪潮信息还有自动机器学习平台 AutoML Suite,可实现自动建模,加速产业化应用。26资料来源:公司官网,华西证券研究所浪潮信息智算中心浪潮信息智算中心3.2.2 中科曙光:我国高性能计算、智能计算领军企业中科曙光作我国核心信息基础设施领军企业:在高端计算、存储、安全、数据中心等领域拥有深厚的技术积淀和领先的市场份额,并充分发挥高端计算优势,布局智能计算、云计算、大数据等领域的技术研发,打造计算产业生态,为科研探索创新、行业信息化建设、产业转型升级、数字经济发展提供了坚实可信的支撑。依托先进计算领域的先发优势和技术细节,中科曙光全面布局智能计算:完成了包括AI核心组件、人工智能服务器、人工智能管理平台、软件等多项创新,构建了完整的AI计算服务体系。并积极响应时代需求,在智能计算中心建设浪潮下,形成了5A级智能计算中心整体方案。目前,曙光5A智能计算中心已在广东、安徽、浙江等地建成,江苏、湖北、湖南等地已进入建设阶段,其他地区也在紧张筹备和规划中。27资料来源:公司官网,华西证券研究所中科曙光主要产品中科曙光硅立方液体相变冷却计算机3.2.3 海光信息:支持全精度,GPU实现规模量产海光信息主要从事高端处理器、加速器等计算芯片产品和系统的研究、开发,主要产品包括海光CPUCPU和海光DCUDCU:2018年10月,公司启动深算一号DCU产品设计,海光8100采用先进的FinFET工艺,典型应用场景下性能指标可以达到国际同类型高端产品的同期水平。2020年1月,公司启动DCU深算二号的产品研发。海光DCUDCU性能强大:海光DCU基于大规模并行计算微结构进行设计,不但具备强大的双精度浮点计算能力,同时在单精度、半精度、整型计算方面表现同样优异,是一款计算性