分享
计算机深度报告:ChatGPT引发的大模型时代变革.pdf
下载文档

ID:3496193

大小:6.82MB

页数:80页

格式:PDF

时间:2024-05-16

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
计算机 深度 报告 ChatGPT 引发 模型 时代 变革
敬请参阅末页重要声明及评级说明 证券研究报告 ChatGPT 引发的大模型时代变革 Table_IndNameRptType 计算机计算机 行业研究/深度报告 行业评级:增持行业评级:增持 报告日期:2023-02-25 Table_Chart 行业指数与沪深行业指数与沪深 300 走势比较走势比较 Table_Author 分析师:尹沿技分析师:尹沿技 执业证书号:S0010520020001 电话:021-60958389 邮箱: 分析师:王奇珏分析师:王奇珏 执业证书号:S0010522060002 邮箱: 分析师:胡杨分析师:胡杨 执业证书号:S0010521090001 邮箱: 分析师:张天分析师:张天 执业证书号:S0010520110002 邮箱: 分析师:金荣分析师:金荣 执业证书号:S0010521080002 邮箱: Table_Report 相关报告相关报告 1.华安证券_公司研究_计算机行业_行业深度_华安证券 2023 年计算机推演:数字经济+_2022-12-12 2.华安证券_公司研究_计算机行业_行业深度_华安证券数字经济系列报告(一):科技赋能、新基建,数字经济大有可为_2022-03-09 主要观点:主要观点:Table_Summary ChatGPT 带来带来大模型时代变革大模型时代变革,数据要素重要性提升,数据要素重要性提升 ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,其特点在于使用海量语料库来生成与人类相似的反应。初代 GPT 模型参数 1.17 亿,GPT2模型、GPT3 模型参数分别达到 15 亿、1750 亿。不断提升的参数量级,使得 ChatGPT3 当前已经能够应用在商业、研究和开发活动中在商业、研究和开发活动中。当前此类参数体量庞大的模型,成为各大科技厂商研发重点当前此类参数体量庞大的模型,成为各大科技厂商研发重点。大模型的。大模型的基础为高质量大数据。基础为高质量大数据。ChatGPT 的前身 GPT-3 就使用了 3,000 亿单词、超过 40T 的数据。此类大数据基础的前提为三部分 1)有效场景下的采集数据;2)大数据的存储、清洗和标注;3)数据质量检验。大模型发展之下,算力与网络设施大模型发展之下,算力与网络设施建设建设成为成为刚需刚需 算力:算力:ChatGPT 类人工智能需要更充足的算力支持其处理数据,带来更多高性能的算力芯片需求。英伟达表示,GPT-3 需要 512 颗 V100 显卡训练 7 个月,或者 1024 颗 A100 芯片训练一个月。2012 年以来,AI 训练任务中的算力增长(所需算力每 3.5 月翻一倍)已经超越摩尔定律(晶体管数量每 18 月翻一倍)。网络设施:网络设施:以微软 Azure 为例,其 AI 基础设施由互联的英伟达 Ampere A100 Tensor Core GPU 组成,并由 Quantum infiniBand 交换机提供横向扩展能力。服务器节点多、跨服务器通信需求巨大,网络带宽性能成为服务器节点多、跨服务器通信需求巨大,网络带宽性能成为GPU 集群系统的瓶颈,解决方式包括增加单节点通信带宽与降低网络收集群系统的瓶颈,解决方式包括增加单节点通信带宽与降低网络收敛比敛比,带来光模块、交换机等需求。带来光模块、交换机等需求。下游下游应用场景丰富,多行业落地可期应用场景丰富,多行业落地可期 1)“生成式 AI(generative AI)”在互联网及元宇宙领域市场化空间较为广阔。基于现行的 NLP 算法发展程度及数据集规模。在不久的将来,生成式 AI 有较大可能在“智能客服”和“搜索引擎”进行增值,并有希望以“插件”的形式赋能现有的“生产力工具链(工程软件/音视频制作工具等)”。2)AI在制造业的应用可分为三方面:在制造业的应用可分为三方面:a)智能装备:)智能装备:指具有感知、分析、推理、决策、控制功能的制造装备,典型代表有工业机器人、协作机器人、数控机床等;b)智能工厂:)智能工厂:重点在于实现工厂的办公、管理及生产自动化,典型的代表场景有协作机器人、智能仓储物流系统等;c)智能)智能服务:服务:指个性化定制、远程运维及预测性维护等。3)人工智能在智能汽车领域的应用包括:a)智能驾驶依托 AI,将从驾驶辅助发展至自动驾驶;b)智能座舱在 AI 支持下,从出行工具演变为出行管家。风险提示风险提示 国内大模型不及预期风险;行业竞争加剧风险;AI 应用的伦理道德风险;芯片及技术供应风险;商业模式变现与落地不及预期风险。Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 2/80 证券研究报告 正文正文目录目录 1 引言引言.7 2 CHATGPT 引发人工智能投资热潮引发人工智能投资热潮.8 2.1 CHATGPT 是什么?.8 2.2 CHATGPT 技术和传统的 AI 有什么区别?.9 2.3 CHATGPT 将给行业带来哪些机会?.11 1)语音识别与自然语言处理行业快速发展:.11 2)激活产业链:.12 3 数据要素资源基础,满足大模型训练需求数据要素资源基础,满足大模型训练需求.13 3.1 政策引导数据要素确权使用,扫清人工智能发展障碍.13 3.2 大数据管理能力需求提升.14 3.3 数据标注,是 AI 模型的基础.16 3.4 相关标的.18 1)星环科技:平台、数据库集一身的数据要素稀缺标的.18 2)海天瑞声:人工智能基础数据服务提供商,产品矩阵不断丰富.21 4 CHATGPT 带来的变革带来的变革大模型算法大模型算法.23 4.1 大模型时代的引言:DOUBLE DESCENT(双下降)现象.23 4.2 首要关键技术:TRANSFORMER模型.24 4.3 GPT 快速迭代,从 GPT1.0 迅速步入 3.5 时代.24 4.4 国内外 AI 大模型项目百舸争流.26 4.5 相关标的.30 1)商汤科技.30 2)科大讯飞.32 3)云从科技.33 4)依图科技.34 5)旷视科技.35 5 算力与网络是大模型运行的必要条件算力与网络是大模型运行的必要条件.37 5.1 大模型发展,算力需求激增.37 5.2 GPU/GPGPU/FPGA 多路线支持算力.37 5.3 高带宽网络是对人工智能算力的重要支撑.39 5.4 量子计算有望成为 AI 算力突破的“神助攻”.45 5.5 相关标的.48 1)海光信息:国产 CPU 与 GPGPU 重要参与者.48 2)复旦微电:FPGA 受益算力增长.49 3)中际旭创:全球光模块龙头迎来 800G 时代.51 4)联特科技:欧美中低速 WDM 主流供应商,数通光模块“黑马”.52 5)天孚通信:光通信精益制造代表,光引擎、激光雷达成长速度快.52 6)国盾量子:量子计算机已实现原型机搭建.52 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 3/80 证券研究报告 7)浪潮信息:国内领先 AI 服务器厂商.52 6 从元宇宙到大制造,大模型应用领域不断丰富从元宇宙到大制造,大模型应用领域不断丰富.54 6.1“生成式 AI”在互联网及元宇宙应用.54 1)“生成式 AI”在智能客服领域的潜在应用.54 2)“生成式 AI”在搜索引擎领域的潜在应用.56 6.2 AI 赋能制造业转型升级,智能制造浪潮兴起.63 1)智能装备产业百花齐放,工业机器人与高端数控机床空间广阔.63 2)智能工厂是实现智能制造的载体,协作机器人与智能仓储物流是工厂新星.69 6.3 AI 赋能工业互联网,打造高效率设备管理和生产流程.72 6.4 人工智能助力汽车智能化.75 1)智能驾驶:从驾驶辅助到自动驾驶.75 2)智能座舱:从出行工具到出行管家.77 风险提示:风险提示:.79 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 4/80 证券研究报告 图表目录图表目录 图表图表 1 CHATGPT 开启收费模式开启收费模式.8 图表图表 2 CHATGPT 操作界面操作界面.9 图表图表 3 CHATGPT 模型流程图模型流程图.10 图表图表 4 TRANSFORMER模型工作流程模型工作流程.11 图表图表 5 中国按类别划分的人工智能软件市场中国按类别划分的人工智能软件市场.12 图表图表 6 数据已成为五大核心生产要素之一数据已成为五大核心生产要素之一.13 图表图表 7 2015-2021 年年 GDP 增速与数字经济增速增速与数字经济增速.14 图表图表 8 2015-2020 年数字经济占年数字经济占 GDP 的比重的比重.14 图表图表 9规划提出规划提出“1+7”的指标体系的指标体系.14 图表图表 10 2017 与与 2022 年人均联网设备数量年人均联网设备数量.15 图表图表 11 2017-2022 全球网络流量全球网络流量.15 图表图表 12 全球大数据市场规模全球大数据市场规模.15 图表图表 13 全球大数据软件市场规模全球大数据软件市场规模.15 图表图表 14 我国大数据市场规模我国大数据市场规模.16 图表图表 15 我国大数据软件市场规模我国大数据软件市场规模.16 图表图表 16 人工智能基础数据服务流程与主要产品人工智能基础数据服务流程与主要产品.16 图表图表 17 训练数据需求量(条)训练数据需求量(条).17 图表图表 18 受访者遇到的与数据相关的难题及比例(受访者遇到的与数据相关的难题及比例(%).17 图表图表 19 2017 至至 2029 年中国数据标注行业市场规模年中国数据标注行业市场规模.17 图表图表 20 2021 年我国数据标注行业下游需求占比(年我国数据标注行业下游需求占比(%).17 图表图表 21 面向面向 AI 的数据治理产业图谱的数据治理产业图谱.18 图表图表 22 星环科技发展历程示意图星环科技发展历程示意图.19 图表图表 23 星环科技股权结构星环科技股权结构.20 图表图表 24 星环科技产品格局星环科技产品格局.20 图表图表 25 海天瑞声产品服务矩阵海天瑞声产品服务矩阵.21 图表图表 26 海天瑞声训练数据集服务的算法模型应用场景示意海天瑞声训练数据集服务的算法模型应用场景示意.22 图表图表 27 BIS-VARIANCE图内的双下降曲线图内的双下降曲线.23 图表图表 28 TRANSFORMER模型自监督层结构模型自监督层结构.24 图表图表 29 TRANSFORMER模型架构模型架构.24 图表图表 30 OPENAI GPT 发展历程发展历程.24 图表图表 31 不同模型参数量与模型精度的关系不同模型参数量与模型精度的关系.25 图表图表 32 GPT-3 到到 GPT-3.5 的演进过程的演进过程.26 图表图表 33 大模型发展迭代图大模型发展迭代图.27 图表图表 34 百度文心生态图百度文心生态图.28 图表图表 35 ERNIE3.0 模型架构模型架构.28 图表图表 36 MINDSPORE自动并行框架自动并行框架.29 图表图表 37 大模型训练需求对比大模型训练需求对比.30 图表图表 38 SENSECORE商汤商汤 AI 大装置中心大装置中心.30 图表图表 39 商汤科技主要产品结构商汤科技主要产品结构.32 图表图表 40 科大讯飞业务全景示意图科大讯飞业务全景示意图.33 图表图表 41 云从科技主要产品及服务图谱云从科技主要产品及服务图谱.34 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 5/80 证券研究报告 图表图表 42 依图科技主要解决方案依图科技主要解决方案.35 图表图表 43 旷视科技旷视科技 AIOT 软硬一体化解决方案软硬一体化解决方案.36 图表图表 44 算力需求变化算力需求变化.37 图表图表 45 深度学习中训练和推理的演示深度学习中训练和推理的演示.38 图表图表 46 全球全球 GPU 行业市场规模行业市场规模.38 图表图表 47 中国中国 GPU 行业市场规模行业市场规模.38 图表图表 48 全球全球 FPGA 芯片市场规模芯片市场规模.39 图表图表 49 中国中国 FPGA 芯片市场规模芯片市场规模.39 图表图表 50 AI 加速服务器全球出货量渗透率迅速提升(单位:百万)加速服务器全球出货量渗透率迅速提升(单位:百万).40 图表图表 51 英伟达英伟达 DGX A100 SU(包括(包括 20 台台 DGX A100 服务器)是服务器)是 SUPERPOD 集群基本组成单位集群基本组成单位.40 图表图表 52 腾讯星脉腾讯星脉 AI 集群组网架构集群组网架构.41 图表图表 53 AI 集群高性能方案关键技术组合集群高性能方案关键技术组合.41 图表图表 54 英伟达英伟达 DGX A100 服务器使用了服务器使用了 200G 高速光连接高速光连接.42 图表图表 55 DGX H100 使用了使用了 400G CONNECTX-7 网卡网卡.42 图表图表 56 英伟达英伟达 QUANTUM-2 INFINIBAND交换机提供交换机提供 64*400GBPS交换容量交换容量.42 图表图表 57 微软数据中心网络微软数据中心网络 2024 年部署将全部为年部署将全部为 400G.43 图表图表 58 微软微软 400G 数据中心网络架构数据中心网络架构.43 图表图表 59 数据中心数据中心 200G 以上高速光模块出货量高速增长以上高速光模块出货量高速增长.44 图表图表 60 交换机芯片通过交换机芯片通过 SERDES直驱光模块实现高频电信号走线缩短直驱光模块实现高频电信号走线缩短.45 图表图表 61 全球量子计算市场或在全球量子计算市场或在 2025 年达到年达到 12 亿美金亿美金.45 图表图表 62 量子计算未来三年主要市场结构量子计算未来三年主要市场结构.46 图表图表 63 量子计算未来三年主要应用的算法领域量子计算未来三年主要应用的算法领域.46 图表图表 64 学术界目前探讨的量子计算可能展现出优势的人工智能算法学术界目前探讨的量子计算可能展现出优势的人工智能算法.46 图表图表 65 变分量子算法示意图变分量子算法示意图.47 图表图表 66 剑桥量子计算公司(剑桥量子计算公司(CQC)首次在量子计算机执行自然语言处理测试获得成功)首次在量子计算机执行自然语言处理测试获得成功.48 图表图表 67 海光海光 DCU 基本架构基本架构.49 图表图表 68 海光海光 8100 系列产品主要规格和特点系列产品主要规格和特点.49 图表图表 69 复旦微电产品主要规格和特点复旦微电产品主要规格和特点.50 图表图表 70 FPGA 结构特点结构特点.51 图表图表 71 全球全球“对话对话 AI(CONVERSATIONAL AI)”市场空间市场空间.55 图表图表 72“智能对话机器人智能对话机器人”在各领域全球市场空间(亿在各领域全球市场空间(亿 USD).55 图表图表 73 全球全球“智能对话机器人智能对话机器人”智能客服领域市场空间智能客服领域市场空间(亿亿 USD).56 图表图表 74 智能对话机器人智能对话机器人-电商客服领域全球市场空间测算电商客服领域全球市场空间测算(亿亿 USD).56 图表图表 75 谷歌服务谷歌服务(GOOGLE SERVICES)收入收入(亿亿 USD).57 图表图表 76 GPT3 各类模型的训练的参数量各类模型的训练的参数量.58 图表图表 77 GPT 模型训练成本模型训练成本.58 图表图表 78“生成式生成式 AI”对搜索引擎的影响对搜索引擎的影响.59 图表图表 79 生成式生成式 AI 与搜索引擎结合面临的挑战与搜索引擎结合面临的挑战.59 图表图表 80“生成式生成式 AI”的应用的应用 新新 BING(NEW BING)搜索案例展示搜索案例展示.60 图表图表 81“生成式生成式 AI”的应用的应用 新新 BING(NEW BING)可对话的领域举例可对话的领域举例.60 图表图表 82“生成式生成式 AI”的应用的应用 谷歌巴德谷歌巴德.61 图表图表 83 百度文心全景图、历程和架构百度文心全景图、历程和架构.62 图表图表 84 人工智能在制造业的应用人工智能在制造业的应用.63 图表图表 85 工业机器人应用汇总工业机器人应用汇总.64 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 6/80 证券研究报告 图表图表 86 2015-2022 年中国工业机器人产量年中国工业机器人产量.64 图表图表 87 2015-2022 年中国工业机器人销量年中国工业机器人销量.64 图表图表 88 2017-2024 年全球工业机器人市场规模(销售额口径)年全球工业机器人市场规模(销售额口径).65 图表图表 89 2017-2024 年中国工业机器人市场规模(销售额口径)年中国工业机器人市场规模(销售额口径).65 图表图表 90 高端数控机床的基础构成高端数控机床的基础构成.66 图表图表 91 高端数控机床的下游应用高端数控机床的下游应用.66 图表图表 92 中国数控机床下游应用领域占比中国数控机床下游应用领域占比.67 图表图表 93 2017-2022 年中国数控机床市场规模统计预测年中国数控机床市场规模统计预测.67 图表图表 94 我国支持高端数控机床发展的文件我国支持高端数控机床发展的文件/政策政策.68 图表图表 95 中国机床消费结构中国机床消费结构.69 图表图表 96 机床更新需求测算机床更新需求测算.69 图表图表 97 协作机器人特点协作机器人特点.70 图表图表 98 2021 年中国协作机器人应用行业分布年中国协作机器人应用行业分布.70 图表图表 99 2016-2021 年中国协作机器人市场规模年中国协作机器人市场规模.70 图表图表 100 仓储物流自动化系统构成仓储物流自动化系统构成.71 图表图表 101 工业生产物流示意图工业生产物流示意图.71 图表图表 102 商业配送物流示意图商业配送物流示意图.71 图表图表 103 智能仓储物流与传统仓储物流对比智能仓储物流与传统仓储物流对比.72 图表图表 104 2017-2026 年中国智能仓储物流市场规模及预测年中国智能仓储物流市场规模及预测.72 图表图表 105 2018-2022 年中国工业互联网市场规模年中国工业互联网市场规模.73 图表图表 106 鼎捷经营管理、生产控制方案鼎捷经营管理、生产控制方案.74 图表图表 107 智能运维平台智能运维平台.74 图表图表 108 中望软件中望软件 3D 仿真仿真.75 图表图表 109 汽车驾驶自动化等级划分汽车驾驶自动化等级划分.76 图表图表 110 中国中国 L2 及以上智能汽车销量及渗透率及以上智能汽车销量及渗透率.76 图表图表 111 中国智能座舱市场规模及预测中国智能座舱市场规模及预测.77 图表图表 112 集度:汽车机器人将融合百度文心一言全面能力集度:汽车机器人将融合百度文心一言全面能力.78 图表图表 113 长安深蓝:假如把长安深蓝:假如把 CHATGPT 装进长安深蓝装进长安深蓝 SL03.78 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 7/80 证券研究报告 1 引言引言 ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用上亿参数的大模型和海量语料库来生成语句,目前可以实现写诗、撰文、编码的功能。ChatGPT 广受用户欢迎,短短五天注册用户数量便超过 100 万,60 日月活破亿。产业界如微软、谷歌、百度也对于 openAI 及其竞品加大投入。1.逻辑一:大模型需求带动算法公司景气度逻辑一:大模型需求带动算法公司景气度。从技术层面看,ChatGPT 算法精确度来源于引入数以亿计的模型参数,即大模型。大模型。除了 OpenAI 的 GPT-3 模型外,各大公司正在孵化的大模型项目也值得关注:1)MT-NLG:微软英伟达强强联手,软硬结合引领行业新景。2021 年 10 月 11 日,微软和英伟达推出的自然语言生成模型(MT-NLG),具有 5300 亿个参数;2)Switch Transformers:Google 推出的首个万亿级语言模型,将参数值拉升至 1.6 万亿个;3)文心一言:2022 年 11 月 30 日,百度集团公布了文心大模型的最新升级,包括新增 11 个大模型,大模型总量增至 36个,构建起国内业界规模最大的产业大模型体系。除互联网科技巨头外,建议关注:建议关注:科大讯飞、商汤科技、云从科技、依图科技、旷视科技等。科大讯飞、商汤科技、云从科技、依图科技、旷视科技等。2.逻辑逻辑二二:巨头在大模型算法的投入加大,激活产业链。巨头在大模型算法的投入加大,激活产业链。算法模型的训练需要在算力算力与网络、数据服务与网络、数据服务等方面的巨大研发投入。算力算力方面,核心为 GPUGPGPUFPGA 等半导体芯片,其中可以关注 1)GPU:CPU搭配 GPU 是目前深度学习的主流方案;2)GPGPU:去掉 GPU 的图形显示部分,将其余部分全部投入通用计算,在 AI、数据分析和 HPC 等场景下可以广泛应用;3)FPGA:可编程的 FPGA 芯片也逐渐提升市场份额。相关标的包括:相关标的包括:海光信息海光信息、复旦微电、浪潮信息复旦微电、浪潮信息、紫光股份、紫光股份等。等。网络设施网络设施方面,服务器增加带动跨服务器通信需求,网络带宽性能成为 GPU 集群系统的瓶颈,解决的方式包括增加单节点通信带宽、降低网络收敛比。由此带来光模块、交换机等需求。相关标的包括:中际旭创、联特科技、天孚通信、国盾量子等。相关标的包括:中际旭创、联特科技、天孚通信、国盾量子等。数据服务数据服务方面,数据采集、数据标注和数据质检是较为重要的三个环节。ChatGPT的前身 GPT-3 就使用了 3,000 亿单词、超过 40T 的大规模、高质量数据进行训练。随着大模型的发展,对于训练数据的需求成指数增长。相关标的包括:星环科技相关标的包括:星环科技、海、海天瑞声。天瑞声。3.逻辑三:逻辑三:AI 下游下游应用领域逐步扩大。应用领域逐步扩大。随着大模型的不断完善,未来有望应用于更多场景之下。包括互联网及元宇宙领域、工业领域、智能汽车与智能座舱,达到下游用户的降本增效。随着商业模式与应用前景明朗,进一步反哺大模型投入。Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 8/80 证券研究报告 2 ChatGPT 引发人工智能投资热潮引发人工智能投资热潮 2.1 ChatGPT 是什么是什么?ChatGPT 是由 OpenAI 研发的一种语言 AI 模型,使用海量语料库来生成与人类相似的反应。ChatGPT 是基于 GPT(generativef pretrained transformer)架构搭建的,主要用深度学习来生成连贯且具有意义的文字。这个模型使用了来自于网站、书本和社交媒体的海量文字数据,因此也为 ChatGPT 在保证准确性和细节的同时,提供了广泛的对话反馈。对话反馈是 ChatGPT 的核心功能之一,也使它成为了实现聊天机器人或其他对话型 AI 的理想技术。除对话功能外,ChatGPT 也具有实现各类语言相关任务的能力,包括文章精炼、翻译以及情绪分析等。以上各类语言能力在大规模的训练数据和升读学习架构下,使ChatGPT 成为目前应用最为先进的语言模型之一。总体上,总体上,ChatGPT 标志着自然语言处理(标志着自然语言处理(NLP)和对话)和对话 AI 领域的一大步,其高质领域的一大步,其高质量文字产出能力在商业、研究和开发活动中提高用户体验的方向上非常有应用价值的。量文字产出能力在商业、研究和开发活动中提高用户体验的方向上非常有应用价值的。截至目前,GPT 已经经历了如下演化:1.GPT-1:第一代 GPT 语言模型,发布于 2018 年。它有 1.17 亿个参数,使用网页的文字数据进行训练。2.GPT-2:发布于 2019 年,具有 15 亿个参数,使用的网页文字数据量也远大于前一代。它已经可以生成高质量的文字,甚至完成翻译、精炼文字等简单任务。3.GPT-3:发布于 2020 年,具有 1750 亿个参数,使用网页以及其他来源的文字进行训练。它已经可以进行担任各类任务,被认为是语言模型领域的显著突破。图表图表 1 ChatGPT 开启收费模式开启收费模式 资料来源:OpenAI,华安证券研究所 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 9/80 证券研究报告 2.2 ChatGPT 技术技术和传统的和传统的 AI 有什么区别?有什么区别?相比传统 AI 算法,GPT 模型的区别在于通过海量参数,进一步提升了模型的精确度。初代的 GPT 模型参数是 1.17 亿,而 GPT2 的模型有 15 亿个参数,参数增加了 10倍之多。第三代的 GPT3 模型,参数达到了 1750 亿,是 GPT2 参数的 100 倍。正是由于参数的指数级提升,使得模型的使用效果大幅提升。而此类参数上亿的模型,通常称而此类参数上亿的模型,通常称之为之为“大模型大模型”。GPT 模型基于 Transformer 架构,这是一种由谷歌的 Vaswani 等人于 2017 年引入的神经网络类型。Transformer 架构特别擅长对序列数据中的长距离依赖进行建模,这使其非常适合自然语言处理任务。为了训练 GPT 模型,OpenAI 使用了来自互联网的大量文本数据,包括书籍、文章和网站。该模型使用一种称为无监督学习的技术进行训练,这意味着它学会了在没有人类监督的情况下预测文本序列中的下一个单词。GPT 模型能够生成连贯和语法正确的文本,已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。图表图表 2 ChatGPT 操作界面操作界面 资料来源:openAI,华安证券研究所 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 10/80 证券研究报告 Transformer 模型是一种用于自然语言处理的神经网络模型。与传统的循环神经网络(RNN)不同,Transformer 模型使用自注意力机制(self-attention)来处理输入序列中不同位置之间的依赖关系。Transformer 模型由编码器和解码器两部分组成。编码器将输入序列中的每个单词表示为一个向量,并通过多层自注意力和前馈神经网络来对输入序列进行编码。解码器则使用相同的自注意力和前馈神经网络来生成输出序列。在自注意力机制中,模型根据输入序列中的所有单词计算出每个单词与其他单词的相关性,然后使用这些相关性加权求和得到每个单词的表示向量。这种方法使得模型能够处理长序列和跨越序列中的依赖关系,从而提高了模型的性能。Transformer 模型已经在自然语言处理领域取得了很好的效果,包括机器翻译、文本摘要和问答系统等任务。它是目前最先进的语言模型之一,也是开发其他自然语言处理模型的基础。图表图表 3 ChatGPT 模型流程图模型流程图 资料来源:OpenAI,华安证券研究所 0%5%10%15%20%25%30%35%40%201520162017Q3西北华北东北西南中南华东Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 11/80 证券研究报告 2.3 ChatGPT 将给行业带来哪些机会?将给行业带来哪些机会?相比其他此前的人工智能技术与进展,ChatGPT 之所以引发关注,主要总结为以下几点:1)从使用效果上,交流通畅,同时能够实现写诗、撰文、编码的功能。2 月 1 日,以色列总统艾萨克赫尔佐格(Isaac Herzog)发表了部分由人工智能(AI)撰写的演讲;2)受用户欢迎。短短 5 天,注册用户数就超过 100 万。60 天月活破亿。3)商业模式产生变化。2023 年 2 月 2 日,美国人工智能(AI)公司 OpenAI 发布ChatGPT 试点订阅计划。4)产业界也表现出对Chatgpt的关注。表现为:1)1月23日,微软宣布向ChatGPT开发者 OpenAI 追加投资数十亿美元;2)谷歌 3 亿美元投资 Chatgpt 竞品。3)百度将于 3 月发布类似 Chatgpt 的 AI 服务。由此带来相关产业链的大变革:1)语音识别与自然语言处理行业快速发展语音识别与自然语言处理行业快速发展:人工智能,也即解决像人一样看、听、思考的问题。因此,按照此维度来划分,划分为计算机视觉、语音识别与自然语言处理及数据科学。早先,2020 年数据显示,计算机视觉占比约 56.6%;语音识别与自然语言处理占比约 35.6%。也即,在机器视觉领域的应用,相比自然语言处理,更为成熟,市场规模更大。但随着 ChatGPT 带来的投资热潮,与应用领域的不断丰富,音频与自然语言处理的整体行业规模,有望迅速增长。图表图表 4 transformer 模型工作流程模型工作流程 资料来源:machine learning mastery,华安证券研究所 Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 12/80 证券研究报告 2)激活激活产业链产业链:整个人工智能的产业链包括算力、数据、算法乃至下游应用。算力算力与网络与网络:英伟达的研究表示,GPT-3 模型需要使用 512 颗 V100 显卡训练 7 个月时间,或者使用 1024 颗 A100 芯片训练长达一个月的时间。随着各大科技厂商投入对大模型的研发,势必增加芯片、服务器等算力需求。同时,庞大的 AI 算力集群,又需要高带宽支撑数据传输。数据:数据:数据采集、数据标注和数据质检是较为重要的三个环节。从自然数据源简单收集取得的原料数据并不能直接用于有效监督的深度学习算法训练,经过专业化采集、加工形成的训练数据集才能供深度学习算法等训练使用,由此带来数据服务需求。算法:算法:相比传统 AI 模型,大模型的优势体现在:1)解决 AI 过于碎片化和多样化的问题;2)具备自监督学习功能,降低训练研发成本;3)摆脱结构变革桎梏,打开模型精度上限。对于大模型算法的研发、优化,亦是投入的重点。下游应用:下游应用:产业界一直以来都在寻求人工智能的应用领域、商业模式突破。随着大模型使用、人工智能算法精度提升,下游应用的扩展可期。图表图表 5 中国按类别划分的人工智能软件市场中国按类别划分的人工智能软件市场 资料来源:商汤科技招股说明书,华安证券研究所 56.60%35.60%7.80%计算机视觉音频与自然语言处理数据科学Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 13/80 证券研究报告 3 数据数据要素要素资源基础资源基础,满足大模型训练需求,满足大模型训练需求 3.1 政策引导政策引导数据要素数据要素确权使用确权使用,扫清人工智能发展障碍,扫清人工智能发展障碍 数据已成为五大核心生产要素之一。数据已成为五大核心生产要素之一。2020 年 4 月中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见中发布。这是数据作为新型生产要素首次在中央顶层文件中提出。而后,2022 年 4 月国务院关于加快建设全国统一大市场的意见中,进一步提到加快培育数据要素市场,建立数据资源产权相关基础制度。2022 年 12 月 9 日,财政部发布关于征求企业数据资源相关会计处理暂行规定(征求意见稿)意见的函,具体提出了企业数据资源相关会计、处理的方式方法,进一步扫清了数据要素市场建立、数据资源交易的障碍。当前,2022 年 12 月发布 关于构建数据基础制度更好发挥数据要素作用的意见,是数据要素体系建设中,顶层关键文件,扫除了未来人工智能发展中需要使用数据的障碍:1)建立保障权益,合规使用的数据产权制度;2)建立合规高效的场内外结合的数据要素流通和交易制度。3)建立体现效率促进公平的数据要素收益分配制度。4)建立安全可控弹性包容的数据要素治理制度。图表图表 6 数据已成为五大核心生产要素之一数据已成为五大核心生产要素之一 资料来源:中国信通院,华安证券研究所 数字经济快速发展,数据要素成为重要战略资源。数字经济快速发展,数据要素成为重要战略资源。“十四五”数字经济发展规划中指出,数字经济是继农业经济、工业经济之后的主要经济形态。规划 设定了到 2025年实现数字经济核心产业增加值占 GDP 比重达到 10%的目标,涵盖数据要素市场、产业数字化、数字产业化、数字化公共服务、数字经济治理体系五个方面。从 2015 年至今,数字经济平均增速持续高于 GDP 增速,2021 年数字经济占 GDP 比重已经由 2015年的 27%提升至 40%。Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 14/80 证券研究报告 图表图表 7 2015-2021 年年 GDP 增速与数字经济增速增速与数字经济增速 图表图表 8 2015-2020 年数字经济占年数字经济占 GDP 的比重的比重 资料来源:WIND,华安证券研究所 资料来源:中国信通院,华安证券研究所 图表图表 9规划提出“规划提出“1+7”的指标体系”的指标体系 资料来源:“十四五”数字经济规划,华安证券研究所 3.2 大数据管理能力需求提升大数据管理能力需求提升 联网设备高增之下,流量增长不可避免。根据思科的年度互联网报告,到 2023年,地球上的连网设备数量将是全球人口的大约三倍,从 2017 年的人均 2.4 台提升至3.6 台。由于 IP 地址即网络地址+主机地址,网络站点所连接的 IP 数量也处于爆发的阶段。根据 IDC 的中国物联网连接规模预测,2020-2025,仅我国物联网 IP 连接量已在 2020 年达 45.3 亿,有望在 2025 年达到 102.7 亿,CAGR 为 17.8%。由于 IP 地址联网后即产生数据流量,IP 地址的数量增长即代表全网数据也将继续大增,对于现有的网络企业的承载能力提出了考验。根据思科的年度互联网报告,2022 年全球网络数据流量将达 799EB(1EB=十亿 GB),同比增长 21%。我们认为,数据流量的增长,有望直接带动大数据产业的发展,而其中稳定优质响应快的数据库性价比更高。7.0%8.4%11.5%10.5%7.3%3.0%15.8%18.9%20.3%20.9%15.6%9.7%0%5%10%15%20%25%201520162017201820192020GDP增速(%)数字经济增速(%)27.0%30.3%32.7%34.0%36.3%38.6%39.6%73.0%69.7%67.3%66.0%63.7%61.4%60%0%20%40%60%80%100%2015201620172018201920202021数字经济占GDP比重(%)其他(%)Table_CompanyRptType 行业研究行业研究 敬请参阅末页重要声明及评级说明 15/80 证券研究报告 图表图表 10 2017 与与 2022 年人均联网设备数量年人均联网设备数量 图表图表 11 2017-2022 全球网络流量全球网络流量 资料来源:思科,华安证券研究所 资料来源:思科,华安证券研究所 全球大数据市场存量巨大,软件市场占比较高且增速快。根据 Wikibon 及沙利文研究数据,全球大数据市场规模有望在 2022 年达 718 亿美元,同比增速 11%;而其中全球大数据软件伟 28

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开