温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
12
ChatGPT
深度
拆解
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 ChatGPT:深度拆解:深度拆解 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 彭钢彭钢 SAC No.S0570121070173 +(86)21 2897 2228 联系人 林海亮林海亮 SAC No.S0570122060076 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 2 月 09 日中国内地 专题研究专题研究 ChatGPT 引发引发范式革命范式革命,AI 产业发展前景可期产业发展前景可期 近期由 OpenAI 团队发布的聊天机器人软件 ChatGPT,凭借类人的语言理解和表达能力,引发 AI 产业范式革命。通过拆解 ChatGPT,我们发现:1)单一大模型或为未来 AI 训练主流方向;2)大模型训练可以积累底层语言能力,但需要大算力支持;3)预训练语言模型和 Transformer 架构是模型底层能力的根源;4)ChatGPT 商业化应用前景广阔。基于此,我们认为国产厂商或将训练出自己的 GPT 模型,AI 产业有望迎来景气周期。目前国内在模型层面具备产业基础的相关企业包括:百度、商汤、云从科技等;在应用层持续推出新应用的相关企业包括:科大讯飞、金山办公、同花顺、汉王科技等;在底层基础设施和工具有布局的相关企业包括:寒武纪、景嘉微等。背景:发源于背景:发源于 OpenAI,成名于生成式语言,成名于生成式语言 OpenAI 于 2015 年在旧金山成立,主要从事人工智能研究。2019 年 OpenAI收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。2020 年发布GPT-3 语言模型,由微软获得独家授权。2022 年,OpenAI 在 GPT-3.5 的基础上推出了 ChatGPT,强化了人工智能的语言对话能力,引起社会广泛关注。2023 年,微软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。原理:原理:AI 大模型里程碑式的胜利大模型里程碑式的胜利 ChatGPT 采用监督学习+奖励模型进行语言模型训练,主要包括三个步骤:1)第一阶段:训练监督策略模型。在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程;2)第二阶段:训练奖励模型。借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准;3)第三阶段:采用近端策略优化进行强化学习。通过监督学习策略生成 PPO 模型,将最优结果用于优化和迭代原有的 PPO 模型参数。我们认为,ChatGPT 的训练过程采用单一模型+小样本学习+人类微调监督方式进行,取得了良好效果,验证了 AI 大模型应用前景,大模型路线有望成为未来主流。模型:三个维度拆解模型:三个维度拆解 GPT 模型特征模型特征 我们认为,ChatGPT 的成功离不开 AI 大模型的加持,强大的算法训练模型,使得 ChatGPT 在迭代中获得实现接近自然语言的表达能力。拆解模型来看:1)ChatGPT 使用单一大模型,积累强大底层通用能力,背后来自微软丰富的算力资源支持,并通过引入监督学习,有效填补了大模型同质化漏洞;2)模型的具体训练模式,采用的是预训练语言模型,而预训练语言模型无需人工标签,具备高效性、通用性与正则化等内生优势,且二代模型具备上下文交互能力,推动模型语义理解能力升级;3)Transformer 是大模型高效运行的根基,天然适合高并发训练,通过编码器堆叠实现底层架构搭建。应用:打开应用:打开 AIGC 应用新局面应用新局面 ChatGPT 属于 AIGC 的具体应用,相比过去的 AI 产品,在模型类型、应用领域、商业化等层面呈现出新的特点。1)技术方面:ChatGPT 属于自然语言处理领域,与早期的自然语言技术相比,ChatGPT 采用大模型进行训练,并加入人工反馈增强学习(RLHF)方法,实现了效果提升;2)应用方面:ChatGPT 属于生成式 AI,相比于分析型 AI,不局限于已有的内容,已在文艺创作,代码处理,营销等多个创造性场景内得到应用;3)商业化方面:ChatGPT 在商业化方面彰显出强于以往 AI 应用的潜力,一方面用户数快速增长,另一方面得到了微软为代表的科技巨头的支持,应用有望快速推广。风险提示:宏观经济波动;下游需求不及预期。(33)(24)(16)(7)2Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 背景:发源于背景:发源于 OpenAI,成名于生成式语言,成名于生成式语言.3 原理:原理:AI 大模型里程碑式的胜利大模型里程碑式的胜利.5 模型:三个维度拆解模型:三个维度拆解 GPT 模型特征模型特征.7 维度一:单一大模型.7 维度二:预训练语言模型.10 维度三:Transformer 特征抽取器.12 应用:打开应用:打开 AIGC 应用新局面应用新局面.14 技术新:Transformer 架构+RLHF,NLP 领域迎来新突破.14 应用新:生成式 AI 应用于创造性工作.15 商业化潜力:巨头纷纷发力,商业化潜力较大.16 风险提示风险提示.17 获取更多最新资料请加微信:ch e n s a s a 666rYhUiYnVcVrVnMqR9PaOaQoMrRnPsRkPnNtRiNrRzQ9PrQuMxNpOnQxNmQmR 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 背景:背景:发发源于源于 OpenAI,成名于生成式语言,成名于生成式语言 OpenAI是一家是一家世界领先的世界领先的非非营利营利性人工智能研究公司性人工智能研究公司。OpenAI于2015年在旧金山成立,是一家非营利的人工智能研究公司,公司的目标是以最有可能造福全人类的方式推进人工智能,而不受财务回报需求的约束。OpenAI 创始人背景深厚,由埃隆 马斯克与硅谷孵化器 Y Combinator 投资人山姆 阿尔特曼等人联合创立。公司研究人员经验丰富,包括前Google Brain 研究科学家伊利亚苏茨凯弗与前 Stripe 首席技术官格雷格布罗克曼等世界一流研究工程师与科学家。微软持续增资,布局生成式微软持续增资,布局生成式 AI 技术技术。2018 年,随着特斯拉对 AI 的应用深入,为避免潜在利益冲突,马斯克主动离任董事会,仅保留捐资人和顾问的身份。由于 AI 训练花费金额巨大,2019 年公司从非营利性公司转向部分盈利公司,成立了 OpenAI LP 利润上限子公司,即任何对 OpenAI LP 投资的收益都将统一转移至一家非盈利公司,回报达到投资的 100 倍后进行利润分配。同年,OpenAI 收到微软注资 10 亿美元,就 Azure 业务开发人工智能技术。2020 年发布 GPT-3 语言模型,由微软获得独家授权。2022 年发布 ChatGPT 的自然语言生成式模型,带来更大潜在应用空间。2023 年,微软拟对 OpenAI 追加数十亿美元投资,利用自身算力基础设施资源发挥与 OpenAI 业务协同效应,深入布局生成式 AI 技术。OpenAI 产品发布密集,产品涵盖产品发布密集,产品涵盖音频制作音频制作、图像生成和、图像生成和语言语言对话人工智能。对话人工智能。2016 年,推出用于开发和比较强化学习算法的工具包 OpenAI Gym,加速公开社会中 RL 研究进度。同时推出 Universe 软件平台,用于测试和训练 AI 在全球游戏、网站和其他应用程序中的智能程度。2019 年,OpenAI 推出深度神经网络 MuseNet,可以使用 4 种不同的乐器生成 10 分钟的音乐作品以及最终模型版本的 GPT-2。2020 年,研发团队在 GPT-2 的基础上拓展参数,发布了 GPT-3 语言模型。2021 年,发布了转换器语言模型 DALLE,从文本描述生成图像。2022 年,OpenAI 在 GPT-3.5 的基础上推出了 ChatGPT,强化了人工智能的语言对话能力,引起社会广泛关注。图表图表1:OpenAI 产品产品 资料来源:OpenAI 官网、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 OpenAI当前盈利主要通过付费当前盈利主要通过付费 API接口,并尝试拓展盈利模式。接口,并尝试拓展盈利模式。目前,OpenAI提供GPT-3、Codex 以及 DALLE 的 API 数据接口,分别执行用户自然语言任务、自然语言转换为代码的任务以及创建和编辑图像的任务。API 接口根据类型不同以流量收费,比如图像模型以分辨率分类按张数收费,语言模型则以基于的子模型型号按字符数收费。OpenAI API 盈利情况较好,据路透社数据,OpenAI 2022 年收入数千万美元,公司预计 2023 与 2024 年收入分别为 2 亿美元和 10 亿美元。同时,OpenAI 正尝试拓展自身盈利模式,2023 年 1 月试点推出订阅制 ChatGPT Plus,收取每月 20 美元的会员费以得到各类优先服务。图表图表2:OpenAI API 价格价格 模型类型模型类型 细分细分 价格(美元)价格(美元)模型类型模型类型 细分细分 训练价格(美元)训练价格(美元)使用价格(美元)使用价格(美元)图像模型 10241024 0.02/张 微调模型 Ada 0.0004/千字符 0.0016/千字符 512512 0.018/张 Babbage 0.0006/千字符 0.0024/千字符 256256 0.016/张 Curie 0.0030/千字符 0.0120/千字符 语言模型 Ada 0.0004/千字符 Davinci 0.0300/千字符 0.1200/千字符 Babbage 0.0005/千字符 Curie 0.0020/千字符 模型类型模型类型 细分细分 价格(美元)价格(美元)Davinci 0.0200/千字符 嵌入模型 Ada 0.0004/千字符 资料来源:OpenAI 官网、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 原理原理:AI 大模型里程碑式的胜利大模型里程碑式的胜利 ChatGPT 采用采用监督学习监督学习+奖励模型进行语言模型训练奖励模型进行语言模型训练。ChatGPT 使用来自人类反馈的强化学习(RLHF)来训练该模型。首先使用监督微调训练了一个初始模型:人类 AI 训练员提供对话,他们在对话中扮演双方用户和 AI 助手。其次,ChatGPT 让标记者可以访问模型编写的建议,以帮助他们撰写回复。最后,ChatGPT 将这个新的对话数据集与原有数据集混合,将其转换为对话格式。具体来看,主要包括三个步骤:1)第一阶段:训练监督策略模型)第一阶段:训练监督策略模型。在 ChatGPT 模型的训练过程中,需要标记者的参与监督过程。首先,ChatGPT 会从问题数据集中随机抽取若干问题并向模型解释强化学习机制,其次标记者通过给予特定奖励或惩罚引导 AI 行为,最后通过监督学习将这一条数据用于微调 GPT3.5 模型。2)第二阶段:训练奖励模型)第二阶段:训练奖励模型。这一阶段的主要目标,在于借助标记者的人工标注,训练出合意的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套数据结果用于训练奖励模型。3)第三阶段:采用近端策略优化进行强化学习)第三阶段:采用近端策略优化进行强化学习。近端策略优化(Proximal Policy Optimization)是一种强化学习算法,核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为Off-policy,即将在线学习转化为离线学习。具体来说,也就是先通过监督学习策略生成 PPO模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代原有的 PPO 模型参数。往复多次第二阶段和第三阶段,从而得到参数质量越来越高的 ChatGPT 模型。图表图表3:ChatGPT 模型原理模型原理 资料来源:OpenAI 官网、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 从 ChatGPT 的训练原理中,我们不难发现,这一训练过程存在几个特点:1)采用的是单一大模型)采用的是单一大模型。在 GPT 模型兴起之前,大多数 AI 模型主要是针对特定应用场景需求进行训练的小模型,存在通用性差、训练数据少、适应范围小的弊端。而我们看到,ChatGPT 虽然在过程中使用了奖励模型等辅助手段,但最终用于实现自然语言理解和生成式功能的主模型只有一个,但却在语义理解、推理、协作等方面表现出了更强能力。因此,我们认为,ChatGPT 的成功,验证了参数增长、训练数据量增大,对 AI 模型的重要意义。2)采用的是采用的是小样本学习小样本学习方法方法。在小样本学习(Few-shot Learning)方法下,AI 预训练模型在不必使用大量标记的训练数据,就可以建立起比较通用的泛化能力。简单来说,小样本学习即是在给定有限信息和较少训练数据的情况下,尝试对总体规律进行理解和预测,这一过程类似于“学习如何去学习”。对于小样本学习在 ChatGPT 中的应用,我们认为,这一方法解决了大模型数据标注工作量巨大的问题,是模型得以迅速迭代的基础。3)采用人类反馈微调监督学习采用人类反馈微调监督学习。ChatGPT 是从 GPT3.5(即 InstructGPT)改进而来的版本,相比于前代,ChatGPT 主要变化在于采用了人类反馈机制,对监督学习过程进行微调。本质上来说,无论是大模型还是小样本学习,解决的目标都是提升训练的效率,但真正令ChatGPT 实现结果准确、合理的关键技术,还是在于加入了人类反馈。据 Long Ouyang等人 2022 年发表的Training language models to follow instructions with human feedback,InstructGPT 仅用 13 亿个参数就实现了比 1750 亿个参数的 GPT-3 更优的输出解雇,显著提升了真实性、减少了有害信息的输出。获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 模型模型:三个维度三个维度拆解拆解 GPT 模型模型特征特征 拆解拆解 GPT 模型可以帮助理解模型可以帮助理解 ChatGPT 之所以强大的原因之所以强大的原因。从前面的讨论中,我们发现,ChatGPT 的成功离不开 AI 大模型的加持,强大的算法训练模型,使得 ChatGPT 在迭代中获得实现接近自然语言的表达能力。而这一切的核心,都来自一个模型:GPT 模型。因此,我们以 GPT 模型为核心,从三个维度出发去拆解 GPT 模型,以此进一步挖掘 ChatGPT 强大背后的原因。维度一:单一大模型维度一:单一大模型 ChatGPT 使用单一大模型,积累强大底层通用能力使用单一大模型,积累强大底层通用能力。对于 ChatGPT 所用到的训练模型,从模型体量来看,属于 AI 单一大模型的范畴。对比传统 AI 训练模型,单一大模型的“大”体现在:1)更多的模型参数量;2)更大的数据处理量;3)更大的训练计算量。模型体量的增大,带来的最直接变化,在于 AI 模型通用能力的跨越式提升。传统的 AI 训练方法,大多以单一知识领域的应用为目标,主要使用特定领域有标注的数据进行模型训练,模型通用性差,如果更换使用场景,往往需要进行重新训练。而大模型的训练,一是能使用的数据来源更加广泛,可用数据量更大;二是对标注要求更低,只需要对数据进行微调甚至不调就可以用于训练;三是输出的能力更加泛化通用,在语义理解、逻辑推理、文本表达等方面能力更出众。从通用到特殊,单一大模性从通用到特殊,单一大模性具备具备丰富的丰富的垂直领域应用潜力垂直领域应用潜力。基于对底层能力的训练,AI 大模型积累了对于数据背后特征和规则的理解,因此在进行垂直领域的时候,可以做到“举一反三”。这一过程,与人类学习知识的过程类似,都是先学习如何去学习,再构建听说读写能力,最后在不同学科深入探索。AI 大模型也是一样,在完成通用能力积累之后,可以将学习能力移植到需要应用的特定领域,通过投喂垂直领域数据,可以使模型达到目标场景所需的性能。图表图表4:单一大模性具备丰富的垂直领域应用潜力单一大模性具备丰富的垂直领域应用潜力 资料来源:On the Opportunities and Risk of Foundation Models,李飞飞等,2021、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 大大模型训练模型训练需要大算力支持需要大算力支持,ChatGPT 坐拥丰富算力资源坐拥丰富算力资源。我们认为,从大模型自身的发展过程来看,参数量的变化是一个非常值得关注的指标。从最早的 ResNet、Inception 等模型,到如今的 GPT,模型参数量不断增长。2018 年前后 OpenAI 先后推出 Transformer 和GPT-1 模型,参数量来到 1 亿级别。随后谷歌提出 3 亿参数的 BERT 模型,参数量再次增长。2019、2020 年,OpenAI 加速追赶,陆续迭代出 GPT-2、GPT-3 模型,参数量分别为15 亿、1750 亿,实现模型体量质的飞跃。另一方面,参数运算需要大规模并行计算的支持,核心难点在于内存交换效率,取决于底层 GPU 内存容量。以英特尔为例,从 2017 年 V100的 32GB 内存到 2020 年 A100 的 80GB 内存,GPU 内存容量的提升量级与模型参数相比显然不在同一量级。而 ChatGPT 的解决方法,则是与微软联手,借助 Azure 强大的基础算力设施,为 ChatGPT 提供训练支持。图表图表5:单一大模型的参数量单一大模型的参数量快速增长快速增长 资料来源:Github、华泰研究 AI 大模型大模型会会带来带来特性特性涌现和模型同质化涌现和模型同质化问题问题。2021 年 8 月,李飞飞等学者于 arXiv 发表 On the Opportunities and Risk of Foundation Models,将大模型统一命名为 Foundation Models,即基础模型或基石模型。此外,论文还提出基础模型面临的两大问题:1)同质化。尽管基础模型基于标准的深度学习和迁移学习,但其规模导致了新能力的涌现,其在众多任务中的有效性激励了同质化的产生;2)特性涌现。尽管基础模型即将被广泛部署,但目前研究者对其如何工作、何时失效以及其涌现的特性衍生了何种能力尚缺乏清晰的理解。举例来看,如机器学习的引入,使得算法从数据案例中学会了如何执行(自动推断);深度学习的引入,涌现了用于预测的高级特征;基础模型的引入,涌现了上下文学习等高级功能。但在这一过程中,机器学习使学习算法变得同质化(例如,逻辑回归),深度学习使模型架构同质化(例如,卷积神经网络架构),大模型使得下游模型同质化(例如,下游模型一定会继承上游模型缺陷)。ChatGPT 通过引入监督学习,有效填补了大模型同质化漏洞通过引入监督学习,有效填补了大模型同质化漏洞。从本质上来说,上下游模型同质化的问题无法被完全解决,OpenAI 选择的方向是尽可能填补缺陷漏洞。从 GPT-3.5版本开始,OpenAI 团队在模型中引入了监督学习过程。在监督学习模式下,人类反馈机制开始加入到模型训练过程,从而不断纠正模型生成结果,逐步提升输出结果的准确性和真实性。随着大模型朝着越来越符合人类期望的方向演进,对话逻辑和表达方式逐渐逼近人类水平,才最终达到我们今天所看到的样子。获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 图表图表6:基础模型带来特性涌现和模型同质化基础模型带来特性涌现和模型同质化 资料来源:On the Opportunities and Risk of Foundation Models,李飞飞等,2021、华泰研究 AI 大模型加持下,大模型加持下,ChatGPT 有望加速迭代有望加速迭代。通过拆解单一大模型的原理、特征及发展历程,我们发现单一大模型的引入,是 ChatGPT 强大语言的根本来源。展望未来,我们认为ChatGPT 或将在大模型加持下加速迭代,主要因为:1)大模型训练效果取决于数据量,目前 ChatGPT 仅使用 2021 年之前的数据,随着更多数据的加入,模型底层语言能力有望进一步加强;2)大模型具备能力迁移潜力,垂直领域应用或将加速 ChatGPT 进化;3)OpenAI 背靠微软,大算力资源为模型演进提供保障;4)随着软件用户规模持续扩张,用户自身的反馈又会带来类似监督学习的效果,或将带动 ChatGPT 加速迭代。基于此,我们看好 AI 大模型及 ChatGPT 未来应用前景,商业化落地或将加快。获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 维度二:预训练语言模型维度二:预训练语言模型 拆解模型来看,主要关注预训练语言模型和拆解模型来看,主要关注预训练语言模型和 Transformer 特征抽取器特征抽取器。我们前面讨论了ChatGPT 背后所使用的 AI 大模型及其迭代过程,但如果我们将拆解动作继续深入,在更细颗粒度的视角下,其实可以将训练模型做进一步的拆解。实际上,GPT(General Pre-Training)即通用预训练语言模型,简单来说就是一种利用 Transformer 作为特征抽取器,基于语言模型进行预训练的模型。因此,接下来我们从模型的两个关键特征出发,分别从预训练语言模型和 Transformer 特征抽取器的角度来分析 GPT 模型的迭代过程。预训练语言模型无需人工标签,为预训练语言模型无需人工标签,为 NLP 研究带来质变。研究带来质变。预训练属于迁移学习的范畴,其思想是在利用标注数据之前,先利用无标注的数据,即纯文本数据训练模型,从而使模型能够学到一些潜在的跟标注无关的知识,最终在具体的任务上,预训练模型就可以利用大量的无标注数据知识,标志着自然语言处理模型进入了大规模复制阶段。从实现原理上来看,预训练语言模型是通过计算某个词句 w 的出现概率,即 p(W),在给定词句的情况下,可以自行计算出后一个词或句出现的概率。因此,GPT 的训练可以在无人工标签的基础上进行,通过连续不断地预测、迭代参数、再预测,模型最终实现语言能力的学习。图表图表7:预训练语言模型的实现原理预训练语言模型的实现原理 资料来源:CSDN、华泰研究 预训练语言模型预训练语言模型与神经网络语言模型的区别在于初始参数的选取。与神经网络语言模型的区别在于初始参数的选取。上一代神经网络语言模型训练思想是基于后向传播(BP)算法:先通过对网络模型参数进行随机初始化,然后通过优化算法去优化模型参数。而预训练语言模型的初始参数并非随机,而是先通过一个任务训练得到一套模型参数,再以这套参数对模型初始化,进而继续反复训练。预训练语言模型的预训练语言模型的内生内生优势:高效性、通用性与正则化。优势:高效性、通用性与正则化。模型初始参数选取方式不同使得预训练语言模型拥有诸多优势:1)训练高效性,神经网络语言模型中随机的初始参数加大训练复杂度,而预训练能得到较好的初始化参数,后续训练更加高效。2)语言通用性,经过预训练的语言模型更接近通用语言表示(Universial Language Representations),适应于多领域实际应用场景。3)提供正则化,由于模型复杂性高,神经网络模型的优化算法易陷入过度拟合,导致实际测试表现远低于样本测试表现。预训练模型相当于一个正则化过程,仅通过几步精修得到模型,很大程度上避免了过度拟合。预训练语言模型的预训练语言模型的应用应用优势:对数据处理程度要求低,可利用海量无标注数据。优势:对数据处理程度要求低,可利用海量无标注数据。在大多数基于统计方法和神经网络的自然语言处理模型中都需要大量已标注的数据集来满足模型训练,但并非所有的训练任务都能获取足够的标注信息。同时,随着模型复杂度和参数数量的增加,大多数数据集的大小难以支持训练。而预训练模型能先通过利用无标注的数据训练模型,解决传统模型无法解决的实际问题。而且由于预训练语言模型可以利用现实世界中大量的纯文本数据训练,扩大了其训练范围和规模,拥有发掘大模型(Foundation Models)的潜力。获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 对比两代预训练语言模型,二代模型具备上下文交互能力对比两代预训练语言模型,二代模型具备上下文交互能力。第一代预训练模型是静态词向量模型,经训练给每一个词赋予静态词向量,让相似的词聚集在一起,实现了符号空间到向量空间的映射,经典结构有 Continuous Bag-of-Words(CBOW)和 Skip-Gram(SG)等。而由于第一代模型的词向量静态性,使其不能结合上下文,进而有无法分辩同义词等缺陷。最新的第二代预训练模型,包括 BERT、GPT 等则在此基础上允许静态词向量与上下文交互,这种动态词向量优化了同义词问题。目前,第二代预训练模型的标准范式是“预训练+微调”:首先在大量的文本上训练出一个预训练语言模型,再根据实际情况对得到的预训练语言模型进行微调,加强了模型对下游应用场景的契合度。图表图表8:两代两代预训练预训练语言语言模型模型对比对比 资料来源:Pre-trained Models for Natural Language Processing,邱锡鹏,2020、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 维度三:维度三:Transformer 特征抽取器特征抽取器 Transformer 是大模型高效运行的根基是大模型高效运行的根基。前面我们从单一大模型出发,对预训练语言模型进行了拆解。但如果我们继续深入,会发现语言模型仍然不是 GPT 模型的最底层,语言模型之下还需要有具体的调度架构和运算逻辑,来实现最终的计算。我们认为,Transformer特征抽取器在 GPT 模型中,就承担了这样的一个角色,直接决定了 AI 大模型能否实现高效率的运算和学习。Transformer 模型较模型较 RNN 并行计算能力更强,提升了大模型训练效率并行计算能力更强,提升了大模型训练效率。Transformer 模型最早由谷歌在 2017 年提出,属于深度学习模型架构的一种,特点是在学习中引入了注意力机制。对比循环神经网络(RNN)来看,Transformer 与 RNN 均对输入数据,如自然语言等,进行顺序处理,并主要应用于翻译和文本摘要等工作。但 Transformer 与 RNN 不同的是,Transformer 中的注意机制可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词。因此,与 RNN 相比,Transformer 可以实现更大规模的并行计算,大大减少了模型训练时间,使得大规模 AI 模型得以被应用。Transformer 解码模块是解码模块是 GPT 模型的核心模型的核心要要建建。从 Transformer 架构细节来看,核心是由编码模块和解码模块构成,而 GPT 模型只用到了解码模块。拆解模块来看,大致分为三层:前馈神经网络层、编码/解码自注意力机制层(Self-Attention)、自注意力机制掩码层。其中,自注意力机制层主要作用在于计算某个单词对于全部单词的权重(即 Attention),掩码层则需要在这一过程中帮助模型屏蔽位于计算位置右侧尚未出现的单词,最后输出的向量结果输入前馈神经网络,完成模型参数计算。图表图表9:Transformer 解码模块拆解解码模块拆解 资料来源:CSDN、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 计算机计算机 解码模块解码模块大量大量堆叠,最终形成堆叠,最终形成 GPT 模型完整架构模型完整架构。在 GPT 模型中,解码模块相当于基本架构单元,通过彼此堆叠的方式,拼凑成最终我们看到的 GPT 模型底层架构。这里有两个值得关注的要点:1)解码模块的数量决定了模型的规模,GPT-1 一般有 12 个模块,GPT-2有 48 个,GPT-3 则有 96 个模块;2)针对模块输出的结果还需要进行 Finetune(对模型进行调优)。图表图表10:解码模块堆叠解码模块堆叠形成形成 GPT 模型完整架构模型完整架构 资料来源:CSDN、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 应用:打开应用:打开 AIGC 应用新局面应用新局面 ChatGPT 属于 AIGC 的具体应用,相比过去的 AI 产品,在模型类型、应用领域、商业化等层面呈现出新的特点。1)技术方面:)技术方面:ChatGPT 属于自然语言处理领域,与早期的自然语言技术相比,ChatGPT 采用大模型进行训练,并加入人工反馈增强学习(RLHF)方法,实现了效果的明显提升;2)应用方面:)应用方面:ChatGPT 属于生成式 AI,相比于分析型 AI,不局限于已有的内容,已在文艺创作,代码处理,营销等多个创造性场景内得到应用;3)商业化方)商业化方面:面:ChatGPT 在商业化方面彰显出强于以往 AI 应用的潜力,一方面用户数快速增长,另一方面得到了微软为代表的科技巨头的支持,应用有望快速推广。技术新:技术新:Transformer 架构架构+RLHF,NLP 领域迎来新突破领域迎来新突破 Transformer 架构逐步成为主流架构逐步成为主流。自然语言处理从技术的发展可分为三个时期:1)一般机)一般机器学习模型阶段(器学习模型阶段(2013 年前)年前):自然语言处理多采用机器学习和一般的统计学方法来分析词语或者句子之间的联系;2)深度学习模型阶段()深度学习模型阶段(2013-2017 年):年):深度学习算法被引入NLP 领域,在这一阶段内主要通过增加层深和模型容量提升训练效果;3)Transformer架构逐步成为主流架构逐步成为主流(2017 至今):至今):2017 年 transformer 架构面世,使得深度学习对语言的理解更加深入,基于 transformer 架构的 GPT 及 BERT 的陆续发布,影响力进一步扩大。图表图表11:AI 自然语言处理发展历程自然语言处理发展历程 资料来源:CSDN、华泰研究 ChatGPT 模型优势在于语言生成。模型优势在于语言生成。2017 年后,应用范围最广的是 BERT 和 GPT 模型以及在这些模型基础上做出的改进模型。BERT 模型在结构上是一个多层的双向 transformer 的Encoder 模型,GPT 是由 12 个 Transformer 中的 Decoder 模块经修改后组成。相比来说,BERT 模型的核心优势在于自然语言理解,GPT 模型的核心优势在于自然语言生成。BERT的改进模型有 RoBERTa、ALBERT 等,GPT 的改进模型有 GPT2、GPT3、ChatGPT 等。随着人工反馈增强学习(RLHF)方法的加入,模型能够在与人类标注者互动时通过人类的反馈进行强化学习。人类标注者则可对初始模型生成的结果进行修改、比较和排序,帮助模型进行训练。ChatGPT 在效果上取得重大突破,在语言生成领域形成优势。图表图表12:训练模型对比训练模型对比 对比指标对比指标 ChatGPT BERT 一般深度学习模型(一般深度学习模型(CNN、RNN)参数量 1750 亿 3.4 亿 千万以下 训练方式 双向预训练+Fine-tuning 自回归模型+Zero/Few-Shot Prompt 神经网络、机器学习模型训练 预训练数据量 45TB 16GB 无预训练 数据质量 人工标注+聊天网站 维基百科、图书语料库等 公开语料库 模型 Transformer Transformer 决策树、CNN、RNN 等 资料来源:CSDN、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 计算机计算机 图表图表13:RLHF 人类反馈强化学习模型原理人类反馈强化学习模型原理 资料来源:CSDN、华泰研究 应用新:生成式应用新:生成式 AI 应用于创造性工作应用于创造性工作 生成式生成式 AI 应用应用于创造性工作。于创造性工作。AI 可分为生成式 AI 和分析型 AI,其中分析型 AI(Analytical AI),主要在给定数据的情况下,通过分析找出规律和关系,并在此基础上生成报告或给出建议。比如通过追踪客户行为以刻画用户画像,并基于此进行个性化推荐,实现精准营销;通过收集城市中传感器的大量数据并分析,预测天气及环境污染情况,从而帮助相关部门进行政策制定。不同于分析型 AI 局限于分析已有内容,生成式 AI(Generative AI)可以通过学习已有数据和信息生成多种形式的新的内容,在创造性工作的领域进行应用,目前生成式 AI 的应用主要包括生成文本、图像、对话、音视频、代码、3D 等。图表图表14:生成型生成型 AI 应用领域应用领域 资料来源:红杉资本、华泰研究 ChatGPT是典型的生成式是典型的生成式AI。ChatGPT通过学习大量语料并通过生成模型生成文本回答,其基础 GPT-3 是一个大型语言模型。该模型通过对大量语料的预训练,学习了语言的语法、语义、语用等特征,并通过对语言的生成任务进行微调,以适应各种应用场景。目前,除了 ChatGPT 外,有大量 AIGC 应用产品基于 GPT-3 模型。获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 计算机计算机 图表图表15:基于基于 GPT-3 的的 AI 产品产品 应用名称应用名称 应用领域应用领域 成立时间成立时间 OthersideAI AI 写作邮件 2020 年 CopyAI AI 写作广告及营销文案 2020 年 JasperAI AI 写作广告文案、播客等 2020 年 Notion AI AI 写作、提供创意、语法检查、翻译 2022 年 ChatSonic AI 对话,在实时数据、图像和语音搜索方面表现出色。2022 年 Perplexity AI 对话,将 LLM(Large La