温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
华泰证券
证券
GPT
产业
2022
推出
chatGPT
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT产业复盘(产业复盘(2022):推出):推出ChatGPT 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 2 月 19 日中国内地 专题研究专题研究 溯源溯源 GPT 发展:发展:2022 年年 ChatGPT 面世,面世,LLM 里程碑式胜利里程碑式胜利 梳理 GPT 系列模型的演进过程,可以看到 2022 年是 GPT 系列模型围绕GPT-3、GPT-3.5 加速版本迭代的重要节点,2022 年 11 月,ChatGPT 成功面世,成为历史上用户增长最快的消费者应用。与 Google、FaceBook等公司不同,OpenAI 从初代模型 GPT-1 开始,始终贯彻只有解码器(Decoder-only)的技术路径,2018-2022 年 GPT 系列模型几乎按照每年一代的速度,不断迭代升级。我们认为,2022 年 ChatGPT 的成功,是 OpenAI公司 GPT 系列模型的阶段性胜利,也是大语言模型 LLM 的里程碑式胜利,后续围绕 LLM 的技术升级、应用拓展有望加速开启,AI 产业发展或将提速。ChatGPT:引入人类反馈,模型训练:引入人类反馈,模型训练 SFT、RM、PPO 三步走三步走 ChatGPT、InstructGPT 分别是基于 GPT-3.5、GPT-3 微调得到的新版本模型,其核心目标是实现模型输出与人类预期的需求对齐(alignment),人类反馈强化学习 RLHF 成为模型需求对齐的重要技术支持。ChatGPT、InstructGPT 的模型训练主要包括三步:1)有监督微调 SFT:通过指示学习对模型进行有监督微调;2)奖励模型 RM 训练:借助人工标注员对模型输出进行排序,反馈训练得到奖励模型,此步是人类反馈的重要体现;3)近段策略优化 PPO 强化学习:通过监督学习策略生成 PPO 模型,优化、迭代原有模型参数。总结来看,RLHF 让模型输出更加符合用户预期。ChatGPT VS InstructGPT:核心是:核心是基础大模型的不同基础大模型的不同 对比 ChatGPT 与 InstructGPT 的训练方法,可以发现,两者的训练方法基本一致,核心区别在于 InstructGPT、ChatGPT 分别基于 GPT-3、GPT-3.5进行模型微调。与 GPT-3 相比,GPT-3.5 增加了代码训练与指示微调:1)代码训练(Code-training):让 GPT-3.5 模型具备更好的代码生成与代码理解能力,同时间接拥有了复杂推理能力;2)指示微调(Instruction-tuning):让 GPT-3.5 模型具备更好的泛化能力,同时模型的生成结果更加符合人类的预期。作为基于 GPT-3.5 的模型微调产物,ChatGPT 具备更好的问答能力,更加遵循人类的价值观。OpenAI VS Google:OpenAI 贯彻贯彻 Decoder-only 路径,技术集大成者路径,技术集大成者 通过梳理 Google 与 OpenAI 在 LLM 领域的布局,可以看到,OpenAI 具备两大突出特点:1)贯彻 Decoder-only 技术路线:从 GPT-1 到 ChatGPT,OpenAI 的 LLM 均采用 Decoder-only 架构,单一架构的持续深耕与模型参数的不断扩大,让 OpenAI 的 GPT 系列模型具备强大的学习能力与文本生成能力;2)技术集大成者:ChatGPT 的发展不仅得益于 GPT 模型参数、训练数据的持续优化,也得益于各类 LLM 新技术的融会贯通,OpenAI 博采众长,加速 Instruction-tuning、RLHF、思维链等新技术在 GPT 系列模型中的深度应用,ChatGPT 是现有技术的集大成者。风险提示:宏观经济波动;下游需求不及预期;本报告内容均基于客观信息整理,不构成投资建议。(34)(25)(16)(6)3Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300扫码进群领取3、最新业报告、公司研究、专业咖分享1、优质研报免费获取,业报告定期打包2、每推送业最新深度研报(精选10篇)免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 GPT 发展之发展之 2022:ChatGPT 成功面世,成功面世,LLM 里程碑式胜利里程碑式胜利.3 ChatGPT/InstructGPT:增加人类反馈强化学习(:增加人类反馈强化学习(RLHF).4 优化目标:从提示学习到指示学习,聚焦需求对齐(alignment).4 训练过程:“三步走”实现人工反馈强化学习.5 步骤一:有监督微调(SFT)训练.6 步骤二:奖励模型(Reward Model,RM)训练.8 步骤三:近端策略优化(PPO)强化学习.9 论文结论:RLHF 是 GPT 需求对齐的重要支撑.10 ChatGPT VS InstructGPT:核心是基础大模型的不同:核心是基础大模型的不同.11 演化:从 GPT-3 到 GPT-3.5,基础大模型能力再升级.11 对比:增加代码训练与指示微调,GPT-3.5 具备三大优势.12 OpenAI VS Google:OpenAI 贯彻贯彻 Decoder-only 路径,技术集大成者路径,技术集大成者.14 特点一:贯彻 Decoder-only 技术路径.14 特点二:LLM 相关技术集大成者.14 总结:厚积薄发,总结:厚积薄发,ChatGPT 引发引发 AI 产业范式革命产业范式革命.16 风险提示.16 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 GPT 发展之发展之 2022:ChatGPT 成功面世,成功面世,LLM 里程碑式胜利里程碑式胜利 2022 年是年是 OpenAI 公司公司 GPT 系列模型演进的重要节点。系列模型演进的重要节点。2022 年 11 月,OpenAI 发布生成式对话机器人 ChatGPT,上线仅 2 个月,月活用户数已突破 1 亿,成为历史上用户增长最快的消费者应用。回顾大语言模型(Large Language Model,LLM)的发展历史,可以发现,与 Google、FaceBook 等公司不同,OpenAI 从 GPT-1 开始始终贯彻 Decoder-only 的技术路径,2018-2022 年 GPT 系列模型几乎按照每年一代的速度,不断升级迭代。我们认为,2022 年 ChatGPT 的成功面世,是 LLM 里程碑式的胜利,未来围绕 LLM 的技术升级、应用拓展有望加速开启。2022 年年 OpenAI 加速加速 GPT 模型的版本迭代,模型的版本迭代,ChatGPT 融合多融合多技术优势。技术优势。通过梳理 GPT系列模型的演进过程,可以看到 2022 年是 GPT 系列模型围绕 GPT-3、GPT-3.5 加速版本迭代的年份;2022 年 3 月,基于 GPT-3 微调的 InstructGPT 发布,验证了人类反馈强化学习RLHF对模型输出对齐(alignment)的重要作用;2022年4-6月,基于Codex、InstructGPT,OpenAI 加速迭代形成 GPT-3.5 模型;2022 年 11 月,基于 GPT-3.5 微调的 ChatGPT 发布,成为 Instruction-tuning、RLHF、思维链等 LLM 相关技术的集大成者。我们认为,ChatGPT是 OpenAI 基于 GPT 系列模型的阶段性成果,未来随底层大模型的持续拓展,AI 产业发展或将提速。图表图表1:2017-2022 年年基于基于 Transformer 的的 LLM 梳理梳理及及 2022 年年 GPT 模型的版本迭代模型的版本迭代 资料来源:OpenAI 官网、Google 官网、CSDN、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 ChatGPT/InstructGPT:增加人类反馈强化学习(:增加人类反馈强化学习(RLHF)优化目标:从提示学习到指示学习,聚焦需求对齐(优化目标:从提示学习到指示学习,聚焦需求对齐(alignment)从模型微调到提示学习再到指示学习,从模型微调到提示学习再到指示学习,GPT 模型零次学习能力模型零次学习能力不断提升不断提升。2022 年论文Finetuned Language Models Are Zero-Shot Learners 提出指示学习(Instruction-tuning)思想,以提升模型的零次学习能力。对比来看:1)模型微调()模型微调(Fine-tuning):):以 GPT-1为代表,需要大量的微调数据集样本,特定模型解决特定任务;2)提示学习)提示学习(Prompt-learning):):以 GPT-3 为代表,需要少量的微调数据样本,模型小样本学习(few-shot Learning)能力更强;3)指示学习()指示学习(Instruction-learning):以FLAN、InstructGPT、ChatGPT 为代表,模型通过下游多类型任务的指示微调,零次学习(zero-shot Learning)能力更强;同时,提示学习与指示学习均为一个模型解决多类任务。图表图表2:模型微调(模型微调(Fine-tuning)、提示学习()、提示学习(Prompt-learning)、指示学习()、指示学习(Instruction-tuning)对比)对比 资料来源:Finetuned Language Models are Zero-shot Learners,Jason Wei(2022)、华泰研究 聚焦聚焦模型输出与人类需求对齐,引入人类反馈强化学习。模型输出与人类需求对齐,引入人类反馈强化学习。GPT 系列模型发展至 GPT-3,已经在翻译、问答、摘要等任务上取得了良好的性能,研究者开始更加关注模型生成内容的有用性(Helpful)、真实性(Honest)、无害性(Harmless),希望实现模型输出内容与人类偏好内容的需求对齐(alignment)。为提升模型的“3H”特性,从 InstructGPT 开始,InstructGPT、ChatGPT 均引入人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),实现基于人类反馈的模型微调,让模型输出更符合人类期待。图表图表3:InstructGPT 的“的“3H”优化目标”优化目标 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 人类反馈可作为强化学习的奖励,人类反馈可作为强化学习的奖励,通过通过引入语言模型微调,可引入语言模型微调,可使模型使模型输出与人类需求对齐。输出与人类需求对齐。从技术原理来看,强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可视为传统训练机制的损失函数;同时,奖励的计算要比损失函数更灵活、多样(例如 AlphaGO 的奖励是对局的胜负),代价是奖励计算不可导,不能直接用来做反向传播;强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。可导,也可以作为强化学习的奖励,从而产生基于人类反馈的强化学习。图表图表4:人类反馈强化学习(人类反馈强化学习(RLHF)基本原理)基本原理 资料来源:Deep Reinforcement Learning from Human Preferences,Paul F Christiano(2017)、华泰研究 训练过程:“三步走”实现人工反馈强化学习训练过程:“三步走”实现人工反馈强化学习 ChatGPT 与与 InstructGPT 的的训练方法训练方法基本一致。基本一致。了解 ChatGPT 与 InstructGPT 的优化目标之后,我们需要进一步梳理模型的具体训练过程。对比论文Training language models to follow instructions with human feedback(2022)中的 InstructGPT 训练方法与 OpenAI官方发布的ChatGPT训练方法,我们看到,ChatGPT与InstructGPT的训练方法基本一致,区别在于InstructGPT、ChatGPT分别基于GPT-3、GPT-3.5进行模型微调。考虑到ChatGPT尚未有官方论文发布,我们以 InstructGPT 论文为基准,对 InstructGPT 的训练过程进行了详细梳理,具体可分为有监督微调、奖励模型训练、PPO 强化学习三个步骤。图表图表5:ChatGPT 与与 InstructGPT 的训练方法基本一致的训练方法基本一致 注:图中蓝色部分为 InstructGPT 训练示意、粉色部分为 ChatGPT 训练示意 资料来源:OpenAI 官网、Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 步骤一:有监督微调(步骤一:有监督微调(SFT)训练)训练 使用人工标注数据对使用人工标注数据对 GPT-3 进行有监督进行有监督微调(微调(Supervised fine-tuning,SFT)训练)训练。由于 GPT-3 是基于提示学习的生成模型,因此 SFT 模型的数据集也是由提示-答复对组成的样本。为实现模型从提示学习向指示学习跨越,OpenAI 采用人工编写多类别提示的方法,对 GPT-3 模型进行有监督微调。首先,OpenAI 委托标注员(40 人标注团队)人工设计了包含三类内容(简单任务、few-shot 任务、基于用户需求的任务)的提示样本 prompt dataset;其次,委托标注团队对 prompt dataset 进行标注(本质上是人工回答问题),由此构成提示-答复对数据集;最后,用标注过的数据集微调 GPT-3,得到 SFT 模型。图表图表6:有监督微调(有监督微调(SFT)训练过程示意图)训练过程示意图 资料来源:Illustrating Reinforcement Learning from Human Feedback(RLHF),Nathan Lanmbert(2022)、华泰研究 SFT 数据集数据量数据集数据量较小较小,数据质量、多样性更加重要。,数据质量、多样性更加重要。根据 InstructGPT 论文中提供的数据显示,SFT 数据集一部分来自使用 OpenAI 的 PlayGround 的 API 用户,另一部分来自OpenAI 雇佣的 40 名标注员(labeler),其中训练数据大小仅约为 13K(来自标注员的数据约为 11.3K、来自 API 用户的数据约为 1.4K)。考虑到 InstructGPT 是在 GPT-3 的基础上进行模型微调,GPT-3 已经具备较好的文本生成能力,SFT 数据集的质量、多样性对于提升模型性能来说更为重要。图表图表7:有监督微调(有监督微调(SFT)数据集来源及大小)数据集来源及大小 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 1)数据多样性:)数据多样性:以 InstructGPT 论文披露的奖励模型 RM 数据集为例(未披露 SFT 数据集任务分类占比),RM 数据集包括文本生成、开放式问答、头脑风暴、对话、改写、摘要、分类等 10 类任务,任务类型多样且占比不同;以 RM 数据集为推测依据,SFT 数据集作为初始种子数据集,为提升模型的泛化能力,通常具备更好的数据多样性;免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 图表图表8:奖励模型(奖励模型(RM)数据集分类占比)数据集分类占比 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 2)数据质量:)数据质量:作为初始的种子数据集,SFT 数据集大部分数据来自标注团队,而非 API数据采样,因此 SFT 数据集具有更好的数据质量;同时 OpenAI 在标注团队的人员组成上,充分考虑了性别、身份、国籍、年龄、学历等因素的差异性。图表图表9:标注团队按性别分类标注团队按性别分类 图表图表10:标注团队按国籍分类标注团队按国籍分类 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 图表图表11:标注团队按年龄分类标注团队按年龄分类 图表图表12:标注团队按学历分类标注团队按学历分类 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 文本生成46%开放式问答12%头脑风暴11%对话8%改写7%总结4%分类3%其他4%封闭式问答3%摘要2%男50%女44%其他6%22%22%17%5%5%5%5%5%5%5%4%菲律宾孟加拉美国阿尔巴尼亚加拿大哥伦比亚印度乌拉圭津巴布韦巴西26%47%11%11%5%18-2425-3435-4445-5455-64高中10%大学53%硕士37%免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 步骤二:奖励模型(步骤二:奖励模型(Reward Model,RM)训练)训练 通过通过 RLHF 的思路训练奖励模型的思路训练奖励模型。这一阶段的主要目标,在于借助标注员的人工反馈,训练出更符合人类意愿的奖励模型,为监督策略建立评价标准。训练奖励模型的过程同样可以分为三步:1)任务采样:)任务采样:抽样出一个 prompt 问题及 SFT 模型的 k 个输出结果;2)结)结果排序:果排序:标注员将这 k 个结果按质量好坏排序,形成2组训练数据对(sample,reward pairs);3)RM 训练:训练:使用2组训练数据对(sample,reward pairs)训练奖励模型,让奖励模型更加理解人类偏好。图表图表13:奖励模型(奖励模型(RM)训练过程示意图)训练过程示意图 资料来源:Illustrating Reinforcement Learning from Human Feedback(RLHF),Nathan Lanmbert(2022)、华泰研究 两两对比,最大化“更喜欢”和“更不喜欢”的差值。两两对比,最大化“更喜欢”和“更不喜欢”的差值。为了更加清晰地理解此轮步骤中排序和训练,我们针对 InstructGPT 论文介绍的方法,进行了更为通俗的解释。针对一个Prompt 任务,SFT 模型输出 k 个结果,排序过程即对这 k 个结果进行两两对比,并根据结果的好坏进行排序;为了让 RM 更好地学习人类偏好,可先通过2组分别计算 loss 损失函数值,再将2组结果求和取均值,损失函数的目标是最大化更喜欢的结果和更不喜欢的结果之间的差值;通过 loss 函数的梯度回传,RM 模型逐渐学会给更喜欢的结果打高分,给更不喜欢的结果打低分,从而实现了人类偏好的模仿。图表图表14:Loss 损失函数拆解损失函数拆解 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 步骤三:步骤三:近端策略优化近端策略优化(PPO)强化学习)强化学习 通过训练好的通过训练好的 RM 模型和模型和近端策略优化近端策略优化 PPO 算法优化算法优化 SFT 模型策略。模型策略。近端策略优化(Proximal Policy Optimization,PPO)是一种强化学习算法,核心思路在于将 Policy Gradient 中 On-policy 的训练过程转化为 Off-policy,即将在线学习转化为离线学习。具体来说,就是再次让 SFT 模型去回答 prompt dataset 某个问题,通过 PPO 算法产生输出;然后,不再借助人工评估结果好坏,而是利用步骤二训练的 RM 模型去对 SFT 模型的预测结果进行打分排序,即用“AI 训练 AI”。此阶段可以循环多次,从而得到参数质量更好的模型。图表图表15:近端策略优化(近端策略优化(PPO)强化学习)强化学习示意图示意图 资料来源:Illustrating Reinforcement Learning from Human Feedback(RLHF),Nathan Lanmbert(2022)、华泰研究 人类反馈主要体现人类反馈主要体现在在 RM 阶段。阶段。总结来看,InstructGPT 以及 ChatGPT 的训练过程可概括为:首先通过人工标注数据 prompt dataset 对原始模型 V0(GPT-3 或 GPT-3.5)进行有监督微调,得到模型 V1;其次,让模型 V1 对一个 prompt 进行多个输出,并通过人工进行输出结果排序并训练奖励模型 RM;最后,继续训练模型 V1,给定一个 prompt,得到输出后由奖励模型 RM 继续完成打分,反复迭代后得到最终的 InstructGPT 或 ChatGPT。人类标注员参与 SFT 训练与 RM 训练两个过程,其中人类反馈主要体现在 RM 阶段。图表图表16:人工主要参与人工主要参与 SFT、RM,人类反馈主要体现在,人类反馈主要体现在 RM 阶段阶段 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 论文结论:论文结论:RLHF 是是 GPT 需求对齐的重要支撑需求对齐的重要支撑 RLHF 有效优化了模型输出,输出结果更加有效优化了模型输出,输出结果更加符合人类意愿。符合人类意愿。InstructGPT 论文中分别训练了13 亿、60 亿、1750 亿三个参数规模的 InstructGPT 模型,实验证明:13 亿参数规模的亿参数规模的InstructGPT 模型模型(PPO-ptx)在多场景下的输出效果均优于在多场景下的输出效果均优于 1750 亿参数规模亿参数规模 GPT-3 模模型。型。人类反馈强化学习 RLHF 方法的引入,一方面能够尽可能地对齐(Alignment)GPT 的输出,让 GPT 具备对用户更加友好的语言逻辑,微调出用户友好型 GPT;另一方面,人工反馈的引入,帮助模型更好的理解人类思维和意图,训练结果更符合人类的需求。图表图表17:InstructGPT 更好地实现了模型输出与人类需求对齐更好地实现了模型输出与人类需求对齐 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 模型的“模型的“3H”特性显著提升,输出内容更有用、更真实、更无害。”特性显著提升,输出内容更有用、更真实、更无害。为了衡量 InstructGPT模型的有用性(Helpful)、真实性(Honest)、无害性(Harmless)是否得到改善,InstructGPT论文在公开可用的数据集上使用现有指标,对比了 InstructGPT 与 GPT-3 的模型性能。与 GPT-3 相比,根据 TruthfulQA 指标,InstructGPT 产生的模仿性错误更少;根据 RealToxicity 指标,InstructGPT 输出的毒性更小;根据 API 提示分布进行人工评估,发现 InstructGPT 更少地编造事实(“幻觉”),并生成更合适的输出。总结来看,InstructGPT模型输出内容的有用性、真实性、无害性均得到一定程度的提升。图表图表18:InstructGPT 模型的有用性、真实性、无害性显著提升模型的有用性、真实性、无害性显著提升 注:毒性、致幻性得分越低越好,真实性、适当性等分越高越好 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 0.00.10.20.30.40.50.60.70.81.3B6B175B(模型输出优先于175B SFT模型的频率)GPTGPT(prompted)SFTPPOPPO-ptx 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 ChatGPT VS InstructGPT:核心是基础大模型的不同:核心是基础大模型的不同 演化:从演化:从 GPT-3 到到 GPT-3.5,基础大模型能力再升级,基础大模型能力再升级 训练方法基本一致,核心区别是基础大模型的不同。训练方法基本一致,核心区别是基础大模型的不同。对比 OpenAI 官网介绍的 ChatGPT 训练方法与 InstructGPT 论文介绍的 InstructGPT 训练方法,两者的训练方法基本一致,核心区别在于 InstructGPT、ChatGPT 分别基于 GPT-3、GPT-3.5 进行模型微调。为了充分理解 ChatGPT 与 InstructGPT 的能力差异,我们梳理了从 GPT-3 到 GPT-3.5 发展过程。1)GPT-3 元年(元年(2020):2020 年 7 月,OpenAI 发表论文 Language Models are Few-Shot Learners,开启 GPT-3 元年;与 GPT-2 相比,GPT-3 进一步扩大模型参数与训练数据量,并用 few-shot 取代 zero-shot,模型泛化能力得到进一步提升;2)GPT-3 系列(系列(2021.08-2022.03):):2021 年 8 月,论文 Evaluating Large Language Models Trained on Code 发表,基于 GPT-3 进行代码训练微调,得到 Codex 通用代码生成模型,对应 OpenAI API 中的 code-cushman-001;2022 年 3 月,论文 Training language models to follow instructions with human feedback发表,基于 GPT-3 模型,经过 SFT 训练+RM训练+PPO 强化学习,得到 InstructGPT 模型,其中 SFT 部分对应了 OpenAI API 中的davinci-instruct-beta、text-davinci-001;3)GPT-3.5 系列(系列(2022.04-2022.6):):2022 年 4 月,兼具语言模型、代码训练、指示微调的 code-davinci-002 模型面世,仍称其为 Codex,对应 OpenAI API 中的 code-davinci-002;2022 年 5-6 月,基于 code-davinci-002 的有监督指令微调(supervised instruction tuned)模型 text-davinci-002 发布,此次指令微调降低了模型的上下文学习能力,但增强了模型的零次学习能力;4)ChatGPT 时代(时代(2022.11):):2022 年 11 月,基于 text-davinci-002 进行 RLHF 指令微调的两种变体模型出现,分别为 text-davinci-003、ChatGPT;其中 text-davinci-003 恢复了text-davinci-002 中丢失的部分上下文学习能力,同时得益于 RLHF 进一步改进了零次学习能力;ChatGPT 则具备了建模对话历史的能力。图表图表19:GPT3 及及 GPT3.5 系列模型演进路径系列模型演进路径 资料来源:How does GPT Obtain its Ability?Tracing Emergent Abilities of Language Models to their Sources,Yao Fu(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 对比:增加代码训练与指示微调,对比:增加代码训练与指示微调,GPT-3.5 具备三大优势具备三大优势 与与 GPT-3 相比,相比,GPT-3.5 增加代码训练(增加代码训练(Code-training)与指示微调()与指示微调(Instruction-tuning)。)。根据上文对 GPT-3 及 GPT-3.5 系列模型的发展梳理,不难看出以 code-davinci-002(用于代码生成)、text-davinci-002(用于文本生成)为代表的 GPT-3.5 模型,与 GPT-3 模型相比增加了代码训练、指示微调两个训练步骤。1)代码训练:)代码训练:经过前期的代码训练,GPT-3.5模型具备更好的代码生成与代码理解能力,同时间接拥有了使用思维链进行复杂推理的能力;2)指示微调:)指示微调:经历 Instruction-tuning,GPT-3.5 具备更好的模型泛化能力,同时模型的生成结果更加符合人类的预期。图表图表20:与与 GPT-3 相比,相比,GPT-3.5 增加代码训练与指示微调增加代码训练与指示微调 资料来源:Training language models to follow instructions with human feedback,Long Ouyang(2022)、华泰研究 GPT-3.5 具备三大优势,具备三大优势,ChatGPT 实现优势融合。实现优势融合。基于模型训练的持续优化,与 GPT-3相比,GPT-3.5 具备三大优势:更强的复杂推理能力,更好的人类指令响应,更全面的文本、代码生成能力。作为基于 GPT-3.5 的模型微调产物,ChatGPT 实现了 Code-training、Instruction-tuning、RLHF 等训练的优势整合,我们针对 ChatGPT 优势进行能力溯源:1)预训练)预训练大模型:大模型:ChatGPT 具备的语言生成能力、基础世界知识、上下文学习能力等基本能力均来源于基于 Transformer 的模型预训练;大量知识的存储能力依托于庞大的模型参数(GPT-3 模型参数为 1750 亿);2)代码训练:)代码训练:ChatGPT 具备较好的代码生成与代码理解能力,同时具备执行复杂推理的能力,主要得益于代码训练 Code-training 的引入;初代 GPT-3 未进行过专门的代码训练,因此在代码生成、理解方面能力相对较差,同时推理(思维链)能力也较差;因此可以判断,代码训练是 ChatGPT 上述能力的重要来源;免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 计算机计算机 3)人类反馈强化学习人类反馈强化学习:ChatGPT 具备更好的问答能力,同时可以拒绝不当的问题、拒绝知识范围之外的问题,这些在对话问答上的突出表现,得益于人类反馈强化学习 RLHF 的训练,让 ChatGPT 更加遵循人类的价值观,同时拥有了建模对话历史、增加对话信息量等能力。图表图表21:ChatGPT 优势能力溯源优势能力溯源 资料来源:How does GPT Obtain its Ability?Tracing Emergent Abilities of Language Models to their Sources,Yao Fu(2022)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 OpenAI VS Google:OpenAI 贯彻贯彻 Decoder-only 路径,技术集路径,技术集大成者大成者 ChatGPT 领先发布,领先发布,OpenAI 打开打开大语言大语言模型新局面。模型新局面。2022 年 11 月 30 日,ChatGPT 正式上线,仅花费 5 天时间用户数超 100 万,据 Similarweb 数据显示,2023 年 1 月,ChatGPT平均每天约有 1300 万独立访客。面对 ChatGPT 的领先发布与热烈反响,2022 年 2 月 8日,Google 在发布会上开启对话机器人 Bard 首秀,相较于 ChatGPT 的突出表现,Bard的表现则稍显逊色。2022年 2月15日,Google首席执行官桑达尔 皮查伊(Sundar Pichai)呼吁员工进行 Bard 的内部测试、优化。Decoder-only+技术博采众长,技术博采众长,两大特点助力两大特点助力 ChatGPT 成功面世成功面世。通过梳理 2017 年起,Google 与 OpenAI 在 LLM 领域的布局可以看到,OpenAI 具备两大突出特点:1)贯彻)贯彻Decoder-only 技术路线:技术路线:从 GPT-1 到 ChatGPT,OpenAI 的 LLM 均采用 Decoder-only架构,单一架构领域的持续深耕与模型参数的不断扩大,让 OpenAI 的 GPT 系列模型具备强大的学习能力与文本生成能力;2)技术集大成者:)技术集大成者:ChatGPT 的发展不仅得益于 GPT 模型参数、训练数据的持续优化,也得益于各类 LLM 新技术的融会贯通,OpenAI 博采众长,加速新技术在 GPT 系列模型中的深度应用。图表图表22:OpenAI 与与 Google 在在 LLM 领域的布局(领域的布局(2017 年年 6 月月-2023 年年 2 月)月)注:红框内浅粉色高亮的三种预训练语言模型是 2019 年三类典型模型 资料来源:OpenAI 官网、Google 官网、CSDN、华泰研究 特点一:特点一:贯彻贯彻 Decoder-only 技术路径技术路径 Decoder-only 具备文本生成优势,具备文本生成优势,Op