温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
计算机
GPT
产业
梳理
ChatGPT
230214
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT 产业梳理:产业梳理:GPT-1 到到 ChatGPT 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业走势图行业走势图 资料来源:Wind,华泰研究 2023 年 2 月 14 日中国内地 专题研究专题研究 ChatGPT:三个阶段打造智能对话交互式:三个阶段打造智能对话交互式 AI 模型模型 ChatGPT 从诞生到现在,经历了三个大版本阶段演进。2018 年,生成式预训练模型 GPT-1 诞生,引入有监督的微调训练。2019 年,GPT-2 以增加模型通用性为目标,移除 GPT-1 的微调,以更大的参数量和多任务训练,进行 zero-shot 学习;2020 年,GPT-3 用 few-shot 代替 zero-shot,并将训练参数增加到 1750 亿,再次提高模型表现性能。2022 年,InstructGPT 引入基于人类反馈的强化学习(RLHF),在 GPT-3 基础上进行奖励训练,以 13亿训练参数实现了更好的模型性能。2022 年 11 月,基于 InstructGPT,OpenAI 正式推出对话交互式模型 ChatGPT,5 天时间突破了 100 万用户。GPT-1 阶段:开启生成式预训练模型时代阶段:开启生成式预训练模型时代 GPT-1 基于 Transformer 架构,仅保留了架构中的解码器(Decoder)部分。GPT-1 的训练过程包括预训练和微调两个阶段。1)阶段一:预训练采用内含长段连续文本的 BooksCorpus 数据集,进行高容量无监督学习。2)阶段二:在做下游任务时,首先根据任务类型将其转换为不同的输入形式,再针对不用类型任务用特定训练集进行微调训练。GPT-1 的参数量为 1.17 亿。GPT-1 在常识推理、问题回答、文本蕴涵等任务上分别比对比方法进步了8.9%、5.7%和 1.5%。GPT-2 阶段:无监督训练替代有监督训练阶段:无监督训练替代有监督训练 GPT-2 通过海量数据和庞大的模型参数训练出更为通用的模型,无需经过特定的数据集训练也能解决各类问题,即 zero-shot learning(零次学习),从而提高模型的泛化能力。GPT-2 在架构上与 GPT-1 基本保持相同,预训练阶段与 GPT-1 方法一致,采用了更大的数据集 WebText。处理下游任务时,以无监督的训练方式进行 zero-shot 学习,通过增加 prompt 文本提示的方式提示模型具体任务类型。GPT-2 的参数量增加到 15 亿。GPT-2 在命名实体识别、阅读理解等任务上表现优异,在部分任务上不及预期。GPT-3 阶段:性能不断突破,开启商业探索阶段:性能不断突破,开启商业探索 GPT-3 在 GPT-2 架构基础上,舍弃极端的 zero-shot,采用 few-shot 理念,对于特定任务给予少量(10-100 个)样例。GPT-3 最大训练参数量为 1750亿,训练结果准确度随着 few-shot 样例的增加有明显提高。基于 GPT-3,OpenAI 发布了 Codex 和 InstructGPT。Codex 是通用代码生成模型,能够将自然语言转换为代码,支持十几种编程语言。InstructGPT 在 GPT-3 基础上通过 RLHF 训练奖励模型来进一步优化训练结果,仅用 13 亿参数量即可实现更符合人类需求的输出。此外,2020 年 6 月,OpenAI 开始对外提供接入 GPT-3 服务的 API,并按照模型类型进行收费,开启商业探索第一步。ChatGPT 阶段:各大互联网厂商争相推出类似产品阶段:各大互联网厂商争相推出类似产品 2022 年 11 月,基于 InstructGPT,OpenAI 发布了以对话方式交互的ChatGPT。ChatGPT 训练方法与 InstructionGPT 基本相同,区别仅在于在微调时基于 InstructGPT 而非 GPT-3。随着 ChatGPT 用户的增多,OpenAI推出了按月订阅的 ChatGPT Plus 服务,开启第二次商业尝试。国内外互联网厂商纷纷跟进,微软发布基于 ChatGPT 的新版 Bing,谷歌发布 Bard 对标 ChatGPT;百度宣布推出类 ChatGPT 应用“文心一言”,京东推出智能人机对话平台 ChatJD,阿里宣布公司正在研发“阿里版”ChatGPT,网易有道和 360 也表示推出类 ChatGPT 应用。风险提示:宏观经济波动,下游需求不及预期。本报告内容均基于客观信息整理,不构成投资建议。(30)(21)(12)(3)6Feb-22Jun-22Oct-22Feb-23(%)计算机沪深300获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 ChatGPT:三个阶段打造智能对话交互式:三个阶段打造智能对话交互式 AI 模型模型.3 GPT-1 阶段:开启生成式预训练模型时代阶段:开启生成式预训练模型时代.4 GPT-1:在 Transformer 架构基础上,引入微调训练.4 GPT-2 阶段:无监督训练替代有监督训练阶段:无监督训练替代有监督训练.5 GPT-2:取消微调,用更大参数和数据集进行 zero-shot 学习.5 OpenAI:得到微软注资,关注技术滥用问题.6 GPT-3 阶段:性能不断突破,开启商业探索阶段:性能不断突破,开启商业探索.7 GPT-3:模型参数达 1750 亿,few-shot 进一步提高性能.7 对外提供 GPT-3 API,开启商业模式探索.8 CodeX:基于 GPT-3 的代码生成工具.9 InstructGPT:人类反馈强化学习技术加持下的“最强”GPT-3.10 ChatGPT 阶段:各大互联网厂商争相推出类似产品阶段:各大互联网厂商争相推出类似产品.12 ChatGPT:以对话方式交互的进化版 InstructGPT.12 ChatGPT Plus:商业模式二次探索.13 微软继续加注 OpenAI,推出基于 ChatGPT 的新版 Bing.13 各大互联网厂商均表示将推出类 ChatGPT 产品.14 风险提示.14 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 ChatGPT:三个阶段打造智能对话交互式:三个阶段打造智能对话交互式 AI 模型模型 ChatGPT 从诞生到现在,经历了三个大版本阶段的演进。从诞生到现在,经历了三个大版本阶段的演进。1)GPT-1 阶段:阶段:2018 年 6 月,OpenAI 发表论文Improving Language Understanding by Generative Pre-Training,标志着 GPT-1 的诞生。论文首次提出生成式预训练概念,基于Transformer 架构的解码器搭建训练模型。训练过程包括预训练和微调两个阶段,模型参数量为 1.17 亿。2)GPT-2阶段:阶段:2019 年 2 月,论文 Language Models are Unsupervised Multitask Learners发布,GPT-2 诞生。GPT-2 取消了 GPT-1 中的有监督微调阶段,将其变成了无监督的模型,采用更大的参数和多任务(multitask)学习进行预训练,提高了模型面对未知任务时的推理能力(zero-shot 零次学习)。GPT-2-训练参数量为 15 亿。3)GPT-3阶段:阶段:2020年 5月,OpenAI发表论文 Language Models are Few-Shot Learners,提出 GPT-3 模型。GPT-2 模型中的 zero-shot 在某些任务上性能不及预期,因此 OpenAI在 GPT-3 中提出了 few-shot 少量(10-100 个)样本学习,提高了模型的表现性能。在模型参数量上,从 GPT-2 的 15 亿提升到 1750 亿。2021 年 8 月,OpenAI 推出基于 GPT-3的通用编程模型 Codex,可以将自然语言转换翻译、解释和重构为代码。2022 年 3 月,OpenAI 将基于人类反馈的强化学习(RLHF)技术引入 GPT-3,通过奖励(reward)机制进一步训练模型,提高模型性能和准确度,InstructGPT 诞生。InstructGPT 训练参数量仅13 亿,与 GPT-3 的 1750 亿相比大大减少,能给出更符合人类思维的输出结果。4)ChatGPT 阶段:阶段:2022 年 11 月,OpenAI 正式推出了对话交互式的 ChatGPT。本质上,ChatGPT 和 InstructionGPT 为同代产品,只是在 InstructGPT 的基础上增加了聊天功能,同时向公众开放使用,产生更多有效标注数据。ChatGPT 上线 5 天便突破 100 万用户。目前,微软已整合 ChatGPT 推出新版浏览器 EDGE 和搜索引擎 Bing。谷歌也发布了对标产品 Bard。此外,国内厂商如百度、京东、阿里等也宣布进军“ChatGPT 行业”。图表图表1:从从 GPT-1 到到 ChatGPT 演进路线演进路线 资料来源:OpenAI 官网、arxiv 论文、华泰研究 我们将对我们将对 GPT 的每个发展阶段进行详细复盘和模型拆解,对技术和理念进行溯源。的每个发展阶段进行详细复盘和模型拆解,对技术和理念进行溯源。GPT-12018.6GPT-22019.2GPT-32020.51.17亿15亿1750亿InstructGPT2022.313亿chatGPT2022.1120亿Codex2021.8120亿 微软投资10亿美元 先后发布参数为124M、355M、774M的小中大模型 对774M参数GPT-2语言模型进行了微调 发布参数大小为1.5B的模型GPT-3GPT-1GPT-2ChatGPT 提供GPT-3 API,第一次商业探索 基于GPT-2架构,证明语言模型在图像补全和采样上同样有不错的效果 向微软提供GPT-3许可,可用于微软产品和服务 超300个应用程序接入GPT-3的API,平均每天生成45亿单词 发布GPT-3和Codex新版本,支持编辑内容或将内容插入现有文本 Codex通过API为70个不同应用程序提供各种用例支持 训练“评论写作”模型,探讨AI协助人类监督AI的应用前景 对GPT-3进行微调,以改善模型 开发人员现可以根据自己的数据对GPT-3进行微调 训练GPT-3像人类一样使用基于文本的web浏览器,并通过训练奖励模型提高准确性和有用性 在API中引入文本和代码embedding,将文本等内容转变创数字序列 更新了2021年提出的embedding在文本搜索、代码搜索和句子相似性任务上性能更好 OpenAI和微软扩大合作伙伴关系 ChatGPT Plus服务推出,售价20美元/月,是又一次商业探索 微软整合ChatGPT推出新版Bing主线支线主线支线2018.6-2019.22019.2-2020.72020.7-2022.112022.11-参数量获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 GPT-1 阶段:开启生成式预训练模型时代阶段:开启生成式预训练模型时代 GPT-1:在:在 Transformer 架构基础上,引入微调训练架构基础上,引入微调训练 GPT-1 仅保留了仅保留了 Transformer 架构的解码器部分。架构的解码器部分。从架构上看,GPT-1 基于 Transformer架构,但是仅保留了架构中的解码器部分。其中,解码器共有 12 层(layer),整个模型相比 Transformer 更加简单,训练速度更快,GPT-1 更擅长自然语言处理生成类任务。图表图表2:GPT-1 的架构的架构 资料来源:Improving Language Understanding by Generative Pre-Training、华泰研究 GPT-1 的训练过程包括预训练和微调两个阶段。的训练过程包括预训练和微调两个阶段。1)第一阶段:)第一阶段:采用多层 Transformer 模型的解码器(Decoder)为语言模型,进行基于大文本语料库的高容量无监督学习。2)第二阶段:)第二阶段:在做下游任务时,当输入的问题具有结构化特征,例如有序的句子对或文档、问题和答案的三元组,首先将不同类的问题转换为不同的输入形式,再针对不同任务采用不同数据集进行微调训练。GPT-1 训练的参数量为 1.17 亿,预训练阶段采用 BooksCorpus 数据集,该数据集包括 7000 多本来自风格不同的未出版书籍,内含长段的连续文本,微调阶段则根据不同任务类型选择数据集。训练结果上看,GPT-1 在常识推理、问题回答、文本蕴涵等任务上分别比对比方法进步了 8.9%、5.7%和 1.5%。图表图表3:GPT-1 架构以及用于微调不同任务的输入转换模块架构以及用于微调不同任务的输入转换模块 资料来源:Improving Language Understanding by Generative Pre-Training、华泰研究 Transformer架构架构GPT-1架构架构12Masked MultiSelf AttentionLayer Norm归一化层Feed Forward前馈神经网络Layer Norm归一化层Text&Position Embed文本&位置 向量矩阵TaskClassifierTextPrediction+带掩模自注意力层文本预测文本分类StartStartStartStartStartStartStartClassificationEntailmentSimilarityMultiple ChoiceTextPremiseText 1Text 2ContextContextContextExtractDelimHypothesisExtractDelimExtractDelimExtractDelimAnswer 1ExtractDelimExtractDelimExtractText 1Text 2Answer 2Answer NTransformerTransformerTransformerTransformerTransformerTransformerTransformerLinearLinearLinearLinearLinearLinear分类任务推理任务相似性任务问答任务获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 GPT-2 阶段:无监督训练替代有监督训练阶段:无监督训练替代有监督训练 GPT-2:取消微调,用更大参数和数据集进行:取消微调,用更大参数和数据集进行 zero-shot 学习学习 GPT-2 用更大的训练集尝试用更大的训练集尝试 zero-shot 学习。学习。有监督的 NLP 模型(如 GPT-1)能取得不错的效果,原因在于其针对单个特定任务使用大量有标注数据进行训练,当任务目标分布发生变化时则可能会失效,即模型的泛化能力不够强。GPT-2 希望通过海量数据和庞大的模型参数训练出更为通用的模型,无需经过特定的数据集训练也能解决各类问题,即 zero-shot learning(零次学习),提高模型的泛化能力。为了达到这一目的,GPT-2 采用了涵盖 800万网页、40GB 大小的数据集 WebText 进行预训练,并将模型参数量最大提升到 15 亿,模型层数从 GPT-1 的 12 提升为 48。图表图表4:zero-shot 学习示意图学习示意图 资料来源:CSDN、华泰研究 GPT-2 在架构上与在架构上与 GPT-1 基本保持相同,在处理下游问题时取消了微调。基本保持相同,在处理下游问题时取消了微调。架构上,GPT-2的结构类似于 GPT-1 模型,仍然使用单向的 Transformer 模型,只做了局部修改:将归一化层移到输入位置,在最后一个自注意力块之后加了一层归一化等。训练步骤上,预训练阶段与 GPT-1 方法基本相同,使用了更大参数的 Transformer,以及覆盖范围广、质量更高的数据集 WebText,采用多任务学习,保证训练出的模型有更好的通用性。在具体处理下游任务时,GPT-2 放弃任何训练和微调,尝试 zero-shot 学习。在这种情况下,为了使模型能识别任务的具体目标,GPT-2 使用一种新的输入形态,增加 prompt 文本提示。例如,翻译训练示例可以写成序列(翻译成法语、英语文本、法语文本),阅读理解训练示例可以写成(回答问题、文档、问题、答案)。在 WebText 数据集下,随着 GPT-2 模型参数规模的扩大,其 zero-shot 学习能力更强,且优于部分已有模型。图表图表5:GPT-2 解决解决 zero-shot 任务能力随着参数规模增加而提高任务能力随着参数规模增加而提高 资料来源:Language Models are Unsupervised Multitask Learners、华泰研究 所见类别数据所见类别数据属性特征属性特征斑马特征描述斑马特征描述斑马预测器斑马预测器这是斑马!这是斑马!阅读理解阅读理解翻译翻译摘要摘要问题回答问题回答获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 图表图表6:GPT-2 与与 GPT-1 架构对比架构对比 资料来源:Language Models are Unsupervised Multitask Learners、华泰研究 GPT-2 在多个下游任务中表现出色。在多个下游任务中表现出色。例如,在 8 种语言模型任务中,仅通过 zero-shot 学习,GPT-2 在 7 种任务中超过了最优水平;在儿童图书测试的命名实体识别任务中,超过最优水平 7%;在文本长期依赖性建模能力测试数据集 LAMBADA 上,GPT-2 将困惑度从 99.8降到了 8.6;在阅读理解任务中,GPT-2 超过了 3 个基线模型;在法译英任务中,GPT-2在 zero-shot 学习的基础上,超过了大多数的无监督方法,略逊于有监督的方法;在文本总结任务中的效果接近有监督的模型。OpenAI:得到微软注资,关注技术滥用问题:得到微软注资,关注技术滥用问题 微软向微软向 OpenAI 投资投资 10 亿美元,并提供独家云支持。亿美元,并提供独家云支持。2019 年 7 月,微软向 OpenAI 投资10 亿美元,帮助 OpenAI 构建人工通用智能(AGI)。此外,微软作为 OpenAI 的独家云提供商,与 OpenAI 合作开发 Microsoft Azure 中的软硬件平台并考虑将其扩展到 AGI,以及共同开发新的 Azure AI 超级计算技术。OpenAI 出于对技术滥用问题的考虑,分阶段发布出于对技术滥用问题的考虑,分阶段发布 GPT-2 完整版。完整版。OpenAI 出于对技术滥用问题的考虑,在 GPT-2 诞生后并未发布完整版的训练模型。2019 年 2 月,OpenAI 发布了 124M 参数的小型 GPT-2 模型,5 月发布 355M 参数的中型 GPT-2 模型,8 月发布 7.74亿参数的 GPT-2模型。直到2019年 11月,作为 GPT-2分阶段发布的最终模型版本,OpenAI发布了 15 亿参数 GPT-2,以及代码和模型权重。在此过程中,OpenAI 还使用各种任务的人类反馈对 774M 参数 GPT-2 语言模型进行了微调,提高了模型在部分任务上的表现。12Masked MultiSelf AttentionLayer Norm归一化层Feed Forward前馈神经网络Layer Norm归一化层Text&Position Embed文本&位置 向量矩阵TaskClassifierTextPrediction+带掩模自注意力层文本预测文本分类Transformer12Text&Position Embed文本&位置 向量矩阵Layer Norm归一化层Feed Forward前馈神经网络Masked MultiSelf AttentionLayer Norm归一化层TaskClassifierTextPredictionLayer Norm归一化层+带掩模自注意力层文本预测文本分类GPT-1架构架构GPT-2架构架构获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 GPT-3 阶段:性能不断突破,开启商业探索阶段:性能不断突破,开启商业探索 GPT-3:模型参数达:模型参数达 1750 亿,亿,few-shot 进一步提高性能进一步提高性能 Few-shot 取代取代 zero-shot,训练效果得到进一步加强。,训练效果得到进一步加强。GPT-2 模型中,在下游训练时采用zero-shot 理念,在执行各类子任务时不给任何样例,属于较为极端的情况。虽然在 GPT-2在某些测试中取得了不错的效果,但在一些任务上结果不达预期。因此,OpenAI 引入了few-shot,即对于特定任务仅给予少量的样例(10-100 个),和 GPT-2 一样不做微调处理,仅通过与模型的文本交互来指定任务和 few-shot。从多种训练基准训练结果看,few-shot能够取得比 zero-shot 更好的准确度结果。图表图表7:Zero-shot、one-shot 和和 few-shot 随着模型参数增加准确度越来越高随着模型参数增加准确度越来越高 注:图中为多种训练基准综合的结果 资料来源:Language Models are Few-Shot Learners、华泰研究 GPT-3 架构基本不变,最大训练参数达架构基本不变,最大训练参数达 1750 亿。亿。GPT-2 模型已经验证,在大参数和大数据集预训练模型后,即使采用 zero-shot 也能取得较好的训练效果。因此,GPT-3 延续这一思想,采用了 8 种不同大小的训练模型,最小参数量为 1.25 亿,最大为 1750 亿。在架构上,GPT-3 与 GPT-2 基本保持一致,将 Transformer 从 48 层提升到 96 层。图表图表8:GPT-3 的的 8 种不同大小模型的参数种不同大小模型的参数 资料来源:Language Models are Few-Shot Learners、华泰研究 GPT-3训练数据集为多种数据集的混合。训练数据集为多种数据集的混合。数据集以Common Crawl为基础,其大小为45TB。但 Common Crawl 数据集的质量低于更精确的数据集,为了保证数据集质量,一方面对Common Crawl 进行过滤,大小压缩到 570GB,另一方面增加了质量更高的数据集,如WebText2、Wikipedia 等。在训练期间,数据集的采样不与其大小成比例,而是质量更高的数据集采样频率更高,因此 CommonCrawl 和 Books2 数据集在训练期间采样次数少于一次,其他更高质量的数据集采样次数为 2-3 次,以换取更高质量的训练数据。模型名称模型名称参数量参数量批量大小批量大小学习率学习率获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 图表图表9:GPT-3 训练数据集组合训练数据集组合 资料来源:Language Models are Few-Shot Learners、华泰研究 在大训练参数、在大训练参数、few-shot 的加持下,的加持下,GPT-3 准确性得到极大提高。准确性得到极大提高。从训练结果准确度来看,对于 GPT-3 模型,当模型参数量较低时,如 13 亿,随着 few-shot 样例的增加,准确度提升并不明显。但是当模型参数大小达到 1750 亿时,few-shot 样例的增加会带来准确度较为明显的提升。在大训练参数和 few-shot 的加持下,GPT-3 准确性提高明显。图表图表10:大参数、大参数、few-shot 大幅提高大幅提高 GPT-3 准确度准确度 资料来源:Language Models are Few-Shot Learners、华泰研究 对外提供对外提供 GPT-3 API,开启商业模式探索,开启商业模式探索 OpenAI 发布发布 API,开启首次商业尝试,并授权给微软。,开启首次商业尝试,并授权给微软。2020 年 6 月,OpenAI 开始对外提供能够接入 GPT-3 服务的 API,并提供通用的“文本输入,文本输出”界面,支持英语任务。其他厂商可以请求访问,并将 API 集成到产品中,按不同模型类型收费。API 的优势在于:1)GPT-3 模型庞大,需要大量的专业知识来开发和部署,运行成本非常高。API能让小型企业和组织更容易实现访问;2)API 模型便于控制下游应用,防止技术滥用。2020年 9 月,OpenAI 将 GPT-3 授权给微软,微软可以将其用于自己的产品和服务,同时不会影响其他应用通过 API 继续访问 GPT-3 模型。截至 2021 年 5 月,共有超过 300 个应用程序通过 API 提供 GPT-3 支持的搜索、对话、文本完成和其他高级 AI 功能。图表图表11:OpenAI API 价格价格 模型模型类型类型 细分细分 价格(美元)价格(美元)模型类型模型类型 细分细分 训练价格(美元)训练价格(美元)使用价格(美元)使用价格(美元)图像模型 1024x1024 0.02/张 微调模型 Ada 0.0004/千字符 0.0016/千字符 512x512 0.018/张 Babbage 0.0006/千字符 0.0024/千字符 256x256 0.016/张 Curie 0.0030/千字符 0.0120/千字符 语言模型 Ada 0.0004/千字符 Davinci 0.0300/千字符 0.1200/千字符 Babbage 0.0005/千字符 Curie 0.0020/千字符 模型类型 细分 价格(美元)Davinci 0.0200/千字符 嵌入模型 Ada 0.0004/千字符 资料来源:OpenAI 官网、华泰研究 数量数量(tokens)在训练组合在训练组合中的权重中的权重每每3000亿亿tokens经历的经历的epochs数据集数据集获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 CodeX:基于:基于 GPT-3 的代码生成工具的代码生成工具 Codex 是基于是基于 GPT-3 在代码生成上的应用。在代码生成上的应用。2021 年 8 月,OpenAI 发布 Codex 通用代码生成模型,能够将自然语言转换为代码。Codex 是 GitHub Copilot 的主要构建块,支持Python、JavaScript、Go、Perl、PHP、Ruby、Swift 和 TypeScript 等十几种编程语言。Codex 可以通过 OpenAI API 使用,在初始阶段提供免费服务。图表图表12:Codex 代码生成界面代码生成界面 资料来源:OpenAI 官网、华泰研究 Codex 代码生成能力显著优于代码生成能力显著优于 GPT-3。Codex 的训练数据包含自然语言和来自公共数据源中的数十亿行源代码,其中包括 GitHub 库中的公开代码。Codex 拥有 14KB 的 Python 代码内存,而 GPT-3 只有 4KB,这就使得它在执行任务的过程中可以涵盖三倍于 GPT-3 的上下文信息。Codex 的最大版本拥有 120 亿参数,准确率达到了 72.31%。图表图表13:120 亿参数的亿参数的 Codex 准确率可达准确率可达 72.31%资料来源:Evaluating Large Language Models Trained on Code、华泰研究 获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 InstructGPT:人类反馈强化学习技术加持下的“最强”:人类反馈强化学习技术加持下的“最强”GPT-3 InstructGPT 在在 GPT-3 的基础上,引入基于人类反馈的强化学习(的基础上,引入基于人类反馈的强化学习(RLHF)技术。)技术。强化学习通过奖励(Reward)机制来指导模型训练,奖励机制可以视为传统模训练机制的损失函数。奖励的计算要比损失函数更灵活和多样(例如 AlphaGO 的奖励是对局的胜负),代价是奖励计算不可导,不能直接拿来做反向传播。强化学习的思路是通过对奖励的大量采样来拟合损失函数,从而实现模型的训练。类似的,人类反馈也不可导,也可以作为强化学习的奖励,从而产生基于人工反馈的强化学习。图表图表14:人工反馈的强化学习的基本原理人工反馈的强化学习的基本原理 资料来源:CSDN、华泰研究 InstructGPT 的训练流程包括有监督微调、奖励模型训练和强化学习。的训练流程包括有监督微调、奖励模型训练和强化学习。架构上,InstructGPT与 GPT-3 基本相同。训练过程包括:1)利用人类的标注数据()利用人类的标注数据(demonstration data)对)对 GPT-3 进行有监督训练进行有监督训练 首先,OpenAI 设计了包含大量提示样本的 prompt dataset,给出了不同类的任务描述;其次,委托标注团队对 prompt dataset 进行标注(本质就是人工回答问题);最后,用标注过的数据集微调 GPT-3,得到 SFT 模型(监督微调),该模型具备了最基本的预测能力。2)通过)通过 RLHF 的思路训练奖励模型的思路训练奖励模型 RM 首先用 SFT 模型去回答 prompt dataset 某个问题,通过收集 4 个不同的 SFT 输出获取 4个回答;其次,利用人工对 4 个回答的好坏进行标注和排序,排序的结果用来训练奖励模型 RM,让 RM 模型理解人类偏好。3)通过训练好的)通过训练好的 RM 模型和模型和 PPO 算法优化算法优化 SFT 模型策略模型策略 再次让 SFT 模型去回答 prompt dataset 某个问题,通过近端策略优化(Proximal Policy Optimization,PPO)算法产生输出。然后,不再借助人工评估结果好坏,而是利用阶段 2训练的 RM 模型去对 SFT 模型的预测结果进行打分排序,即用“AI 训练 AI”。该阶段可以循环多次。通过以上步骤训练出的结果,一方面能够尽可能地对齐(Alignment)GPT 的输出与对用户友好的语言逻辑,微调出用户友好型 GPT;另一方面,人工反馈的引入,帮助模型更好的理解人类思维和意图,训练结果更符合人类的需求。强化学习算法强化学习算法环境环境奖励预测奖励预测人类人类反馈反馈观察行动观察行动预测的预测的奖励奖励获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 图表图表15:InstructGPT 训练步骤训练步骤 资料来源:Training language models to follow instructions with human feedback、华泰研究 训练参数与训练参数与 GPT-3 相比降低了超相比降低了超 100 倍。倍。InstructGPT 训练参数最大为 13 亿,与 GPT-3的 1750 亿相比减少了 100 倍之多,且 InstructGPT 输出的训练结果更符合人类的要求。InstructGPT 证明了对人类反馈进行微调是使语言模型与人类意图保持一致的重要发展方向,且基于 RLHF 的训练方法能够大大减少对模型参数量的要求,提高训练速度,降低训练成本。此外,由于 InstructGPT 是在 GPT-3 基础上做的微调,且涉及了人工标注,数据集总量并不大,总计 77K,其中涉及人工的为 46K。图表图表16:InstructGPT 的结果更受用户欢迎的结果更受用户欢迎 资料来源:OpenAI 官网、华泰研究 图表图表17:InstructGPT 训练数据集情况(大小代表训练数据集情况(大小代表 prompt 提示次数)提示次数)资料来源:Training language models to follow instructions with human feedback、华泰研究 第一步:收集描述性数据,并训练一个有监督的策略收集描述性数据,并训练一个有监督的策略从prompt数据库中取样向一个6岁智力的模型解释强化学习由人类训练师撰写期望的输出值对行为给出奖励与惩罚收集的数据用来以监督学习的方式微调GPT-3模型第二步:收集比较性数据,并训练一个奖励模型收集比较性数据,并训练一个奖励模型从prompt数据库中取样,并得到数个模型的回答向一个6岁智力的模型解释强化学习A回答A:“.”B回答B:“.”C回答C:“.”D回答D:“.”由人类训练师对回答进行排序DCAB收集的数据用来训练我们的奖励模型DCAB第三步:用用PPO强化学习算法通过奖励模型优化策略强化学习算法通过奖励模型优化策略从prompt数据库中另外取样示例:“写一段关于.的故事”示例:“很久以前”策略给出回答奖励模型对回答打分用奖励通过PPO算法优化策略PPORMSFT数据数据RM数据数据PPO数据数据分离分离来源来源大小大小分离分离来源来源大小大小分离分离来源来源大小大小获取更多最新资料请加微信:ch e n s a s a 666 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 ChatGPT 阶段:各大互联网厂商争相推出类似产品阶段:各大互联网厂商争相推出类似产品 ChatGPT:以对话方式交互的进化版:以对话方式交互的进化版 InstructGPT ChatGPT 模型能够以对话方式进行交互。模型能够以对话方式进行交互。对话方式使 ChatGPT 能够回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求。ChatGPT 同样基于 RLHF 理念,从训练步骤上看,ChatGPT 训练方法与 InstructionGPT 基本相同,区别仅在于在第一步利用人类标注数据进行有监督训练时,InstructGPT 基于 GPT-3,而 ChatGPT 基于 InstructGPT。图表图表18:ChatGPT 训练过程训练过程 资料来源:OpenAI 官网、华泰研究 图表图表19:ChatGPT 使用界面使用界面 资料来源:OpenAI 官网、华泰研究 第一步:收集描述性数据,并训练一个有监督的策略收集描述性数据,并训练一个有监督的策略从prompt数据库中取样向一个6岁智力的模型解释强化学习由人类训练师撰写期望的输出值对行为给出奖励与惩罚收集的数据用来以监督学习的方式微调GPT-3.5模型第二步:收集比较性数据,并训