【华泰证券】GPT产业复盘（2022）：推出chatGPT.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 4.94 MB
约22页
2024-01-18
收藏
评论
点赞(0)
海报
举报

/22

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。1证券研究报告计算机GPT产业复盘（2022）：推出ChatGPT华泰研究计算机增持(维持)研究员谢春生SACNo.S0570519080006SFCNo.BQZ938xiechunsheng@htsc.com+(86)2129872036联系人袁泽世，PhDSACNo.S0570122080053yuanzeshi@htsc.com+(86)2128972228行业走势图资料来源：Wind，华泰研究2023年2月19日│中国内地专题研究溯源GPT发展：2022年ChatGPT面世，LLM里程碑式胜利梳理GPT系列模型的演进过程，可以看到2022年是GPT系列模型围绕GPT-3、GPT-3.5加速版本迭代的重要节点，2022年11月，ChatGPT成功面世，成为历史上用户增长最快的消费者应用。与Google、FaceBook等公司不同，OpenAI从初代模型GPT-1开始，始终贯彻只有解码器（Decoder-only）的技术路径，2018-2022年GPT系列模型几乎按照每年一代的速度，不断迭代升级。我们认为，2022年ChatGPT的成功，是OpenAI公司GPT系列模型的阶段性胜利，也是大语言模型LLM的里程碑式胜利，后续围绕LLM的技术升级、应用拓展有望加速开启，AI产业发展或将提速。ChatGPT：引入人类反馈，模型训练SFT、RM、PPO三步走ChatGPT、InstructGPT分别是基于GPT-3.5、GPT-3微调得到的新版本模型，其核心目标是实现模型输出与人类预期的需求对齐（alignment），人类反馈强化学习RLHF成为模型需求对齐的重要技术支持。ChatGPT、InstructGPT的模型训练主要包括三步：1）有监督微调SFT：通过指示学习对模型进行有监督微调；2）奖励模型RM训练：借助人工标注员对模型输出进行排序，反馈训练得到奖励模型，此步是人类反馈的重要体现；3）近段策略优化PPO强化学习：通过监督学习策略生成PPO模型，优化、迭代原有模型参数。总结来看，RLHF让模型输出更加符合用户预期。ChatGPTVSInstructGPT：核心是基础大模型的不同对比ChatGPT与InstructGPT的训练方法，可以发现，两者的训练方法基本一致，核心区别在于InstructGPT、ChatGPT分别基于GPT-3、GPT-3.5进行模型微调。与GPT-3相比，GPT-3.5增加了代码训练与指示微调：1）代码训练（Code-training）：让GPT-3.5模型具备更好的代码生成与代码理解能力，同时间接拥有了复杂推理能力；2）指示微调（Instruction-tuning）：让GPT-3.5模型具备更好的泛化能力，同时模型的生成结果更加符合人类的预期。作为基于GPT-3.5的模型微调产物，ChatGPT具备更好的问答能力，更加遵循人类的价值观。OpenAIVSGoogle：OpenAI贯彻Decoder-only路径，...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容