分享
人工智能行业六问六答“AI应用”投资框架-中航证券-2023.4.16-46页.pdf
下载文档

ID:3037186

大小:2.44MB

页数:45页

格式:PDF

时间:2024-01-18

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
人工智能 行业 六问六答 AI 应用 投资 框架 中航 证券 2023.4 16 46
数字经济专题报告2023年4月16日中航证券研究所发布证券研究报告请务必阅读正文后的免责条款部分行业评级:增持六问六答:“AI+应用”投资框架中航证券社会服务团队分析师:裴伊凡证券执业证书号:S0640516120002邮箱:Q1:为什么ChatGPT爆火?答:颠覆传统内容生产的人工智能产品和交互体验。ChatGPT是一个基于语言模型GPT-3.5的聊天机器人,由美国人工智能公司OpenAI推出的一款对话式AI模型,具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,能进行撰写邮件、视频脚本、文案、翻译、代码等任务,可以一定程度上替代搜索引擎,掀起内容生产的范式革命。Q2:GPT产品的演绎路径?答:人工智能算法的迭代推动AIGC的发展,GPT系列属于神经AI,由2018年的GPT第1代迭代至今天的GPT-4。ChatGPT 核心技术包括自然语言生成能力的大模型 GPT-3.5以及训练这一模型的钥匙基于人工反馈的强化学习(RLHF);现在的ChatGPT已经可以接入GPT-4,具备了多模态生成能力,且表现出人类水平的推理能力。Q3:AIGC的底层技术驱动?答:创新生成算法+预训练模型+多模态技术。AIGC是一种利用人工智能技术自动生成内容的新型生产方式,呈现为上游基础层,即由预训练模型为基础搭建的AIGC技术基础设施层,如相关算法/模型研究结构;中间层模型,即垂直化、场景化、个性化的模型和应用工具,在预训练的大模型基础上微调,实现在不同行业、垂直领域、功能场景的工业流水线式部署;下游应用层,即面向C端用户的文字、图片、音视频等内容生成服务等。Q4:AIGC如何重构内容生产力?答:AIGC模型有望成为自动化内容生产的“工厂”和“流水线”。AIGC可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,跨模态生成是未来重点发展趋势。随着底层大模型不断对外开放,行业生态日益完善,AIGC加速渗透到千行百业,根据量子位智库测算,2030年我国AIGC市场规模有望超万亿。Q5:看好“AI+”哪些应用场景?答:AIGC可覆盖诸多应用场景,或将率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。Q6:如何把握“AI+”时代的投资机遇?答:人工智能奇点将近,引爆AIGC商业变现。GPT产品的更迭标志着人工智能进入了新的发展阶段,AI模型的训练开发将加速推进AIGC商业化进程,掀起“用户-数据-效果”的飞轮效应。全年维度看,随着GPT逐渐从主题转向能够落地的阶段,有望在游戏、内容IP、电商、影视传媒等数字化程度高、内容需求丰富的行业率先商业化落地,赢家将展露头角。重点推荐:游戏(昆仑万维/世纪华通/汤姆猫/神州泰岳/恺英网络);内容IP(中文在线/中文传媒/视觉中国/果麦文化);电商(小商品城/华凯易佰/吉宏股份/值得买);办公(万兴科技/金山办公/泛微网络);影视传媒(上海电影/光线传媒/人民网/新华网);广告营销(蓝色光标/三人行/风语筑);金融(同花顺);酒店(石基信息);数据要素(浙数文化/美亚柏科)。风险提示:行业监管风险、政策收紧的风险、技术发展不及预期的风险、内容生态建设不及预期的风险、变现不及预期风险、舆论炒作风险、市场竞争风险。核心观点oPtQnNuNxPqPtMsNsRsNsQ6MbPaQmOqQpNpMiNpPtPlOnMzR7NrQrNuOqMmPvPtPpO一、为什么ChatGPT爆火?二、GPT产品的演绎路径?目 录四、AIGC如何重构内容生产力?三、AIGC的底层技术驱动?五、看好“AI+”哪些应用场景?六、如何把握“AI+”时代的投资机遇?资料来源:ChatGPT、百度百科,中航证券研究所整理1.1 ChatGPT:全新聊天机器人模型,上线两月用户破亿产品介绍:ChatGPT是一个基于语言模型GPT-3.5的聊天机器人,由美国人工智能公司OpenAI推出的一款对话式AI模型。它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流;ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。实际应用上,ChatGPT等文本AI可能帮助文本创造类行业完成智能内容生成,并一定程度上替代搜索引擎。图表1:ChatGPT使用场景展示聊天代码诗词脚本文案翻译邮件ChatGPT对话式AI模型 语言理解 文本生成资料来源:OpenAI官网、ODAILy、央视财经、量子位、DemandSage、瑞银、智东西、Thuvienpc.,中航证券研究所整理1.2 ChatGPT:打造AI生态,商业能力凸显ChatGPT接入插件功能,打造AI生态帝国:美东时间3月23日,OpenAI宣布解除了ChatGPT无法联网的限制,以第三方插件为中介,使ChatGPT能访问其他网站并获取实时信息,还支持执行计算,第一批插件由Expedia、OpenTable、Shopify等公司提供,这些插件的具体功能包括推荐餐厅、制定出游计划、网上商店购物、企业办公、信息检索、语言教学等,涵盖日常生活的衣食住行各个方面。用户增速创历史记录:2022年11月30日,OpenAI发布了ChatGPT,5天注册用户数就超过100万。瑞士银行巨头瑞银集团的一份报告显示,在ChatGPT推出仅两个月后,月活用户已经破亿,成为史上用户增长速度最快的消费级应用程序。OpenAI预测,公司在2023年预计营收2亿美元,在2024年将达到10亿美元。商业变现模式:2023年2月2日,ChatGPT推出付费订阅版本,每月收取20美元(约合135RMB),让订阅者获得比免费版本更稳定、更快服务,尝试GPT-4功能等。图表2:ChatGPT已接入插件展示图表3:ChatGPT更为史上最快活跃用户破亿的应用资料来源:中航证券研究所整理1.3 ChatGPT:重新定义搜索入口,开启海量应用场景ChatGPT的应用场景多元:ChatGPT潜在的市场规模是空前的,能够覆盖各个领域,包括自然语言处理、对话系统等六个方面。借助其强大的算力和算法分析,ChatGPT有望在教育、科研、游戏、新闻等多个领域发挥作用,并不断拓展其市场潜力。自然语言处理语义分析情感分析实体识别对话系统回答用户提出的问题提供相关信息帮助用户解决问题文本生成自动生成文章自动生成摘要自动生成评论语言翻译+语言模型不同语言之间翻译单词、短语、句子预测信息检索类似于搜索引擎精准匹配内容自动化写作利用预设的模板、关键字或信息,帮助用户自动生成各种类型的文本。教育科研游戏新闻IT游戏营销.图表4:ChatGPT的应用举例对话式AI模型ChatGPT一、为什么ChatGPT爆火?二、GPT产品的演绎路径?目 录四、AIGC如何重构内容生产力?三、AIGC的底层技术驱动?五、看好“AI+”哪些应用场景?六、如何把握“AI+”时代的投资机遇?资料来源:中国信通院、吉林大学学报、Cornrell University、Attention Is All You Need,中航证券研究所整理人工智能算法的迭代推动AIGC的发展:几十年来,AI领域持续探索,1940-1980s符号AI占主导,1980年后,统计AI与神经AI齐头并进,二者竞争发展至今,GPT系列属于神经AI。符号(Symbolic)AI:二十世纪80年代以前属于符号AI时代,开启了以知识建模算法、专家系统算法为代表AI早期发展阶段;统计(Statistical)AI:1985年的贝叶斯网络和1995年的SVM是20世纪机器学习发展的两大标志,但近年来,逐渐成为非主流的研究方向;神经(Neural)AI:经历了1980s-2012年神经网络、2012年后的深度学习两大阶段,深度神经网络和模型大小呈正相关,伴随着模型参数量的增加,相对应深度神经网络的能力将大幅提升,Google Brain的Transformer和OpenAI的GPT系列都属于深度学习领域的代表作。2.1 GPT前世:符号AI-统计AI-神经AI将人类专家的知识和经验转化为计算机可以理解的形式,并利用AI技术来实现手写规则,简单粗暴只能处理非常少量数据知识建模、专家系统找到一些函数或参数分类固定量数据应用于数据分析、预测和分类等任务机器学习1970-1980s 1985至今1980s-2012 2017 2018像人脑一样学习开始尝试大量数据提前标注数据应用于计算机视觉、自然语言处理、语音识别等领域神经网络基于Transformer架构投喂海量学习数据无监督训练方法通用文本预训练GPT系列全注意力机制关注文本序列数据整体注意力Transformer深度学习Neural AIStatistical AISymbolic AI神经人工智能图表5:ChatGPT的应用举例资料来源:Botpress、Walmart Global Tech、量子位、Life Architect,中航证券研究所整理GPT系列的迭代发展,造就了ChatGPT的诞生,初代的ChatGPT为GPT-3.5架构的产物,现仍在持续进化升级。GPT的定义及发展:GPT是一种基于Transformer架构的生成型预训练变换模型(Generative Pre-trained Transformer),用于解决NLP任务,可预测给定文本下一个单词的概率分布,以生成人类可理解的自然语言。从算法模式的版本上,已经迭代到GPT-4,其在某些方面的性能“可与人类相媲美”,并在大学入学和法律及医学等专业领域的许多模拟考试中优于其前身GPT-3.5。ChatGPT是已经经历了GPT-3.5到GPT-4的过渡,多模态功能推出,已成为深度学习领域的旷世佳作。从GPT-1到GPT-4,它的功能越来越全面,表现也越来越类人,与2018年第一版GPT1.17亿的参数相比,GPT-3.5拥有着1750亿的参数量,GPT-4预计参数量或破万亿,这极大程度提升了GPT的运行规模,让GPT开始能完成一系列令人难以置信的任务。图表6:GPT系列产品升级情况2.1 GPT前世:算力爆发+算法迭代,数字内容创作技术达到新高度模型发布时间参数量Transformer模型层数解码器数预训练数据量技术介绍GPT2018.061.17亿1212约5GB无监督学习,从而对高质量标注数据的要求比较低,有比较强的泛化能力(在没有见过数据的zero-shot中表现更稳定)。GPT-22019.0215亿484840GB多任务学习,验证了通过海量数据和大量参数训练出来的词向量模型有泛化使用而不需要额外的训练。GPT-32020.071750亿969645TB海量参数,从而在无样本或极少量样本情况下完成下游NLP任务,还可以完成数学加法、代码编写等任务。GPT-3.52022.11-使用RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)技术,可以进行连续对话。GPT-42023.3约10000亿-一种更加高效、准确和灵活的自然语言生成模型2.2 GPT今生:GPT4功能更强,同时能接受图像和文本输入ChatGPT 核心技术主要包括其具有良好的自然语言生成能力的大模型 GPT-3.5/4 以及训练这一模型的钥匙基于人工反馈的强化学习(RLHF)。GPT3.5建立在3.0的微调之上。据OpenAI披露,GPT-3已有1750亿参数训练,GPT3.5/4在此基础上参数量可能再创新高。2022年4月至7月,OpenAI 开始对code-davinci-002模型进行Beta 测试,其可能是最强大的针对自然语言的GPT-3.5 变体,ChatGPT就是从code-davinci-002进行指令微调得到的。此后ChatGPT在2022 年11 月发布,使用的基于人类反馈的强化学习的版本指令微调模型。资料来源:中国指挥与控制协会、拆解追溯GPT-3.5 各项能力的起源,中航证券研究所整理图表7:大模型参数量迅速增长图表8:GPT3-GPT3.5的演变过程2.2 GPT今生:GPT4功能更强,同时能接受图像和文本输入GPT-3采用无监督学习机制。优点在于无需人工进行数据标注,可以节省模型训练成本,模型泛化能力更强,经过少量样本训练,就可以看到准确度显著提升。加入人类反馈强化学习,GPT3.5/4获得对话能力。定义及优缺点:RLHF无需提前对训练数据进行标注,而只需要人工对模型输出的结果进行评分,虽然需要消耗一定的人力,但是模型结果会更加符合人类偏好;GPT-4训练模型:GPT-4的训练与GPT-3.5类似,包括SFT的预训练、基于RLHF的奖励模型训练和强化学习的PPO算法微调,不同的是使用了基于规则的奖励模型(RBRM),在PPO 微调期间向 GPT-4 提供额外的奖励信号。资料来源:Language Models are Few-Shot Learners、ChatGPT发展历程、原理、技术架构详解和产业未来,中航证券研究所整理图表9:训练模型由GPT-3的无监督学习,进化到GPT-3.5/4的人工反馈的强化学习资料来源:OpenAI官网、美信全球,中航证券研究所整理 3月15日,OpenAI发布了ChatGPT的最新“升级版本”GPT4模型,OpenAI在官网表示,GPT4是一个能接受图像和文本输入,并输出文本的多模态模型,是OpenAI在扩展深度学习方面的最新里程碑。GPT4的语言理解和生成能力均超过了ChatGPT,可以解答ChatGPT无法完成的问题,同时GPT4可以描述并理解图片。视觉识别能力:GPT-4视觉识别能力突出文本理解和图像识别并行:GPT-4 可以接受文本和图像的提示,允许用户指定任何视觉或语言任务。在一系列域(包括包含文本和照片的文档、图表或屏幕截图)上,GPT-4 表现出与纯文本输入类似的功能。辨别幽默元素:除了能够识别图像内容,GPT-4还能辨别图像中存在的幽默元素,并做出相关解释。图表10:GPT-4视觉识别相关案例2.2 GPT今生:GPT4功能更强,同时能接受图像和文本输入用户:我可以用这些原料做什么?GPT-4:你可以用这些原料做很多选择!一些可能性包括:煎饼或华夫饼、可丽饼、法式吐司、煎蛋卷或菜肉馅煎蛋饼、乳蛋饼奶油冻或布丁、蛋糕或纸杯蛋糕松饼或面包、饼干。这些只是几个例子,但可能性是无穷无尽的!用户:这张图有什么好笑的?一个面板一个面板地描述它。GPT-4:该图显示了带有三个面板的“Lightning Cable”适配器的包装。面板 1:带有 VGA 连接器(一种大的蓝色 15 针连接器,通常用于计算机显示器)的智能手机已插入其充电端口。面板 2:“Lightning Cable”适配器的包装,上面有 VGA 连接器的图片。面板 3:VGA 连接器特写,末端有一个小型闪电连接器(用于为 iPhone 和其他Apple 设备充电)。这张图片中的幽默来自将过时的大型 VGA 连接器插入小型现代智能手机充电端口的荒谬做法。资料来源:OpenAI官网、Life Architect,中航证券研究所整理 语言能力:语言测试中GPT-4完胜其他大模型(Chinchilla,PALM)。英语测试中,GPT-4的准确率为85.5%,高出第二名15pct,取得碾压优势;除英语外的26种语言测试中,GPT-4在24种的准确率获胜,包括拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言,准确率集中在70%-85%,虽与其他模型相比优势突出,但未来仍存在较大提升空间。文字输入限制大幅提升,由基于GPT-3.5的ChatGPT的3000字限制提升至GPT-4的25000字,用户使用将开拓更多使用场景。2.2 GPT今生:GPT4功能更强,同时能接受图像和文本输入图表12:GPT-4在英语测试中优于现有语言模型(准确率)25.0%67.0%69.3%70.1%85.5%随机猜测ChinchillaPALMGPT-3.5GPT-40 2 10 14 0 85%语种个数图表13:GPT-4在除英语外的26种语言测试中,准确率集中在70%-85%图表11:GPT-4文字输入限制提升至2.5万字7681536300024000GPT-1GPT-2GPT-3GPT-3.5GPT-4(8k/32k)字数限制(单位:字)资料来源:OpenAI官网、GPT-4 Technical Report,中航证券研究所整理2.2 GPT今生:表现出人类水平的推理能力 推理能力:已表现出人类水平的性能,较GPT-3.5更进一步。学术和专业基准测试:在与其他模型的对比种,GPT-4除了在阅读理解和算术方面与最佳外部模型略有差距,其他的学术测试表现均获胜,基于日常的常规推理和小学多选科学题的准确度更是达到了95%以上,较外部模型高10pct以上。应试方面展现“恐怖实力”,GPT-4在模拟律师资格考试种进入前10%,SAT的读写&数学得分均在700分以上,GRE接近满分,在GLUE语言理解基准测试上取得了90.1的平均得分,某些性能已经与人类持平甚至超越。GPT-4GPT-4GPT-3.5GPT-3.5最佳外部语言模型最佳外部语言模型最佳外部模型最佳外部模型多项选择题(57个学科)多项选择题(57个学科)86.4%70.0%70.7%75.2%基于日常的常规推理基于日常的常规推理95.3%85.5%84.2%85.6%小学多选科学题小学多选科学题96.3%85.2%85.2%86.5%围绕代词解析的常识推理围绕代词解析的常识推理87.5%81.6%85.1%85.1%Python代码任务Python代码任务67.0%48.1%26.2%65.8%阅读理解和算术阅读理解和算术80.9%64.1%70.8%88.4%小学数学题小学数学题92.0%57.1%58.8%87.3%图表14:GPT-4在学术和专业测试中优于现有模型图表15:GPT-4在各项模拟考试中的表现资料来源:智东西、OpenAI官网,中航证券研究所2.3 GPT未来:构建AI生态,加速应用落地联网功能+插件功能,打造AI生态帝国,成就属于ChatGPT的苹果“Apple Store”时刻。OpenAI已经官宣ChatGPT将实现联网、自行添加插件、允许上传图片、视频、CSV文件等多种功能。基于OpenAI提供的Demo视频来看,未来用户能够使用的ChatGPT:可以搜索到提取后的即时性信息,并提供信息来源链接;能够基于CSV文件,实现SQL的提取数据功能,Excel&Python的作图功能等;能够根据语言指令,对视频进行剪辑,对图片进行修改,或替代PR/PS等软件。我们认为,GPT产品的更迭象征着AI进入新的发展阶段,这背后技术上的变化突破主要体现在模型技术、参数、训练数据、训练方法的演化融合。图表16:ChatGPT能够提供互联网最新的信息图表17:ChatGPT能够基于CSV文件作图图表18:ChatGPT能够完成Photoshop的功能资料来源:OpenAI官网、中航证券研究所整理2.3 GPT未来:构建AI生态,加速应用落地图表19:ChatGPT中安装插件界面图表20:ChatGPT运用插件计算食材卡路里图表21:ChatGPT运用插件预定酒店并规划食谱据官网资料,ChatGPT的第一批插件由Expedia、FiscalNote等公司提供,这些插件的具体功能包括推荐餐厅、制定出游计划、网上商店购物、企业办公、信息检索、语言教学等,涵盖日常生活的衣食住行各个方面。“插件商店(ChatGPT Plugins Store)”的推出意味着其他服务成为了ChatGPT的“眼睛和耳朵”,用户将能在ChatGPT中使用几乎外部所有软件,极大提升便利性和效率。资料来源:科技圈探秘、钛媒体、读创、CSDN、创业邦,中航证券研究所整理2.4 GPT背后:OpenAI和最大投资人微软图表22:OpenAI发展历程OpenAI是一家成立于2015年的非营利性人工智能研究公司,在发展历程中,OpenAI从研究深度学习、强化学习和自然语言处理等领域开始,转向面向商业应用的探索,并逐步成为一个向公众和全球开发者开放的开源人工智能组织。OpenAI团队是由多位顶尖的人工智能科学家、工程师和管理人员组成的,包括创始人兼CEO Sam Altman、CTO Greg Brockman、联合创始人Ilya Sutskever和Wojciech Zaremba、以及研究员Andrej Karpathy和Dario Amodei等。这些团队成员在人工智能领域有着丰富的经验和卓越的成就,曾在Google、Microsoft、Facebook等知名公司或高校从事人工智能相关工作。2015.12201620172018OpenAI 由一群包括 Elon Musk 和 Sam Altman 等个人和组织创建,旨在推进和促进人工智能领域的研究OpenAI 开发了第一个人工智能系统,宣布要教一台计算机玩 DOTA OpenAI 发布了GPT-1,这是个能够生成人类文本的语言处理模型OpenAI 与 微软合作,推出了 Azure AI Platform,这是一个新的项目,旨在让开发人员更容易构建和部署 AI 应用程序OpenAI 发布了GPT-2,这是一个比GPT-1 功能更强大的语言处理模型OpenAI 发布DALL-E,能够根据文本描述生成原始图像的创意 AI 系统,7月,发布了GPT-3,这是目前为止最大的语言处理模型OpenAI联合微软等投资人成立了OpenAI创业基金,为医疗等行业的10家AI创业企业提供资金支持ChatGPT问世2019GPT-4推出,多模态及插件功能发布2020202120222023资料来源:OpenAI官网、智东西、Neurohive、腾讯云,中航证券研究所整理2.4 GPT背后:OpenAI和最大投资人微软在AGI(通用人工智能)愿景的驱动下,OpenAl的Al能力全面。OpenAl当前模型几乎涉及所有需要解决自然语言/代码的理解/生成任务的领域,其API(ApplicationProgramming Interface,应用程序编程接口,编程人员可以通过API调用相关代码,而无需掌握代码本身)包括文本、代码、图像等五大类,可以用于完成自然语言问答、聊天、Python/SQL代码标注/修改、食谱创作等具体任务。除了ChatGPT的GPT-3(语言生成模型)外,OpenAI的精选模型还包括DALL-E(视觉生成模型)、CLIP(图像和文本联合编码器)、Jukebox(音频生成模型)等。文本生成/编辑代码生成/编辑/解释图像生成/编辑文本搜索分类模型定制化微调OpenAI主要应用领域图表23:OpenAI主要应用领域图表25:Dall-E 2基于原图片创造不同变体图表24:Dall-E 2基于文本创建原始逼真图片图表26:CLIP明显优于RESNET101资料来源:澎湃新闻、PCMag、Microsoft 365,中航证券研究所整理2.4 GPT背后:OpenAI和最大投资人微软OpenAI的最大投资人微软已率先受益,开始利用GPT-4提高产品竞争力,或占据AI革命先发优势。微软再注资,打响AI闪电战:2023年1月23日,微软宣布向ChatGPT开发者的OpenAI追加投资数十亿美元,以支持OpenAI的研究,让OpenAI的最新估值达到290亿美元。微软将ChatGPT视为新一代技术革命,将ChatGPT整合进Bing搜索引擎、Office全家桶、Azure云服务、Teams程序等产品中。Office“副驾驶”猛踩生产力“加速油门”:北京时间3月17日凌晨,微软举办了一场名为“与AI一起工作的未来(The Future of Work with AI)”的线上活动,正式把OpenAI的聊天机器人技术引入到Office办公套件当中,为其推出AI助手Copilot,其中文翻译为“副驾驶”,旨在帮助人们生成文档、电子邮件、演示文稿等。Copilot将大型语言模型(LLM)的能力与Microsoft Graph和Microsoft 365应用程序中的数据相结合,将office变成“地球上最强大的生产力工具”。图表27:微软的AI生态图表28:Microsoft 365 Copilot的运行原理Microsoft改进自然语言处理能力ChatGPT.整合微软生态更准确更个性化满足需求一、为什么ChatGPT爆火?二、GPT产品的演绎路径?目 录四、AIGC如何重构内容生产力?三、AIGC的底层技术驱动?五、看好“AI+”哪些应用场景?六、如何把握“AI+”时代的投资机遇?3.1 AIGC:AI赋能之下,新型内容生产方式互联网内容生产方式经历了PGC、UGC、AIGC的过程,AIGC是一种利用人工智能技术自动生成内容的新型生产方式。PGC(Professionally Generated Content)是专业生产内容,如Web1.0和广电行业中专业人员生产的文字和视频,其特点是专业、内容质量有保证。UGC(User Generated Content)是用户生产内容,伴随Web2.0概念而产生,特点是用户可以自由上传内容,内容丰富,但质量良莠不齐。AIGC(AI Generated Content)是由AI生成的内容,其特点是自动化生产、高效,规模、质量都能得到保障,预示着Web3.0时代已经到来。资料来源:界面新闻、Fabricventurs、澎湃新闻、ShineINFAITH、,中航证券研究所整理Web1.0(1991-2004)Web2.0(2004至今)Web3.0(2014年概念提出)以搜索为核心门户网站/图文时代中心化阅读式互联网个人内容互动社交媒体/电商时代中心化可读可写互联网数据内容互动智慧网络时代去中心化可获价值互联网$1.1trillion$7.3trillion?“可读”(read)“可读+可写”(read+write)“可读+可写+拥有”(read+write+own)PGC专业生产UGC用户生产AIGCAI生产PGCUGCAI-Assisted GCAIGC规模小大较大大质量高低较高高特点专业质量有保证自由上传内容丰富质量提升丰富度提升高效率图表29:内容创作模式的四个发展阶段对比图表30:AIGC产业生态初步形成3.2 AIGC产业链日益成熟,商业价值加速释放资料来源:腾讯研究院、量子位,中航证券研究所整理 AI技术逐渐实现从分析到创造的迭代,AIGC产业生态体系雏形已经显现,呈现为上中下三层架构。上游基础层,即由预训练模型为基础搭建的AIGC技术基础设施层,如相关算法/模型研究结构;中间层模型,即垂直化、场景化、个性化的模型和应用工具,在预训练的大模型基础上微调,实现在不同行业、垂直领域、功能场景的工业流水线式部署;下游应用层,即面向C端用户的文字、图片、音视频等内容生成服务,包括网页、本地安装的程序、移动端小程序、群聊机器人等。图表31:AIGC产业生态体系的三层架构产业链下游产业链上游产业链中游基础层:预训练模型中间层:垂直化、场景化、个性化模型应用层:语言和文字生成等AIGC应用3.2 AIGC产业链日益成熟,商业价值加速释放资料来源:至顶头条、NovelAI官网,中航证券研究所整理ChatGPT订阅计划重新定义AIGC商业模式,打破了人们对于AI技术大多应用于嵌入式项目的固有印象。2月2日,OpenAI公司宣布推出付费试点订阅计划ChatGPTPlus,定价每月20美元,其功能包括高峰时段免排队、快速响应以及优先获得新功能和改进等。付费模式推出后,ChatGPT的免费访问权限仍然开放。多种变现模式初显,AIGC商业化潜力可期。除了 ChatGPT 以外,NovelAI、Stable Diffusion 等其他主流 AIGC 应用亦开启商业变现,根据内容生成次数、生成质量等条件设置多级别订阅套餐;技术平台层面,GPT-3对外提供API接口,四种模型分别采用不同的按量收费方式,某些模型存在训练收费模式。图表32:AIGC国外商业变现模式AIGC变现模式案例作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算GPT-3对外提供API接口,四种模型分别采用不同的按量收费方式。按产出内容量收费包括DALLE、Deep Dream Generator等AI图像生成平台大多按照图像张数收费。直接对外提供软件例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售,并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AIGC工具则以约80人民币/月的价格对外出售。模型训练费用适用于NPC训练等个性化定制需求较强的领域。根据具体属性收费例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等。分级收取订阅费用Novel AI(写作绘画):套餐 1:10 美元/月,不限量文本生成;套餐2:15 美元/月,包含套餐 1 服务,更大的储存空间;套餐 3:25 美元/月,包含套餐 2 服务,质量更高的文本创作,每月更多额外创作补给Midjourney(绘画):套餐 1:10 美元/月,200 次快速生成,不限量排队生成;套餐 2:30 美元/月,900 次快速生成,不限量排队生成;套餐 3:4 美元/GPU 小时;套餐 4:600 美元/年图表33:Novel AI收费模式3.3 AI大模型竞相绽放,加快赋能多场景应用创新生成算法+预训练模型+多模态技术,驱动AIGC技术变革。GAN为早期最著名的生成模型,随后Transformer、基于流的生成模型、扩散模型相机涌现,而预训练模型引发了AIGC技术能力的质变,多模态技术推动了AIGC的内容多样性。AI三大核心要素是数据、算力和算法。数据是AI算法的“饲料”,AI算法需要通过数据训练不断完善,而数据标注是大部分AI算法得以有效运行的关键环节;算法是AI的背后“推手”,主流的算法主要分为传统的机器学习算法和神经网络算法,目前神经网络算法因为深度学习的快速发展而达到了高潮;算力是算法和数据的基础设施,支撑着算法和数据,算力的大小代表着对数据处理能力的强弱,进而影响着AI的发展。资料来源:腾讯研究院、中航证券研究所整理图表34:AIGC产业的技术驱动基础的生成算法模型生成算法模型不断创新预训练模型(大模型)引发AIGC技术的质变多模态技术推动AIGC内容多样性图像、声音、语言等融合的机器学习不同模态数据间的转化与生产AI预训练模型,又称为大模型、基础模型基于大量数据训练的、拥有巨量参数的模型多任务、多语言、多方式,适应广泛的下游任务GAN(生成对抗网络)是早期最为著名的生成模型,后来产生了许多流行的架构或变种涌现Transformer、Diffusion Model等深度学习的生成算法AIGC自然语言处理(NLP)预训练模型生成式AI可以用于生成新的文本、回答问题、语言翻译和对话系统等任务谷歌的LaMDA和PaLM、OpenAI的GPT 计算机视觉(CV)预训练模型用于生成新的图像或视频微软的Florence多模态预训练模型融合文字、图片、音视频等多种内容形式数据算法算力AI算法的“饲料”语音、文本、视频等AI的背后“推手”神经网络、深度学习等AI时代的基础设施计算机、芯片等三大核心要素3.3 AI大模型竞相绽放,加快赋能多场景应用生成式AI与自然语言处理(NLP)、计算机视觉(CV)等技术密切相关,ChatGPT的出现是技术迭代的结果。NLP(Natural Language Processing,自然语言处理):生成式AI可以用于生成新的文本、回答问题、语言翻译和对话系统等任务。例如,通过使用循环神经网络(RNN)和长短时记忆网络(LSTM)等模型,可以训练出生成式模型来生成语言模型、机器翻译和对话系统等。CV(Computer Vision,计算机视觉):用于生成新的图像或视频。例如,通过使用生成对抗网络(GAN)等模型,训练出生成式模型来生成逼真的图像或视频。VL(Visual Languages,视觉-语言)=NLP+CV:通常需要结合NLP和CV技术,用于生成描述图像或视频的自然语言句子,例如使用卷积神经网络(CNN)来提取图像中的特征,并使用循环神经网络(RNN)或变换器(Transformer)等模型来生成相应的自然语言描述。GPT-4是VL技术的产物。基于Transformer模型,OpenAI相继推出GPT-1、GPT-2、GPT-3,22年在此基础上推出InstructGPT、ChatGPT,23年更是推出兼具视觉&语言能力的GPT-4,相较之前的自然语言模型,GPT-4能实现更顺畅、符合人类思维的答案,对未知问题的回答更优,甚至能够识别图片中的幽默元素。资料来源:A Comprehensive Survey of AI-Generated Content(AIGC),中航证券研究所整理图表35:生成式AI的发展历史(基于NLP、CV、VL三类模型)3.3 产业链上游模型发展,驱动AIGC技术场景落地底层技术原理迅速发展,AIGC技术场景不断完善。伴随着GPT-4的推出,ChatGPT已经具备了多模态生成能力,较之前的基于NLP技术的文本生成能力跨越了一大步。伴随着相关技术的发展,目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。AIGC不同场景的原理及技术迭代情况:文本生成方面,大参数量叠加大型预训练模型加持,提升通用能力和理解承接能力;图像生成方面,则经历了三次模型迭代,现已出现构建3D图像的神经辐射场模型;多模态生成方面,“CLIP+其他模型”在当今跨模态生成领域成为一种较为通用的做法。资料来源:量子位、中航证券研究所整理图表36:AIGC技术场景(模型原理及技术迭代情况)文本生成(基于NLP技术)大参数量通用能力精进以Transformer架构为重要代表的底层架构理解能力、承接能力、逻辑能力音频生成文本转音频富文本信息抓取抑扬顿挫较少数据整体复制能力AI作曲以语言模型为中介对音乐数据进行双向转化图像生成生成对抗网络GAN 图像生成传统思路扩散模型Diffusion Model 新一代图像生成主流模型神经辐射场模型NeRF 符合3D内容消费趋势的新一代模型视频生成图像、视频、文本间跨模态生成视频属性编辑视频画质修复删除画面中特定主体视频自动编辑按照氛围、情绪等高级语义限定视频部分生成将视频切割成帧,再对每一帧的图像进行处理Transformer架构的跨界应用成为跨模态学习的重要开端之一Vision Transformer将Transformer架构首次应用于图像领域CLIP模型的出现,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法3.4 AIGC方兴未艾,规模化应用有望加速落地Gartner2021年预测:人工智能对人类和社会的影响给出积极预测:至2023年将有20%的内容被AIGC所创建;至2025年,Gartner预计AIGC产生的数据将占所有数据的10%,而今天这个比例不到1%;根据2022年7月Gartner披露的“人工智能技术成熟度曲线”,AIGC仍处于萌芽期,但其广阔的应用场景和巨大需求空间吸引着大量资本和技术的投入,预计将在2-5年内实现规模化应用。资料来源:量子位、Gartner,中航证券研究所整理图表37:2022年人工智能技术成熟曲线一、为什么ChatGPT爆火?二、GPT产品的演绎路径?目 录四、AIGC如何重构内容生产力?三、AIGC的底层技术驱动?五、看好“AI+”哪些应用场景?六、如何把握“AI+”时代的投资机遇?4.1 AIGC时代驶入快车道,2030年我国市场有望突破万亿资料来源:量子位、中航证券研究所整理2030年,我国

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开