温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
国盛证券
【国盛证券】ChatGPT算力需求是如何扩张的
证券
ChatGPT
需求
如何
扩张
请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业周报 2023 年 02 月 19 日 计算机计算机 ChatGPT 算力算力需求是如何需求是如何扩张扩张的的 算力需求陡增,算力需求陡增,ChatGPT 初始投入或近十亿美元。初始投入或近十亿美元。1)和传统人工智能小模型不同,Chatgpt 采用大模型支撑,可以满足通用场景需要。而这也带来了模型参数量及预训练数据量的扩张,算力成为衡量投入的关键指标。2)根据我们估算,以 Chatgpt日前约 2500 万日活、使用英伟达 A100 芯片等作为基础假设,访问阶段算力初始投入约近 8 亿美元,训练阶段算力投入约为单次 140 万美元;另外,考虑 Google每日搜索量已达到 35 亿,我们认为 Chatgpt 日活提升空间广阔,算力需求有望持续释放。文字交互仅为起点,大模型迈向输入输出多模态。文字交互仅为起点,大模型迈向输入输出多模态。1)NLP 只是大模型的应用领域之一,未来大模型的输入输出可以不仅限于文字,虽然当前影响力最强的 ChatGPT是 NLP 模型,但还可以包括图像、视频等多种形式,成为多模态模型,例如 OpenAI的绘画 AI 模型 DALL-E2,在 AIGC 界引起过巨大反响的 Stable Diffusion 等等。2)由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字,导致训练所需数据量远超语言模型。以 Stable diffusion 为例,根据公司官网信息披露,该模型训练数据集为 LAION 5B 的一个子数据集,而 LAION 5B 的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是 GB 级的)。无独有偶,DALL-E2 模型在训练时使用了 6.5 亿张图片,按单张图片大小 512*512像素(约 256kb)估算,整体训练数据集大小高达约 155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望进一步扩张。应用形式多点开花,算力或迎来高速扩张时代。应用形式多点开花,算力或迎来高速扩张时代。1)文字:Outlook 等主流邮箱已可利用 OpenAI 技术及 GPT 自动生成格式化的电子邮件回复,考虑全球每天超 3000亿封的电子邮件发送量、Outlook 约 8%的市占率、每个单词数据量约为 5B 等因素,我们预计,接入 Outlook 邮件场景后,Chatgpt 每日生成数据量或为 261GB,相比目前官网问答式场景约 33GB的数据量、或有近 8倍提升。2)语音:Teams与 OpenAI已正式开展合作,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能,官方定价为 10 美元/月。相比文字,音频数据量明显更大,约为 2B/秒;参考 Teams每日约 60 亿分钟的总会议时长,考虑相关功能使用比例,Teams 每日新增数据量需求约为 336GB。3)图片:根据文字描述、标签点击等自动生成图片的功能已有商业化落地,万兴科技 Filmora 也已计入 OpenAI,为视频创作者提供更定制化的图片素材。根据我们估算,以 Filmora 现有场景为基础,OpenAI 图片素材输出数据量约为每日 586GB。4)视频:犬与少年是 AIGC 技术辅助商业动画片的发行级别作品,由 Netflix、小冰公司日本分部(rinna)、WIT STUDIO 共同创作。在视频领域,单秒输出数据量或达到 1MB,是目前较为复杂的应用场景之一。随着 AIGC技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。综上,我们认为,目前文字交互仅为综上,我们认为,目前文字交互仅为 Chatgpt 以以及及 AIGC 应用场景的冰山一角,应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代能的算力需求,算力或迎来高速扩张时代。投资标的:投资标的:1)服务器:浪潮信息、紫光股份、神州数码、中科曙光等;2)芯片:景嘉微、寒武纪、海光信息、龙芯中科等;3)IDC:宝信软件、万国数据、数据港、世纪华通等;4)光通信等。风险提示风险提示:AI 技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险、假设测算与实际不符风险 增持增持(维持维持)行业行业走势走势 作者作者 分析师分析师 刘高畅刘高畅 执业证书编号:S0680518090001 邮箱: 相关研究相关研究 1、计算机:Chatgpt 需要多少算力2023-02-12 2、计算机:ChatGPT 应用再展望2023-02-12 3、计算机:微软公布 AI 融合版 Bing,ChatGPT 加速落地2023-02-09 扫码进群领取3、最新业报告、公司研究、专业咖分享1、优质研报免费获取,业报告定期打包2、每推送业最新深度研报(精选10篇) 2023 年 02 月 19 日 P.2 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 内容目录内容目录 1.算力需求陡增,ChatGPT 初始投入或近十亿美元.3 2.文字交互仅为起点,大模型迈向输入输出多模态.4 3.应用形式多点开花,算力或迎来高速扩张时代.7 3.1 文字:从搜索到邮件,Outlook/Gmail、Word 有望渐次接入.7 3.2 语音:Teams 已于 OpenAI 结合,大幅提升线上会议效率.8 3.3 图片:Filmora 接入 OpenAI 服务,实现“文生图”及“图生图”.10 3.4 视频:AIGC 辅助生成动画,星辰大海拉开序幕.11 4.投资标的.13 风险提示.13 图表目录图表目录 图表 1:GPT 历代模型参数量及表现.3 图表 2:GPT-3 训练成本估算.4 图表 3:预估 LLM 在 GCP TPU v4 芯片上的训练成本.4 图表 4:用 DALL-E2 生成宇航员骑马图.5 图表 5:Stable Diffusion 生成的图像.6 图表 6:Stable diffusion 训练成本估算.6 图表 7:Outlook 利用 GPT 生成邮件.7 图表 8:ChatGPT Writer 在 Gmail 中生成完整邮件.7 图表 9:由 GPT-3.5 自动创建生成的会议纪要.8 图表 10:通过实时翻译与字幕减少会议期间的语言障碍.8 图表 11:自动生成会议章节.9 图表 12:个性化时间轴标记.9 图表 13:商业敏感信息启用信息保护敏感度标签.9 图表 14:音频数字化后的数据量.9 图表 15:Wondershare Filmora 一键“创作”图片.10 图表 16:Wondershare Filmora 情人节简笔画.10 图表 17:犬与少年AI 参与制作.11 图表 18:视频文件数据量计算公式.12 图表 19:SDR 视频上 Youtube 的推荐比特率.12 图表 20:OpenAI 大模型各类场景数据量测算.12 2023 年 02 月 19 日 P.3 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 1.算力需求陡增,算力需求陡增,ChatGPT 初始投入或近十亿美元初始投入或近十亿美元 以以大模型大模型为基础,为基础,参数量、数据量高度扩张,算力需求陡增。参数量、数据量高度扩张,算力需求陡增。1)ChatGPT 是生成式 AI的一种形式,背后的支撑是人工智能大模型。大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后,在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。这意味着,对大模型的改进可以让所有的下游小模型受益,大幅提升人工智能的适用场景和研发效率。因此大模型成为业界重点投入的方向,OpenAI、谷歌、脸书、微软,国内的百度、阿里、腾讯、华为和智源研究院等纷纷推出超大模型。2)在大模型的框架下,每一代 GPT 模型的参数量均高速扩张;同时,预训练的数据量需求亦快速提升。我们认为,ChatGPT的快速渗透、落地应用,也将大幅提振算力需求。图表 1:GPT 历代模型参数量及表现 模型模型 参数量(亿个)参数量(亿个)表现表现 GPT-1 1.17 在问答、文本相似性评估、语义蕴含判定以及文本分类这四种语言场景,都取得了比基础 Transformer 模型更优的结果 GPT-2 15 刷新了大型语言模型在多项语言场景的评分纪录 GPT-3 1750 实现了生成类人文本能力的巨大飞跃,可以回答问题、总结文档、生成不同风格的故事,在英语、法语、西班牙语和日语之间进行翻译等 资料来源:澎湃新闻,国盛证券研究所 Chatgpt 月活过亿,算力成为衡量投入的关键指标。月活过亿,算力成为衡量投入的关键指标。根据 Similarweb 的数据,2023 年1 月,Chatgpt 累计用户超 1 亿,创下了互联网最快破亿应用的记录,超过了之前 TikTok9个月破亿的速度。1)访问阶段:初始投入近十亿美元,单日电费数万美元。)访问阶段:初始投入近十亿美元,单日电费数万美元。英伟达 A100:根据 OneFlow 报道,目前,NVIDIA A100 是 AWS 最具成本效益的GPU 选择。英伟达DGX A100服务器:单机搭载8片A100 GPU,AI算力性能约为5 PetaFLOP/s,单机最大功率约为 6.5kw,售价约为 19.9 万美元/台。每日咨询量:根据 Similarweb 数据,截至 2023 年 1 月底, 网站(即ChatGPT 官网)在 2023/1/27-2023/2/3 这一周吸引的每日访客数量高达 2500 万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。A100 运行小时:假设每个问题平均 30 字,单个词在 A100 GPU 上约消耗 350ms,则一天共需消耗 729,167 个 A100 GPU 运行小时。A100 需求量:对应每天需要 729,167/24=30,382 片英伟达 A100 GPU 同时计算,才可满足当前 ChatGPT 的访问量。初始算力投入:以前述英伟达 DGX A100 为基础,需要需要 30,382/8=3,798 台服务台服务器,对应器,对应 3,798/7=542 个机柜。个机柜。则,为满足 ChatGPT 当前千万级用户的咨询量,初始算力投入成本约为初始算力投入成本约为 542*140=7.59 亿美元。亿美元。每月电费:用电量而言,542*45.5kw*24h=591,864kwh/日。参考 Hashrate Index统计,我们假设美国平均工业电价约为 0.08 美元/kwh。则,每日电费约为每日电费约为2,369,640*0.08=4.7 万美元万美元/日。日。另外,考虑另外,考虑 Google 每日搜索量已达到每日搜索量已达到 35 亿,我们认为亿,我们认为 Chatgpt 日活提升空间广阔,日活提升空间广阔, 2023 年 02 月 19 日 P.4 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 算力需求有望持续释放。算力需求有望持续释放。2)训练阶段:公有云下,单次训练约为百万至千万美元)训练阶段:公有云下,单次训练约为百万至千万美元 每个 token 的训练成本通常约为 6N(而推理成本约为 2N),其中 N 是 LLM 的参数数量;假设在训练过程中,模型的 FLOPS 利用率为 46.2%,与在 TPU v4 芯片上进行训练的 PaLM 模型(拥有 5400 亿参数)一致。根据 OneFlow 估算,GPT-3 训练一次的成本约为 139.8 万美元;对于一些更大的 LLM模型(如拥有 2800 亿参数的 Gopher 和拥有 5400 亿参数的 PaLM),采用同样的计算公式,可得出,训练成本介于 200 万美元至 1200 万美元之间。图表 2:GPT-3 训练成本估算 资料来源:OneFlow,国盛证券研究所 图表 3:预估 LLM 在 GCP TPU v4 芯片上的训练成本 GPT-3(OpenAI)Gopher(Google DeepMind)MT-NLG(Microsoft/Nvidia)PaLM(Google Research)Model Parameters 175B 280B 530B 540B FLOPs/Token/Model Parameter 6 TPUs/Machine 4 Peak FLOPS/TPU 275T FLOPS Utilization 46.20%Cost/Machine/Hour(1-year reserved)$8.12 Seconds/Hour 3600 Training Cost/1000 Tokens$0.0047$0.0075$0.0141$0.0144 Train Tokens 300B 300B 270B 780B Training Cost$1,398,072$2,236,915$3,810,744$11,216,529 资料来源:OneFlow,国盛证券研究所 2.文字交互仅为起点,大模型迈向输入输出多模态文字交互仅为起点,大模型迈向输入输出多模态 NLP 只只是大模型的应用领域是大模型的应用领域之一,图像、视频等领域也可使用之一,图像、视频等领域也可使用 Transformer 大模型这大模型这一技术路径。一技术路径。Transformer 虽然最早提出之时,用于 NLP 领域,但随着这一技术路径不断普及流行,图像、视频、音乐等领域也开始使用 Transformer 的技术路线,探索各类 2023 年 02 月 19 日 P.5 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 跨类别任务(比如根据文字指令输出图像等)。未来大模型的输入输出可以不仅限于文字,还可以包括图未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多像、视频等多种形式,成为多模态模型。模态模型。虽然当前影响力最强的 ChatGPT 是 NLP 模型,但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像此类功能现在已经可以通过 AI 大模型一定程度上实现,这类模型被称为多模态模型,例如 OpenAI 的绘画 AI 模型 DALL-E2,在 AIGC 界引起过巨大反响的 Stable Diffusion,以及谷歌推出的音乐生成 AI 模型 MusicLM 等。1)DALL-E 2:OpenAI 推出的 AI 绘画模型,在前代 DALL-E 的基础之上有了很大提升,可以直接根据文字生成图像,也可以输入图像后、自现成图像上根据文字指令进行部分修改,功能强大。图表 4:用 DALL-E2 生成宇航员骑马图 资料来源:OpenAI 官网,国盛证券研究所 2)Stable diffusion:由 stability.ai 公司在去年开源的 AI 绘画模型,可以通过输入文字生成对应图像。由于效果极佳,模型一经开源即在 AIGC 界引起极大反响。 2023 年 02 月 19 日 P.6 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 5:Stable Diffusion 生成的图像 资料来源:stability.ai 官网,国盛证券研究所 多模态模型训练数据为图像、多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。视频等,规模远大于语言类模型,算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字。1)以Stable diffusion 为例,根据公司官网信息披露,该模型训练数据集为 LAION 5B 的一个子数据集,而 LAION 5B 的数据包至少 80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是 GB 级的)。该模型使用 4000 块英伟达 A100 训练了一个月,算力需求庞大,若按 AWS 官网上租用价格(32.77 美元/小时/8 GPU)计算,则该模型训练成本可高达 4000/8*32.77*24*30=1179.72 万美元。2)无独有偶,DALL-E2 模型在训练时使用了 6.5 亿张图片,按单张图片大小 512*512 像素(约 256kb)估算,整体训练数据集大小高达约 155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望扩张。图表 6:Stable diffusion 训练成本估算 使用 A100 总数 4000 片 8 个 A100 每小时单价 32.77 美元 训练时长 1 个月 训练总成本训练总成本 1179.72 万美元万美元 资料来源:亚马逊官网,国盛证券研究所 2023 年 02 月 19 日 P.7 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 3.应用形式多点开花,算力或迎来高速扩张时代应用形式多点开花,算力或迎来高速扩张时代 OpenAI GPT3 自发布以来,在翻译、问答、内容生成等纯文本领域均有不俗表现,吸引了海内外科技巨头纷纷加大投入。目前,OpenAI 快速扩充适用场景,从语言形式逐步拓展至文字、语音、图片、视频等各类场景。我们认为,AI 大模型的快速渗透和多领域落地应用,有望大幅提振算力需求。3.1 文字:从搜索到邮件,文字:从搜索到邮件,Outlook/Gmail、Word 有望渐次接入有望渐次接入 邮件服务已落地,邮件服务已落地,Outlook、Gmail 等主流邮箱已适配。等主流邮箱已适配。1)Outlook:Viva Sales 在微软云中利用 OpenAI 和 GPT 自动生成格式化的电子邮件回复。在回复电子邮件时,Viva Sales 根据“提出建议”、“答复询问”、“表达关切“或“自定义”等类别提供对应文本,用户只需选择适合他们需求的选项,在生成文本后根据自己的喜好进行编辑和发送。2)Gmail:目前 ChatGPT 已经与 Gmail 邮箱进行适配,可以通过 ChatGPT AI 生成完整的电子邮件和消息,在 Google 浏览器提供免费 Chrome。图表 7:Outlook 利用 GPT 生成邮件 图表 8:ChatGPT Writer 在 Gmail 中生成完整邮件 资料来源:microsoft 官网,国盛证券研究所 资料来源:chatgptwriter 官网,国盛证券研究所 全球每天电子邮件发送量全球每天电子邮件发送量超三千超三千亿封,亿封,Outlook 市占率约市占率约 8%。1)根据 FinancesOnline数据,2022 年全球企业和个人用户每天发送约 3332 亿封电子邮件,垃圾邮件占电子邮件流量的 47.3%。2)根据 Litmus Email Analytics 数据,从 2021 年 1 月到 2021 年 3月电子邮件客户端 Gmail 与 Outlook 的市场占有率为 27.2%、7.8%。则,可以推出每天企业和个人使用 Gmail 与 Outlook 客户端发送非垃圾邮件约 3332*(1-47.3%)*7.8%=137 亿封。据估算,据估算,整体而言,整体而言,Outlook 每日邮件数据量约为每日邮件数据量约为 25.52TB。邮件字符数:根据 Aweber 统计,每封邮件平均长度为 434.48 个单词;根据 English Letter Frequency Counts:Mayzner Revisited or ETAOIN SRHLDCU 论文统计,谷歌扫描的书籍数据库中平均每个单词 4.79 个字母。邮件数据量:每个英文字母大约一个字节(Byte),可推出一封邮件平均约为434.48*4.79/1024=2KB。则考虑 Outlook 每日约 137 亿封邮件的发送量,总数据量约为 25.52TB。 2023 年 02 月 19 日 P.8 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 其他影响因素:1)仅考虑纯文本,未考虑文字排版与储存格式对数据量的影响,根据 PC 网,Microsoft Word 100 页文档纯文本格式占用了 376KB,而 Word 格式保存同一份文档大小提升至 872KB;2)邮件平均长度数据为英文单词数,未考虑中文字符,等。接入接入 Outlook 邮件场景后,邮件场景后,Chatgpt 每日生成数据量或每日生成数据量或为为 261GB,相比目前官网问答,相比目前官网问答式场景、或有约式场景、或有约 8 倍的提升。倍的提升。1)考虑存在推广营销邮件、工作日程邮件等群发场景,我们以 1%的比例,保守假设 Chatgpt 在邮件写作中的使用比例,则接入 Outlook 后,估算模型需要处理及生成的数据量约为 261GB。2)对照而言,参考前文,Chatgpt 截至2 月初,每日官网咨询量约为 2.5 亿,平均每个问题 30 词,同样假设平均每个单词中包含约 4.79 个字母,则其数据量约为 2.5*109*30*4.79B=33.46GB。Word 等等 Office 套件场景有望渐次接入,远期空间广阔。套件场景有望渐次接入,远期空间广阔。根据环球网报道,1 月 18 日消息,微软 CEO 萨蒂亚纳德拉(Satya Nadella)日前宣布,微软计划将 ChatGPT 等人工智能工具整合到其所有产品中,并作为平台提供给其他企业使用。其中,包括计划将OpenAI 的技术整合到其办公软件 Office,为用户提供一种撰写文件的新方式。3.2 语音:语音:Teams 已于已于 OpenAI 结合,大幅提升线上会议效率结合,大幅提升线上会议效率 Teams 与与 OpenAI 结合,结合,可实现生成可实现生成纪要纪要、划分章节、时间标记、划分章节、时间标记、实时翻译实时翻译等多类功等多类功能能。根据公司官网,Teams 与 OpenAI 进行合作,从 6 月 30 日起,用户每月支付 10 美元,就可以使用 OpenAI 的 GPT-3.5 模型,体验自动生成会议纪要、实时字幕与语言翻译、自动生成会议章节、个性化时间轴标记、隐私保护等功能。自动生成会议纪要:由 GPT-3.5 自动创建生成的会议纪要,功能将于 2023 年第二季度推出。实时字幕与语言翻译:可以获得 40 种语言的实时翻译,同时可以自行选择字幕语言,实时标注在视频下方。自动生成会议章节:AI 自动将会议划分为多个部分,自动生成会议章节,用户可以轻松挑选最感兴趣的章节浏览。个性化时间轴标记:标注个性化时间轴标记,可以查看加入和离开会议的时间节点、名字被提及的时间节点,显示会议期间发言人,可以快速单击并收听错过的内容。隐私保护:对于不可泄密的会议,提供加水印限制会议记录浏览等功能,同时可以选择端到端加密(E2EE)。图表 9:由 GPT-3.5 自动创建生成的会议纪要 图表 10:通过实时翻译与字幕减少会议期间的语言障碍 资料来源:microsoft 官网,国盛证券研究所 资料来源:microsoft 官网,国盛证券研究所 2023 年 02 月 19 日 P.9 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 11:自动生成会议章节 图表 12:个性化时间轴标记 资料来源:microsoft 官网,国盛证券研究所 资料来源:microsoft 官网,国盛证券研究所 图表 13:商业敏感信息启用信息保护敏感度标签 资料来源:Microsoft Teams 官网,国盛证券研究所 大模型输入模式由文字扩散至语音,大模型输入模式由文字扩散至语音,Teams 新增数据量需求约为新增数据量需求约为 336GB/日日。音频每秒数据量:根据张振花、田宏团、王西等所著书籍多媒体技术与应用,数字音频的存储量单位为“字节”,与采样频率、量化位数、声道数和时间有关,而量化位数/8 是将位数转换成字节数。根据多媒体技术与应用,电话质量的音频信号采用 ITUTG711 标准,8 kHz 采样,8 bit 量化,则码率为 64 kbit/s;假设音频为双声道,则存储量为 16bit/秒。由于 1B 等于 8bit,所以存储量可以换算成 2B/s。图表 14:音频数字化后的数据量 资料来源:多媒体技术与应用张振花等,国盛证券研究所 音频时长:根据 Microsoft 官网文章,2020 年 4 月 Teams 每日会议总时长为 27 亿 2023 年 02 月 19 日 P.10 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 分钟,2020 年 9 月日活跃用户 1.15 亿;根据微软 22 年第二季度财报电话会,Teams日活跃用户数超过 2.7 亿,未披露会议总时长。假设 2020-2022 年会议总时长与日活跃用户等比例增长,则 2022 年 Teams 每日会议总时长约 60 亿分钟。音频数据量:Teams 每日 3600 亿秒,若参照电话质量估计,数据量约 671GB。假设约 50%的用户会参考 Chatgpt 整理会议纪要,则数据量约为 336GB。其他影响因素:1)仅考虑电话质量的音频信号标准,音频信号的用途不同,采样、量化和码率的要求也不同,高保真立体声音频压缩标准、AM 广播等采样、量化和码率会更高。根据多媒体技术与应用,AM 广播采用 ITUTG722 标准,16 kHz采样,14 bit 量化,码率 224 kbit/s,高保真立体声音频压缩标准由 ISO 和 ITU-T联合制订,CD11172-3MPEG 音频标准为 48 kHz、44.1 kHz、32 kHz 采样,每声道数码率 32-448 kbit/s;2)使用 Chatgpt 辅助线上会议的用户比例可能有所变动。3.3 图片:图片:Filmora 接入接入 OpenAI 服务,实现“文生图”及“图生图”服务,实现“文生图”及“图生图”Filmora 接入接入 OpenAI,一键智能生成图片素材。,一键智能生成图片素材。万兴科技旗下视频创意软件Wondershare Filmora 全球上线,接入 ChatGPT 母公司 OpenAI 相关服务。Wondershare Filmora 为视频制作平台,随着 OpenAI 的接入,用户在创作视频时可自由调用 OpenAI强大的 AI 绘图功能,一键即可智能生成图片素材,快速创作大师“同款”作品。Wondershare Filmora 情人节开发 AI 简笔画产品,用户用简笔画描绘出大致的形状,5秒钟可以生成一副人机共创的完善绘画作品,从“文生图”到“图生图”,未来用户有望体验更多 AIGC 新功能。图表 15:Wondershare Filmora 一键“创作”图片 图表 16:Wondershare Filmora 情人节简笔画 资料来源:万兴科技官方公众号,国盛证券研究所 资料来源:万兴科技官方公众号,国盛证券研究所 以以 Filmora 现有场景为基础,现有场景为基础,OpenAI 图片素材输出数据量约为图片素材输出数据量约为 586GB/日。日。单张图片数据量:根据 Photoshop 官网,每张图片数据量(Byte)=水平像素*垂直像素*3。其中,水平像素*垂直像素为分辨率,每个像素点中三原色(红色、绿色和蓝色)均占用内存中的 1 个字节,即 1 个字节用于红色,1 个字节用于绿色,1 个字节用于蓝色,总共 3 个字节。根据 Wondershare Filmora 官网,Filmora 默认尺 寸16:9,默 认 分 辨 率1920px*1080px,则 每 张 照 片 数 据 量 约 为1920*1080*3B=6MB。图片数量:根据万兴科技官方微信公众号报道,截至 2018 年底,视频剪辑软件Filmora 月活跃用户已超过 300 万;假设单次视频剪辑约调用 1 次 OpenAI 接口自动生成图片素材,则月均调用 300 万次、日均调用 10 万次。总数据量:6*10*104MB=586GB/天。 2023 年 02 月 19 日 P.11 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 亿图脑图开启亿图脑图开启 AIGC 功能内测,功能内测,继续继续推动创作模式革新。推动创作模式革新。1)根据财报网报道,2 月 17日,创意软件公司万兴科技旗下亿图脑图协同版正式开启 AIGC 功能内测,用户只需要输入一句话,即可一键生成头脑风暴、演讲大纲、SWOT 分析、活动策划、生活计划等脑图。这意味着,AI 加持下,亿图脑图将大大简化思维脑图的创作流程并革新创作模式,助力用户创作提质增效。区别于“从思维到脑图”的传统创作模式,借助 AIGC 新技术,亿图脑图将大幅省去用户的思索时间,助力用户更快生成灵感与解题思路,开启更智能畅快的思维脑图协作之旅。据了解,亿图脑图 AIGC 功能,即将面向用户开放内测申请,获得名额的用户届时可“尝鲜”体验。我们认为,图片应用场景丰富,包括营销宣传、读物插画、艺术创作等多领域,未来空我们认为,图片应用场景丰富,包括营销宣传、读物插画、艺术创作等多领域,未来空间有望进一步打开。间有望进一步打开。3.4 视频:视频:AIGC 辅助生成动画,星辰大海拉开序幕辅助生成动画,星辰大海拉开序幕 AIGC 辅助商业动画片,视频领域前景广阔。辅助商业动画片,视频领域前景广阔。犬与少年是 AIGC 技术辅助商业动画片的发行级别作品,由 Netflix、小冰公司日本分部(rinna)、WIT STUDIO 共同创作。根据新华网报道,小冰公司前身为微软人工智能小冰团队,2020 年分拆为独立技术研发实体。2022 年 11 月 7 日,小冰公司宣布完成总额 10 亿元规模的新融资,用于加速 AI Being 小冰框架技术研发,还宣布对旗下人工智能数字员工(AI Being Employee)产品线启动年度升级,升级内容包括大模型对话引擎、3D 神经网络渲染、超级自然语音及AIGC 人工智能内容生成。根据新华网报道,小冰公司目前已经覆盖中国、日本、印度尼西亚等国 6.6 亿在线用户、10 亿台第三方智能设备和 9 亿内容观众。图表 17:犬与少年AI 参与制作 资料来源:Netflix JapanYoutube 官方账号,国盛证券研究所 单秒输出数据量达到单秒输出数据量达到 1MB,星辰大海,星辰大海或或拉开序幕。拉开序幕。1)视频大小:根据存储卡制造商ProGrade Digital 官网,视频文件大小(MB)=比特率(Mbps)/8(位)x 持续时间(秒)。犬与少年为 1920 x1080 24fps(即 1080p,每秒 24 帧),根据 Youtube Help,1080p、24fps 的 SDR 视频建议上传 Youtube 的比特率为 8Mbps,据此计算 1 秒视频大小约为 1MB。2)随着 AIGC 技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。 2023 年 02 月 19 日 P.12 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 18:视频文件数据量计算公式 图表 19:SDR 视频上 Youtube 的推荐比特率 资料来源:ProGrade Digital 官网,国盛证券研究所 资料来源:Youtube Help,国盛证券研究所 综上,我们认为,目前文字交互仅为综上,我们认为,目前文字交互仅为 Chatgpt 以及以及 AIGC 应用场景的冰山一角,语音、应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力需求,算力或迎来高速扩张时代,算力或迎来高速扩张时代,服务器、芯片、服务器、芯片、IDC、光通信等厂商有望核心受、光通信等厂商有望核心受益。益。图表 20:OpenAI 大模型各类场景数据量测算 使用场景使用场景 交互问答交互问答 邮件写作邮件写作 线上会议线上会议 图片生成图片生成 视频生成视频生成 落地应用落地应用 Chatgpt、微软、微软Bing Outlook Teams Filmora-输入形式 文字 文字、标签点击 语音 文字、标签点击-输出形式输出形式 文字文字 文字文字 文字、文档文字、文档 图片图片 视频视频 单位数据量单位数据量 4.79B/词词 4.79B/词词 2B/秒秒 6MB/张张 1MB/秒秒 单位个数 75 亿/天 137 亿封邮件/天 434 个单词/封 3600 亿秒/天 10 万张/天-使用比例 100%1%50%-总计数据量总计数据量 33.46GB/天天 261GB/天天 336GB/天天 586GB/天天-算力投入 7.59 亿美元-备注 1)以 Chatgpt 现有2500 万日活为基础;2)参考 Google 每日约 35 亿的搜索量,日活提升空间广阔。1)剔除垃圾邮件;2)未考虑文本格式影响;3)未考虑除英文外的其他字符;4)使用比例或存在变化;5)仅考虑所列的特定落地应用,下同。1)仅考虑一般电话质量的音频信号标准;2)使用比例或存在变动。1)视频剪辑时调用OpenAI 接口的频率或有所变动。1)尚未有规模化的落地应用。资料来源:国盛证券研究所测算(注:所有数据均来自于前文测算,包括 3.1、3.2、3.3、3.4 小节) 2023 年 02 月 19 日 P.13 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 4.投资标的投资标的 服务器:服务器:浪潮信息、紫光股份、中科曙光等;芯片:芯片:景嘉微、寒武纪、海光信息、龙芯中科等;IDC:宝信软件、万国数据、数据港、世纪华通等;光通信光通信等。风险提示风险提示 AI 技术迭代不及预期风险:技术迭代不及预期风险:若 AI 技术迭代不及预期,NLP 技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。经济下行超预期风险:经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。行业竞争加剧风险:行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。假设测算与实际不符风险:假设测算与实际不符风险:文中测算参考了部分相对权威的数据来源,但实际落地应用中,影响因素多、使用场景复杂,可能会导致假设测算与实际产生偏差。 2023 年 02 月 19 日 P.14 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 免责声明免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正,但本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构