温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
计算机
行业
周报
ChatGPT
需求
如何
扩张
230129
请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告|行业周报 2023 年 02 月 19 日 计算机计算机 ChatGPT 算力算力需求是如何需求是如何扩张扩张的的 算力需求陡增,算力需求陡增,ChatGPT 初始投入或近十亿美元。初始投入或近十亿美元。1)和传统人工智能小模型不同,Chatgpt 采用大模型支撑,可以满足通用场景需要。而这也带来了模型参数量及预训练数据量的扩张,算力成为衡量投入的关键指标。2)根据我们估算,以 Chatgpt日前约 2500 万日活、使用英伟达 A100 芯片等作为基础假设,访问阶段算力初始投入约近 8 亿美元,训练阶段算力投入约为单次 140 万美元;另外,考虑 Google每日搜索量已达到 35 亿,我们认为 Chatgpt 日活提升空间广阔,算力需求有望持续释放。文字交互仅为起点,大模型迈向输入输出多模态。文字交互仅为起点,大模型迈向输入输出多模态。1)NLP 只是大模型的应用领域之一,未来大模型的输入输出可以不仅限于文字,虽然当前影响力最强的 ChatGPT是 NLP 模型,但还可以包括图像、视频等多种形式,成为多模态模型,例如 OpenAI的绘画 AI 模型 DALL-E2,在 AIGC 界引起过巨大反响的 Stable Diffusion 等等。2)由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字,导致训练所需数据量远超语言模型。以 Stable diffusion 为例,根据公司官网信息披露,该模型训练数据集为 LAION 5B 的一个子数据集,而 LAION 5B 的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是 GB 级的)。无独有偶,DALL-E2 模型在训练时使用了 6.5 亿张图片,按单张图片大小 512*512像素(约 256kb)估算,整体训练数据集大小高达约 155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望进一步扩张。应用形式多点开花,算力或迎来高速扩张时代。应用形式多点开花,算力或迎来高速扩张时代。1)文字:Outlook 等主流邮箱已可利用 OpenAI 技术及 GPT 自动生成格式化的电子邮件回复,考虑全球每天超 3000亿封的电子邮件发送量、Outlook 约 8%的市占率、每个单词数据量约为 5B 等因素,我们预计,接入 Outlook 邮件场景后,Chatgpt 每日生成数据量或为 261GB,相比目前官网问答式场景约 33GB的数据量、或有近 8倍提升。2)语音:Teams与 OpenAI已正式开展合作,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能,官方定价为 10 美元/月。相比文字,音频数据量明显更大,约为 2B/秒;参考 Teams每日约 60 亿分钟的总会议时长,考虑相关功能使用比例,Teams 每日新增数据量需求约为 336GB。3)图片:根据文字描述、标签点击等自动生成图片的功能已有商业化落地,万兴科技 Filmora 也已计入 OpenAI,为视频创作者提供更定制化的图片素材。根据我们估算,以 Filmora 现有场景为基础,OpenAI 图片素材输出数据量约为每日 586GB。4)视频:犬与少年是 AIGC 技术辅助商业动画片的发行级别作品,由 Netflix、小冰公司日本分部(rinna)、WIT STUDIO 共同创作。在视频领域,单秒输出数据量或达到 1MB,是目前较为复杂的应用场景之一。随着 AIGC技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。综上,我们认为,目前文字交互仅为综上,我们认为,目前文字交互仅为 Chatgpt 以以及及 AIGC 应用场景的冰山一角,应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代能的算力需求,算力或迎来高速扩张时代。投资标的:投资标的:1)服务器:浪潮信息、紫光股份、神州数码、中科曙光等;2)芯片:景嘉微、寒武纪、海光信息、龙芯中科等;3)IDC:宝信软件、万国数据、数据港、世纪华通等;4)光通信等。风险提示风险提示:AI 技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险、假设测算与实际不符风险 增持增持(维持维持)行业行业走势走势 作者作者 分析师分析师 刘高畅刘高畅 执业证书编号:S0680518090001 邮箱: 相关研究相关研究 1、计算机:Chatgpt 需要多少算力2023-02-12 2、计算机:ChatGPT 应用再展望2023-02-12 3、计算机:微软公布 AI 融合版 Bing,ChatGPT 加速落地2023-02-09 获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.2 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 内容目录内容目录 1.算力需求陡增,ChatGPT 初始投入或近十亿美元.3 2.文字交互仅为起点,大模型迈向输入输出多模态.4 3.应用形式多点开花,算力或迎来高速扩张时代.7 3.1 文字:从搜索到邮件,Outlook/Gmail、Word 有望渐次接入.7 3.2 语音:Teams 已于 OpenAI 结合,大幅提升线上会议效率.8 3.3 图片:Filmora 接入 OpenAI 服务,实现“文生图”及“图生图”.10 3.4 视频:AIGC 辅助生成动画,星辰大海拉开序幕.11 4.投资标的.13 风险提示.13 图表目录图表目录 图表 1:GPT 历代模型参数量及表现.3 图表 2:GPT-3 训练成本估算.4 图表 3:预估 LLM 在 GCP TPU v4 芯片上的训练成本.4 图表 4:用 DALL-E2 生成宇航员骑马图.5 图表 5:Stable Diffusion 生成的图像.6 图表 6:Stable diffusion 训练成本估算.6 图表 7:Outlook 利用 GPT 生成邮件.7 图表 8:ChatGPT Writer 在 Gmail 中生成完整邮件.7 图表 9:由 GPT-3.5 自动创建生成的会议纪要.8 图表 10:通过实时翻译与字幕减少会议期间的语言障碍.8 图表 11:自动生成会议章节.9 图表 12:个性化时间轴标记.9 图表 13:商业敏感信息启用信息保护敏感度标签.9 图表 14:音频数字化后的数据量.9 图表 15:Wondershare Filmora 一键“创作”图片.10 图表 16:Wondershare Filmora 情人节简笔画.10 图表 17:犬与少年AI 参与制作.11 图表 18:视频文件数据量计算公式.12 图表 19:SDR 视频上 Youtube 的推荐比特率.12 图表 20:OpenAI 大模型各类场景数据量测算.12 获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.3 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 1.算力需求陡增,算力需求陡增,ChatGPT 初始投入或近十亿美元初始投入或近十亿美元 以大模型为基础,参数量、数据量高度扩张,算力需求陡增。以大模型为基础,参数量、数据量高度扩张,算力需求陡增。1)ChatGPT 是生成式 AI的一种形式,背后的支撑是人工智能大模型。大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后,在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。这意味着,对大模型的改进可以让所有的下游小模型受益,大幅提升人工智能的适用场景和研发效率。因此大模型成为业界重点投入的方向,OpenAI、谷歌、脸书、微软,国内的百度、阿里、腾讯、华为和智源研究院等纷纷推出超大模型。2)在大模型的框架下,每一代 GPT 模型的参数量均高速扩张;同时,预训练的数据量需求亦快速提升。我们认为,ChatGPT的快速渗透、落地应用,也将大幅提振算力需求。图表 1:GPT 历代模型参数量及表现 模型模型 参数量(亿个)参数量(亿个)表现表现 GPT-1 1.17 在问答、文本相似性评估、语义蕴含判定以及文本分类这四种语言场景,都取得了比基础 Transformer 模型更优的结果 GPT-2 15 刷新了大型语言模型在多项语言场景的评分纪录 GPT-3 1750 实现了生成类人文本能力的巨大飞跃,可以回答问题、总结文档、生成不同风格的故事,在英语、法语、西班牙语和日语之间进行翻译等 资料来源:澎湃新闻,国盛证券研究所 Chatgpt 月活过亿,算力成为衡量投入的关键指标。月活过亿,算力成为衡量投入的关键指标。根据 Similarweb 的数据,2023 年1 月,Chatgpt 累计用户超 1 亿,创下了互联网最快破亿应用的记录,超过了之前 TikTok9个月破亿的速度。1)访问阶段:初始投入近十亿美元,单日电费数万美元。)访问阶段:初始投入近十亿美元,单日电费数万美元。英伟达 A100:根据 OneFlow 报道,目前,NVIDIA A100 是 AWS 最具成本效益的GPU 选择。英伟达DGX A100服务器:单机搭载8片A100 GPU,AI算力性能约为5 PetaFLOP/s,单机最大功率约为 6.5kw,售价约为 19.9 万美元/台。每日咨询量:根据 Similarweb 数据,截至 2023 年 1 月底, 网站(即ChatGPT 官网)在 2023/1/27-2023/2/3 这一周吸引的每日访客数量高达 2500 万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。A100 运行小时:假设每个问题平均 30 字,单个词在 A100 GPU 上约消耗 350ms,则一天共需消耗 729,167 个 A100 GPU 运行小时。A100 需求量:对应每天需要 729,167/24=30,382 片英伟达 A100 GPU 同时计算,才可满足当前 ChatGPT 的访问量。初始算力投入:以前述英伟达 DGX A100 为基础,需要需要 30,382/8=3,798 台服务台服务器,对应器,对应 3,798/7=542 个机柜。个机柜。则,为满足 ChatGPT 当前千万级用户的咨询量,初始算力投入成本约为初始算力投入成本约为 542*140=7.59 亿美元。亿美元。每月电费:用电量而言,542*45.5kw*24h=591,864kwh/日。参考 Hashrate Index统计,我们假设美国平均工业电价约为 0.08 美元/kwh。则,每日电费约为每日电费约为2,369,640*0.08=4.7 万美元万美元/日。日。另外,考虑另外,考虑 Google 每日搜索量已达到每日搜索量已达到 35 亿,我们认为亿,我们认为 Chatgpt 日活提升空间广阔,日活提升空间广阔,获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.4 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 算力需求有望持续释放。算力需求有望持续释放。2)训练阶段:公有云下,单次训练约为百万至千万美元)训练阶段:公有云下,单次训练约为百万至千万美元 每个 token 的训练成本通常约为 6N(而推理成本约为 2N),其中 N 是 LLM 的参数数量;假设在训练过程中,模型的 FLOPS 利用率为 46.2%,与在 TPU v4 芯片上进行训练的 PaLM 模型(拥有 5400 亿参数)一致。根据 OneFlow 估算,GPT-3 训练一次的成本约为 139.8 万美元;对于一些更大的 LLM模型(如拥有 2800 亿参数的 Gopher 和拥有 5400 亿参数的 PaLM),采用同样的计算公式,可得出,训练成本介于 200 万美元至 1200 万美元之间。图表 2:GPT-3 训练成本估算 资料来源:OneFlow,国盛证券研究所 图表 3:预估 LLM 在 GCP TPU v4 芯片上的训练成本 GPT-3(OpenAI)Gopher(Google DeepMind)MT-NLG(Microsoft/Nvidia)PaLM(Google Research)Model Parameters 175B 280B 530B 540B FLOPs/Token/Model Parameter 6 TPUs/Machine 4 Peak FLOPS/TPU 275T FLOPS Utilization 46.20%Cost/Machine/Hour(1-year reserved)$8.12 Seconds/Hour 3600 Training Cost/1000 Tokens$0.0047$0.0075$0.0141$0.0144 Train Tokens 300B 300B 270B 780B Training Cost$1,398,072$2,236,915$3,810,744$11,216,529 资料来源:OneFlow,国盛证券研究所 2.文字交互仅为起点,大模型迈向输入输出多模态文字交互仅为起点,大模型迈向输入输出多模态 NLP 只是大模型的应用领域之一,图像、视频等领域也可使用只是大模型的应用领域之一,图像、视频等领域也可使用 Transformer 大模型这一技术路径。大模型这一技术路径。Transformer 虽然最早提出之时,用于 NLP 领域,但随着这一技术路径不断普及流行,图像、视频、音乐等领域也开始使用 Transformer 的技术路线,探索各类获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.5 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 跨类别任务(比如根据文字指令输出图像等)。未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多模态模型。未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多模态模型。虽然当前影响力最强的 ChatGPT 是 NLP 模型,但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像此类功能现在已经可以通过 AI 大模型一定程度上实现,这类模型被称为多模态模型,例如 OpenAI 的绘画 AI 模型 DALL-E2,在 AIGC 界引起过巨大反响的 Stable Diffusion,以及谷歌推出的音乐生成 AI 模型 MusicLM 等。1)DALL-E 2:OpenAI 推出的 AI 绘画模型,在前代 DALL-E 的基础之上有了很大提升,可以直接根据文字生成图像,也可以输入图像后、自现成图像上根据文字指令进行部分修改,功能强大。图表 4:用 DALL-E2 生成宇航员骑马图 资料来源:OpenAI 官网,国盛证券研究所 2)Stable diffusion:由 stability.ai 公司在去年开源的 AI 绘画模型,可以通过输入文字生成对应图像。由于效果极佳,模型一经开源即在 AIGC 界引起极大反响。获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.6 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 5:Stable Diffusion 生成的图像 资料来源:stability.ai 官网,国盛证券研究所 多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字。1)以Stable diffusion 为例,根据公司官网信息披露,该模型训练数据集为 LAION 5B 的一个子数据集,而 LAION 5B 的数据包至少 80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是 GB 级的)。该模型使用 4000 块英伟达 A100 训练了一个月,算力需求庞大,若按 AWS 官网上租用价格(32.77 美元/小时/8 GPU)计算,则该模型训练成本可高达 4000/8*32.77*24*30=1179.72 万美元。2)无独有偶,DALL-E2 模型在训练时使用了 6.5 亿张图片,按单张图片大小 512*512 像素(约 256kb)估算,整体训练数据集大小高达约 155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望扩张。图表 6:Stable diffusion 训练成本估算 使用 A100 总数 4000 片 8 个 A100 每小时单价 32.77 美元 训练时长 1 个月 训练总成本训练总成本 1179.72 万美元万美元 资料来源:亚马逊官网,国盛证券研究所 获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.7 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 3.应用形式多点开花,算力或迎来高速扩张时代应用形式多点开花,算力或迎来高速扩张时代 OpenAI GPT3 自发布以来,在翻译、问答、内容生成等纯文本领域均有不俗表现,吸引了海内外科技巨头纷纷加大投入。目前,OpenAI 快速扩充适用场景,从语言形式逐步拓展至文字、语音、图片、视频等各类场景。我们认为,AI 大模型的快速渗透和多领域落地应用,有望大幅提振算力需求。3.1 文字:从搜索到邮件,文字:从搜索到邮件,Outlook/Gmail、Word 有望渐次接入有望渐次接入 邮件服务已落地,邮件服务已落地,Outlook、Gmail 等主流邮箱已适配。等主流邮箱已适配。1)Outlook:Viva Sales 在微软云中利用 OpenAI 和 GPT 自动生成格式化的电子邮件回复。在回复电子邮件时,Viva Sales 根据“提出建议”、“答复询问”、“表达关切“或“自定义”等类别提供对应文本,用户只需选择适合他们需求的选项,在生成文本后根据自己的喜好进行编辑和发送。2)Gmail:目前 ChatGPT 已经与 Gmail 邮箱进行适配,可以通过 ChatGPT AI 生成完整的电子邮件和消息,在 Google 浏览器提供免费 Chrome。图表 7:Outlook 利用 GPT 生成邮件 图表 8:ChatGPT Writer 在 Gmail 中生成完整邮件 资料来源:microsoft 官网,国盛证券研究所 资料来源:chatgptwriter 官网,国盛证券研究所 全球每天电子邮件发送量超三千亿封,全球每天电子邮件发送量超三千亿封,Outlook 市占率约市占率约 8%。1)根据 FinancesOnline数据,2022 年全球企业和个人用户每天发送约 3332 亿封电子邮件,垃圾邮件占电子邮件流量的 47.3%。2)根据 Litmus Email Analytics 数据,从 2021 年 1 月到 2021 年 3月电子邮件客户端 Gmail 与 Outlook 的市场占有率为 27.2%、7.8%。则,可以推出每天企业和个人使用 Gmail 与 Outlook 客户端发送非垃圾邮件约 3332*(1-47.3%)*7.8%=137 亿封。据估算,整体而言,据估算,整体而言,Outlook 每日邮件数据量约为每日邮件数据量约为 25.52TB。邮件字符数:根据 Aweber 统计,每封邮件平均长度为 434.48 个单词;根据 English Letter Frequency Counts:Mayzner Revisited or ETAOIN SRHLDCU 论文统计,谷歌扫描的书籍数据库中平均每个单词 4.79 个字母。邮件数据量:每个英文字母大约一个字节(Byte),可推出一封邮件平均约为434.48*4.79/1024=2KB。则考虑 Outlook 每日约 137 亿封邮件的发送量,总数据量约为 25.52TB。获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.8 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 其他影响因素:1)仅考虑纯文本,未考虑文字排版与储存格式对数据量的影响,根据 PC 网,Microsoft Word 100 页文档纯文本格式占用了 376KB,而 Word 格式保存同一份文档大小提升至 872KB;2)邮件平均长度数据为英文单词数,未考虑中文字符,等。接入接入 Outlook 邮件场景后,邮件场景后,Chatgpt 每日生成数据量或为每日生成数据量或为 261GB,相比目前官网问答式场景、或有约,相比目前官网问答式场景、或有约 8 倍的提升。倍的提升。1)考虑存在推广营销邮件、工作日程邮件等群发场景,我们以 1%的比例,保守假设 Chatgpt 在邮件写作中的使用比例,则接入 Outlook 后,估算模型需要处理及生成的数据量约为 261GB。2)对照而言,参考前文,Chatgpt 截至2 月初,每日官网咨询量约为 2.5 亿,平均每个问题 30 词,同样假设平均每个单词中包含约 4.79 个字母,则其数据量约为 2.5*109*30*4.79B=33.46GB。Word 等等 Office 套件场景有望渐次接入,远期空间广阔。套件场景有望渐次接入,远期空间广阔。根据环球网报道,1 月 18 日消息,微软 CEO 萨蒂亚纳德拉(Satya Nadella)日前宣布,微软计划将 ChatGPT 等人工智能工具整合到其所有产品中,并作为平台提供给其他企业使用。其中,包括计划将OpenAI 的技术整合到其办公软件 Office,为用户提供一种撰写文件的新方式。3.2 语音:语音:Teams 已于已于 OpenAI 结合,大幅提升线上会议效率结合,大幅提升线上会议效率 Teams 与与 OpenAI 结合,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能。结合,可实现生成纪要、划分章节、时间标记、实时翻译等多类功能。根据公司官网,Teams 与 OpenAI 进行合作,从 6 月 30 日起,用户每月支付 10 美元,就可以使用 OpenAI 的 GPT-3.5 模型,体验自动生成会议纪要、实时字幕与语言翻译、自动生成会议章节、个性化时间轴标记、隐私保护等功能。自动生成会议纪要:由 GPT-3.5 自动创建生成的会议纪要,功能将于 2023 年第二季度推出。实时字幕与语言翻译:可以获得 40 种语言的实时翻译,同时可以自行选择字幕语言,实时标注在视频下方。自动生成会议章节:AI 自动将会议划分为多个部分,自动生成会议章节,用户可以轻松挑选最感兴趣的章节浏览。个性化时间轴标记:标注个性化时间轴标记,可以查看加入和离开会议的时间节点、名字被提及的时间节点,显示会议期间发言人,可以快速单击并收听错过的内容。隐私保护:对于不可泄密的会议,提供加水印限制会议记录浏览等功能,同时可以选择端到端加密(E2EE)。图表 9:由 GPT-3.5 自动创建生成的会议纪要 图表 10:通过实时翻译与字幕减少会议期间的语言障碍 资料来源:microsoft 官网,国盛证券研究所 资料来源:microsoft 官网,国盛证券研究所 获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.9 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 11:自动生成会议章节 图表 12:个性化时间轴标记 资料来源:microsoft 官网,国盛证券研究所 资料来源:microsoft 官网,国盛证券研究所 图表 13:商业敏感信息启用信息保护敏感度标签 资料来源:Microsoft Teams 官网,国盛证券研究所 大模型输入模式由文字扩散至语音,大模型输入模式由文字扩散至语音,Teams 新增数据量需求约为新增数据量需求约为 336GB/日。日。音频每秒数据量:根据张振花、田宏团、王西等所著书籍多媒体技术与应用,数字音频的存储量单位为“字节”,与采样频率、量化位数、声道数和时间有关,而量化位数/8 是将位数转换成字节数。根据多媒体技术与应用,电话质量的音频信号采用 ITUTG711 标准,8 kHz 采样,8 bit 量化,则码率为 64 kbit/s;假设音频为双声道,则存储量为 16bit/秒。由于 1B 等于 8bit,所以存储量可以换算成 2B/s。图表 14:音频数字化后的数据量 资料来源:多媒体技术与应用张振花等,国盛证券研究所 音频时长:根据 Microsoft 官网文章,2020 年 4 月 Teams 每日会议总时长为 27 亿获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.10 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 分钟,2020 年 9 月日活跃用户 1.15 亿;根据微软 22 年第二季度财报电话会,Teams日活跃用户数超过 2.7 亿,未披露会议总时长。假设 2020-2022 年会议总时长与日活跃用户等比例增长,则 2022 年 Teams 每日会议总时长约 60 亿分钟。音频数据量:Teams 每日 3600 亿秒,若参照电话质量估计,数据量约 671GB。假设约 50%的用户会参考 Chatgpt 整理会议纪要,则数据量约为 336GB。其他影响因素:1)仅考虑电话质量的音频信号标准,音频信号的用途不同,采样、量化和码率的要求也不同,高保真立体声音频压缩标准、AM 广播等采样、量化和码率会更高。根据多媒体技术与应用,AM 广播采用 ITUTG722 标准,16 kHz采样,14 bit 量化,码率 224 kbit/s,高保真立体声音频压缩标准由 ISO 和 ITU-T联合制订,CD11172-3MPEG 音频标准为 48 kHz、44.1 kHz、32 kHz 采样,每声道数码率 32-448 kbit/s;2)使用 Chatgpt 辅助线上会议的用户比例可能有所变动。3.3 图片:图片:Filmora 接入接入 OpenAI 服务,实现“文生图”及“图生图”服务,实现“文生图”及“图生图”Filmora 接入接入 OpenAI,一键智能生成图片素材。,一键智能生成图片素材。万兴科技旗下视频创意软件Wondershare Filmora 全球上线,接入 ChatGPT 母公司 OpenAI 相关服务。Wondershare Filmora 为视频制作平台,随着 OpenAI 的接入,用户在创作视频时可自由调用 OpenAI强大的 AI 绘图功能,一键即可智能生成图片素材,快速创作大师“同款”作品。Wondershare Filmora 情人节开发 AI 简笔画产品,用户用简笔画描绘出大致的形状,5秒钟可以生成一副人机共创的完善绘画作品,从“文生图”到“图生图”,未来用户有望体验更多 AIGC 新功能。图表 15:Wondershare Filmora 一键“创作”图片 图表 16:Wondershare Filmora 情人节简笔画 资料来源:万兴科技官方公众号,国盛证券研究所 资料来源:万兴科技官方公众号,国盛证券研究所 以以 Filmora 现有场景为基础,现有场景为基础,OpenAI 图片素材输出数据量约为图片素材输出数据量约为 586GB/日。日。单张图片数据量:根据 Photoshop 官网,每张图片数据量(Byte)=水平像素*垂直像素*3。其中,水平像素*垂直像素为分辨率,每个像素点中三原色(红色、绿色和蓝色)均占用内存中的 1 个字节,即 1 个字节用于红色,1 个字节用于绿色,1 个字节用于蓝色,总共 3 个字节。根据 Wondershare Filmora 官网,Filmora 默认尺 寸16:9,默 认 分 辨 率1920px*1080px,则 每 张 照 片 数 据 量 约 为1920*1080*3B=6MB。图片数量:根据万兴科技官方微信公众号报道,截至 2018 年底,视频剪辑软件Filmora 月活跃用户已超过 300 万;假设单次视频剪辑约调用 1 次 OpenAI 接口自动生成图片素材,则月均调用 300 万次、日均调用 10 万次。总数据量:6*10*104MB=586GB/天。获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.11 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 亿图脑图开启亿图脑图开启 AIGC 功能内测,继续推动创作模式革新。功能内测,继续推动创作模式革新。1)根据财报网报道,2 月 17日,创意软件公司万兴科技旗下亿图脑图协同版正式开启 AIGC 功能内测,用户只需要输入一句话,即可一键生成头脑风暴、演讲大纲、SWOT 分析、活动策划、生活计划等脑图。这意味着,AI 加持下,亿图脑图将大大简化思维脑图的创作流程并革新创作模式,助力用户创作提质增效。区别于“从思维到脑图”的传统创作模式,借助 AIGC 新技术,亿图脑图将大幅省去用户的思索时间,助力用户更快生成灵感与解题思路,开启更智能畅快的思维脑图协作之旅。据了解,亿图脑图 AIGC 功能,即将面向用户开放内测申请,获得名额的用户届时可“尝鲜”体验。我们认为,图片应用场景丰富,包括营销宣传、读物插画、艺术创作等多领域,未来空间有望进一步打开。我们认为,图片应用场景丰富,包括营销宣传、读物插画、艺术创作等多领域,未来空间有望进一步打开。3.4 视频:视频:AIGC 辅助生成动画,星辰大海拉开序幕辅助生成动画,星辰大海拉开序幕 AIGC 辅助商业动画片,视频领域前景广阔。辅助商业动画片,视频领域前景广阔。犬与少年是 AIGC 技术辅助商业动画片的发行级别作品,由 Netflix、小冰公司日本分部(rinna)、WIT STUDIO 共同创作。根据新华网报道,小冰公司前身为微软人工智能小冰团队,2020 年分拆为独立技术研发实体。2022 年 11 月 7 日,小冰公司宣布完成总额 10 亿元规模的新融资,用于加速 AI Being 小冰框架技术研发,还宣布对旗下人工智能数字员工(AI Being Employee)产品线启动年度升级,升级内容包括大模型对话引擎、3D 神经网络渲染、超级自然语音及AIGC 人工智能内容生成。根据新华网报道,小冰公司目前已经覆盖中国、日本、印度尼西亚等国 6.6 亿在线用户、10 亿台第三方智能设备和 9 亿内容观众。图表 17:犬与少年AI 参与制作 资料来源:Netflix JapanYoutube 官方账号,国盛证券研究所 单秒输出数据量达到单秒输出数据量达到 1MB,星辰大海或拉开序幕。,星辰大海或拉开序幕。1)视频大小:根据存储卡制造商ProGrade Digital 官网,视频文件大小(MB)=比特率(Mbps)/8(位)x 持续时间(秒)。犬与少年为 1920 x1080 24fps(即 1080p,每秒 24 帧),根据 Youtube Help,1080p、24fps 的 SDR 视频建议上传 Youtube 的比特率为 8Mbps,据此计算 1 秒视频大小约为 1MB。2)随着 AIGC 技术在影视剧集、宣传视频等领域逐步渗透,视频创作效率或迎来显著提升,星辰大海拉开序幕。获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.12 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 图表 18:视频文件数据量计算公式 图表 19:SDR 视频上 Youtube 的推荐比特率 资料来源:ProGrade Digital 官网,国盛证券研究所 资料来源:Youtube Help,国盛证券研究所 综上,我们认为,目前文字交互仅为综上,我们认为,目前文字交互仅为 Chatgpt 以及以及 AIGC 应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代,服务器、芯片、而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代,服务器、芯片、IDC、光通信等厂商有望核心受益。、光通信等厂商有望核心受益。图表 20:OpenAI 大模型各类场景数据量测算 使用场景使用场景 交互问答交互问答 邮件写作邮件写作 线上会议线上会议 图片生成图片生成 视频生成视频生成 落地应用落地应用 Chatgpt、微软、微软Bing Outlook Teams Filmora-输入形式 文字 文字、标签点击 语音 文字、标签点击-输出形式输出形式 文字文字 文字文字 文字、文档文字、文档 图片图片 视频视频 单位数据量单位数据量 4.79B/词词 4.79B/词词 2B/秒秒 6MB/张张 1MB/秒秒 单位个数 75 亿/天 137 亿封邮件/天 434 个单词/封 3600 亿秒/天 10 万张/天-使用比例 100%1%50%-总计数据量总计数据量 33.46GB/天天 261GB/天天 336GB/天天 586GB/天天-算力投入 7.59 亿美元-备注 1)以 Chatgpt 现有2500 万日活为基础;2)参考 Google 每日约 35 亿的搜索量,日活提升空间广阔。1)剔除垃圾邮件;2)未考虑文本格式影响;3)未考虑除英文外的其他字符;4)使用比例或存在变化;5)仅考虑所列的特定落地应用,下同。1)仅考虑一般电话质量的音频信号标准;2)使用比例或存在变动。1)视频剪辑时调用OpenAI 接口的频率或有所变动。1)尚未有规模化的落地应用。资料来源:国盛证券研究所测算(注:所有数据均来自于前文测算,包括 3.1、3.2、3.3、3.4 小节)获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.13 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 4.投资标的投资标的 服务器:服务器:浪潮信息、紫光股份、中科曙光等;芯片:芯片:景嘉微、寒武纪、海光信息、龙芯中科等;IDC:宝信软件、万国数据、数据港、世纪华通等;光通信光通信等。风险提示风险提示 AI 技术迭代不及预期风险:技术迭代不及预期风险:若 AI 技术迭代不及预期,NLP 技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。经济下行超预期风险:经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。行业竞争加剧风险:行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。假设测算与实际不符风险:假设测算与实际不符风险:文中测算参考了部分相对权威的数据来源,但实际落地应用中,影响因素多、使用场景复杂,可能会导致假设测算与实际产生偏差。获取更多最新资料请加微信:ch e n s a s a 666 2023 年 02 月 19 日 P.14 请仔细阅读本报告末页声明请仔细阅读本报告末页声明 免责声明免责声明 国盛证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况