分享
计算机行业研究:文心一言、GPT3.5及GPT-4的应用测评对比.pdf
下载文档

ID:3494272

大小:6.47MB

页数:32页

格式:PDF

时间:2024-05-16

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
计算机 行业 研究 文心一言 GPT3 GPT 应用 测评 对比
敬请参阅最后一页特别声明 1 OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文心一言的分词功能有待提升;目前 GPT-4 尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。在数学和代码类问题中,GPT-3.5 有更好的数学能力表现;GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。在应用场景测试中,三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金山办公。海外基础软硬件使用受限;应用落地不及预期;行业竞争加剧风险;测评问题有限导致结果或有偏差。行业深度研究 敬请参阅最后一页特别声明 2 内容目录内容目录 1.常识和创作.3 2.归纳和推理.7 3.数学和代码.12 4.现实应用场景测试.17 5.投资建议.30 6.风险提示.30 图表目录图表目录 图表 1:三大模型测评结果综合对比.3 图表 2:常识类问题的回答对比.4 图表 3:文字创作问题的回答对比.4 图表 4:图像创作问题的回答对比.6 图表 5:演绎推理问题的回答对比.7 图表 6:情感推理问题的回答对比.8 图表 7:逻辑推理问题的回答对比.9 图表 8:归纳总结问题的回答对比.10 图表 9:数学问题的回答对比.13 图表 10:代码生成问题的回答对比.14 图表 11:安全应用问题的回答对比.18 图表 12:生活应用问题的回答对比.19 图表 13:客服场景问题的回答对比.21 图表 14:办公协同问题的回答对比.22 图表 15:推荐场景问题的回答对比.26 图表 16:诗词理解问题的回答对比.28 行业深度研究 敬请参阅最后一页特别声明 3 文心一言开放测试后,我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评,测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。根据测试结果可以看出,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升,各模型性能都有望进一步优化。图表图表1:三三大模型测评结果综合对比大模型测评结果综合对比 应用领域应用领域 文心一言文心一言 GPT-3.5 GPT-4 常识和创作 常识类问题 正确 正确 正确且更为严谨 文字创作 分词错误 正确 正确且细节更丰富 图像创作 生成图像符合要求 无法生成 图像生成功能暂未开放 归纳和推理 演绎推理 错误 正确 正确 情感推理 结果正确,过程有偏差 错误 错误 逻辑推理 错误 错误 基本正确 归纳总结 符合要求,对未知内容直接进行网页搜索 未能提取正确信息 符合要求,可对未知内容进行推理,多轮对话能力较强 数字和代码 数学计算 错误 正确 错误 代码生成 错误 未给出最优答案 未给出最优答案 模拟 AI助手 安全类问题 符合要求 符合要求 符合要求 生活类问题 符合要求且给出可靠建议 符合要求 符合要求 模拟 AI客服 退换货问题 符合要求 符合要求 符合要求 模拟办公助手 场景文档生成 符合要求 符合要求 符合要求 文字修饰 有待改进 有待改进 有待改进 模拟推荐助手 推荐理财产品及生日礼物 符合要求 符合要求 符合要求 教学辅助 古诗词理解 基本正确 部分内容错误 部分内容错误 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作问题、给定主题的图像创作问题,以评价模型对已有知识的表述能力和图文生成能力。常识题:中国有多少个省?3 个模型都进行了正确的回答,其中 GPT-4 生成的答案最为严谨和详细,不仅说明了“截止 2021 年”(由于 GPT-4 的知识截止 2021 年)、优先列举了省份,且对具体省级行政区的名称进行了详尽的列示。行业深度研究 敬请参阅最后一页特别声明 4 图表图表2:常识常识类问类问题的回答题的回答对比对比 文心:GPT-3.5:(生成的文字过长,截图是进行了省略)GPT-4:来源:百度文心一言官网,chat.openai 官网,国金证券研究所 文字创作题:请写一个刘红发大财的故事 从 3 个模型的回答来看,文心的分词能力仍有改进之处,没有对“刘红”和“发大财”进行很好的分词,而是以“刘红发”为主角进行创作。从情节设置的角度而言,GPT-4 的细节更加丰富、转折也更多,但由于生成 token 数的限制,这个故事并没有写完。此外,3 个模型的故事都体现了积极正面的价值观。图表图表3:文字创作文字创作问问题的回答题的回答对比对比 文心:行业深度研究 敬请参阅最后一页特别声明 5 GPT-3.5:GPT-4:行业深度研究 敬请参阅最后一页特别声明 6 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 图像创作题:请画一张古典美女的油画 目前只有文心一言具备文生图的能力,GPT-3.5 依然是文生文。GPT-4 理论上可以输入文字和图片,但目前图片输入的功能尚未对用户开放。图表图表4:图图像像创作创作问问题的回答题的回答对比对比 文心:GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 7 GPT-4:来源:百度文心一言官网,chat.openai 官网,国金证券研究所 我们分别向 3 个模型提供演绎推理、情感推理、基于具体场景的逻辑推理问题,以及财务数据类的总结归纳问题,用以评价各模型归纳推理能力。演绎推理题:假设在一个餐厅,如果一个人点了牛排,则他一定点了沙拉。如果一个人没有点沙拉,则他一定没有点牛排。现在有一个人点了沙拉,那么他是否一定点了牛排?从本题回答来看,文心在演绎推理方面的能力相对较弱,GPT-3.5 和 4 持平。图表图表5:演绎推理演绎推理问问题的回答题的回答对比对比 文心:GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 8 GPT-4:来源:百度文心一言官网,chat.openai 官网,国金证券研究所 情感推理题:情侣吵架后,女朋友对男朋友说:”你没有错,都是我的错。“请问女朋友是否认为自己有错?只有文心对本题给出了正确的情感推理结果,但它给出的推理过程有所偏差。GPT-4 和GPT-3.5 给出了错误的情感推理结果,但 GPT-4 给出了较为恰当的补充说明。如果未来作为情感类助手,可能 3 个模型依然都还有需要改进之处。图表图表6:情感情感推理推理问问题的回答题的回答对比对比 文心:GPT-3.5:GPT-4:行业深度研究 敬请参阅最后一页特别声明 9 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 逻辑推理题:为什么我总是在最后一个地方找到丢失的物品?GPT-4 的逻辑推理能力相对较强,它回答的第一段给出了正确的解释,而文心和 GPT-3.5都未能识别本题的逻辑谬误。不过 GPT-4 的第二、三段回答给出的解释也有些似是而非,整体来看 3 个模型的逻辑推理能力均有待加强。图表图表7:逻辑逻辑推理推理问问题的回答题的回答对比对比 文心:GPT-3.5:GPT-4:行业深度研究 敬请参阅最后一页特别声明 10 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 归纳总结题:问题一:请提取下文主体信息并以表格方式输出:1.经恒生电子股份有限公司(以下简称“恒生电子”或“公司”)财务部 门初步测算,恒生电子预计 2022 年年度实现归属于上市公司股东的净利润约为 108,706 万元(人民币,下同),与上年同期相比将减少约 37,648 万元,减少 比例约为 25.72%。2.预计 2022 年年度非经常性损益对公司净利润的影响金额约为-432 万 元。预计 2022 年年度实现归属于上市公司股东的扣除非经常性损益的净利润约 为 109,138 万元,与上年同期相比将增加约 14,481 万元,增加比例约为 15.30%。3.预计 2022 年年度公司实现营业收入约为 650,282 万元,与上年同期相 比将增加约 100,624 万元,增加比例约为 18.31%。问题二:请问恒生电子 2021 年的收入是多少?从本题归纳总结的结果而言,文心列示的表格更符合财务分析的需求,而 GPT-3.5 没有抽出重点主体信息并进行归纳。在多轮对话方面,GPT-4 展现出了更强的能力,GPT-3.5和文心在联系上下文对话方面稍逊一筹。不过文心采取了和 New Bing 一样的方式,对于自己不知道的知识进行了直接搜索,而 GPT-3.5 基于 Instruct-GPT 的数据,未能给出正确答案。图表图表8:归纳总结归纳总结问问题的回答题的回答对比对比 文心:GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 11 GPT-4:行业深度研究 敬请参阅最后一页特别声明 12 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 我们分别向 3 个模型提供线性方程求解问题和代码编写问题,考察模型数理能力和代码生成能力。数学题:求解线性方程组:3x+2y=8;2x-y=1 本题只有 GPT-3.5 算出了正确答案。文心答案算错,且没有给出具体运算过程。GPT-4算对了 x 的值,但是代入求解 y 值的时候出现了错误。在数学能力方面,当前模型依然有需要改进之处。行业深度研究 敬请参阅最后一页特别声明 13 图表图表9:数学数学问问题的回答题的回答对比对比 文心:GPT-3.5:GPT-4:行业深度研究 敬请参阅最后一页特别声明 14 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 代码题:用 Python 编写一个程序,在一个无序数组中查找一个特定的值。要求程序的时间复杂度为 O(log n)。在本题的回答中,文心一言没有准确理解到时间复杂度O(log n)的需求,GPT-3.5及GPT-4给出的代码为二分法搜索,只有在面对有序数组时才能满足时间复杂度要求,也非最佳答案。整体来看,三个模型在代码生成方面均有较大的改进空间,GPT-3.5 与 GPT-4 表现基本持平,略优于文心一言。图表图表10:代码代码生成问生成问题的回答题的回答对比对比 文心:行业深度研究 敬请参阅最后一页特别声明 15 GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 16 GPT-4:行业深度研究 敬请参阅最后一页特别声明 17 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 我们模拟 AI 生活助手、AI 售后客服、办公场景助手、产品推荐、教学辅导等场景对 3 个模型进行问答,用以评价模型在真实场景中应用的可行性。AI 生活助手:安全类问题:我收到公安局电话,说我涉嫌洗钱,要求将资金转移至安全账户,我该怎么办?3 个模型都给出了正确的判断并提供了合理建议,预计可以在反诈等方面进行很好的应用。行业深度研究 敬请参阅最后一页特别声明 18 图表图表11:安全应用安全应用问问题的回答题的回答对比对比 文心:GPT-3.5:GPT-4:行业深度研究 敬请参阅最后一页特别声明 19 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 生活类问题:如何赚到 100 万?文心给出的回答质量明显较高,给出了相对切实可靠的建议,且具备一定幽默感;而GPT-3.5 和 GPT-4 的回答更加空泛一些,但在安全提示方面进行了加强。图表图表12:生活应用生活应用问问题的回答题的回答对比对比 文心:GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 20 GPT-4:来源:百度文心一言官网,chat.openai 官网,国金证券研究所 售后客服场景助手:问题一:请你扮演售后客服,帮我处理退换货的问题。问题二:我已经撕了吊牌了,可以么?总的来说 3 个模型都很好地完成了任务,能够应用于客服场景。相对而言,GPT-3.5 在角色扮演和客服对话场景的表现更加优秀,文心和 GPT-4 的回答都更加格式化一些。行业深度研究 敬请参阅最后一页特别声明 21 图表图表13:客服场景客服场景问问题的回答题的回答对比对比 文心:GPT-3.5:GPT-4:行业深度研究 敬请参阅最后一页特别声明 22 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 办公场景助手:问题一:请帮我写一段公司年会主持词。问题二:请帮我用文言文修饰上面这段话,要求加上古诗词 整体而言3个模型在办公协同领域都展现出了较好的能力,其中GPT-4的表述更加丰富,文心的回答略有瑕疵,不应该“代表主持人”。在文言文方面,GPT-3.5 的回答最为惊喜,不仅用了文言文,甚至给出了繁体字。但可能因为更多用英文语料训练的缘故,GPT-3.5和 GPT-4 犯了一些语病错误,比如“谨白”、“逝年”、“不期而至”、“对酒当歌,人生几何”等表述并不恰当,古诗词也都是编造的。文心没有很好地理解“加上古诗词”的含义,且修饰过短。3 个模型在文言文和诗词方面均有待训练。图表图表14:办公协同办公协同问问题的回答题的回答对比对比 文心:行业深度研究 敬请参阅最后一页特别声明 23 GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 24 GPT-4:行业深度研究 敬请参阅最后一页特别声明 25 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 产品推荐助手:问题一:我想买一个年化 4%的理财产品,请帮我推荐。问题二:请帮我推荐一个适合送给 25 岁女同事的生日礼物,大概 1 千元左右。从这两个推荐回答来看,文心的表现更好。GPT-3.5 和 GPT-4 的理财推荐强调了风险,这是文心需要加强的部分;同时 GPT-4 对礼物的回答比较严谨,题干中让推荐一个礼物就只推荐了一个。整体而言认为目前的模型具备智能投顾和购物助手的能力,且未来有机会可以在其中植入推荐广告。行业深度研究 敬请参阅最后一页特别声明 26 图表图表15:推荐推荐场景场景问问题的回答题的回答对比对比 文心:GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 27 GPT-4:行业深度研究 敬请参阅最后一页特别声明 28 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 教学辅助:问题一:这句话是什么意思:柔情似水、佳期如梦。问题二:这句话是什么意思:香雾云鬟湿,清辉玉臂寒。问题一是一个比较容易理解的古诗,问题二的复杂程度相对高一些。可能由于中文语料更加丰富的缘故,文心在古诗词理解方面的表现相对较好,尽管写错了第二首诗的出处,但词句理解基本正确。GPT-3.5 编造了古诗的作者、名称和上下文,但对词句本身的理解大致正确。GPT-4 在这项任务中的表现最差,既没有对于任何出处的描述,且对两首诗词的理解均略有偏差。结合上文 3 个模型数学题方面的表现,可能目前的语言类模型在充当教学辅导工具方面依然需要更长时间的打磨。图表图表16:诗词理解诗词理解问问题的回答题的回答对比对比 文心:GPT-3.5:行业深度研究 敬请参阅最后一页特别声明 29 GPT-4:行业深度研究 敬请参阅最后一页特别声明 30 来源:百度文心一言官网,chat.openai 官网,国金证券研究所 文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金山办公。海外基础软硬件使用受限 若因国际关系等原因,高算力 GPU 等基础硬件或计算框架等基础软件使用受限,可能会对国内人工智能算法应用产生影响。应用落地不及预期 若相关应用公司不能找到人工智能算法较好的商业应用落地场景,或相关场景客户没有较强的付费意愿,可能算法应用落地会不及预期。行业竞争加剧风险 若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对行业内已有企业的业绩增长产生威胁。测评问题有限导致结果或有偏差 报告选取 AI 模型测试的经典问题以及关注度较高的应用场景问题,但由于测试问题数量有限且模型答案生成具有一定随机性,测评结果可能有所偏差。行业深度研究 敬请参阅最后一页特别声明 31 行业行业投资评级的说明:投资评级的说明:买入:预期未来 36 个月内该行业上涨幅度超过大盘在 15%以上;增持:预期未来 36 个月内该行业上涨幅度超过大盘在 5%15%;中性:预期未来 36 个月内该行业变动幅度相对大盘在-5%5%;减持:预期未来 36 个月内该行业下跌幅度超过大盘在 5%以上。行业深度研究 敬请参阅最后一页特别声明 32 特别声明:特别声明:国金证券股份有限公司经中国证券监督管理委员会批准,已具备证券投资咨询业务资格。本报告版权归“国金证券股份有限公司”(以下简称“国金证券”)所有,未经事先书面授权,任何机构和个人均不得以任何方式对本报告的任何部分制作任何形式的复制、转发、转载、引用、修改、仿制、刊发,或以任何侵犯本公司版权的其他方式使用。经过书面授权的引用、刊发,需注明出处为“国金证券股份有限公司”,且不得对本报告进行任何有悖原意的删节和修改。本报告的产生基于国金证券及其研究人员认为可信的公开资料或实地调研资料,但国金证券及其研究人员对这些信息的准确性和完整性不作任何保证。本报告反映撰写研究人员的不同设想、见解及分析方法,故本报告所载观点可能与其他类似研究报告的观点及市场实际情况不一致,国金证券不对使用本报告所包含的材料产生的任何直接或间接损失或与此有关的其他任何损失承担任何责任。且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,在不作事先通知的情况下,可能会随时调整,亦可因使用不同假设和标准、采用不同观点和分析方法而与国金证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。本报告仅为参考之用,在任何地区均不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告提及的任何证券或金融工具均可能含有重大的风险,可能不易变卖以及不适合所有投资者。本报告所提及的证券或金融工具的价格、价值及收益可能会受汇率影响而波动。过往的业绩并不能代表未来的表现。客户应当考虑到国金证券存在可能影响本报告客观性的利益冲突,而不应视本报告为作出投资决策的唯一因素。证券研究报告是用于服务具备专业知识的投资者和投资顾问的专业产品,使用时必须经专业人士进行解读。国金证券建议获取报告人员应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。报告本身、报告中的信息或所表达意见也不构成投资、法律、会计或税务的最终操作建议,国金证券不就报告中的内容对最终操作建议做出任何担保,在任何时候均不构成对任何人的个人推荐。在法律允许的情况下,国金证券的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供多种金融服务。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布该研究报告的人员。国金证券并不因收件人收到本报告而视其为国金证券的客户。本报告对于收件人而言属高度机密,只有符合条件的收件人才能使用。根据证券期货投资者适当性管理办法,本报告仅供国金证券股份有限公司客户中风险评级高于 C3 级(含 C3 级)的投资者使用;本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,不应被视为对特定客户关于特定证券或金融工具的建议或策略。对于本报告中提及的任何证券或金融工具,本报告的收件人须保持自身的独立判断。使用国金证券研究报告进行投资,遭受任何损失,国金证券不承担相关法律责任。若国金证券以外的任何机构或个人发送本报告,则由该机构或个人为此发送行为承担全部责任。本报告不构成国金证券向发送本报告机构或个人的收件人提供投资建议,国金证券不为此承担任何责任。此报告仅限于中国境内使用。国金证券版权所有,保留一切权利。上海上海 北京北京 深圳深圳 电话:021-60753903 传真:021-61038200 邮箱: 邮编:201204 地址:上海浦东新区芳甸路 1088 号 紫竹国际大厦 7 楼 电话:010-85950438 邮箱: 邮编:100005 地址:北京市东城区建内大街 26 号 新闻大厦 8 层南侧 电话:0755-83831378 传真:0755-83830558 邮箱: 邮编:518000 地址:中国深圳市福田区中心四路 1-1 号 嘉里建设广场 T3-2402

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开