温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
计算机
行业
证券
研究
报告
GPT
系列
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1 证券研究报告 计算机计算机 GPT 系列:系列:具身化多模态具身化多模态 PaLM-E 华泰研究华泰研究 计算机计算机 增持增持 (维持维持)研究员 谢春生谢春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 联系人 袁泽世,袁泽世,PhD SAC No.S0570122080053 +(86)21 2897 2228 行业行业走势图走势图 资料来源:Wind,华泰研究 2023 年 3 月 14 日中国内地 专题研究专题研究 PaLM-E:具身化的多模态大语言模型:具身化的多模态大语言模型 PaLM-E 是由谷歌于 3 月 6 日提出的最新大语言模型,其特点在于引入具身化和多模态概念。具身化指的是在机器学习中涉及物理实体,对应 PaLM-E指导现实的机器人完成相应任务;多模态指的是 PaLM-E 在模型输入中嵌入了文本、图像、具身数据等信息。PaLM-E 的核心思想在于,通过将多模态信息编码为与语言相似的形式,嵌入已有的 PaLM 模型,实现多模态的联合训练。其中,规模最大的 PaLM-E 参数达 5620 亿,是目前最大的视觉语言模型。从训练结果看,PaLM-E 具有很强的泛化和迁移能力,不仅能完成机器人具身推理任务,还能完成常规的视觉语言任务和通用语言任务。PaLM-E 解决了机器学习的解决了机器学习的 grounding 问题问题 机器学习的 grounding 问题,指的是如何将抽象的符号或概念与真实世界的物体或事件联系起来的问题。例如,让机器学习模型将“苹果”这个词与“具有形状、颜色、味道等属性的水果”相关联。已有的很多模型是基于文本数据训练,没能与真实世界的视觉和物理传感器模态建立良好联系,且多模态输入尚未普及,限制了模型在现实世界中的推理能力。PaLM-E 通过将图像、文字、具身数据联合训练,并引入多模态输入,增强了模型对现实中对象的理解,实现了机器人处理具身推理任务,较好解决了 grounding 问题。编码器是实现多模态输入的关键编码器是实现多模态输入的关键 对应不同类别的多模态,需要分别设计不同类型的编码器进行编码。根据多模态的种类,PaLM-E 涉及的编码器主要包括:1)状态估计向量,实现物体位置、尺寸和颜色等状态信息编码;2)ViT:实现 2D 图像编码;3)对象为中心的表示:实现对视觉输入中各对象的编码;4)OSRT:实现对 3D场景的编码;5)实体引用:实现对难以用自然语言表述的对象的指代。完成编码后,即可注入已有模型进行训练和下游任务执行。PaLM-E 以“在环路”的方式指导以“在环路”的方式指导现实现实机器人完成具身任务机器人完成具身任务 PaLM-E 训练数据集包含数十个子训练集,涉及视觉、语言和具身数据。由于以往的 LLM 在具身研究和相应数据集积累上较少,因此训练集中的具身数据占比仅 8.9%。在实际执行任务时,PaLM-E 以“在环路”的方式,一步一步指导机器人操作,并根据机器人的反馈调节输出指令。在任务与运动规划、桌面环境操作和移动操作等具身任务中,PaLM-E 能在部分仿真任务上取得优于 SOTA 的结果,并成功指导现实中机器人完成长期任务。PaLM-E 同样在同样在视觉视觉/语言任务上取得较好效果语言任务上取得较好效果 虽然完成机器人具身任务是 PaLM-E 模型研究的重点,但是经过文本、图像和具身混合数据集联合训练后,PaLM-E 同时获得了良好的通用视觉语言任务处理能力,甚至在某些测试集中取得了优于微调模型的结果。但是,在自然语言生成等通用语言任务上,多模态训练使得小参数规模的 PaLM-E 存在灾难性遗忘问题,PaLM-E-12B 相比其原版 PaLM-8B 的自然语言生成性能下降 87.3%。不过,可以通过增加模型参数量实现性能改善。当模型参数增大到 PaLM-E-562B 时,性能仅下降 3.9%。风险提示:宏观经济波动,技术进步不及预期。本报告内容均基于客观信息整理,不构成投资建议。(24)(14)(3)818Mar-22Jul-22Nov-22Mar-23(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2 计算机计算机 正文目录正文目录 PaLM-E:具身化的多模态大语言模型:具身化的多模态大语言模型.3 现有模型:不能很好解决 grounding 问题.4 将多模态输入将多模态输入 LLM 的关键:设计编码器的关键:设计编码器.5 状态估计向量:描述物体状态.5 ViTs:解决 2D 图像编码.5 对象为中心的表示:将视觉输入分离成对象.5 OSRT:提供 3D 场景表示.5 实体引用:直接指定引用对象.5 PaLM-E:模型设置:模型设置+训练集选择训练集选择+实验结果实验结果.6 模型构建:构建了从小到大多种尺寸的 PaLM-E.6 训练数据集:多种数据的混合.6 实验设置:多种环境下进行任务设计.7 实验结果:迁移特性良好,能够指导真实机器人完成任务.7 任务与运动规划.8 桌面环境操作.9 移动操作.11 其他实验:通用视觉语言任务和通用语言任务.13 风险提示.14 ZXFUxOrMmPqRqOoNqNpQoP6McM9PpNmMoMnOfQoOpMjMqRqMbRpPwOxNmRmQuOpPoO 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。3 计算机计算机 PaLM-E:具身化的多模态大语言模型:具身化的多模态大语言模型 PaLM-E 引入具身化引入具身化和多模态和多模态概念。概念。谷歌在 2022 年提出的 PaLM 模型基础上,引入了具身化和多模态概念,实现了指导现实世界机器人完成相应任务的功能。PaLM-E 的字面理解,是以 PaLM 作为预训练的语言模型,并使其具身化(Embodied)。其中,机器学习中的具身化是指一种涉及到物理实体(如机器人)的机器学习方法,它可以使人工智能通过感知、行动和交互来学习和推理。具身化的机器学习方法可以处理多模态的数据,如语言、视觉和触觉,并且可以适应不同的环境和任务。PaLM-E 主要思想是利主要思想是利用现有用现有 LLM 和语言嵌入方法解和语言嵌入方法解决多模态问题。决多模态问题。PaLM-E 的主要架构思想是,将连续的、具体的多模态观察(如图像、状态估计或其他传感器模态),转化为和语言 token 嵌入空间维数相同的向量序列,用和语言 token 同样的方式注入预训练语言模型的语言嵌入空间(embedding space),使得 LLM 能够以处理文本的方式处理多模态信息,从而建立文字和感知之间的联系,解决机器人相关的具身问题。PaLM-E 是一个仅基于解码器(decoder)的自回归的生成类 LLM,在给定前缀(prefix)或提示(prompt)的情况下,能够自回归地生成文本补全。PaLM-E 输入输入为为多模态,输出多模态,输出为纯为纯文本。文本。PaLM-E 的输入是多模态句,由文本和连续观察组成,与观察相对应的多模态 token 可以包括图像(image)、神经 3D 表示(neural 3D representations)、状态(states)。例如:“Q:What happened between and?”,其中代表的就是图片的嵌入。PaLM-E 的输出是由模型自回归生成的文本,可以是问题答案,也可以是由 PaLM-E 以文本形式生成的机器人可执行的一系列决策。图表图表1:PaLM-E 的模型示意图和任务示例的模型示意图和任务示例 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 PaLM-E 有很强的有很强的迁移和迁移和泛化能力。泛化能力。谷歌指出,虽然不是实验的主要目的,但 PaLM-E 还是表现出广泛地能力,包括零样本学习多模态思维链(chain-of-thought,CoT,一种利用大模型的上下文学习能力来完成任务的方法)、少样本提示、无需 OCR(光学字符识别)的数学推理、多图推理(尽管只在单张图像提示上进行过训练)等能力。模型示意图模型示意图图像图像其他其他文字文字以谷歌提出的以谷歌提出的PaLM大语大语言模型(言模型(LLM)为基础)为基础输输入入输输出出文字文字主要任务主要任务主要是与控制机器人相关的任务主要是与控制机器人相关的任务任务和移动规划任务和移动规划桌面操作桌面操作移动操作移动操作次要任务次要任务与视觉问答和语言相关的任务与视觉问答和语言相关的任务视觉问答,图像描述视觉问答,图像描述纯语言类任务纯语言类任务 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。4 计算机计算机 图表图表2:PaLM-E-562B 能够实现的部分任务能够实现的部分任务 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 现有模型:不能很好解决现有模型:不能很好解决 grounding 问题问题 现有模型没有很好的处理现有模型没有很好的处理 grounding 问题,限制了模型在现实世界中的推理。问题,限制了模型在现实世界中的推理。机器学习的grounding 指如何将抽象的符号或概念与真实世界的物体或事件联系起来的问题。例如,如何让机器学习模型理解“苹果”这个词不仅是一个符号,而且是一个具有形状、颜色、味道等属性的水果。grounding 问题的处理在涉及大量符号和感知信息的计算机视觉领域尤为重要。现有模型的主要问题表现在:1)表示与现实没有建立很好的联系。表示与现实没有建立很好的联系。虽然在大量文本数据上训练出的 LLM 能得到与物理世界相关的表示(representation,即某种特征),但是在计算机视觉和机器人领域中,表示与真实世界的视觉和物理传感器模态没有建立起很好的联系。2)多模态输入尚未普及。多模态输入尚未普及。现有的研究,将 LLM 的输出与机器人相连接来实现决策,但是这些 LLM 只能够以文本方式输入,不能很好地适应与几何场景配置相关的任务(比如移动积木块等)。3)很多模型不能实现很多模型不能实现机器人具身推理任务。机器人具身推理任务。目前已有的 SOTA 视觉语言模型,是在典型的视觉语言任务(如视觉问题回答 VQA)上进行训练的,不能直接解决机器人相关的具身推理任务。少少样本提示下,基于视觉约束,讲冷笑话样本提示下,基于视觉约束,讲冷笑话零样本多模态思维链零样本多模态思维链零零样本:多图关系识别样本:多图关系识别无需无需OCR的数学推理的数学推理机器人视觉感知、对话与规划;物理预测;空间问题;机器人视觉感知、对话与规划;物理预测;空间问题;机器人主动权;端到端的自我中心问答和对话机器人主动权;端到端的自我中心问答和对话其他任务:其他任务:免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。5 计算机计算机 将多模态输入将多模态输入 LLM 的关键:的关键:设计编码器设计编码器 针对不同类型的任务设计编码器,实现将不同的多模态信息输入到针对不同类型的任务设计编码器,实现将不同的多模态信息输入到 LLM 中。中。PaLM-E 模型相关任务涉及的多模态信息主要包括状态、图片、3D 场景等,需要分别设计编码器。编码器经过端到端训练,以自然文本的形式输出决策序列,使得具身智能体(embodied agent,例如执行任务的机器人)能够根据这些决策,执行基本动作或针对一些具身问题进行回答。主要的编码器包括:状态估计向量、ViT、OSRT、实体参照等。状态估计向量状态估计向量:描述物体状态:描述物体状态 状态状态估计估计向量是向量是 PaLM-E 最简单的一种输入形式。最简单的一种输入形式。状态估计向量(state estimation vectors)描述了场景中物体的状态,例如位置、尺寸、颜色等,可以用多任务感知机(MLP,也叫前馈神经网络,是最早发明的简单人工神经网络)直接映射到语言嵌入空间。ViTs:解决:解决 2D 图像编码图像编码 ViT 是一种将图像映射为一组是一种将图像映射为一组 token 嵌入的嵌入的 Transformer 架构架构,主要面向,主要面向 2D 图像。图像。ViT(Vision Transformers,视觉 Transformer)是 Transformer 在视觉领域的重要应用模型之一。PaLM-E 采用的 ViT 包括一个 40 亿参数的 ViT-4B 和一个 220 亿参数的 ViT-22B,这两个模型都已经在图像分类任务中完成预训练。同时还考虑了一种端到端训练的 ViT token 学习架构(ViT+TL)。对象为中心的表示:将视对象为中心的表示:将视觉输入分离成对象觉输入分离成对象 对象为中心的表示将视觉输入分离成不同的对象。对象为中心的表示将视觉输入分离成不同的对象。与语言不同,视觉输入并没有预先构造成有意义的实体和关系。这会导致两个问题:1)与基于符号进行预训练的 LLM 交互时存在问题;2)在解决需要物理物体之间相互作用的具身问题时存在问题。因此,构造结构化的编码器对象为中心的表示(object-centric representations),将视觉输入分离成不同的对象 token,表示场景中的独立物体,然后再将其输入到 LLM 中。OSRT:提供:提供 3D 场景表示场景表示 OSRT 提供了以提供了以 3D 为中心的神经场景表示。为中心的神经场景表示。OSRT(object Scene Representation Transformer,对象场景表示 Transformer)不需要 ground-truth(指训练集中的正确标注,它反映了数据的真实类别或属性),即不依赖对象的外部知识,而是通过对结构进行归纳偏置(inductive biases,帮助机器学习算法从一些例子中寻找共性、泛化,形成一个较通用的规则的过程),以无监督的方式自我发现 ground-truth。OSRT 提供了以 3D 为中心的神经场景(3D-centric neural scene,使用神经网络来表示和渲染三维场景的方法)表示。实体实体引用引用:直接指定:直接指定引用对象引用对象 实体实体引用引用直接指定直接指定难以难以通过自然语言识别的对象。通过自然语言识别的对象。对于具体的计划任务,PaLM-E 必须能够在其生成的计划中引用对象。在许多情况下,场景中的物体可以通过它们的一些独特属性在自然语言中识别出来。但是,还是存在一些场景,其中的对象不容易通过语言简单地识别,例如在同时在桌面上存在的相同颜色、不同位置的积木块。此时,可以用实体引用(entity referrals)的方式,直接在输入提示(prompt)中,对相应物体的多模态 token 进行标记,例如“Object 1 is,Object j is”。指定完成后,PaLM-E 可以在生成的输出语句中通过 obj_j 形式的特殊标记引用对象。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。6 计算机计算机 PaLM-E:模型设置:模型设置+训练集选择训练集选择+实验结果实验结果 模型构建:构建了从小到大多种尺寸的模型构建:构建了从小到大多种尺寸的 PaLM-E PaLM-E 构建了多个不同尺寸的模型。构建了多个不同尺寸的模型。PaLM-E 由 LLM 和编码器构成。LLM 方面,选取 80亿、620 亿和 5400 亿参数的 PaLM(PaLM 是仅使用解码器的 LLM,且已完成预训练)。编码器方面,选取 40 亿参数和 22 亿参数的 ViT。两者结合,分别构建了参数为 120 亿的PaLM-E-12B、840 亿的 PaLM-E-84B、5620 亿的 PaLM-E-562B,其中其中 PaLM-E-562B 是是目前现有最大的视觉语言(目前现有最大的视觉语言(vision-language)模型)模型。图表图表3:不同尺寸不同尺寸 PaLM-E 的构建方法的构建方法 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 PaLM-E 有两种训练策略。有两种训练策略。1)各模态的编码器和 PaLM 一起训练,同时更新参数;2)考虑到 LLM 在给定合适的提示(prompt)时能够表现出很好的推理能力,可以“冻结(freeze)”LLM,只训练与模态相关的编码器。训练数据集训练数据集:多种数据的混合多种数据的混合 完整的完整的 PaLM-E 训练数据集训练数据集包含数十个子训练集,包含数十个子训练集,涉及涉及视觉、语言和具身数据。视觉、语言和具身数据。PaLM-E进行跨任务的联合训练,其训练集为包含视觉、语言和具身数据。其中,完全混合(full mixture)的数据集由来自各种任务的互联网规模的视觉和语言数据组成,通过设置采样频率,使得其中 8.9%的数据为具身数据。值得注意的是,目前具身数据的训练数据集还远少于图像和语言训练数据集。图表图表4:完全混合(完全混合(full mixture)数据集的成分组成)数据集的成分组成 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 LLMViT8B PaLM62B PaLM540B PaLM4B ViT22B ViTPaLM-E-12BPaLM-E-84BPaLM-E-562B具具身数据(身数据(embodied data)免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。7 计算机计算机 实验实验设置设置:多种环境下进行任务设计:多种环境下进行任务设计 PaLM-E 从两个思路出发,与基线模型进行结果比较。从两个思路出发,与基线模型进行结果比较。1)比较不同的输入表示(状态估计向量、ViT 等编码器)在性能、泛化能力、数据有效性方面的表现。2)聚焦单一的 PaLM-E架构(预训练的 ViT+PaLM),将原始图像作为连续输入,针对不同的联合训练策略和模型参数,比较其在性能、泛化能力、数据有效性方面的表现。比较基线选取的是 SOTA 视觉语言模型 PaLI(未在机器人具身数据上训练)+SayCan 算法(机器人模型,人工提供了机器人最优动作序列指导 oracle affordances)。实验涉及实验涉及 3 种不同的种不同的机器人环境机器人环境/任务任务。1)任务与运动规划(Task and Motion Planning,TAMP),机器人必须对物体进行抓取、堆放等操作;2)桌面环境操作(table-top pushing environment),主要是对桌面上的积木块等物体进行操作;3)移动操作(mobile manipulation domain)。机器人在厨房环境中解决各种任务,包括在抽屉里寻找物品、挑选物品,并将其交给人类。PaLM-E 分别在各领域的专业数据集上进行训练。例如桌面环境使用的训练集为 Language-Table dataset。每种环境每种环境下下均进行规划均进行规划(planning)和视觉问答和视觉问答(VQA)两种)两种任务任务测试测试。对于桌面环境操作和移动操作,PaLM-E 被集成到现实世界的控制环路中,从而在存在外部干扰或低级控制策略失效时重新调整计划。实验实验结果结果:迁移特性良好,能够指导真实机器人完成任务:迁移特性良好,能够指导真实机器人完成任务 总体来说总体来说,单一的,单一的 PaLM-E 在混合数据集上实现了很好的迁移特性。在混合数据集上实现了很好的迁移特性。单一的 PaLM-E 模型在混合数据集上跨任务、跨机器人具身训练后,可以同时在所有任务上实现高性能,并超过针对单一任务训练的现有结果,表现出很强的迁移特性。图表图表5:PaLM-E 在混合数据集上实现了很好的迁移特性在混合数据集上实现了很好的迁移特性 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。8 计算机计算机 图表图表6:完全混合(完全混合(full mixture)数据集能够训练出性能更好的模型)数据集能够训练出性能更好的模型 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 任务与运动规划任务与运动规划 训练场景包含桌面上训练场景包含桌面上 3-5 个不同大小、颜色和初始位置的立方体物体。个不同大小、颜色和初始位置的立方体物体。训练数据集包含96000 个该环境下的训练场景。任务包括 4 个视觉问答和 2 个规划问题。其中,4 个视觉问答问题:q1 问题是关于物体的颜色,q2 是关于物体-桌面的关系,q3 是关于物体-物体的关系,q4 是关于判断计划是否可行;2 个规划任务问题:p1 是关于规划如何抓取物体,p2是关于规划如何堆叠物体。图表图表7:任务与运动规划任务与运动规划环境布置环境布置 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。9 计算机计算机 图表图表8:视觉问答与任务规划问题示例视觉问答与任务规划问题示例 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 对于场景中的对于场景中的 3-5 个对象(与训练集中的对象数量相同),大多数编码器都有较好表现。个对象(与训练集中的对象数量相同),大多数编码器都有较好表现。然而,当增加对象的数量时,使用预训练的 LLM 可以显著提高性能,特别是在实体引用方面。而基线算法 SayCan 在任务规划上表现欠佳。图表图表9:任务与运动规划任务与运动规划实验结果实验结果 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 桌面环境操作桌面环境操作 仿真环境下基线算法仿真环境下基线算法 PaLI 和和 SayCan 均不能完成任务,而均不能完成任务,而 PaLM-E 能够较好的完成任务。能够较好的完成任务。结果再次证明了在互联网规模的视觉和语言上进行联合训练,可以产生更有效的机器人规划模型,且能够在仅有 10 次的少样本学习下取得更好的效果。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。10 计算机计算机 图表图表10:桌面环境操作实验结果桌面环境操作实验结果 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 PaLM-E 能够指导真实机器人完成多阶段桌面操作任务能够指导真实机器人完成多阶段桌面操作任务。具体过程如下:PaLM-E 以 1 Hz的频率将基于语言(text)的子目标输出到已有的机器人操作策略中,策略以 5 Hz 的频率输出基础机器人动作。随后,根据机器人“看”到的图像结果,PaLM-E 能够继续以 1 Hz的频率进行重新规划,指导后续动作。图表图表11:PaLM-E 参与到机器人的控制循环中参与到机器人的控制循环中 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 PaLM-E 表现出良好的抗干扰性和泛化能力。表现出良好的抗干扰性和泛化能力。1)对人类的对抗性干扰保持健壮性(robust)(图 a-c);2)能够进行 one-shot 和 zero-shot(图 b-c)。即在 100 个不同的长期任务上对PaLM-E 进行了微调,每个任务都有一个训练示例;3)PaLM-E 可以将 zero-shot 泛化到涉及新对象的任务(图 c),甚至是原始机器人数据集或微调数据集中未见的对象的任务,例如玩具乌龟(图 d)。left Tab.免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。11 计算机计算机 图表图表12:PaLM-E 表现出良好的抗干扰性和泛化能力表现出良好的抗干扰性和泛化能力 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 移动操作移动操作 移动操作环境下,主要包括可视性预测(affordance prediction)、故障检测(failure detection)和长期计划(long-horizon planning)三种测试。1)可视性预测:可视性预测:例如让 PaLM-E 预测,某个操作/技能能否在当前场景下使用。可以用视觉问答的形式来提问,例如“Given.Q:Is it possible to here?.”2)故障检测:故障检测:例如让 PaLM-E 预测,某个操作/技能在当前场景下是否成功。多模态提示例如“Given.Q:Was successful?.”以上以上两种测试,两种测试,PaLM-E 均得到了超越参考基线的均得到了超越参考基线的 SOTA 结果。结果。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。12 计算机计算机 图表图表13:可视性预测可视性预测与故障检测实验结果与故障检测实验结果 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 3)长期规划长期规划+真实机器人:真实机器人:该测试涉及移动操作任务的端到端具身规划。任务涉及的提示结构为“Human:Robot:.I see”。PaLM-E 基于历史步骤和对当前场景图像的观察,生成下一步计划,输入到机器人中执行,直到 PaLM-E 输出“终止”指令。在真实的厨房场景下对模型进行了定性评估,发现即使在对抗性干扰下,模型也可以执行长期移动操作任务。图表图表14:PaLM-E 指导真实机器人完成厨房场景下的长期任务指导真实机器人完成厨房场景下的长期任务 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。13 计算机计算机 其他其他实验实验:通用视觉语言任务和通用语言任务:通用视觉语言任务和通用语言任务 PaLM-E 在在通用视觉语言任务通用视觉语言任务取得很好的效果。取得很好的效果。PaLM-E-562B 模型在 OK-VQA 上获得了SOTA,优于专门针对 OK-VQA 进行微调的模型。表明 PaLM-E 不仅能完成机器人任务的具身推理,还具有很好的视觉语言多面手能力。图表图表15:通用视觉语言任务实验结果通用视觉语言任务实验结果 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 在在通用语言任务通用语言任务上,上,PaLM-E 存在语言能力的遗忘问题,但可以通过增加参数量弥补。存在语言能力的遗忘问题,但可以通过增加参数量弥补。评估了 PaLM-E 在 21 个自然语言理解(NLU)和自然语言生成(NLG)任务的通用语言基准上的平均性能。结果表明,经过多模态训练 PaLM-E 在语言能力上存在灾难性遗忘问题,最小(PaLM-E-12B)模型的 NLG 性能相对下降 87.3%。但是该问题可以通过增加模型参数解决,最大模型(PaLM-E-562B)的 NLG 性能仅下降 3.9%。图表图表16:通用语言任务通用语言任务上的灾难性遗忘可以通过扩大模型参数量解决上的灾难性遗忘可以通过扩大模型参数量解决 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。14 计算机计算机 图表图表17:自然语言生成和理解结果自然语言生成和理解结果 资料来源:PaLM-E:An Embodied Multimodal Language Model,Danny Driess 等(2023)、华泰研究 图表图表18:提及公司列表提及公司列表 公司代码公司代码 公司简称公司简称 GOOGL US 谷歌 资料来源:Bloomberg、华泰研究 风险提示风险提示 宏观经济波动。宏观经济波动。若宏观经济波动,产业变革及新技术的落地节奏或将受到影响,宏观经济波动还可能对 AI 投入产生负面影响,从而导致整体行业增长不及预期。技术进步技术进步不及预期。不及预期。若 AI 技术和大模型技术进步不及预期,或将对相关的行业落地情况产生不利影响。本报告内容均基于客观信息整理,不构成投资建议。本报告内容均基于客观信息整理,不构成投资建议。-3.9%免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。15 计算机计算机 免责免责声明声明 分析师声明分析师声明 本人,谢春生,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表迖的意见直接或间接收取任何报酬。一般声明及披露一般声明及披露 本报告由华泰证券股份有限公司(已具备中国证监会批准的证券投资咨询业务资格,以下简称“本公司”)制作。本报告所载资料是仅供接收人的严格保密资料。本报告仅供本公司及其客户和其关联机构使用。本公司不因接收人收到本报告而视其为客户。本报告基于本公司认为可靠的、已公开的信息编制,但本公司及其关联机构(以下统称为“华泰”)对该等信息的准确性及完整性不作任何保证。本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰不保证本报告所含信息保持在最新状态。华泰对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本公司不是 FINRA 的注册会员,其研究分析师亦没有注册为 FINRA 的研究分析师/不具有 FINRA 分析师的注册资格。华泰力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。华泰及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。华泰的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰没有将此意见及建议向报告所有接收者进行更新的义务。华泰的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰违反或受制于当地法律或监管规则的机构或人员。本报告版权仅为本公司所有。未经本公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯本公司版权。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。本公司保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。中国香港中国香港 本报告由华泰证券股份有限公司制作,在香港由华泰金融控股(香港)有限公司向符合证券及期货条例及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。16 计算机计算机 香港香港-重重要监管披露要监管披露 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https:/.hk/stock_disclosure 其他信息请参见下方“美国“美国-重要监管披露”重要监管披露”。美国美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据1934 年证券交易法(修订版)第 15a-6 条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受 FINRA 关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。美国美国-重要监管披露重要监管披露 分析师谢春生本人及相关人士并不担任本报告所提及的标的证券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括 FINRA 定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。华泰证券股份有限公司