温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
OpenAI:GPT-4
技术报告中文版
OpenAI
GPT
技术
报告
中文版
OpenA1代码库下一个单调预测因系到的剂et41与观察到的宇位60。.员测gt45040-30-2010100D10n1y1000.01110m100u0.01计图一。GPT-4和更小型号的性能。指标是从我们的内部代码库派生的数据集的最终损失。这是一个方便的大型代码令牌数据集,不包含在训练集中。我们选择关注损失,因为在不同数量的训练计算中,它往往比其他测量方法噪声更小。虚线显示了适合较小模型(不包括GPT4)的幂律;这种拟合准确地预测了GPT4号的最终损失。x轴被训练计算归一化,使得GT4为1。23个编码问题的能力预测平均对数通过率5观赛到的厦到的族p。预测gpt40-1u10a100000t0.0t0.1110100p0.0010.01011计算4其中k和是正常数,P是数据集中问题的子集。我们假设这种关系适用于该数据集中的所有问题。在实践中,很低的通过率很难或不可能估计,所以我们限制问题P和模型M,使得给定一些大的样本预算,每个问题由每个模型至少解决一次。我们在训练结束前,仅使用训练前可用的信息,在HumanEval上记录了对GPT-4表现的预测。根据较小模型的表现,除了15个最难的人类评估问题之外,所有问题都被分成6个难度桶。第三个最简单的桶的结果如图2所示,表阴对于HumanEvall问题的这个子集,结果预测非常准确,我们可以准确地估计几个较小模型的log(pass_rate)。对其他五个桶的预测表现几乎一样好,主要的例外是GPT-4不如我们对最容易的桶的预测。某些能力仍然难以预测。例如,逆标度奖【38】提出了几个模型性能随标度而降低的任务。与魏等人最近的研究结果相似。39,我们发现GPT-4逆转了这一趋势,如图3中一项叫做后见之明忽视的任务40所示。逆比例奖,事后诸葛亮精确度10050ADABABBAGECurieGPT-3.5GPT-4型号babbagecuriegpt-3.5图3。GPT-4和更小型号在后见之明忽略任务中的表现。精度显示在y轴上,越高越好。ada、babbage和curie指的是通过OpenAI API【41】提供的模型。我们认为,准确预测未来能力对安全非常重要。展望未来,我们计划在大型模型训练开始之前改进这些方法,并跨各种功能注册性能预测,我们希望这成为该领域的共同目标。4能力我们在一系列不同的基准上测试了GPT-4,包括最初为人类设计的模拟考试。3我们没有为这些考试做专门的培训。考试中的少数问题是模型在训练中看到的;对于每次考试,我们运行一个删除这些问题的变体,并报告两个问题中较低的分数。我们认为结果具有代表性。有关污染的更多详细信息(方法和每次检查的统计数据),请参见附录C。考试来源于公开的材料。考试问题包括选择题和自由回答题;我们为每种格式设计了单独的提示,并且图像包含在需要它的问题的输入中。评估设置是根据一组验证考试的表现设计的,我们报告延期考试的最终结果。总分数是通过使用公开可用的方法结合每次考试的多项选择和自由回答问题分数来确定的。有关考试评估方法的更多详细信息,请参见附录A。3我们使用练后的UHF模型进行这些检查6