环球观点：【翻译】GPT最佳实践

手机

天天最新：空蝉学园生活女警剧情怎么过

护航未成年人成长｜市少先队校外禁毒宣传教育园地揭牌

环球观点：【翻译】GPT最佳实践

2023-06-27 18:14:10 来源：博客园

原文章地址：https://platform.openai.com/docs/guides/gpt-best-practices/strategy-test-changes-systematically

(资料图片)

本指南分享了从GPT中获得更好结果的战略和策略。这里描述的方法有时可以结合起来使用，以获得更大的效果。我们鼓励大家通过实验来找到最适合自己的方法。

这里演示的一些例子目前只适用于我们能力最强的模型，gpt-4。如果你还没有机会使用gpt-4，可以考虑加入等待名单。一般来说，如果你发现一个GPT模型在某项任务中失败了，而有一个能力更强的模型可用，通常值得用能力更强的模型再试一次。

获得更好结果的六种策略

写清楚说明

GPT不能读懂你的想法。如果产出太长，要求简短的答复。如果产出太简单，就要求专家级的写作。如果你不喜欢这种格式，就展示你希望看到的格式。GPT越是不需要猜测你想要什么，你就越有可能得到它。

方法：

在你的询问中包括细节，以获得更多相关的答案
要求模型扮演一个角色
使用分隔符来清楚地表明输入的不同部分
具体说明完成一项任务所需的步骤
提供例子
指定所需的输出长度

提供参考文本

GPT可以自信地编造虚假的答案，特别是当被问及深奥的话题或引用和URL时。就像一张笔记可以帮助学生在考试中做得更好一样，为GPT提供参考文本可以帮助他们在回答问题时减少捏造。

方法：

指导模型使用参考文本进行回答
指导模型使用参考文本中的引文进行回答

将复杂的任务拆分为更简单的子任务

正如在软件工程中，将一个复杂的系统分解成一系列的模块化组件是一个很好的做法，提交给GPT的任务也是如此。复杂的任务往往比简单的任务有更高的错误率。此外，复杂的任务通常可以被重新定义为较简单的任务的工作流程，其中早期任务的输出被用来构建后面任务的输入。

方法：

使用意图分类来确定与用户查询最相关的指令
对于需要很长对话的对话应用，总结或过滤以前的对话
对长的文件进行逐条总结，并递归地构建一个完整的总结

给GPT时间“思考”

如果让你用17乘以28，你可能不会马上知道，但还是可以通过时间计算出来。同样地，当GPT试图立即回答，而不是花时间来计算答案时，他们会犯更多的推理错误。在回答之前要求有一连串的推理，可以帮助GPT们更可靠地推理出正确的答案。

方法：

指示模型在匆忙得出结论之前，先找出自己的解决方案
使用内心独白或一连串的询问来隐藏模型的推理过程
询问模型在之前的过程中是否遗漏了什么

使用外部工具

通过向GPT提供其他工具的输出来弥补GPT的弱点。例如，一个文本检索系统可以告诉GPT有关的文件。一个代码执行引擎可以帮助GPT进行数学运算和运行代码。如果一项任务可以由一个工具而不是GPT更可靠或更有效地完成，那么就把它卸载掉，以获得两者的优点。

方法：

使用基于嵌入的搜索来实现高效的知识检索
使用代码执行来进行更精确的计算或调用外部API

系统地测试变更

如果你能测量它，提高性能就更容易了。在某些情况下，对一个提示的修改会在一些孤立的例子上实现更好的性能，但在更有代表性的例子上会导致更差的整体性能。因此，为了确定一个变化对性能是积极的，可能需要定义一个全面的测试套件（也称为 "评估"）。

方法：

参照黄金标准答案评估模型输出

方法

上面列出的每个策略都可以用具体的战术来实例化。这些战术是为了提供一些可以尝试的想法。它们决不是完全全面的，你应该自由地尝试这里没有代表的创造性想法。

策略：编写清晰的说明

方法：在你的询问中包括细节，以获得更多相关的答案

为了得到高度相关的响应，请确保请求提供任何重要的细节或上下文。否则，你就得让模型来猜测你的意思了。

糟糕	更棒
如何在Excel中添加数字？	如何在Excel中将一行美元金额相加？我想对一整排行自动执行此操作，所有的总计都在右边的一列中，名为“总计”。
谁是总统？	谁是2021年的墨西哥总统，选举频率有多高？
编写代码来计算斐波那契数列。	编写一个TypeScript函数来有效计算斐波那契数列。大量注释代码以解释每一部分的作用以及为什么这样写。
对会议记录进行总结。	将会议记录总结成一段话。然后，写一份发言者和他们每个人的关键观点的标记清单。最后，列出发言者建议的下一步行动或行动项目（如果有的话）。

方法：要求模型扮演一个角色

系统消息可用于指定模型在回复中使用的角色。

角色	Prompt
SYSTEM	当我请求帮助写东西时，你会回复一份文件，其中每段至少包含一个笑话或有趣的评论。
USER	写一封感谢信给我的钢制螺栓供应商，感谢他在短时间内准时交货。这使我们有可能交付一份重要的订单。

方法：使用分隔符清楚地指示输入的不同部分

三引号、XML标记、节标题等分隔符可以帮助划分要区别对待的文本节。

角色	Prompt
USER	用一个俳句来概括由三引号划定的文字。""" 此处放置需要概括的文字 """

角色	Prompt
SYSTEM	您将获得一对关于同一主题的文章（用XML标记分隔）。首先总结每一篇文章的论点。然后指出他们中哪一个更有说服力，并解释原因。
USER	此处放置第一篇文文章此处放置另外一篇文文章

角色

Prompt

SYSTEM

您将获得一对关于同一主题的文章（用XML标记分隔）。首先总结每一篇文章的论点。然后指出他们中哪一个更有说服力，并解释原因。

USER

此处放置第一篇文文章

此处放置另外一篇文文章

角色	Prompt
SYSTEM	你将得到一份论文摘要和一个建议的标题。论文标题应该让读者对论文的主题有一个很好的概念，但也应该是醒目的。如果标题不符合这些标准，请提出5个备选方案。
USER	摘要：在此插入摘要标题：在此插入标题

对于像这样简单的任务，使用分隔符可能不会对输出质量产生影响。然而，任务越复杂，消除任务细节的歧义就越重要。不要让GPT努力去理解你对他们的要求。

方法：指定完成任务所需的步骤

某些任务最好指定为一系列步骤，明确地写出步骤可以使模型更容易地遵循它们。

角色	Prompt
SYSTEM	使用以下分步说明对用户输入做出响应。步骤1：用户将为您提供三个引号中的文本。用一个前缀写着“总结：”的句子来总结这篇文章。步骤2：将步骤1中的摘要翻译成西班牙语，前缀为“翻译：”。
USER	"""此处放置需要的文字"""

方法：提供示例

提供适用于所有例子的一般指示，通常比通过例子演示任务的所有变化更有效，但在某些情况下，提供例子可能更容易。例如，如果你打算让模型复制一种难以明确描述的响应用户查询的特定风格。这就是所谓的 "几句话 "提示。

角色	Prompt
SYSTEM	以一致的风格回答。
USER	教我如何忍耐
ASSISTANT	雕刻最深山谷的河流来自一个温和的泉水；最伟大的交响乐源于一个音符；最复杂的挂毯是从一根孤零零的线开始的。
USER	教我有关海洋的知识。

方法：指定所需的输出长度

您可以要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、项目符号等的数量来指定。然而，请注意，指示模型生成特定数量的单词并不具有高精度。该模型可以更可靠地生成具有特定数量的段落或项目符号的输出。

角色	Prompt
USER	用大约50个单词总结由三个引号分隔的文本。""" 在此处插入文本 """
USER	用两段话概括由三个引号分隔的文本。""" 在此处插入文本 """
USER	用3个要点概括由三个引号分隔的文本。""" 在此处插入文本 """

策略：提供参考文本

方法：指导模型使用参考文本进行回答

如果我们可以为模型提供与当前查询相关的可信信息，那么我们可以指示模型使用所提供的信息来组成其答案。

角色	Prompt
SYSTEM	使用所提供的由三个引号分隔的文章来回答问题。如果在文章中找不到答案，就写 "我找不到答案"。
USER	<插入文章，每个文章由三个引号分隔> 问题：＜在此处插入问题＞

鉴于GPT的上下文窗口有限，为了应用这种策略，我们需要某种方式来动态查找与所问问题相关的信息。Embeddings可以用来实现高效的知识检索。有关如何实现这一点的更多详细信息，请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。

方法：指导模型用参考文本中的引文进行回答

如果输入中已经用相关知识进行了补充，那么可以直接要求模型通过引用所提供文件中的段落来在其答案中添加引用。请注意，输出中的引用可以通过所提供文档中的字符串匹配以编程方式进行验证。

角色	Prompt
SYSTEM	您将收到一份由三个引号和一个问题分隔的文档。你的任务是只使用提供的文件回答问题，并引用用于回答问题的文件的段落。如果文件中没有包含回答这个问题所需的信息，那么只需写下：“信息不足。”如果提供了问题的答案，则必须用引文进行注释。使用以下格式引用相关段落（｛“引文”：…｝）。
USER	"""<在此处插入文档>""" Question: <在此处插入问题>

角色

Prompt

SYSTEM

您将收到一份由三个引号和一个问题分隔的文档。你的任务是只使用提供的文件回答问题，并引用用于回答问题的文件的段落。如果文件中没有包含回答这个问题所需的信息，那么只需写下：“信息不足。”如果提供了问题的答案，则必须用引文进行注释。使用以下格式引用相关段落（｛“引文”：…｝）。

USER

"""<在此处插入文档>""" Question: <在此处插入问题>

策略：将复杂的任务拆分为更简单的子任务

方法：使用意图分类来确定与用户查询最相关的指令

对于需要大量独立指令集来处理不同情况的任务，首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。这个过程也可以递归地应用于将任务分解为一系列阶段。这种方法的优点是，每个查询将仅包含执行任务的下一阶段所需的那些指令，与使用单个查询来执行整个任务相比，这些指令可以导致更低的错误率。这也可以降低成本，因为更大的提示运行成本更高（请参阅定价信息）。例如，假设对于客户服务应用程序，查询可以有效地分类如下：

角色	Prompt
SYSTEM	您将收到客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供带有关键字的输出：primary和secondary。主要类别：帐单、技术支持、帐户管理或一般查询。计费次要类别：- 取消订阅或升级- 添加付款方式- 收费说明- 对指控提出异议技术支持二级分类：- 故障排除- 设备兼容性- 软件更新帐户管理次要类别：- 密码重置- 更新个人信息- 关闭帐户- 账户安全一般查询次要类别：- 产品信息- 定价- 反馈- 与人交谈
USER	我需要让我的互联网重新运转起来。

角色

Prompt

SYSTEM

您将收到客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供带有关键字的输出：primary和secondary。主要类别：帐单、技术支持、帐户管理或一般查询。计费次要类别：- 取消订阅或升级- 添加付款方式- 收费说明- 对指控提出异议技术支持二级分类：- 故障排除- 设备兼容性- 软件更新帐户管理次要类别：- 密码重置- 更新个人信息- 关闭帐户- 账户安全一般查询次要类别：- 产品信息- 定价- 反馈- 与人交谈

USER

我需要让我的互联网重新运转起来。

基于客户查询的分类，可以向GPT模型提供一组更具体的指令，以处理接下来的步骤。例如，假设客户需要“故障排除”方面的帮助。

角色	Prompt
SYSTEM	将向您提供需要在技术支持环境中进行故障排除的客户服务咨询。通过以下方式帮助用户：- 请他们检查所有连接路由器的电缆是否已连接。请注意，随着时间的推移，电缆松动是很常见的。- 如果所有电缆都已连接，但问题仍然存在，请询问他们使用的是哪种路由器型号- 现在，您将建议他们如何重新启动设备：-- 如果型号为MTD-327J，建议他们按下红色按钮并保持5秒钟，然后等待5分钟再测试连接。-- 如果型号是MTD-327S，建议他们拔下插头并重新安装，然后等待5分钟再测试连接。- 如果客户的问题在重新启动设备并等待5分钟后仍然存在，请通过输出｛“请求的IT支持”｝将他们连接到IT支持。- 如果用户开始询问与此主题无关的问题，请确认他们是否希望结束当前关于故障排除的聊天，并根据以下方案对他们的请求进行分类：您将收到客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供带有关键字的输出：primary和secondary。主要类别：帐单、技术支持、帐户管理或一般查询。计费次要类别：- 取消订阅或升级- 添加付款方式- 收费说明- 对指控提出异议技术支持二级分类：- 故障排除- 设备兼容性- 软件更新帐户管理次要类别：- 密码重置- 更新个人信息- 关闭帐户- 账户安全一般查询次要类别：- 产品信息- 定价- 反馈- 与人交谈
USER	我需要让我的互联网重新运转起来。

角色

Prompt

SYSTEM

将向您提供需要在技术支持环境中进行故障排除的客户服务咨询。通过以下方式帮助用户：- 请他们检查所有连接路由器的电缆是否已连接。请注意，随着时间的推移，电缆松动是很常见的。- 如果所有电缆都已连接，但问题仍然存在，请询问他们使用的是哪种路由器型号- 现在，您将建议他们如何重新启动设备：-- 如果型号为MTD-327J，建议他们按下红色按钮并保持5秒钟，然后等待5分钟再测试连接。-- 如果型号是MTD-327S，建议他们拔下插头并重新安装，然后等待5分钟再测试连接。- 如果客户的问题在重新启动设备并等待5分钟后仍然存在，请通过输出｛“请求的IT支持”｝将他们连接到IT支持。- 如果用户开始询问与此主题无关的问题，请确认他们是否希望结束当前关于故障排除的聊天，并根据以下方案对他们的请求进行分类：您将收到客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供带有关键字的输出：primary和secondary。主要类别：帐单、技术支持、帐户管理或一般查询。计费次要类别：- 取消订阅或升级- 添加付款方式- 收费说明- 对指控提出异议技术支持二级分类：- 故障排除- 设备兼容性- 软件更新帐户管理次要类别：- 密码重置- 更新个人信息- 关闭帐户- 账户安全一般查询次要类别：- 产品信息- 定价- 反馈- 与人交谈

USER

我需要让我的互联网重新运转起来。

请注意，该模型已被指示发出特殊的字符串，以指示对话的状态何时改变。这使我们能够把我们的系统变成一个状态机，状态决定了哪些指令被注入。通过跟踪状态，哪些指令在该状态下是相关的，以及允许从该状态下进行哪些状态转换，我们可以在用户体验周围设置护栏，这在结构化程度较低的方法中是难以实现的。

方法：对于需要很长对话的对话应用，总结或过滤以前的对话

由于GPT具有固定的上下文长度，用户和助手之间的对话（其中整个对话都包含在上下文窗口中）不能无限期地继续。这个问题有各种各样的解决方法，其中之一就是总结之前的谈话。一旦输入的大小达到预定的阈值长度，这可以触发对会话的一部分进行总结的查询，并且先前会话的总结可以被包括作为系统消息的一部分。或者，可以在整个会话的后台异步总结先前的会话。另一种解决方案是动态选择对话中与当前查询最相关的先前部分。请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。

方法：对长的文件进行逐条总结，并递归地构建一个完整的总结

由于GPT具有固定的上下文长度，因此不能在单个查询中使用GPT来汇总超过上下文长度减去生成的摘要长度的文本。要总结一个很长的文档，例如一本书，我们可以使用一系列查询来总结文档的每个部分。章节摘要可以连接和汇总，从而生成摘要的摘要。这个过程可以递归地进行，直到整个文档被总结出来。如果有必要使用有关前几节的信息来理解后几节，那么另一个有用的技巧是在总结书中任何给定点之前的文本时，包括对该点内容的连续摘要。OpenAI使用GPT-3的变体在之前的研究中已经研究了这种总结书籍的程序的有效性。

策略：给GPT时间“思考”

方法：指示模型在匆忙得出结论之前，先找出自己的解决方案

有时，当我们明确指示模型在得出结论之前从第一原理进行推理时，我们会得到更好的结果。例如，假设我们想要一个模型来评估一个学生对数学问题的解决方案。最明显的方法是简单地问模型，学生的解决方案是否正确。

角色	Prompt
SYSTEM	确定学生的解决方案是否正确。
USER	问题陈述：我正在建造一个太阳能装置，我需要帮助解决财务问题。- 土地价格为100美元/平方英尺- 我可以花250美元/平方英尺买太阳能电池板- 我协商了一份维护合同，每年将花费10万美元，每平方英尺额外花费10美元作为平方英尺数量的函数，运营第一年的总成本是多少。学生解决方案：设x为装置的大小，单位为平方英尺。1.土地成本：100x2.太阳能电池板成本：250x3.维修费用：100000+100x总成本：100x+250x+100000+100x=450x+100000
ASSISTANT	这个学生的答案是正确的。

但是学生的解决方案实际上是不正确的！我们可以通过提示模型首先生成自己的解决方案来让模型成功地注意到这一点。

角色	Prompt
SYSTEM	首先找出你自己解决这个问题的办法。然后将你的解决方案与学生的解决方案进行比较，并评估学生的解决方法是否正确。在你自己做了题之前，不要决定学生的答案是否正确。
USER	问题陈述：我正在建造一个太阳能装置，我需要帮助解决财务问题。- 土地价格为100美元/平方英尺- 我可以花250美元/平方英尺买太阳能电池板- 我协商了一份维护合同，每年将花费10万美元，每平方英尺额外花费10美元作为平方英尺数量的函数，运营第一年的总成本是多少。学生解决方案：设x为装置的大小，单位为平方英尺。1.土地成本：100x2.太阳能电池板成本：250x3.维修费用：100000+100x总成本：100x+250x+100000+100x=450x+100000
ASSISTANT	设x是安装的尺寸，单位是平方英尺。1. 土地成本：100x2. 太阳能电池板成本：250x3. 维护费用：100,000 + 10x总成本：100x + 250x + 100,000 + 10x = 360x + 100,000学生的解决方案不正确。他们在计算维护成本时犯了一个错误，用了100倍而不是10倍。运营第一年的正确总成本为360x+100000。

方法：使用内心独白或一连串的询问来隐藏模型的推理过程

前面的策略表明，在回答特定问题之前，模型对问题进行详细推理有时很重要。对于某些应用程序，模型用于得出最终答案的推理过程不适合与用户共享。例如，在辅导应用程序中，我们可能希望鼓励学生自己找出答案，但模型对学生解决方案的推理过程可能会向学生揭示答案。内心独白是一种可以用来缓解这种情况的策略。内心独白的想法是指示模型将原本要对用户隐藏的输出部分放入结构化格式中，使解析它们变得容易。然后，在向用户呈现输出之前，对输出进行解析，并且仅使输出的一部分可见。

角色	Prompt
SYSTEM	按照以下步骤回答用户查询。步骤1-首先找出你自己的问题解决方案。不要依赖学生的解决方案，因为它可能是不正确的。将您为此步骤所做的所有工作用三个引号（“”）括起来。第2步-将你的解决方案与学生的解决方案进行比较，并评估学生的解决方法是否正确。将您为此步骤所做的所有工作用三个引号（“”）括起来。第3步-如果学生犯了错误，确定你可以在不泄露答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三个引号（“”）括起来。第4步-如果学生犯了错误，向学生提供上一步的提示（三引号之外）。不要写“步骤4-…”，而是写“提示：”。
USER	问题陈述：＜插入问题陈述＞学生解决方案：＜插入学生解决方案＞

角色

Prompt

SYSTEM

按照以下步骤回答用户查询。步骤1-首先找出你自己的问题解决方案。不要依赖学生的解决方案，因为它可能是不正确的。将您为此步骤所做的所有工作用三个引号（“”）括起来。第2步-将你的解决方案与学生的解决方案进行比较，并评估学生的解决方法是否正确。将您为此步骤所做的所有工作用三个引号（“”）括起来。第3步-如果学生犯了错误，确定你可以在不泄露答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三个引号（“”）括起来。第4步-如果学生犯了错误，向学生提供上一步的提示（三引号之外）。不要写“步骤4-…”，而是写“提示：”。

USER

问题陈述：＜插入问题陈述＞学生解决方案：＜插入学生解决方案＞

或者，这可以通过一系列查询来实现，在这些查询中，除最后一个查询外，所有查询的输出都对最终用户隐藏。首先，我们可以要求模型自己解决问题。由于这个初始查询不需要学生的解决方案，因此可以省略它。这提供了额外的优势，即模型的解决方案不会因学生尝试的解决方案而产生偏差。

角色	Prompt
USER	<插入问题陈述>
ASSISTANT	xxxxxxxxxxxxx(模型生成的解决方案)

接下来，我们可以让模型使用所有可用的信息来评估学生的解决方案是否正确。

角色	Prompt
SYSTEM	将你的解决方案与学生的解决方案进行比较，并评估学生的解决方法是否正确。
USER	问题陈述：“”“＜插入问题陈述＞”“”你的解决方案：“”“＜插入模型生成的解决方案＞”“”学生解决方案：“”“<插入学生解决方案>”“”

最后，我们可以让模型使用自己的分析，以一个乐于助人的导师的身份构建一个回复。

角色	Prompt
SYSTEM	你是一个数学辅导员。如果学生犯了错误，以不透露答案的方式向学生提供提示。如果学生没有犯错，只需给他们一个鼓励性的评论。
USER	问题陈述：“”“＜插入问题陈述＞”“”你的解决方案：“”“＜插入模型生成的解决方案＞”“”学生解决方案：“”“<插入学生解决方案>”“”分析：“”“<插入上一步中生成的模型分析>”“”

方法：询问模型在之前的过程中是否遗漏了什么

假设我们正在使用一个模型来列出与某个特定问题相关的来源的摘录。在列出每个摘录之后，模型需要确定它是否应该开始写另一个摘录，或者是否应该停止。如果源文件很大，模型通常会过早停止，而无法列出所有相关的节选。在这种情况下，通常可以通过提示模型进行后续查询，以找到它在前几次查询中遗漏的任何节选内容，从而获得更好的性能。

角色	Prompt
SYSTEM	你将得到一份由三个引号分隔的文档。你的任务是选择与以下问题有关的节选： "在人工智能的历史上发生了哪些重大的范式转变。"确保节选内容包含解释它们所需的所有相关背景--换句话说，不要提取缺少重要背景的小片段。提供JSON格式的输出，如下所示：[{"excerpt": "..."}, ... {"excerpt": "..."}]
USER	"""<在此处插入文档>"""
ASSISTANT	[{"excerpt": "一段摘录"}, ... {"excerpt": "另一段摘录"}]
USER	是否有更多相关的摘录？注意不要重复摘录。还要确保摘录的内容包含解释它们所需的所有相关背景--换句话说，不要摘取缺少重要背景的小片段。

使用外部工具

方法：使用基于嵌入的搜索来实现高效的知识检索

如果作为输入的一部分提供，模型可以利用外部信息源。这可以帮助模型生成更知情和最新的响应。例如，如果用户询问关于特定电影的问题，则将关于电影的高质量信息（例如，演员、导演等）添加到模型的输入中可能是有用的。嵌入可以用于实现高效的知识检索，从而可以在运行时将相关信息动态添加到模型输入中。文本嵌入是一种可以测量文本字符串之间相关性的向量。相似或相关的字符串将比不相关的字符串更紧密地连接在一起。这一事实，加上快速矢量搜索算法的存在，意味着嵌入可以用于实现高效的知识检索。特别地，文本语料库可以被分成块，并且每个块都可以被嵌入和存储。然后，可以嵌入给定的查询，并且可以执行向量搜索以从语料库中找到与查询最相关的嵌入的文本块（即，在嵌入空间中最接近的文本块）。示例实现可以在OpenAI Cookbook中找到。请参阅策略“指导模型使用检索到的知识来回答查询”，以了解如何使用知识检索来最大限度地减少模型编造错误事实的可能性。

方法：使用代码执行来进行更精确的计算或调用外部API

不能依靠GPT自己准确地进行算术或长时间的计算。在需要的情况下，可以指示一个模型编写和运行代码，而不是自己进行计算。特别是，一个模型可以被指示把要运行的代码放到一个指定的格式中，如三重回溯。在产生输出后，代码可以被提取并运行。最后，如果有必要，代码执行引擎（即Python解释器）的输出可以提供给模型，作为下一次查询的输入。

角色	Prompt
SYSTEM	你可以通过将Python代码用三个反斜线括起来来编写和执行，例如：`代码在这里`。用这个来进行计算。
USER	找到以下多项式的所有实值根：`3x5 - 5x*4 - 3x*3 - 7x - 10.`

代码执行的另一个好用例是调用外部API。如果指示模型正确使用API，它可以编写使用它的代码。可以通过向模型提供说明如何使用API的文档和/或代码示例来指示模型如何使用API。

角色	Prompt
SYSTEM	你可以通过将Python代码用三个反斜线括起来来编写和执行，例如：`代码在这里`。用这个来进行计算。```python import message message.write(to="John", message="Hey, want to meetup after work?")```

警告：执行由模型生成的代码本质上是不安全的，在任何试图执行此操作的应用程序中都应该采取预防措施。特别是，需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。

系统地测试变更

有时很难判断一个变化——例如，一条新指令或一个新设计——是让你的系统变得更好还是更糟。看看几个例子可能会暗示哪一个更好，但由于样本量较小，很难区分真正的改进还是随机的运气。也许更改有助于某些输入的性能，但会损害其他输入的性能。

评估程序（或“evals”）有助于优化系统设计。好的evals是：

代表真实世界的使用（或至少多样化）
包含许多测试用例以获得更大的统计能力（有关指南，请参阅下表）
易于自动化或重复

要检测的差异	95%置信度所需的样本量
30%	~10
10%	~100
3%	~1,000
1%	~10,000

输出的评估可以由计算机、人工或混合进行。计算机可以使用客观标准（例如，具有单一正确答案的问题）以及一些主观或模糊标准来自动评估，其中模型输出由其他模型查询来评估。OpenAI Evals是一个开源软件框架，提供创建自动化评估的工具。当存在一系列可能的输出时，基于模型的评估可能会很有用，这些输出被认为质量同样高（例如，对于答案很长的问题）。基于模型的评估可以实际评估的内容和需要人类评估的内容之间的界限是模糊的，并且随着模型变得更有能力，界限不断变化。我们鼓励进行实验，以了解基于模型的评估在多大程度上适用于您的用例。

方法：参照黄金标准答案评估模型输出

假设一个问题的正确答案应该参考一组特定的已知事实。然后，我们可以使用模型查询来计算答案中包含了多少所需事实。例如，使用以下系统消息：

角色	Prompt
SYSTEM	您将获得由三个引号分隔的文本，这应该是问题的答案。检查答案中是否直接包含以下信息：-尼尔·阿姆斯特朗是第一个在月球上行走的人。-尼尔·阿姆斯特朗第一次登上月球的日期是1969年7月21日。对于这些点中的每一个，执行以下步骤：1-重述要点。2-提供最接近这一点的答案的引文。3-考虑一下，阅读引文但不了解主题的人是否可以直接推断出要点。在下定决心之前解释一下为什么或为什么不这样做。4-如果3的答案是肯定的，则写“是”，否则写“否”。最后，统计一下有多少“是”的答案。将此计数提供为｛“count”：＜在此处插入计数＞｝。

角色

Prompt

SYSTEM

您将获得由三个引号分隔的文本，这应该是问题的答案。检查答案中是否直接包含以下信息：-尼尔·阿姆斯特朗是第一个在月球上行走的人。-尼尔·阿姆斯特朗第一次登上月球的日期是1969年7月21日。对于这些点中的每一个，执行以下步骤：1-重述要点。2-提供最接近这一点的答案的引文。3-考虑一下，阅读引文但不了解主题的人是否可以直接推断出要点。在下定决心之前解释一下为什么或为什么不这样做。4-如果3的答案是肯定的，则写“是”，否则写“否”。最后，统计一下有多少“是”的答案。将此计数提供为｛“count”：＜在此处插入计数＞｝。

以下是一个同时满足这两点的示例输入：

角色	Prompt
SYSTEM	<插入上面的系统信息>
USER	“”“尼尔·阿姆斯特朗走出登月舱，成为第一个登上月球的人，创造了历史。”“”

以下是一个没有得到满足的示例输入：

角色	Prompt
SYSTEM	<插入上面的系统信息>
USER	“”“69年夏天，一次盛大的航行，阿波罗11号，大胆如传奇之手。阿姆斯特朗迈出了一步，历史展现了出来，“我的一小步,人类的一大步”他说。”“”

这种基于模型的eval有很多可能的变体。考虑以下变化，它跟踪候选答案和金标准答案之间的重叠类型，并跟踪候选答案是否与金标准答案的任何部分相矛盾。

角色	Prompt
SYSTEM	使用以下步骤来响应用户输入。在继续之前充分重述每一步。即“第1步：理由…”。步骤1：逐步判断提交的答案中的信息与专家答案相比是否是：不相交、相等、子集、超集或重叠（即某些交集，但不是子集/超集）。第二步：逐步判断提交的答案是否与专家答案的任何方面相矛盾。第3步：输出一个JSON对象，其结构如下：｛“type_of_doverlap”：“dissection”或“equal”或“subset”或“superset”或“overlapping”，“conflict”：true或false｝

角色

Prompt

SYSTEM

使用以下步骤来响应用户输入。在继续之前充分重述每一步。即“第1步：理由…”。步骤1：逐步判断提交的答案中的信息与专家答案相比是否是：不相交、相等、子集、超集或重叠（即某些交集，但不是子集/超集）。第二步：逐步判断提交的答案是否与专家答案的任何方面相矛盾。第3步：输出一个JSON对象，其结构如下：｛“type_of_doverlap”：“dissection”或“equal”或“subset”或“superset”或“overlapping”，“conflict”：true或false｝

以下是一个输入不合格答案的示例，但与专家答案并不矛盾：

角色	Prompt
SYSTEM	<插入上面的系统信息>
USER	问题：“”“尼尔·阿姆斯特朗最著名的事件是什么？发生在什么日期？假定UTC时间。”“”提交的答案：“”“他不是在月球上行走吗？”“”专家回答：“尼尔·阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在1969年7月21日。”

以下是一个与专家答案直接矛盾的输入示例：

角色	Prompt
SYSTEM	<插入上面的系统信息>
USER	问题：“”“尼尔·阿姆斯特朗最著名的事件是什么？发生在什么日期？假定UTC时间。”“”提交的答案：“1969年7月21日，尼尔·阿姆斯特朗成为继巴兹·奥尔德林之后第二个登上月球的人。”专家回答：“尼尔·阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在1969年7月21日。”

以下是一个带有正确答案的示例输入，它还提供了比所需更多的细节：

角色

Prompt

SYSTEM

<插入上面的系统信息>

USER

问题：“”“尼尔·阿姆斯特朗最著名的事件是什么？发生在什么日期？假定UTC时间。”“”提交的答案：“”1969年7月21日UTC（世界协调时）大概02:56左右，尼尔·阿姆斯特朗成为第一个踏上月球表面的人类，这标志着人类历史上的一项重大成就。“”专家回答：“尼尔·阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在1969年7月21日。”

其他资源

要获得更多灵感，请访问OpenAI Cookbook，其中包含示例代码，还链接到第三方资源，如：

提示库和工具
提示性指南
视频课程
关于改进推理的高级提示的论文

关键词：