最新要闻
- 全球滚动:测排卵的最佳时间几点到几点_测排卵的最佳时间几点
- 国家市场监督管理总局:持续激发经营主体活力-环球观速讯
- 雷朋太阳镜官方旗舰店_雷朋 世界快播
- 今日热讯:努比亚首款AI裸眼3D平板!nubia Pad 3D开启预售:8+128GB卖10999元
- 面积稳、长势好新季花生产量乐观-世界快看
- 想念食品已回复审核问询函:“农业产业化国家重点龙头企业”,专注于挂面、面粉产品的研发、生产和销售
- 今头条!2023郑州高新区朗悦慧外国语中学需要摇号吗
- 当前时讯:一汽奔腾加速冲锋头部阵营
- 世界微速讯:英雄就在自己身边(纵横)
- 空心树桩成“景点” 各种野生动物纷纷来“打卡”
- 胡锡进宣布:正式进入中国股市!李大霄提建议_环球热点
- 环球热资讯!绿色之路圆桌丨食品行业怎样探寻双碳发展?
- 宝安头条|深圳轨道交通五期开工 完善宝安、前海片区地铁网络
- 又一里程碑!天津造空客A321neo首次交付欧洲
- 独立按键模组 魅族20 PANDAER抗菌手机壳图赏
- 西北首条!西安无人驾驶地铁正式开通:乘客可在车头车尾参观拍照
手机
天天最新:空蝉学园生活女警剧情怎么过
护航未成年人成长|市少先队校外禁毒宣传教育园地揭牌
- 天天最新:空蝉学园生活女警剧情怎么过
- 护航未成年人成长|市少先队校外禁毒宣传教育园地揭牌
- 27日唐山迁安部分普方坯资源涨50至3520含税出厂
- 广东省2023年普通高考志愿填报辅助系统来啦
- 焦点快看:5G手机渗透率已超50%
- 刘谦的白斩鸡怎么做?
家电
环球观点:【翻译】GPT最佳实践
原文章地址:https://platform.openai.com/docs/guides/gpt-best-practices/strategy-test-changes-systematically
(资料图片)
本指南分享了从GPT中获得更好结果的战略和策略。这里描述的方法有时可以结合起来使用,以获得更大的效果。我们鼓励大家通过实验来找到最适合自己的方法。
这里演示的一些例子目前只适用于我们能力最强的模型,gpt-4。如果你还没有机会使用gpt-4,可以考虑加入等待名单。一般来说,如果你发现一个GPT模型在某项任务中失败了,而有一个能力更强的模型可用,通常值得用能力更强的模型再试一次。
获得更好结果的六种策略
写清楚说明
GPT不能读懂你的想法。如果产出太长,要求简短的答复。如果产出太简单,就要求专家级的写作。如果你不喜欢这种格式,就展示你希望看到的格式。GPT越是不需要猜测你想要什么,你就越有可能得到它。
方法:
- 在你的询问中包括细节,以获得更多相关的答案
- 要求模型扮演一个角色
- 使用分隔符来清楚地表明输入的不同部分
- 具体说明完成一项任务所需的步骤
- 提供例子
- 指定所需的输出长度
提供参考文本
GPT可以自信地编造虚假的答案,特别是当被问及深奥的话题或引用和URL时。就像一张笔记可以帮助学生在考试中做得更好一样,为GPT提供参考文本可以帮助他们在回答问题时减少捏造。
方法:
- 指导模型使用参考文本进行回答
- 指导模型使用参考文本中的引文进行回答
将复杂的任务拆分为更简单的子任务
正如在软件工程中,将一个复杂的系统分解成一系列的模块化组件是一个很好的做法,提交给GPT的任务也是如此。复杂的任务往往比简单的任务有更高的错误率。此外,复杂的任务通常可以被重新定义为较简单的任务的工作流程,其中早期任务的输出被用来构建后面任务的输入。
方法:
- 使用意图分类来确定与用户查询最相关的指令
- 对于需要很长对话的对话应用,总结或过滤以前的对话
- 对长的文件进行逐条总结,并递归地构建一个完整的总结
给GPT时间“思考”
如果让你用17乘以28,你可能不会马上知道,但还是可以通过时间计算出来。同样地,当GPT试图立即回答,而不是花时间来计算答案时,他们会犯更多的推理错误。在回答之前要求有一连串的推理,可以帮助GPT们更可靠地推理出正确的答案。
方法:
- 指示模型在匆忙得出结论之前,先找出自己的解决方案
- 使用内心独白或一连串的询问来隐藏模型的推理过程
- 询问模型在之前的过程中是否遗漏了什么
使用外部工具
通过向GPT提供其他工具的输出来弥补GPT的弱点。例如,一个文本检索系统可以告诉GPT有关的文件。一个代码执行引擎可以帮助GPT进行数学运算和运行代码。如果一项任务可以由一个工具而不是GPT更可靠或更有效地完成,那么就把它卸载掉,以获得两者的优点。
方法:
- 使用基于嵌入的搜索来实现高效的知识检索
- 使用代码执行来进行更精确的计算或调用外部API
系统地测试变更
如果你能测量它,提高性能就更容易了。在某些情况下,对一个提示的修改会在一些孤立的例子上实现更好的性能,但在更有代表性的例子上会导致更差的整体性能。因此,为了确定一个变化对性能是积极的,可能需要定义一个全面的测试套件(也称为 "评估")。
方法:
- 参照黄金标准答案评估模型输出
方法
上面列出的每个策略都可以用具体的战术来实例化。这些战术是为了提供一些可以尝试的想法。它们决不是完全全面的,你应该自由地尝试这里没有代表的创造性想法。
策略:编写清晰的说明
方法:在你的询问中包括细节,以获得更多相关的答案
为了得到高度相关的响应,请确保请求提供任何重要的细节或上下文。否则,你就得让模型来猜测你的意思了。
糟糕 | 更棒 |
---|---|
如何在Excel中添加数字? | 如何在Excel中将一行美元金额相加?我想对一整排行自动执行此操作,所有的总计都在右边的一列中,名为“总计”。 |
谁是总统? | 谁是2021年的墨西哥总统,选举频率有多高? |
编写代码来计算斐波那契数列。 | 编写一个TypeScript函数来有效计算斐波那契数列。大量注释代码以解释每一部分的作用以及为什么这样写。 |
对会议记录进行总结。 | 将会议记录总结成一段话。然后,写一份发言者和他们每个人的关键观点的标记清单。最后,列出发言者建议的下一步行动或行动项目(如果有的话)。 |
方法:要求模型扮演一个角色
系统消息可用于指定模型在回复中使用的角色。
角色 | Prompt |
---|---|
SYSTEM | 当我请求帮助写东西时,你会回复一份文件,其中每段至少包含一个笑话或有趣的评论。 |
USER | 写一封感谢信给我的钢制螺栓供应商,感谢他在短时间内准时交货。这使我们有可能交付一份重要的订单。 |
方法:使用分隔符清楚地指示输入的不同部分
三引号、XML标记、节标题等分隔符可以帮助划分要区别对待的文本节。
角色 | Prompt |
---|---|
USER | 用一个俳句来概括由三引号划定的文字。""" 此处放置需要概括的文字 """ |
角色 | Prompt |
---|---|
SYSTEM | 您将获得一对关于同一主题的文章(用XML标记分隔)。首先总结每一篇文章的论点。然后指出他们中哪一个更有说服力,并解释原因。 |
USER |
角色 | Prompt |
---|---|
SYSTEM | 你将得到一份论文摘要和一个建议的标题。论文标题应该让读者对论文的主题有一个很好的概念,但也应该是醒目的。如果标题不符合这些标准,请提出5个备选方案。 |
USER | 摘要:在此插入摘要标题:在此插入标题 |
对于像这样简单的任务,使用分隔符可能不会对输出质量产生影响。然而,任务越复杂,消除任务细节的歧义就越重要。不要让GPT努力去理解你对他们的要求。
方法:指定完成任务所需的步骤
某些任务最好指定为一系列步骤,明确地写出步骤可以使模型更容易地遵循它们。
角色 | Prompt |
---|---|
SYSTEM | 使用以下分步说明对用户输入做出响应。步骤1:用户将为您提供三个引号中的文本。用一个前缀写着“总结:”的句子来总结这篇文章。步骤2:将步骤1中的摘要翻译成西班牙语,前缀为“翻译:”。 |
USER | """此处放置需要的文字""" |
方法:提供示例
提供适用于所有例子的一般指示,通常比通过例子演示任务的所有变化更有效,但在某些情况下,提供例子可能更容易。例如,如果你打算让模型复制一种难以明确描述的响应用户查询的特定风格。这就是所谓的 "几句话 "提示。
角色 | Prompt |
---|---|
SYSTEM | 以一致的风格回答。 |
USER | 教我如何忍耐 |
ASSISTANT | 雕刻最深山谷的河流来自一个温和的泉水;最伟大的交响乐源于一个音符;最复杂的挂毯是从一根孤零零的线开始的。 |
USER | 教我有关海洋的知识。 |
方法:指定所需的输出长度
您可以要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、项目符号等的数量来指定。然而,请注意,指示模型生成特定数量的单词并不具有高精度。该模型可以更可靠地生成具有特定数量的段落或项目符号的输出。
角色 | Prompt |
---|---|
USER | 用大约50个单词总结由三个引号分隔的文本。""" 在此处插入文本 """ |
USER | 用两段话概括由三个引号分隔的文本。""" 在此处插入文本 """ |
USER | 用3个要点概括由三个引号分隔的文本。""" 在此处插入文本 """ |
策略:提供参考文本
方法:指导模型使用参考文本进行回答
如果我们可以为模型提供与当前查询相关的可信信息,那么我们可以指示模型使用所提供的信息来组成其答案。
角色 | Prompt |
---|---|
SYSTEM | 使用所提供的由三个引号分隔的文章来回答问题。如果在文章中找不到答案,就写 "我找不到答案"。 |
USER | <插入文章,每个文章由三个引号分隔> 问题:<在此处插入问题> |
鉴于GPT的上下文窗口有限,为了应用这种策略,我们需要某种方式来动态查找与所问问题相关的信息。Embeddings可以用来实现高效的知识检索。有关如何实现这一点的更多详细信息,请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。
方法:指导模型用参考文本中的引文进行回答
如果输入中已经用相关知识进行了补充,那么可以直接要求模型通过引用所提供文件中的段落来在其答案中添加引用。请注意,输出中的引用可以通过所提供文档中的字符串匹配以编程方式进行验证。
角色 | Prompt |
---|---|
SYSTEM | 您将收到一份由三个引号和一个问题分隔的文档。你的任务是只使用提供的文件回答问题,并引用用于回答问题的文件的段落。如果文件中没有包含回答这个问题所需的信息,那么只需写下:“信息不足。”如果提供了问题的答案,则必须用引文进行注释。使用以下格式引用相关段落({“引文”:…})。 |
USER | """<在此处插入文档>""" Question: <在此处插入问题> |
策略:将复杂的任务拆分为更简单的子任务
方法:使用意图分类来确定与用户查询最相关的指令
对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。这个过程也可以递归地应用于将任务分解为一系列阶段。这种方法的优点是,每个查询将仅包含执行任务的下一阶段所需的那些指令,与使用单个查询来执行整个任务相比,这些指令可以导致更低的错误率。这也可以降低成本,因为更大的提示运行成本更高(请参阅定价信息)。例如,假设对于客户服务应用程序,查询可以有效地分类如下:
角色 | Prompt |
---|---|
SYSTEM | 您将收到客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供带有关键字的输出:primary和secondary。主要类别:帐单、技术支持、帐户管理或一般查询。计费次要类别:- 取消订阅或升级- 添加付款方式- 收费说明- 对指控提出异议技术支持二级分类:- 故障排除- 设备兼容性- 软件更新帐户管理次要类别:- 密码重置- 更新个人信息- 关闭帐户- 账户安全一般查询次要类别:- 产品信息- 定价- 反馈- 与人交谈 |
USER | 我需要让我的互联网重新运转起来。 |
基于客户查询的分类,可以向GPT模型提供一组更具体的指令,以处理接下来的步骤。例如,假设客户需要“故障排除”方面的帮助。
角色 | Prompt |
---|---|
SYSTEM | 将向您提供需要在技术支持环境中进行故障排除的客户服务咨询。通过以下方式帮助用户:- 请他们检查所有连接路由器的电缆是否已连接。请注意,随着时间的推移,电缆松动是很常见的。- 如果所有电缆都已连接,但问题仍然存在,请询问他们使用的是哪种路由器型号- 现在,您将建议他们如何重新启动设备:-- 如果型号为MTD-327J,建议他们按下红色按钮并保持5秒钟,然后等待5分钟再测试连接。-- 如果型号是MTD-327S,建议他们拔下插头并重新安装,然后等待5分钟再测试连接。- 如果客户的问题在重新启动设备并等待5分钟后仍然存在,请通过输出{“请求的IT支持”}将他们连接到IT支持。- 如果用户开始询问与此主题无关的问题,请确认他们是否希望结束当前关于故障排除的聊天,并根据以下方案对他们的请求进行分类:您将收到客户服务查询。将每个查询分类为主要类别和次要类别。以json格式提供带有关键字的输出:primary和secondary。主要类别:帐单、技术支持、帐户管理或一般查询。计费次要类别:- 取消订阅或升级- 添加付款方式- 收费说明- 对指控提出异议技术支持二级分类:- 故障排除- 设备兼容性- 软件更新帐户管理次要类别:- 密码重置- 更新个人信息- 关闭帐户- 账户安全一般查询次要类别:- 产品信息- 定价- 反馈- 与人交谈 |
USER | 我需要让我的互联网重新运转起来。 |
请注意,该模型已被指示发出特殊的字符串,以指示对话的状态何时改变。这使我们能够把我们的系统变成一个状态机,状态决定了哪些指令被注入。通过跟踪状态,哪些指令在该状态下是相关的,以及允许从该状态下进行哪些状态转换,我们可以在用户体验周围设置护栏,这在结构化程度较低的方法中是难以实现的。
方法:对于需要很长对话的对话应用,总结或过滤以前的对话
由于GPT具有固定的上下文长度,用户和助手之间的对话(其中整个对话都包含在上下文窗口中)不能无限期地继续。这个问题有各种各样的解决方法,其中之一就是总结之前的谈话。一旦输入的大小达到预定的阈值长度,这可以触发对会话的一部分进行总结的查询,并且先前会话的总结可以被包括作为系统消息的一部分。或者,可以在整个会话的后台异步总结先前的会话。另一种解决方案是动态选择对话中与当前查询最相关的先前部分。请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。
方法:对长的文件进行逐条总结,并递归地构建一个完整的总结
由于GPT具有固定的上下文长度,因此不能在单个查询中使用GPT来汇总超过上下文长度减去生成的摘要长度的文本。要总结一个很长的文档,例如一本书,我们可以使用一系列查询来总结文档的每个部分。章节摘要可以连接和汇总,从而生成摘要的摘要。这个过程可以递归地进行,直到整个文档被总结出来。如果有必要使用有关前几节的信息来理解后几节,那么另一个有用的技巧是在总结书中任何给定点之前的文本时,包括对该点内容的连续摘要。OpenAI使用GPT-3的变体在之前的研究中已经研究了这种总结书籍的程序的有效性。
策略:给GPT时间“思考”
方法:指示模型在匆忙得出结论之前,先找出自己的解决方案
有时,当我们明确指示模型在得出结论之前从第一原理进行推理时,我们会得到更好的结果。例如,假设我们想要一个模型来评估一个学生对数学问题的解决方案。最明显的方法是简单地问模型,学生的解决方案是否正确。
角色 | Prompt |
---|---|
SYSTEM | 确定学生的解决方案是否正确。 |
USER | 问题陈述:我正在建造一个太阳能装置,我需要帮助解决财务问题。- 土地价格为100美元/平方英尺- 我可以花250美元/平方英尺买太阳能电池板- 我协商了一份维护合同,每年将花费10万美元,每平方英尺额外花费10美元作为平方英尺数量的函数,运营第一年的总成本是多少。学生解决方案:设x为装置的大小,单位为平方英尺。1.土地成本:100x2.太阳能电池板成本:250x3.维修费用:100000+100x总成本:100x+250x+100000+100x=450x+100000 |
ASSISTANT | 这个学生的答案是正确的。 |
但是学生的解决方案实际上是不正确的!我们可以通过提示模型首先生成自己的解决方案来让模型成功地注意到这一点。
角色 | Prompt |
---|---|
SYSTEM | 首先找出你自己解决这个问题的办法。然后将你的解决方案与学生的解决方案进行比较,并评估学生的解决方法是否正确。在你自己做了题之前,不要决定学生的答案是否正确。 |
USER | 问题陈述:我正在建造一个太阳能装置,我需要帮助解决财务问题。- 土地价格为100美元/平方英尺- 我可以花250美元/平方英尺买太阳能电池板- 我协商了一份维护合同,每年将花费10万美元,每平方英尺额外花费10美元作为平方英尺数量的函数,运营第一年的总成本是多少。学生解决方案:设x为装置的大小,单位为平方英尺。1.土地成本:100x2.太阳能电池板成本:250x3.维修费用:100000+100x总成本:100x+250x+100000+100x=450x+100000 |
ASSISTANT | 设x是安装的尺寸,单位是平方英尺。1. 土地成本:100x2. 太阳能电池板成本:250x3. 维护费用:100,000 + 10x总成本:100x + 250x + 100,000 + 10x = 360x + 100,000学生的解决方案不正确。他们在计算维护成本时犯了一个错误,用了100倍而不是10倍。运营第一年的正确总成本为360x+100000。 |
方法:使用内心独白或一连串的询问来隐藏模型的推理过程
前面的策略表明,在回答特定问题之前,模型对问题进行详细推理有时很重要。对于某些应用程序,模型用于得出最终答案的推理过程不适合与用户共享。例如,在辅导应用程序中,我们可能希望鼓励学生自己找出答案,但模型对学生解决方案的推理过程可能会向学生揭示答案。内心独白是一种可以用来缓解这种情况的策略。内心独白的想法是指示模型将原本要对用户隐藏的输出部分放入结构化格式中,使解析它们变得容易。然后,在向用户呈现输出之前,对输出进行解析,并且仅使输出的一部分可见。
角色 | Prompt |
---|---|
SYSTEM | 按照以下步骤回答用户查询。步骤1-首先找出你自己的问题解决方案。不要依赖学生的解决方案,因为它可能是不正确的。将您为此步骤所做的所有工作用三个引号(“”)括起来。第2步-将你的解决方案与学生的解决方案进行比较,并评估学生的解决方法是否正确。将您为此步骤所做的所有工作用三个引号(“”)括起来。第3步-如果学生犯了错误,确定你可以在不泄露答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三个引号(“”)括起来。第4步-如果学生犯了错误,向学生提供上一步的提示(三引号之外)。不要写“步骤4-…”,而是写“提示:”。 |
USER | 问题陈述:<插入问题陈述>学生解决方案:<插入学生解决方案> |
或者,这可以通过一系列查询来实现,在这些查询中,除最后一个查询外,所有查询的输出都对最终用户隐藏。首先,我们可以要求模型自己解决问题。由于这个初始查询不需要学生的解决方案,因此可以省略它。这提供了额外的优势,即模型的解决方案不会因学生尝试的解决方案而产生偏差。
角色 | Prompt |
---|---|
USER | <插入问题陈述> |
ASSISTANT | xxxxxxxxxxxxx(模型生成的解决方案) |
接下来,我们可以让模型使用所有可用的信息来评估学生的解决方案是否正确。
角色 | Prompt |
---|---|
SYSTEM | 将你的解决方案与学生的解决方案进行比较,并评估学生的解决方法是否正确。 |
USER | 问题陈述:“”“<插入问题陈述>”“”你的解决方案:“”“<插入模型生成的解决方案>”“”学生解决方案:“”“<插入学生解决方案>”“” |
最后,我们可以让模型使用自己的分析,以一个乐于助人的导师的身份构建一个回复。
角色 | Prompt |
---|---|
SYSTEM | 你是一个数学辅导员。如果学生犯了错误,以不透露答案的方式向学生提供提示。如果学生没有犯错,只需给他们一个鼓励性的评论。 |
USER | 问题陈述:“”“<插入问题陈述>”“”你的解决方案:“”“<插入模型生成的解决方案>”“”学生解决方案:“”“<插入学生解决方案>”“”分析:“”“<插入上一步中生成的模型分析>”“” |
方法:询问模型在之前的过程中是否遗漏了什么
假设我们正在使用一个模型来列出与某个特定问题相关的来源的摘录。在列出每个摘录之后,模型需要确定它是否应该开始写另一个摘录,或者是否应该停止。如果源文件很大,模型通常会过早停止,而无法列出所有相关的节选。在这种情况下,通常可以通过提示模型进行后续查询,以找到它在前几次查询中遗漏的任何节选内容,从而获得更好的性能。
角色 | Prompt |
---|---|
SYSTEM | 你将得到一份由三个引号分隔的文档。你的任务是选择与以下问题有关的节选: "在人工智能的历史上发生了哪些重大的范式转变。"确保节选内容包含解释它们所需的所有相关背景--换句话说,不要提取缺少重要背景的小片段。提供JSON格式的输出,如下所示:[{"excerpt": "..."}, ... {"excerpt": "..."}] |
USER | """<在此处插入文档>""" |
ASSISTANT | [{"excerpt": "一段摘录"}, ... {"excerpt": "另一段摘录"}] |
USER | 是否有更多相关的摘录?注意不要重复摘录。还要确保摘录的内容包含解释它们所需的所有相关背景--换句话说,不要摘取缺少重要背景的小片段。 |
使用外部工具
方法:使用基于嵌入的搜索来实现高效的知识检索
如果作为输入的一部分提供,模型可以利用外部信息源。这可以帮助模型生成更知情和最新的响应。例如,如果用户询问关于特定电影的问题,则将关于电影的高质量信息(例如,演员、导演等)添加到模型的输入中可能是有用的。嵌入可以用于实现高效的知识检索,从而可以在运行时将相关信息动态添加到模型输入中。文本嵌入是一种可以测量文本字符串之间相关性的向量。相似或相关的字符串将比不相关的字符串更紧密地连接在一起。这一事实,加上快速矢量搜索算法的存在,意味着嵌入可以用于实现高效的知识检索。特别地,文本语料库可以被分成块,并且每个块都可以被嵌入和存储。然后,可以嵌入给定的查询,并且可以执行向量搜索以从语料库中找到与查询最相关的嵌入的文本块(即,在嵌入空间中最接近的文本块)。示例实现可以在OpenAI Cookbook中找到。请参阅策略“指导模型使用检索到的知识来回答查询”,以了解如何使用知识检索来最大限度地减少模型编造错误事实的可能性。
方法:使用代码执行来进行更精确的计算或调用外部API
不能依靠GPT自己准确地进行算术或长时间的计算。在需要的情况下,可以指示一个模型编写和运行代码,而不是自己进行计算。特别是,一个模型可以被指示把要运行的代码放到一个指定的格式中,如三重回溯。在产生输出后,代码可以被提取并运行。最后,如果有必要,代码执行引擎(即Python解释器)的输出可以提供给模型,作为下一次查询的输入。
角色 | Prompt |
---|---|
SYSTEM | 你可以通过将Python代码用三个反斜线括起来来编写和执行,例如:代码在这里 。用这个来进行计算。 |
USER | 找到以下多项式的所有实值根:3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10. |
代码执行的另一个好用例是调用外部API。如果指示模型正确使用API,它可以编写使用它的代码。可以通过向模型提供说明如何使用API的文档和/或代码示例来指示模型如何使用API。
角色 | Prompt |
---|---|
SYSTEM | 你可以通过将Python代码用三个反斜线括起来来编写和执行,例如:代码在这里 。用这个来进行计算。```python import message message.write(to="John", message="Hey, want to meetup after work?")``` |
警告:执行由模型生成的代码本质上是不安全的,在任何试图执行此操作的应用程序中都应该采取预防措施。特别是,需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。
系统地测试变更
有时很难判断一个变化——例如,一条新指令或一个新设计——是让你的系统变得更好还是更糟。看看几个例子可能会暗示哪一个更好,但由于样本量较小,很难区分真正的改进还是随机的运气。也许更改有助于某些输入的性能,但会损害其他输入的性能。
评估程序(或“evals”)有助于优化系统设计。好的evals是:
- 代表真实世界的使用(或至少多样化)
- 包含许多测试用例以获得更大的统计能力(有关指南,请参阅下表)
- 易于自动化或重复
要检测的差异 | 95%置信度所需的样本量 |
---|---|
30% | ~10 |
10% | ~100 |
3% | ~1,000 |
1% | ~10,000 |
输出的评估可以由计算机、人工或混合进行。计算机可以使用客观标准(例如,具有单一正确答案的问题)以及一些主观或模糊标准来自动评估,其中模型输出由其他模型查询来评估。OpenAI Evals是一个开源软件框架,提供创建自动化评估的工具。当存在一系列可能的输出时,基于模型的评估可能会很有用,这些输出被认为质量同样高(例如,对于答案很长的问题)。基于模型的评估可以实际评估的内容和需要人类评估的内容之间的界限是模糊的,并且随着模型变得更有能力,界限不断变化。我们鼓励进行实验,以了解基于模型的评估在多大程度上适用于您的用例。
方法:参照黄金标准答案评估模型输出
假设一个问题的正确答案应该参考一组特定的已知事实。然后,我们可以使用模型查询来计算答案中包含了多少所需事实。例如,使用以下系统消息:
角色 | Prompt |
---|---|
SYSTEM | 您将获得由三个引号分隔的文本,这应该是问题的答案。检查答案中是否直接包含以下信息:-尼尔·阿姆斯特朗是第一个在月球上行走的人。-尼尔·阿姆斯特朗第一次登上月球的日期是1969年7月21日。对于这些点中的每一个,执行以下步骤:1-重述要点。2-提供最接近这一点的答案的引文。3-考虑一下,阅读引文但不了解主题的人是否可以直接推断出要点。在下定决心之前解释一下为什么或为什么不这样做。4-如果3的答案是肯定的,则写“是”,否则写“否”。最后,统计一下有多少“是”的答案。将此计数提供为{“count”:<在此处插入计数>}。 |
以下是一个同时满足这两点的示例输入:
角色 | Prompt |
---|---|
SYSTEM | <插入上面的系统信息> |
USER | “”“尼尔·阿姆斯特朗走出登月舱,成为第一个登上月球的人,创造了历史。”“” |
以下是一个没有得到满足的示例输入:
角色 | Prompt |
---|---|
SYSTEM | <插入上面的系统信息> |
USER | “”“69年夏天,一次盛大的航行,阿波罗11号,大胆如传奇之手。阿姆斯特朗迈出了一步,历史展现了出来,“我的一小步,人类的一大步”他说。”“” |
这种基于模型的eval有很多可能的变体。考虑以下变化,它跟踪候选答案和金标准答案之间的重叠类型,并跟踪候选答案是否与金标准答案的任何部分相矛盾。
角色 | Prompt |
---|---|
SYSTEM | 使用以下步骤来响应用户输入。在继续之前充分重述每一步。即“第1步:理由…”。步骤1:逐步判断提交的答案中的信息与专家答案相比是否是:不相交、相等、子集、超集或重叠(即某些交集,但不是子集/超集)。第二步:逐步判断提交的答案是否与专家答案的任何方面相矛盾。第3步:输出一个JSON对象,其结构如下:{“type_of_doverlap”:“dissection”或“equal”或“subset”或“superset”或“overlapping”,“conflict”:true或false} |
以下是一个输入不合格答案的示例,但与专家答案并不矛盾:
角色 | Prompt |
---|---|
SYSTEM | <插入上面的系统信息> |
USER | 问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?发生在什么日期?假定UTC时间。”“”提交的答案:“”“他不是在月球上行走吗?”“”专家回答:“尼尔·阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在1969年7月21日。” |
以下是一个与专家答案直接矛盾的输入示例:
角色 | Prompt |
---|---|
SYSTEM | <插入上面的系统信息> |
USER | 问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?发生在什么日期?假定UTC时间。”“”提交的答案:“1969年7月21日,尼尔·阿姆斯特朗成为继巴兹·奥尔德林之后第二个登上月球的人。”专家回答:“尼尔·阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在1969年7月21日。” |
以下是一个带有正确答案的示例输入,它还提供了比所需更多的细节:
角色 | Prompt |
---|---|
SYSTEM | <插入上面的系统信息> |
USER | 问题:“”“尼尔·阿姆斯特朗最著名的事件是什么?发生在什么日期?假定UTC时间。”“”提交的答案:“”1969年7月21日UTC(世界协调时)大概02:56左右,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,这标志着人类历史上的一项重大成就。“”专家回答:“尼尔·阿姆斯特朗最著名的是他是第一个登上月球的人。这一历史性事件发生在1969年7月21日。” |
其他资源
要获得更多灵感,请访问OpenAI Cookbook,其中包含示例代码,还链接到第三方资源,如:
- 提示库和工具
- 提示性指南
- 视频课程
- 关于改进推理的高级提示的论文
关键词:
环球观点:【翻译】GPT最佳实践
文心一言 VS 讯飞星火 VS chatgpt (49)-- 算法导论6.2 1题
记录--Threejs-着色器实现一个水波纹
胡锡进回应网传“胡锡进商业版图”:有人无聊至极、心术不正|天天时快讯
雪糕之后,年轻人又被共享单车背刺
韩国友珍答:面部拉皮提升好看吗?
十一去哪儿玩?(10 1去哪玩)
天天最新:空蝉学园生活女警剧情怎么过
全球热点!“沉浸式”体验!外国友人“感知岱岳·品味黑桃”
每日快播:保利置业退出投资惠州胜龙房地产 投资数额8000万人民币
南方上海金ETF发起联接基金(A类:018391;C类:018392)即将发售,跟踪黄金资产价格变化
每日速看!win11动态壁纸设置教程
普通高中国家助学金申请书范文1500_普通高中国家助学金申请书范文 前沿资讯
全球滚动:测排卵的最佳时间几点到几点_测排卵的最佳时间几点
索尼互娱总裁表示《使命召唤》系列仍登陆PlayStation平台
杜特尔特发出战争警告:在菲美军基地,将让菲成为中美冲突炮灰
天天快消息!黄山屯溪区:智慧闯关 争做最亮之星
长三角铁路发送旅客超900万人次-视讯
产品经理进阶:小 IPD 开发流程 焦点精选
黄金和硬金哪个更值钱_全球快看点
快资讯:5g黄金是什么金
《死亡空间重制版》通关流程要点 全章节怎么通关?|当前热闻
惠特摩尔:我要练中距离 阿门-汤普森:我要全方位提升投篮
多只成分股涨幅超5% 这一板块狂飙! 世界要闻
中国援埃及二号卫星项目初样星交付 全球快报
谭雅玲:市场机制与结构组合恰到好处促进加息
聚焦:潜逃6年, 女毒贩在国际禁毒日前落网
招行员工,在拼多多完成业绩
焦点快报!债券注册制改革全面落地 制度凸显五大特点
环球百事通!诺和诺德:口服版司美格鲁肽可助肥胖者减重15%
“复旦毕业生用泳装照求职”引热议,校方辟谣!律师称可报警
2023年北京房山金林嘉苑共有产权住房资格审核及结果查询
世界聚焦:华荣股份(603855.SH)董事李江与李妙华拟合计减持不超2.45%股份
全球视点!2000余件精品亮相 “非”一般的甘肃你爱了吗
创维数字(000810.SZ):智能机顶盒、智能网关业务今年在国内外运营商市场的中标及份额是已显著得提升
卖楼抵债!知名巨头关闭所有门店,网友唏嘘-当前视点
她将“不可能”变成“可能” 环球百事通
多巴胺穿搭走红,有演员“拍同款”?律师提醒……
环球动态:台州开车1.5小时,浙江的童话王国,美得令人惊叹,景色不输意大利
江苏1-5月固定资产投资同比增长5.2% 居民消费价格同比上涨1.1%
公司成立新的公司原来公司合同能否还有效
招行员工,在拼多多完成业绩|世界速读
今日热门!青春梦想与时代脉搏同频共振
护航未成年人成长|市少先队校外禁毒宣传教育园地揭牌
传火侠的次元之旅_传火 全球报道
吴组词1000个(吴组词)
怎么唱好歌气息训练视频教程(怎么唱好歌)
u盘快速重启-(怎么重启u盘) 天天热消息
6月27日生意社DMF基准价为4725.00元/吨_全球今日讯
轻工行业2023年中期策略报告:成本下行助力盈利修复 关注下游需求回暖节奏-天天热资讯
前沿资讯!咒术回战227话预览图 五条悟与宿傩一进一退的巅峰最强对决
摩托罗拉 X30 开始推送基于安卓 13 的 moto MYUI 大版本升级
大晟文化06月26日涨停分析|全球观速讯
中国海军舰艇大全2019号_中国海军舰艇大全2019 今日最新
海南儋州:特色农业“接二连三”融合发展助推乡村振兴
全球快资讯:洛克王国宠物碎片怎么得2022 洛克王国宠物碎片怎么得
徐汇这家商场给你免费搭积木,还能享受便民服务
Dicky TWISTER翻译_dicky-天天观天下
硬核科技论 | 保时捷918继任者纯电化!全新Mission X这些技术值得了解
环球最新:基于EMP2 V3平台/采用全新设计 全新DS 4将于7月13日正式上市
预售价22.5万元 小鹏G6将于6月29日晚正式上市
手机字体怎么恢复成原来的样子_手机字体 环球头条
智能印章是什么意思_智能印章是什么相关介绍简介 当前速读
王卡宽带和普通宽带_什么是王卡宽带相关介绍简介-全球即时
河北隆化:“共享农场”绘就乡村振兴新画卷
预计7月1日起 复兴号将在青藏铁路正式投用_当前观察
全球观察:两市融资余额减少18.33亿元
国家市场监督管理总局:持续激发经营主体活力-环球观速讯
中国女篮在亚洲杯的第二个对手新西兰女篮 有个行走的两双王 焦点快报
“边炒股边学习,力争少交学费”!著名媒体人胡锡进:已开一个股票账户 正式进入中国股市
有的时候_对于有的时候简单介绍
环球微速讯:【新华财经调查】全面覆盖三农普惠制造业 金融支持实体经济构建立体图景
中金公司:成本下行、供需改善推动光伏玻璃盈利修复
看点:羽毛球技术图解_关于羽毛球技术图解介绍
书山有路勤为径学海无涯苦作舟是谁写的_书山有路勤为径学海无涯苦作舟作者是谁
雷朋太阳镜官方旗舰店_雷朋 世界快播
再降40元!魔声人体工学耳机低至399元 世界播报
全球视讯!僚机是什么意思(僚机是什么意思网络用语)
【环球快播报】昌乐县检验检测中心志愿服务队(关于昌乐县检验检测中心志愿服务队的简介)
环球观热点:重庆力争到2025年森林覆盖率稳定在55%以上
曾扩情(关于曾扩情介绍)_世界播资讯
山东有哪些大学是二本大学(山东有哪些大学是二本)
今日热讯:努比亚首款AI裸眼3D平板!nubia Pad 3D开启预售:8+128GB卖10999元
面积稳、长势好新季花生产量乐观-世界快看
想念食品已回复审核问询函:“农业产业化国家重点龙头企业”,专注于挂面、面粉产品的研发、生产和销售
上海多项医保惠民政策2023年7月1日起实施
世界今热点:辉煌不再,港股IPO上半年跌出全球前三
遵义市公安局走访慰问离退休干部
只签了三方协议毁约多少钱|世界最资讯
智通全球财经日志|6月27日-当前热闻
焦点简讯:近期天象 | 事件频出、意外爆发,这颗天王星却给了我们觉醒的力量(附建议)
今日热搜:国家级经开区集聚外资企业超3万家
苹果iPhone 15 Pro Max手机保护壳曝光 静音键首次被取代
味知香: 我们会将您的建议转达至公司管理层,并针对合理性建议不断改进完善-要闻速递
6月26日北向资金最新动向(附十大成交股)
《南洋女儿情》南兰结局是什么 南兰最后结局死了吗
康抗生物完成超1亿元Pre-A轮融资,为复宏汉霖姜伟东的二次创业-环球通讯
27日唐山迁安部分普方坯资源涨50至3520含税出厂
世界滚动:唐三喜欢小舞吗?谁又知道值得二字的重量
“抠门儿”工长 每日速递