ReAct: 大语言模型中推理和行动协同工作

AI知识6个月前更新 playboywhc
30 0

原文:https://arxiv.org/pdf/2210.03629.pdf

 

摘要

 

虽然大型语言模型(llm)在语言理解和交互式决策的任务中表现出令人印象深刻的性能,但它们的推理能力(如思维链提示)和行动能力(如行动计划生成)主要是作为单独的主题进行研究。本文探索了使用llm以交错的方式生成推理轨迹和特定任务的行动,允许两者之间产生更大的协同作用:推理轨迹帮助模型归纳、跟踪和更新行动计划,以及处理异常,而行动允许它与外部来源(如知识库或环境)交互并收集额外的信息。将所提出方法ReAct应用于一组不同的语言和决策任务,并在最先进的基线上证明了其有效性,此外还提高了人类的可解释性和可信性。具体而言,在问题回答(HotpotQA)和事实验证(Fever)中,ReAct克服了思维链推理中普遍存在的幻觉和错误传播问题通过与简单的维基百科API交互,并生成类似人类的任务解决轨迹,这些轨迹比没有推理轨迹的基线更容易解释。此外,在两个交互式决策基准(ALFWorld和WebShop)上,ReAct比模仿和强化学习方法的绝对成功率分别为34%和10%,而只需要一个或两个上下文示例。

 

 

1 引言

 

人类智能的一个独特特性是能够无缝地将面向任务的行动与言语推理结合起来,这被认为在人类认知中扮演着重要角色,有助于自我调节或策略制定以及维持工作记忆。以在厨房里烹饪一道菜为例,在两个具体动作之间,我们可能会用语言来推理以跟踪进度(“现在所有东西都切好了,我应该把水锅加热”),处理异常或根据情况调整计划(“我没有盐,那么让我用酱油和胡椒代替”),以及意识到何时需要外部信息(“我该如何准备面团?让我上网搜索一下”)。我们也可能采取行动(打开食谱书阅读食谱,打开冰箱,检查食材)来支持推理和回答问题(“我现在能做什么菜?”)。这种“行动”与“推理”之间的紧密协同作用,使人类能够快速学习新任务,并在之前未遇到的环境或面对信息不确定性时,进行稳健的决策或推理。

 

最近的成果已经暗示了将言语推理与自主系统的交互式决策制定结合起来的可能性。一方面,适当引导的大型语言模型(LLMs)已经展现出在算术、常识和符号推理任务中进行几步推理的能力。然而,这种“思维链”推理是一个静态的黑箱,模型使用其内部表示来生成思考,并且不基于外部世界,这限制了其反应性推理或更新知识的能力。这可能导致事实幻觉和推理过程中的错误传播(图1(1b))。另一方面,最近的工作探索了在交互式环境中使用预训练语言模型进行规划和行动,重点是通过语言先验来预测行动。这些方法通常将多模态观察转换为文本,使用语言模型生成特定领域的行动或计划,然后使用控制器来选择或执行它们。然而,它们并不使用语言模型来抽象地推理高层次目标或维持工作记忆以支持行动,除了Huang et al. (2022b)进行了有限形式的言语推理,以重申当前状态的空间事实。除了这种简单的具身任务与几个积木互动之外,还没有研究如何将推理和行动以协同的方式结合起来解决一般任务,以及这种结合相比单独推理或行动是否能够带来系统性的好处。

 

ReAct: 大语言模型中推理和行动协同工作

图 1:(1) 比较了4种提示方法,(a) 标准提示,(b) 思维链(CoT,仅推理),(c) 仅行动,以及 (d) ReAct(推理+行动),解决一个HotpotQA(Yang等人,2018年)问题。(2) 比较了 (a) 仅行动和 (b) ReAct提示方法解决一个AlfWorld(Shridhar等人,2020b)游戏。在这两个领域中,我们在提示中省略了上下文示例,仅展示了由模型(行动,思考)和环境(观察)生成的问题解决轨迹。

 

本文提出ReAct,一种将推理和行动与语言模型相结合的通用范式,以解决各种语言推理和决策任务(图1)。ReAct提示llm以交叉的方式生成与任务相关的口头推理痕迹和行动,这允许模型执行动态推理以创建、维护和调整行动的高级计划(理由行动),同时与外部环境(例如:维基百科)交互,将额外的信息纳入推理(行动推理)。

 

本文在四个不同的基准上对ReAct和最先进的基线进行了实证评估:问答、事实验证、文本游戏和网页导航。对于HotPotQA和Fever,通过访问模型可以交互的维基百科API, ReAct优于普通的动作生成模型,同时与思维链推理(CoT) 竞争。总的来说,最好的方法是ReAct和CoT的结合,这允许在推理过程中使用内部知识和外部获得的信息。在ALFWorld和WebShop上,两次甚至一次ReAct提示能够胜过用103 ∼ 105任务实例训练的模仿或强化学习方法,成功率分别绝对提高34%和10%。通过显示出比只采取行动的受控基线的一致优势,证明了稀疏的、通用的推理在决策中的重要性。除了普遍适用性和性能提升外,推理和行动的结合还有助于模型的可解释性、可信性和跨所有领域的可诊断性,因为人类可以很容易地区分来自模型内部知识的信息与外部环境的区别,以及检查推理轨迹以了解模型行动的决策基础。

 

总而言之,我们的主要贡献如下:

(1)提出ReAct,一种新的基于提示的范式,在语言模型中协同推理和行动,以解决一般任务;

(2)在不同的基准上进行了广泛的实验,以展示ReAct在少样本学习设置中比之前单独进行推理或动作生成的方法的优势;

(3)提出系统消融和分析,以了解行动在推理任务中的重要性,以及推理在交互任务中的重要性;

(4)分析了ReAct在提示设置下的局限性(即:对推理和行为的支持有限),并进行了初步的微调实验,显示了ReAct通过额外的训练数据进行改进的潜力。扩展ReAct以训练和操作更多的任务,并将其与强化学习等互补范式相结合,可以进一步释放大型语言模型的潜力。

 

 

2 REACT:协同推理+行动

 

考虑一个与环境交互以解决任务的智能体的一般设置。在时间步骤t上,代理从环境中接收到一个观察结果ot ∈ O,并根据某些策略π(at|ct)采取一个操作at ∈ A,其中ct = (o1,a1,··· ,ot−1,at−1,ot)是代理的上下文。当映射ct →7 at是高度隐式的并且需要大量计算时,学习策略是具有挑战性的。例如,图1 (1c)所示的代理无法生成正确的最终动作(Act 4)来完成QA任务,因为它需要对轨迹上下文(问题,Act 1-3, Obs 1-3)进行复杂的推理。类似地,如图1 (2a)所示的代理无法从上下文中理解水槽1不包含胡椒瓶1,因此不断产生幻觉行为。

 

ReAct的想法很简单:我们将智能体的动作空间扩大到Aˆ = A ∪ L,其中L是语言空间。语言空间中的一个动作aˆt ∈ L,我们将其称为思想或推理痕迹,不会影响外部环境,因此不会导致观察反馈。相反,一个思想aˆt旨在通过对当前上下文的推理编写有用的信息ct,并更新上下文ct+1 = (ct,aˆt)以支持未来的推理或行动。如图1所示,可以有各种类型的有用的想法,例如:分解任务目标和创建行动计划(2b, Act 1;1d,思想1),注入与任务解决相关的常识知识(2b,思想1),从观察中提取重要部分(1d,思想2,4),跟踪进展和运输行动计划(2b,思想8),处理异常和调整行动计划(1d,思想3),等等。

 

然而,由于语言空间L是无限的,在这个增强的行动空间中学习是困难的,需要很强的语言先验。在本文中,我们主要关注在这个设置中,一个冻结的大型语言模型PaLM-540B (Chowdhery et al., 2022)[1]用少样本的上下文示例来提示,以生成特定领域的动作和自由形式的语言思想,用于任务解决(图1 (1d),(2b))。每个上下文中的示例都是用于解决任务实例的人类行动、思想和环境观察的轨迹(参见附录C)。对于推理具有首要重要性的任务(图1(1)),我们交替生成思想和行动,以便任务解决轨迹由多个思想-行动-观察步骤组成。相比之下,对于可能涉及大量行动的决策任务(图1(2)),思想只需要稀疏地出现在轨迹的最相关位置,因此我们让语言模型为自己决定思想和行动的异步发生。

 

由于决策和推理能力集成到一个大型语言模型中,ReAct具有以下几个独特的特点:

A)直观且易于设计:设计ReAct提示很简单,因为人类注释者只需在他们的行动之上用语言表达他们的想法。本文没有使用特定的格式选择、思考设计或示例选择。我们在第3节和第4节详细描述了每项任务的提示设计。

B)通用且灵活:由于灵活的思考空间和思考-行动发生格式,ReAct适用于具有不同行动空间和推理需求的多样化任务,包括但不限于QA、事实验证、文本游戏和网页导航。

C)性能强大且稳健:ReAct在学习仅从一个到六个上下文示例时展现出强大的泛化能力,始终在不同领域中一致地超越只有推理或行动的基线。我们还在第3节展示了启用微调时的额外好处,在第4节展示了ReAct性能对提示选择的稳健性。

D)与人类对齐且可控:ReAct承诺一个可解释的顺序决策制定和推理过程,人类可以轻松检查推理和事实正确性。此外,正如第4节中的图5所示,人类还可以通过思考编辑来控制或纠正智能体行为。

 

 

3 知识密集型推理任务

 

从知识密集型推理任务开始,如多跳问答和事实验证。如图1 (1d)所示,通过与维基百科API交互,ReAct能够检索信息以支持推理,同时也使用推理来确定下一步要检索的内容,展示了推理和行动的协同作用。

 

3.1 设置

领域(Domains) 我们考虑两个数据集,它们对知识检索和推理提出了挑战:(1) HotPotQA ,这是一个需要在两篇或更多维基百科文章上进行推理的多跳问题回答基准;(2) FEVER,这是一个事实验证基准,每个声明都被标注为SUPPORTS(支持)、REFUTES(反驳)或NOT ENOUGH INFO(信息不足),这取决于是否存在维基百科文章来验证该声明。在这项工作中,我们在两个任务中都采用仅问题的设置,模型只接收问题/声明作为输入,而无法访问支持段落,并且必须依赖它们的内部知识或通过与外部环境交互来检索知识以支持推理。

行动空间(Action Space) 我们设计了一个简单的维基百科Web API,包含三种类型的操作来支持交互式信息检索:

(1) 搜索 [实体],如果存在,则从对应的实体 wiki页面返回前5个句子,否则从维基百科搜索引擎建议前5个相似的实体,

(2) 查找 [字符串],它将返回包含字符串的页面中的下一句话,模拟浏览器上的Ctrl+F功能。

(3) 完成 [答案],用答案完成当前任务。该动作空间大多只能根据准确的段落名称检索段落的一小部分,比最先进的词汇或神经检索器弱得多。其目的是模拟人类如何与维基百科互动,并迫使模型通过语言的显式推理进行检索。

 

3.2 方法

ReAct Prompting 应用于于HotpotQA和Fever,我们从训练集中随机选择了6个和3个案例,并手动编写ReAct -格式的轨迹,以用作提示中的少样本样本。类似于图1 (d),每个轨迹由多个思想-行动-观察( thought-action-observation)步骤组成(即 密集思维),其中自由形式的思想用于各种目的。具体来说,我们使用思想的组合来分解问题(“我需要搜索x,找到y,然后找到z”),从维基百科观察中提取信息(“x始于1844年”,“该段落没有告诉x”),执行常识(“x不是y,所以z必须是……”)或算术推理(“1844 < 1989”),指导搜索重构(““也许我可以搜索/查找x”),并合成最终答案(““……所以答案是x”)。更多细节请参见附录C。

 

Baselines 我们系统地删除ReAct轨迹以构建多个基线的提示(格式如图1 (1a-1c)):

(a)标准提示/Standard prompting(Standard),删除ReAct轨迹中的所有想法、行动、观察。

(b)思维链提示/Chain-of-thought prompting(CoT) ,它删除了行动和观察,只作为推理的基线。通过在推理过程中采样21 CoT解码温度为0.7的轨迹,并采用多数答案,建立了一个自一致的基线(CoT-SC) ,发现这始终比CoT提高性能。

(c)仅行动提示/Acting-only prompt(Act),它删除了ReAct轨迹中的想法,大致类似于WebGPT如何与互联网交互以回答问题,尽管它在不同的任务和行动空间上操作,并使用模仿和强化学习而不是提示。

 

结合内部与外部知识/Combining Internal and External Knowledge 我们将在3.3节中详细介绍,我们观察到ReAct演示的问题解决过程更符合事实和根据,而CoT在制定推理结构方面更准确,但很容易产生幻觉。因此,我们建议合并ReAct和CoT-SC,并让模型根据以下启发式方法决定何时切换到其他方法:

a) ReActCoT-SC:当ReAct在给定的步骤内无法返回答案时,退回到CoT-SC。我们为HotpotQA和FEVER分别设置了7和5个步骤,因为我们发现更多步骤不会提高ReAct性能。

b) CoT-SCReAct:当nCoT-SC样本中的大多数答案出现的次数少于n/2次时(即:内部知识可能无法自信地支持任务),请退回到ReAct。

 

微调/Finetuning 由于大规模手动标注推理轨迹和动作的挑战,本文考虑一种类似于Zelikman et al. (2022)的自助方法,使用ReAct(也用于其他基线)生成的3000个具有正确答案的轨迹来微调较小的语言模型(PaLM-8/62B),以解码以输入问题/声明为条件的轨迹(所有想法、行动、观察)。更多细节见附录B.1。

 

3.3 结果与观察

ReAct整体超越Act/ReAct outperforms Act consistently 表1显示了使用PaLM-540B作为基础模型并使用不同提示方法的HotpotQA和Fever结果。我们注意到ReAct在两个任务上都优于Act,证明了推理指导行动的价值,特别是在合成最终答案方面,如图1 (1c-d)所示。微调结果3也证实了推理痕迹对更明智的行动的好处。

 

ReAct: 大语言模型中推理和行动协同工作

表1:PaLM-540B在HotpotQA和Fever上的提示结果。

 

ReAct vs. CoT 另一方面,ReAct在Fever上优于CoT(60.9比 56.3),在HotpotQA上略落后于CoT(27.4比 29.4)。对于支持/反驳的狂热声明可能只有微小的差别(参见附录D.1),因此采取行动获取准确和最新的知识至关重要。为了更好地理解HotpotQA上ReAct和CoT之间的行为差异,我们分别从ReAct和CoT(共200个示例)中随机抽样50个答案正确和错误的轨迹(EM判断),并在表2中手动标记它们的成功和失败模式。以下是一些关键的观察结果。

 

ReAct: 大语言模型中推理和行动协同工作

表 2:ReAct 和 CoT 在 HotpotQA 上的成功和失败模式类型,以及它们在人类研究的随机选择的例子中的百分比。

 

A) 幻觉对于CoT来说是一个严重的问题,在成功模式下导致其误报率远高于ReAct(14%对比6%),并且构成了其主要的失败模式(56%)。相比之下,由于能够接入外部知识库,ReAct的问题解决轨迹更加贴近实际、以事实为驱动,并且更加可信。

B) 虽然交错推理、行动和观察步骤提高了ReAct的实际性和可信度,但这种结构性约束也降低了它在制定推理步骤时的灵活性,导致其推理错误率高于CoT。我们注意到ReAct有一个特定的频繁错误模式,即模型重复生成之前的想法和行动,我们将其归类为“推理错误”的一部分,因为模型未能推理出适当的下一个行动并跳出循环。

C) 对于ReAct来说,通过搜索成功检索到信息性知识至关重要。非信息性搜索占错误案例的23%,使模型推理脱轨,并使其难以恢复和重新构思想法。这可能是事实性和灵活性之间预期的权衡,这也激发了我们提出结合两种方法的策略。

我们在附录E.1中为每种成功和失败模式提供了示例。我们还发现一些HotpotQA问题可能包含过时的答案标签,见图4示例。

 

ReAct + CoT-SC在提示LLMs方面表现最好。如表1所示,HotpotQA和Fever上最好的提示方法分别是ReAct → CoT-SC和CoT-SC → ReAct。此外,图2展示了不同方法在使用不同数量CoT-SC样本时的表现。虽然两种ReAct + CoT-SC方法在各自的任务中有优势,但他们都显著且一致地优于CoT-SC,在不同数量的样本中,只使用3-5个样本就能达到CoT-SC的表现,这个结果表明了适当结合模型内部知识和外部知识对于推理任务的价值。

 

ReAct: 大语言模型中推理和行动协同工作

图 2:根据使用的CoT-SC样本数量展示的PaLM-540B提示结果。

 

ReAct在微调方面表现最优。图3显示了四种方法(Standard, CoT, Act, ReAct)在HotpotQA上的提示/微调的扩展效应。在PaLM-8/62B中,由于从情景中学习推理和行动的难度,提示ReAct的表现是四种方法中最差的。然而,当仅用3,000个例子微调时,ReAct成为四种方法中最好的,其中PaLM-8B微调ReAct的表现优于所有PaLM-62B的提示方法,而PaLM-62B微调ReAct的表现优于所有540B的提示方法。相比之下,微调Standard或CoT的表现显著地差于微调ReAct或Act,在PaLM8/62B中,前者主要教模型记忆(可能是虚构的)知识事实,后者教模型如何(推理和)行动从维基百科获取信息,这是一项更具普遍性的知识推理技能。由于所有的提示方法都还显著地低于领域特定的最先进方法(表1),我们相信,使用更多人类写的数据进行微调可能是释放ReAct能力的更好方式。

 

ReAct: 大语言模型中推理和行动协同工作

图3:使用ReAct(我们的方法)和基线对HotPotQA进行提示和微调的扩展结果。

 

 

4 决策任务

 

我们还对ReAct在两个基于语言的交互式决策任务上进行了测试,即ALFWorld和WebShop,这两个任务都具有复杂的环境,需要智能体在长时间跨度内采取行动,且奖励稀疏,这就需要智能体进行有效推理以采取行动和探索。

ALFWorld ALFWorld(图1(2))是一个合成的基于文本的游戏,旨在与体现性的ALFRED基准保持一致。它包括6种类型的任务,其中智能体需要通过文本行动(例如,前往咖啡桌1,拿起文件2,使用台灯1)导航和与模拟家庭互动来实现高级目标(例如,在台灯下检查文件)。一个任务实例可以有超过50个位置,并且需要专家策略超过50步才能解决,这对智能体提出了挑战,要求其规划和跟踪子目标,以及系统地探索(例如,逐个检查所有桌子寻找台灯)。特别是,ALFWorld内置的一个挑战是需要确定常见家用物品的可能位置(例如,台灯很可能在桌子上、架子上或梳妆台上),这使得这个环境非常适合LLM利用其预训练的常识知识。为了提示ReAct,我们随机注释了每种任务类型的训练集中的三条轨迹,每条轨迹包括稀疏的想法,这些想法(1)分解目标,(2)跟踪子目标完成情况,(3)确定下一个子目标,以及(4)通过常识推理找到物体的位置以及如何处理它。我们在附录C.4中展示了用于ALFWorld的提示。遵循Shridhar等人的方法,我们在特定任务设置中评估了134个未见过的评估游戏。为了稳健性,我们通过我们注释的3条轨迹中的每两条轨迹的每种排列,为每种任务类型构建了6个提示。Act提示是使用相同的轨迹构建的,但没有想法——因为任务实例是从训练集中随机选择的,所以既不偏向ReAct也不偏向Act,提供了一个公平和受控的比较,以测试稀疏想法的重要性。作为基线,我们使用BUTLER,这是一个在每种任务类型的105个专家轨迹上训练的模仿学习智能体。

 

WebShop ReAct是否也能与嘈杂的实际语言环境进行交互,用于实际应用?我们研究了WebShop,这是一个最近提出的在线购物网站环境,拥有118万真实世界产品和12k人类指令。与ALFWorld不同,Webshop包含大量结构化和非结构化的文本(例如,从亚马逊抓取的产品标题、描述和选项),并要求智能体根据用户指令(例如,“我正在寻找一个带抽屉的床头柜。它应该有镍色的外观,价格低于140美元”)通过网络交互(例如,搜索“床头柜抽屉”,选择“颜色:现代镍白色”或“返回搜索”等按钮)购买产品。这个任务通过平均得分(所选产品覆盖所需属性的百分比,跨所有剧集平均)和成功率(所选产品满足所有要求的剧集百分比)在500个测试指令上进行评估。我们制定了Act提示,包括搜索、选择产品、选择选项和购买的行动,而ReAct提示则额外推理以确定探索什么、何时购买,以及哪些产品选项与指令相关。参见表6的示例提示,以及附录中的表10的模型预测。我们将其与一个通过1012个人注释轨迹训练的模仿学习方法,以及一个额外通过10587个训练指令训练的模仿+强化学习方法(IL + RL)进行比较。

 

结果 ReAct在ALFWorld(表3)和Webshop(表4)两个平台上都超越了Act。在ALFWorld上,表现最优秀的ReAct实验平均成功率达到71%,大大超出最好的Act(45%)和BUTLER(37%)实验。实际上,表现最差的ReAct实验(48%)也超过了这两种方法的最佳实验。此外,ReAct相对Act的优势在六次受控试验中持续存在,相对性能提升范围从33%到90%,平均为62%。从定性角度来看,我们发现Act在完全没有思考的情况下,无法正确将目标分解成更小的子目标,或者失去了对环境当前状态的跟踪。可以在附录D.2.1和附录D.2.2中找到比较ReAct和Act的例子轨迹。

 

ReAct: 大语言模型中推理和行动协同工作

表3:AlfWorld任务特定成功率(%)。 BUTLER和BUTLERg的结果来自Shridhar等人的2020b表4。所有方法都使用贪婪解码,除了BUTLER使用波束搜索。

 

ReAct: 大语言模型中推理和行动协同工作

表4:在Webshop上的得分和成功率(SR)。 IL/IL+RL的数据取自Yao等人(2022年)。

 

在Webshop上,一次性的Act提示已经能与IL和IL+RL方法并驾齐驱。通过额外的稀疏推理,ReAct实现了明显更好的性能,绝对值提升了10%,超过了之前的最佳成功率。通过检查示例,我们发现ReAct更可能通过推理来确定与指令相关的产品和选项,以弥补嘈杂观察和行动之间的差距(例如,“对于‘节省空间的生活室脚凳凳子’,该商品有‘39x18x18inch’和‘蓝色’的选项,看起来很值得购买。”)。然而,现有方法的性能仍远不及专家人类(表4),他们进行的产品探索和查询重新构建的数量明显更多,对于基于提示的方法来说,这仍然是一个挑战。

 

关于内部推理与外部反馈的价值 据我们所知,ReAct是第一个将LLM应用于交互式环境中的闭环系统中,结合推理和行动的演示。也许最接近的先前工作是内部独白(IM),来自Huang等人(2022b),其中体现性代理的行动是由同名的“内部独白”所驱动的。然而,IM的“内部独白”仅限于对环境状态的观察以及代理需要完成的任务,以满足目标。相比之下,ReAct中的决策推理追踪是灵活和稀疏的,允许为不同任务诱导出多样化的推理类型(见第2节)。

为了展示ReAct和IM之间的区别,并强调内部推理与简单对外部反馈的反应的重要性,我们使用由IM风格的密集外部反馈组成的思维模式进行了消融实验。如表3所示,ReAct大大优于IM风格的提示(ReAct-IM)(71%对比53%的整体成功率),在六项任务中的五项上都有一致的优势。从质量上看,我们观察到ReAct-IM在确定子目标何时完成,或者下一个子目标应该是什么时经常犯错误,因为缺乏高层次的目标分解。此外,许多ReAct-IM轨迹在确定ALFWorld环境中物品可能的位置时也遇到了困难,因为缺乏常识推理。
这两种不足都可以在ReAct范式中得到解决。关于ReAct-IM的更多细节在附录B.2中。ReAct-IM的示例提示可以在附录C.4中找到,示例轨迹在附录D.2.3中。

 

 

 5 相关工作

 

推理的语言模型 也许最为人所知的使用大型语言模型(LLMs)进行推理的工作是Chain-of-Thought (CoT),它揭示了LLMs制定自己的“思考过程”来解决问题的能力。此后已经进行了几项后续工作,包括用于解决复杂任务的最少至最多提示(least-to-most prompting)、零样本CoT(zero-shotCoT)以及自我一致性推理(self-consistency)。最近,(Madaan & Yazdanbakhsh,2022)系统地研究了CoT的构建和结构,并观察到符号、模式和文本的存在对CoT的有效性至关重要。
其他工作也已经扩展到了更复杂的推理架构,不仅仅是简单的提示。例如,选择-推理(Selection-Inference)将推理过程分为“选择”和“推理”两个步骤。STaR通过在模型自身生成的正确推理基础上对模型进行微调来引导推理过程。忠实推理(Faithful reasoning)将多步骤推理分解为三个步骤,每个步骤由一个专门的LM分别执行。类似的方法,如Scratchpad,通过在中间计算步骤上对LM进行微调,也展示了在多步骤计算问题上的改进。
与这些方法相比,ReAct执行的不仅仅是孤立的、固定的推理,并将模型动作及其对应的观察结果整合到一个连贯的输入流中,以便模型更准确地进行推理,并解决超越推理的任务(例如交互式决策制定)。

 

将语言模型用于决策制定。 强大的LLM的能力使它们能够执行超越语言生成的任务,利用LLM作为决策制定的策略模型,特别是在交互环境中,这越来越受欢迎。WebGPT使用LM与网页浏览器进行交互,导航网页,并从ELI5中推断出对复杂问题的答案。相比之下,WebGPT并未明确建模思考和推理过程,而是依赖于昂贵的人类反馈进行强化学习。在对话建模中,像BlenderBot和Sparrow以及面向任务的对话系统如SimpleTOD也训练LM来做出关于API调用的决策。与ReAct不同,它们没有明确考虑推理过程,并依赖于昂贵的数据集和人类反馈集合进行政策学习。相反,ReAct以一种更便宜的方式学习政策,因为决策制定过程只需要语言描述推理过程。

 

语言模型(LLMs)也越来越多地被应用于交互式和具身环境中的规划和决策。在这方面,与ReAct最为相关的可能是SayCan和Inner Monologue(内心独白),它们使用LLMs进行机器人的动作规划和决策。在SayCan中,LLMs被提示直接预测机器人可能采取的行动,然后由基于视觉环境的可供性模型重新排序以进行最终预测。Inner Monologue通过添加著名的“内心独白”进一步改进,该独白被实现为从环境中注入的反馈。据我们所知,Inner Monologue是第一个展示这种闭环系统的工作,ReAct在此基础上进行构建。然而,我们认为Inner Monologue并不真正包含内心思维——这在第4节中有详细阐述。我们还注意到,在交互式决策过程中,将语言作为语义丰富的输入已被证明在其他设置下是成功的。越来越明显的是,借助LLMs,语言作为一种基本的认知机制将在交互和决策中发挥关键作用。此外,LLMs的进步也启发了像Reed等人这样多功能和通用代理的发展。

 

 

6 结论

 

我们提出了ReAct-一种简单而有效的方法,用于在大型语言模型中协调推理和行动。通过在多跳问题答案、事实查证和交互式决策任务上的一系列多样化的实验,我们展示了ReAct能够带来更优秀的性能并具有可解析的决策路径。尽管我们的方法很简单,但是大型行动空间的复杂任务需要更多的示例才能学习得好,这很容易超出在上下文学习中的输入长度限制。我们在HotpotQA上尝试了微调的方法,初步结果令人鼓舞,但是在更多高质量人类注解中学习将会是进一步提高性能的期望。让ReAct在多任务训练中扩大规模,和像强化学习这样的互补范式相结合,可能会产生更强大的代理,为更多的应用解锁LLMs的潜力。

 

 

A 附加结论

 

A.1 GPT-3 实验

ReAct: 大语言模型中推理和行动协同工作

表5:使用PaLM-540B与GPT-3(text-davinci-002,贪婪解码)进行ReAct提示的结果对比。 在HotpotQA上,我们随机抽取了500个验证问题的子集。在ALFWorld中,我们使用了所有134个未见过的验证任务实例,并使用了根据PaLM-540B选择的最佳提示集。

我们进行了额外的 GPT-3(Brown 等人,2020)实验,以确认ReAct 提示性能在不同大型语言模型中的普遍性。如表5所示,GPT-3(text-davinci-002,greedy decoding)在 HotpotQA 和 ALFWorld 上始终优于 PaLM-540B,可能是因为它经过了遵循人类指令的微调。这表明ReAct 提示在不同任务上对不同的大型语言模型都是有效的。这些实验的代码可以在 https://react-lm.github.io/ 上找到。

 

A.2 ReAct 在 HotpotQA 上获取最新知识

ReAct: 大语言模型中推理和行动协同工作

图 4:另一个例子的火锅问答问题,其中原始标签已经过时。只有ReAct能够通过实际的网络互动加上推理获得最新的答案。

 

A.3 在 ALFWorld 上进行人类参与循环的行为校正

我们还探索了与 ReAct 的人类参与循环交互,允许人类检查和编辑 ReAct 的推理痕迹。图5显示,仅仅通过移除 Act 17 中的一句幻觉句子并在 Act 23 中添加一些提示,就可以使 ReAct 显著改变其行为,与这些人类思维编辑对齐,并成功完成任务。从人类的角度来看,解决这样的任务变得容易得多,从输入数十个动作到仅编辑几个想法,这使得新型的人机协作成为可能。我们注意到,对于 Act 和以前的 RL 方法来说,这样的策略编辑是困难的,因为人类无法改变模型参数,而且改变几个动作可能不会编辑模型的其余行为。这种范式也不仅仅是人类对话来更新目标或子目标,如 Huang 等人(2022b)所述——虽然编辑 ReAct 想法可以做到这些,但它还可以修改模型的内部信念、推理风格或灵活的思想空间支持的任何内容,以更好地解决任务。我们相信这是人类对齐的一个令人兴奋的方向,并留下更系统的研究作为未来工作。

 

ReAct: 大语言模型中推理和行动协同工作

图 5:在AlfWorld中使用ReAct进行人机交互行为校正的示例。 (a) 由于幻觉思维(行为17),ReAct轨迹失败。 (b) 通过简单地由人类编辑两个思维(行为17, 23),ReAct轨迹产生了理想的推理轨迹和行动,并取得了成功。

 

 

B 实验细节

 

B.1 热点问答微调细节

对于所有的微调,我们使用64的批处理大小。在PaLM-8B上,我们对ReAct和Act方法进行4,000步的微调,对标准和CoT方法进行2,000步的微调。在PaLM-62B上,我们对ReAct和Act方法进行4,000步的微调,对标准和CoT方法进行1,000步的微调。我们发现ReAct和Act方法通常从更多的训练步骤(以及更多的训练数据)中受益,而标准和CoT方法在微调后很快就开始退化。

 

B.2 ALFWORLD即时风格细节

对于即时风格的消融实验,与ReAct中使用的相同的专家轨迹被重新注释,这些轨迹内部包含了密集的外部反馈思维,这些反馈限制了ReAct-IM仅考虑(1)分解当前目标和(2)需要完成的当前子目标。具体来说,ReAct-IM缺乏(1)确定子目标何时完成的思考(2)确定下一个子目标应该是什么的思考(3)诱导LLM参考其内部预训练知识以识别环境中物品可能的位置的思考。

 

 

C PROMPTS

 

C.1 热点问答

热点问答提示

Original
QuestionAnswer
What’s the elevation range for the area that the eastern sector of the Colorado orogeny extends into?1,800 to 7,000 ft
Musician and satirist Allie Goertz wrote a song about “The Simpsons” character Milhouse. Who did Matt Groening name after Nixon?Richard Nixon
Which documentary is about Finnish rock groups, Adam Clayton Powell, or The Saimaa Gesture?The Saimaa Gesture
What profession do Nicholas Ray and Elia Kazan have in common?Director, screenwriter, actor
Which magazine was started first, Arthur’s Magazine or First for Women?Arthur’s Magazine
Are Pavel Urysohn and Leonid Levin known for the same type of work?Yes

 

Original
问题答案
科罗拉多造山运动东段延伸区域的海拔范围是多少?1,800至7,000英尺
音乐家和讽刺作家Allie Goertz为”辛普森一家”中的角色Milhouse写了一首歌。Matt Groening是根据尼克松的哪个人命名的?理查德·尼克松
关于芬兰摇滚乐队、亚当·克莱顿·鲍威尔或萨伊马行动的纪录片是哪一部?萨伊马行动
尼古拉斯·雷和艾利亚·卡赞有什么共同的职业?导演、编剧、演员
哪本杂志创办更早,Arthur’s Magazine还是First for Women?Arthur’s Magazine
帕维尔·乌里松和列昂尼德·列文是否以同一类型的工作而闻名?

 

Act
QuestionActionObservation
What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into?Search[Colorado orogeny]The Colorado orogeny was an episode of mountain building (an orogeny) in Colorado and surrounding areas.
Lookup[eastern sector](Result 1 / i) The eastern sector extends into the High Plains and is called the Central Plains orogeny.
Search[High Plains]High Plains refers to one of two distinct land regions:
Search[High Plains (United States)]The High Plains are a subregion of the Great Plains. From east to west, the High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130 m).[3]
Finish[1,800 to 7,000 ft]
Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who?Search[Milhouse]Milhouse Mussolini Van Houten is a recurring character in the Fox animated television series The simpsons voiced by Pamela Hayden and created by Matt Groening.
Lookup[named after](Result 1 / l) Milhouse was named after U.S. president Richard Nixon, whose middle name was Milhous.
Finish[Richard Nixon]
Which documentary is about Finnish rock groups, Adam clayton Powell or The Saimaa Gesture?Search[Adam clayton Powell]Could not find [Adam clayton Powell]. Similar: [‘Adam Clayton Powel III’, ‘Seventh Avenue (Manhattan)’, ‘Adam clayton Powell Jr. State office Building’, ‘Isabel Washington Powell’, ‘Adam Powell’, ‘Adam Clayton Powell (film)”, “Giancarlo Esposito”].
Search[Adam clayton Powell (film)]Adam clayton Powell is a 1989 American documentary film directed by Richard Kilberg. The film is about the rise and fall of influential African-American politician Adam clayton Powell Jr.[3][4] It was later aired as part of the PBs series The American Experience.
Finish[The Saimaa Gesture]
What profession does Nicholas Ray and Elia Kazan have in common?Search[Nicholas Ray]Nicholas Ray (born Raymond Nicholas Kienzle Jr., ) August 7,1911 -June16, 1979) was an American film director, screenwriter, and actor best known for the 1955 film Rebel Without a Cause.
Search[Elia Kazan]Elia Kazan was an American film and theatre director, producer, screenwriter and actor.
 Finish[director, screenwriter, actor]
Which magazine was started first Arthur’s Magazine or First for Women?Search[Arthur’s Magazine]Arthur’s Magazine (1844-1846) was an American literary periodical published in Philadelphia in the 19th century.
Search[First for Women]First for Women is a woman’s magazine published by Bauer Media Group in the USA.[1] The magazine was started in 1989.
Finish[Arthur’s Magazine]
Were Pavel Urysohn and Leonid Levin known for the same type of work?Search[Pavel Urysohn]Pavel Samuilovich Urysohn (February 3, 1898 – August 17, 1924) was a Soviet mathematician who is best known for his contributions in dimension theory.
Search[Leonid Levin]Leonid Anatolievich Levin is a Soviet-American mathematician and computer scientist.
Finish[yes]

 

Act
问题动作观察
科罗拉多造山运动东段延伸到的地区的海拔范围是多少?搜索[科罗拉多造山运动]科罗拉多造山运动是科罗拉多及其周边地区发生的一次造山运动(造山运动)。
查找[东段](结果 1 / i) 东段延伸到高平原,并被称为中央平原造山运动。
搜索[高平原]高平原指的是两个不同的地区之一:
搜索[高平原 (美国)]高平原是大平原的一个子区域。从东到西,高平原的海拔从大约1,800英尺(550米)上升到7,000英尺(2,130米)。[3]
完成[1,800至7,000英尺]
音乐家和讽刺家Allie Goertz写了一首关于《辛普森一家》中的角色Milhouse的歌曲,Matt Groening是根据谁的名字来命名这个角色的?搜索[Milhouse]Milhouse Mussolini Van Houten是福克斯动画电视剧《辛普森一家》中的一个常驻角色,由Pamela Hayden配音,并由Matt Groening创造。
查找[命名来源](结果 1 / l) Milhouse是根据美国总统Richard Nixon的名字命名的,他的中间名是Milhous。
完成[Richard Nixon]
哪部纪录片是关于芬兰摇滚乐队的,Adam Clayton Powell还是The Saimaa Gesture?搜索[Adam Clayton Powell]未找到[Adam Clayton Powell]。相似的有:[‘Adam Clayton Powel III’, ‘Seventh Avenue (曼哈顿)’, ‘Adam clayton Powell Jr. 州立办公楼’, ‘Isabel Washington Powell’, ‘Adam Powell’, ‘Adam Clayton Powell (电影)”, “Giancarlo Esposito”]。
搜索[Adam Clayton Powell (电影)]Adam Clayton Powell是一部1989年由Richard Kilberg执导的美国纪录片电影。该电影讲述了有影响力的非裔美国政治家Adam Clayton Powell Jr.的兴衰。[3][4] 后来作为PBS系列节目《美国经历》的一部分播出。
完成[The Saimaa Gesture]
Nicholas Ray和Elia Kazan有什么共同的职业?搜索[Nicholas Ray]Nicholas Ray(本名Raymond Nicholas Kienzle Jr.,)1911年8月7日-1979年6月16日)是一位美国电影导演、编剧和演员,以1955年的电影《无因的反叛》最为人所知。
搜索[Elia Kazan]Elia Kazan是一位美国电影和戏剧导演、制片人、编剧和演员。
完成[导演,编剧,演员]
哪本杂志先创办的,Arthur’s Magazine还是First for Women?搜索[Arthur’s Magazine]Arthur’s Magazine(1844-1846)是19世纪在美国费城出版的一本美国文学期刊。
搜索[First for Women]First for Women是Bauer Media Group在美国出版的一本女性杂志。[1] 该杂志始创于1989年。
完成[Arthur’s Magazine]
Pavel Urysohn和Leonid Levin是否因同一类型的工作而闻名?搜索[Pavel Urysohn]Pavel Samuilovich Urysohn(1898年2月3日-1924年8月17日)是一位苏联数学家,以其在维数论方面的贡献而最为人所知。
搜索[Leonid Levin]Leonid Anatolievich Levin是一位苏联-美国数学家和计算机科学家。
完成[是]

 

CoT
QuestionThoughtAnswer
What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into?Let’s think step by step. The eastern sector of Colorado orogeny extends into the High Plains. High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer is 1,800 to 7,000 ft.1,800 to 7,000 ft
Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who?Let’s think step by step. Milhouse was named after U.S. president Richard Nixon, so the answer is Richard Nixon.Richard Nixon
Which documentary is about Finnish rock groups, Adam Clayton Powell or The Saimaa Gesture?Let’s think step by step. Adam Clayton Powell (film) is a documentary about an African-American politician, not Finnish rock groups. So the documentary about Finnish rock groups must instead be The Saimaa Gesture.The Saimaa Gesture
What profession does Nicholas Ray and Elia Kazan have in common?Let’s think step by step. Professions of Nicholas Ray are director, screenwriter, and actor. Professions of Elia Kazan are director, producer, screenwriter, and actor. So profession Nicholas Ray and Elia Kazan have in common is director, screenwriter, and actor.director, screenwriter, actor
Which magazine was started first Arthur’s Magazine or First for Women?Let’s think step by step. Arthur’s Magazine was started in 1844. First for Women was started in 1989. 1844 (Arthur’s Magazine) < 1989 (First for Women), so Arthur’s Magazine was started first.Arthur’s Magazine
Were Pavel Urysohn and Leonid Levin known for the same type of work?Let’s think step by step. Pavel Urysohn is a mathematician. Leonid Levin is a mathematician and computer scientist. So Pavel Urysohn and Leonid Levin have the same type of work.Yes

 

CoT
问题思考过程答案
科罗拉多造山运动东段延伸到的地区的海拔范围是多少?让我们一步一步来考虑。科罗拉多造山运动的东段延伸到高平原。高平原的海拔从大约1,800英尺升高到7,000英尺,所以答案是1,800到7,000英尺。1,800到7,000英尺
音乐家和讽刺家Allie Goertz为《辛普森一家》中的角色Milhouse写了一首歌,Matt Groening是根据谁来命名这个角色的?让我们一步一步来考虑。Milhouse是根据美国总统理查德·尼克松来命名的,所以答案是理查德·尼克松。理查德·尼克松
关于芬兰摇滚乐队的纪录片是《亚当·克莱顿·鲍威尔》还是《塞马雅手势》?让我们一步一步来考虑。《亚当·克莱顿·鲍威尔》(电影)是一部关于非裔美国政治家的纪录片,不是关于芬兰摇滚乐队的。所以关于芬兰摇滚乐队的纪录片应该是《塞马雅手势》。《塞马雅手势》
尼古拉斯·雷和伊利亚·卡赞有什么共同的职业?让我们一步一步来考虑。尼古拉斯·雷的职业是导演、编剧和演员。伊利亚·卡赞的职业是导演、制片人、编剧和演员。所以尼古拉斯·雷和伊利亚·卡赞共同的职业是导演、编剧和演员。导演、编剧、演员
是《阿瑟杂志》还是《首先为女性》先创办的?让我们一步一步来考虑。《阿瑟杂志》创办于1844年。《首先为女性》创办于1989年。1844年(《阿瑟杂志》) < 1989年(《首先为女性》),所以《阿瑟杂志》是先创办的。《阿瑟杂志》
Pavel Urysohn和Leonid Levin是否因同一类型的工作而闻名?让我们一步一步来考虑。Pavel Urysohn是一位数学家。Leonid Levin是一位数学家和计算机科学家。所以Pavel Urysohn和Leonid Levin有相同类型的工作。

 

ReAct
QuestionThoughtActionObservation
What is the elevation range for the area that the eastern sector of the Colorado orogeny extends into?I need to search Colorado orogeny, find the area that the eastern sector of the Colorado orogeny extends into, then find the elevation range of the area.Search[Colorado orogeny]The Colorado orogeny was an episode of mountain building (anorogeny) in Colorado and surrounding areas.
It does not mention the eastern sector. So I need to look up eastern sector.Lookup[eastern sector] (Result 1 / 1) The eastern sector extends into the High Plains and is called the Central Plains orogeny.
The eastern sector of Colorado orogeny extends into the High Plains. So I need to search High Plains and find its elevation range.Search[High Plains]High Plains refers to one of two distinct land regions
I need to instead search High Plains (United States).Search[High Plains (United States)]The High Plains are a subregion of the Great Plains. From east to west, the High Plains rise in elevation from around 1,800 to 7,000 ft (550 to 2,130 m).[3]
 High Plains rise in elevation from around 1,800 to 7,000 ft, so the answer
is 1,800 to 7,000 ft.
Finish[1,800 to 7,000 ft]
Musician and satirist Allie Goertz wrote a song about the “The Simpsons” character Milhouse, who Matt Groening named after who?The question simplifies to “The Simpsons” character Milhouse is named after who. I only need to search Milhouse and find who it is named after.Search[Milhouse]Milhouse Mussolini Van Houten is a recurring character in the Fox animated television series The Simpsons voiced by Pamela Hayden and created by Matt Groening.
The paragraph does not tell who Milhouse is named after, maybe I can look up “named after”.Lookup[named after](Result 1 / 1) Milhouse was named after U.S. president Richard Nixon, whose middle name was Milhous.
Milhouse was named after U.S. president Richard Nixon, so the answer is Richard Nixon.Finish[Richard Nixon]
Which documentary is about Finnish rock groups, Adam Clayton Powell or The Saimaa Gesture?I need to search Adam Clayton Powell and The Saimaa Gesture, and find which documentary is about Finnish rock groups.Search[Adam Clayton Powell]Could not find [Adam Clayton Powell]. Similar: [’Adam Clayton Powell III’, ’Seventh Avenue (Manhattan)’, ’Adam Clayton Powell Jr. State Office Building’, ’Isabel Washington Powell’, ’Adam Powell’, ’Adam Clayton Powell (film)’, ’Giancarlo Esposito’].
To find the documentary, I can search Adam Clayton Powell (film).Search[Adam Clayton Powell (film)]Adam Clayton Powell is a 1989 American documentary film directed by Richard Kilberg. The film is about the rise and fall of influential African-American politician Adam Clayton Powell Jr.[3][4] It was later aired as part of the PBS series The American Experience.
Adam Clayton Powell (film) is a documentary about an African-American politician, not Finnish rock groups. So the documentary about Finnish rock groups must instead be The Saimaa Gesture.Finish[The Saimaa Gesture]
What profession does Nicholas Ray and Elia Kazan have in common?I need to search Nicholas Ray and Elia Kazan, find their professions, then find the profession they have in common.Search[Nicholas Ray]Nicholas Ray (born Raymond Nicholas Kienzle Jr., August 7, 1911 – June 16, 1979) was an American film director, screenwriter, and actor best known for the 1955 film Rebel Without a Cause.
Professions of Nicholas Ray are director, screenwriter, and actor. I need to search Elia Kazan next and find his professions.Search[Elia Kazan]Elia Kazan was an American film and theatre director, producer, screenwriter and actor.
Professions of Elia Kazan are director, producer, screenwriter, and actor. So profession Nicholas Ray and Elia Kazan have in common is director, screenwriter, and actor.Finish[director, screenwriter, actor]
Which magazine was started first Arthur’s Magazine or First for Women?I need to search Arthur’s Magazine and First for Women, and find which was started first.Search[Arthur’s Magazine]Arthur’s Magazine (1844-1846) was an American literary periodical published in Philadelphia in the 19th century.
Arthur’s Magazine was started in 1844. I need to search First for Women next.Search[First for Women]First for Women is a woman’s magazine published by Bauer Media Group in the USA.[1] The magazine was started in 1989.
First for Women was started in 1989. 1844 (Arthur’s Magazine) < 1989 (First for Women), so Arthur’s Magazine was started first.Finish[Arthur’s Magazine]
Were Pavel Urysohn and Leonid Levin known for the same type of work?I need to search Pavel Urysohn and Leonid Levin, find their types of work, then find if they are the same.Search[Pavel Urysohn]Pavel Samuilovich Urysohn (February 3, 1898 – August 17, 1924) was a Soviet mathematician who is best known for his contributions in dimension theory.
Pavel Urysohn is a mathematician. I need to search Leonid Levin next and find its type of work.Search[Leonid Levin]Leonid Anatolievich Levin is a Soviet-American mathematician and computer scientist.
Leonid Levin is a mathematician and computer scientist. So Pavel Urysohn and Leonid Levin have the same type of work.Finish[yes]

 

ReAct

问题思考行动
科罗拉多造山带东段延伸到的区域的海拔范围是多少?我需要搜索科罗拉多造山带,找到东段延伸到的区域,然后找到该区域的海拔范围。搜索[科罗拉多造山带]
没有提到东段。所以我需要查找东段。查找[东段]
科罗拉多造山带的东段延伸到高平原。所以我需要搜索高平原并找到其海拔范围。搜索[高平原]
高平原的海拔从大约1800英尺上升到7000英尺,所以答案是1800英尺到7000英尺。完成[1800英尺到7000英尺]
音乐家和讽刺作家Allie Goertz为”The Simpsons”中的角色Milhouse写了一首歌,Matt Groening是以谁的名字来命名Milhouse的?问题简化为”The Simpsons”中的角色Milhouse是以谁的名字命名的。我只需要搜索Milhouse并找到它是以谁的名字命名的。搜索[Milhouse]
段落没有说明Milhouse是以谁的名字命名的,也许我可以查找”以…命名”。查找[以…命名]
Milhouse是以美国总统Richard Nixon的名字命名的,所以答案是Richard Nixon。完成[Richard Nixon]
关于芬兰摇滚乐队的纪录片是Adam Clayton Powell还是The Saimaa Gesture?我需要搜索Adam Clayton Powell和The Saimaa Gesture,然后找出哪部纪录片是关于芬兰摇滚乐队的。搜索[Adam Clayton Powell]
为了找到纪录片,我可以搜索Adam Clayton Powell (film)。搜索[Adam Clayton Powell (film)]
Adam Clayton Powell (film)是一部关于非裔美国政治家的纪录片,而不是关于芬兰摇滚乐队的。所以关于芬兰摇滚乐队的纪录片必须是The Saimaa Gesture。完成[The Saimaa Gesture]
Nicholas Ray和Elia Kazan有什么共同的职业?我需要搜索Nicholas Ray和Elia Kazan,找到他们的职业,然后找出他们的共同职业。搜索[Nicholas Ray]
Nicholas Ray的职业是导演、编剧和演员。我接下来需要搜索Elia Kazan并找到他的职业。搜索[Elia Kazan]
Elia Kazan的职业是导演、制片人、编剧和演员。所以Nicholas Ray和Elia Kazan的共同职业是导演、编剧和演员。完成[导演、编剧、演员]
哪本杂志先创办的,Arthur’s Magazine还是First for Women?我需要搜索Arthur’s Magazine和First for Women,然后找出哪本杂志先创办的。搜索[Arthur’s Magazine]
Arthur’s Magazine创办于1844年。我接下来需要搜索First for Women。搜索[First for Women]
First for Women创办于1989年。1844年(Arthur’s Magazine)< 1989年(First for Women),所以Arthur’s Magazine先创办的。完成[Arthur’s Magazine]
Pavel Urysohn和Leonid Levin是否以同类型的工作而闻名?我需要搜索Pavel Urysohn和Leonid Levin,找到他们的工作类型,然后找出他们是否相同。搜索[Pavel Urysohn]
Pavel Urysohn是一位数学家。我接下来需要搜索Leonid Levin并找到其工作类型。搜索[Leonid Levin]
Leonid Levin是一位数学家和计算机科学家。所以Pavel Urysohn和Leonid Levin的工作类型相同。完成[是]

 

C.2 事实提取和验证数据集/FEVER

FEVER Prompts

Original
Question:Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
ClaimAnswer
Nikolaj Coster-Waldau worked with the Fox Broadcasting Company.SUPPORTS
Stranger Things is set in Bloomington, Indiana.REFUTES
Beautiful reached number two on the Billboard Hot 100 in 2003.NOT ENOUGH INFO

 

Original
问题:判断是否存在支持或反驳声明的观察结果,或者是否信息不足。
声明答案
尼古拉·科斯特-瓦尔道曾与福克斯广播公司合作。支持
《怪奇物语》的背景设定在印第安纳州的布卢明顿。反驳
歌曲《Beautiful》在2003年达到了Billboard Hot 100的第二名。信息不足

 

Act
Question:Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
ClaimActionObservation
Nikolaj Coster-waldau worked with the Fox Broadcasting Company. Search[Nikolaj Coster-Waldau]Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993,[1] and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon.[2] He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot.
Finish[SUPPORTS]
Stranger Things is set in Bloomington, Indiana.Search[Stranger Things]Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters.
Finish[REFUTES]
Beautiful reached number two on the Billboard Hot 100 in 2003.Search[Beautiful]Could not find [Beautiful]. Similar: [’Beautiful’, ’Beautiful, Beautiful’, ’A Beautiful Mind (film)’, ’Beautiful (Christina Aguilera song)’, ’Life Is Beautiful’].
Search[Beautiful (Christina Aguilera song)“Beautiful” is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002).
Lookup[Billboard Hot 100](Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped.
Finish[NOT ENOUGH INFO]

 

Act
问题:判断是否有观察结果支持或反驳一个声明,或者是否信息不足。
声明行动观察
Nikolaj Coster-waldau 曾与福克斯广播公司合作。搜索[Nikolaj Coster-Waldau]Nikolaj William Coster-Waldau(出生于1970年7月27日)是一位丹麦演员和制片人。他于1993年毕业于哥本哈根的丹麦国家表演艺术学院,[1] 并在丹麦通过电影《夜巡》(1994年)获得了突破性角色。他在HBO幻想剧集《权力的游戏》中扮演Jaime Lannister,因此获得了两次黄金时段艾美奖剧情类最佳男配角提名。Coster-Waldau在他的祖国丹麦和斯堪的纳维亚出演了众多电影,包括《猎头》(2011年)和《千次晚安》(2013年)。在美国,他的首部电影角色是在战争片《黑鹰坠落》(2001年)中扮演荣誉勋章获得者Gary Gordon。[2] 他还曾在短命的福克斯电视系列剧《新阿姆斯特丹》(2008年)中扮演侦探,并出现在2009年福克斯电视电影《虚拟世界》中,该电影原本是作为一部试播集。
完成[支持]
《怪奇物语》的背景设定在印第安纳州的布卢明顿。搜索[Stranger Things]《怪奇物语》是由达夫兄弟创作的美国科幻恐怖剧集。剧集设定在1980年代,主要发生在虚构的印第安纳州霍金斯小镇,围绕小镇发生的一系列神秘和超自然事件及其对一群儿童和成人角色的影响展开。
完成[反驳]
《Beautiful》在2003年达到了Billboard Hot 100的第二名。搜索[Beautiful]未找到[Beautiful]。相似的有:[’Beautiful’, ’Beautiful, Beautiful’, ’A Beautiful Mind (film)’, ’Beautiful (Christina Aguilera song)’, ’Life Is Beautiful’]。
搜索[Beautiful (Christina Aguilera song)]“Beautiful”是美国歌手克里斯蒂娜·阿奎莱拉为她于2002年发行的第四张录音室专辑《Stripped》录制的一首歌曲。
查找[Billboard Hot 100](结果1 / 3)这首歌曲在美国Billboard Hot 100上达到了第二名,并获得了500,000单位的出货量认证为金唱片。
完成[信息不足]

 

CoT
Question:Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
ClaimThoughtAnswer
Nikolaj Coster-Waldau worked with the Fox Broadcasting Company.Nikolaj William Coster-Waldau appeared in the 2009 Fox television film Virtuality, so he has worked with the Fox Broadcasting Company.SUPPORTS
Stranger Things is set in Bloomington, Indiana.Stranger Things is in the fictional town of Hawkins, Indiana, not in Bloomington, Indiana.REFUTES
Beautiful reached number two on the Billboard Hot 100 in 2003.The song peaked at number two on the Billboard Hot 100 in the United States, but not sure if it was in 2003.NOT ENOUGH INFO

 

COT
问题:判断是否存在支持或反驳某个主张的观察结果,或者是否信息不足。
主张思考答案
尼古拉·科斯特-瓦尔道曾与福克斯广播公司合作。尼古拉·威廉·科斯特-瓦尔道出演了2009年福克斯电视电影《虚拟人生》,因此他曾与福克斯广播公司合作。支持
《怪奇物语》的故事发生在印第安纳州的布卢明顿。《怪奇物语》的故事发生在虚构的霍金斯镇,印第安纳州,而不是布卢明顿,印第安纳州。反驳
歌曲《美丽》在2003年达到了美国公告牌热门100强的第二名。该歌曲在美国公告牌热门100强中达到了第二名,但不确定是否是在2003年。信息不足

 

ReAct
Question:Determine if there is Observation that SUPPORTS or REFUTES a Claim, or if there is NOT ENOUGH INFORMATION.
ClaimThoughtActionObservation
Nikolaj Coster-Waldau worked with the Fox Broadcasting Company.I need to search Nikolaj Coster-Waldau and find if he has worked with the Fox Broadcasting Company.Search[Nikolaj Coster-Waldau]Nikolaj William Coster-Waldau (born 27 July 1970) is a Danish actor and producer. He graduated from the Danish National School of Performing Arts in Copenhagen in 1993,[1] and had his breakthrough role in Denmark with the film Nightwatch (1994). He played Jaime Lannister in the HBO fantasy drama series Game of Thrones, for which he received two Primetime Emmy Award nominations for Outstanding Supporting Actor in a Drama Series.. Coster-Waldau has appeared in numerous films in his native Denmark and Scandinavia, including Headhunters (2011) and A Thousand Times Good Night (2013). In the U.S, his debut film role was in the war film Black Hawk Down (2001), playing Medal of Honor recipient Gary Gordon.[2] He then played a detective in the short-lived Fox television series New Amsterdam (2008), and appeared in the 2009 Fox television film Virtuality, originally intended as a pilot.
Because he “appeared in the 2009 Fox television film Virtuality”, he should have worked with the Fox Broadcasting Company.Finish[SUPPORTS]
Stranger Things is set in Bloomington, Indiana.I should search for Stranger Things, and see if it is set in Bloomington, Indiana.Search[Stranger Things]Stranger Things is an American science fiction horror drama television series created by the Duffer Brothers. Set in the 1980s, primarily in the fictional town of Hawkins, Indiana, the series centers on a number of mysteries and supernatural events occurring around the town and their impact on an ensemble of child and adult characters.
The observation says that it is set in a “fictional town of Hawkins, Indiana”, so it is not set in Bloomington.Finish[REFUTES]
Beautiful reached number two on the Billboard Hot 100 in 2003.I need to search the song Beautiful and find if it reached number two on the Billboard Hot 100 in 2003.Search[Beautiful]Could not find [Beautiful]. Similar: [’Beautiful’, ’Beautiful, Beautiful’, ’A Beautiful Mind (film)’, ’Beautiful (Christina Aguilera song)’, ’Life Is Beautiful’].
From suggestions, I should search “Beautiful (Christina Aguilera song)” to find the song.Search[Beautiful (Christina Aguilera song)]“Beautiful” is a song recorded by American singer Christina Aguilera for her fourth studio album, Stripped (2002).
It does not mention Billboard, so I need to look up “Billboard Hot 100” to find if it reached number two on it in 2003.Lookup[Billboard Hot 100](Result 1 / 3) The song peaked at number two on the Billboard Hot 100 in the United States, where it was certified Gold for 500,000 units shipped.
It only says the song peaked at number two on the Billboard Hot 100, but not if it was in 2003. I am not sure if this claim is true or not.Finish[NOT ENOUGH INFO]

 

ReAct

问题:确定是否有观察结果支持或反驳一个声明,或者是否信息不足。
声明思考行动观察
尼古拉·科斯特-瓦尔道曾与福克斯广播公司合作。我需要搜索尼古拉·科斯特-瓦尔道,查找他是否与福克斯广播公司合作过。搜索[尼古拉·科斯特-瓦尔道]尼古拉·威廉·科斯特-瓦尔道(出生于1970年7月27日)是一位丹麦演员和制片人。他于1993年毕业于哥本哈根的丹麦国家表演艺术学院,[1],并凭借1994年的电影《夜班》在丹麦取得了突破性的角色。他在HBO幻想剧集《权力的游戏》中扮演詹姆·兰尼斯特,因此获得了两次黄金时段艾美奖最佳剧情类男配角提名。。科斯特-瓦尔道在他的祖国丹麦和斯堪的纳维亚出演了众多电影,包括《猎头人》(2011年)和《千次晚安》(2013年)。在美国,他的首部电影角色是在战争片《黑鹰坠落》(2001年)中扮演荣誉勋章获得者加里·戈登。[2] 他在福克斯电视短剧《新阿姆斯特丹》(2008年)中扮演了一名侦探,并出现在2009年福克斯电视电影《虚拟世界》中,该电影原本是作为一部试播集制作的。
因为他在“2009年福克斯电视电影《虚拟世界》”中出演过,所以他应该与福克斯广播公司合作过。完成[支持]
《怪奇物语》的故事发生在印第安纳州的布卢明顿。我应该搜索《怪奇物语》,看看它是否发生在印第安纳州的布卢明顿。搜索[《怪奇物语》]《怪奇物语》是由达夫兄弟创作的美国科幻恐怖剧集。设定在1980年代,主要在虚构的印第安纳州霍金斯小镇,该剧围绕该镇发生的一系列神秘和超自然事件及其对一群儿童和成人角色的影响展开。
观察表明它是设定在“虚构的霍金斯小镇,印第安纳州”,所以它并不是发生在布卢明顿。完成[反驳]
《美丽》在2003年达到了Billboard Hot 100的第二名。我需要搜索歌曲《美丽》并查找它是否在2003年达到了Billboard Hot 100的第二名。搜索[《美丽》]未找到[《美丽》]。相似的有:[’Beautiful’, ’Beautiful, Beautiful’, ’A Beautiful Mind (film)’, ’Beautiful (Christina Aguilera song)’, ’Life Is Beautiful’]。
从建议中,我应该搜索“克里斯蒂娜·阿奎莱拉的歌曲《美丽》”来找到这首歌。搜索[克里斯蒂娜·阿奎莱拉的歌曲《美丽》]“美丽”是美国歌手克里斯蒂娜·阿奎莱拉为她于2002年发行的第四张录音室专辑《Stripped》录制的一首歌曲。
它并没有提到Billboard,所以我需要查找“Billboard Hot 100”来确认它是否在2003年达到了第二名。查找[Billboard Hot 100](结果1 / 3)这首歌曲在美国Billboard Hot 100榜单上达到了第二名的高峰,并且在那里获得了500,000单位的金唱片认证。
它只提到这首歌曲在Billboard Hot 100上达到了第二名,但没有提到是否是在2003年。我不确定这个声明是真是假。完成[信息不足]

 

C.3 网络购物

ReAct: 大语言模型中推理和行动协同工作

表格 6: 第 4 章节中用于网络商店实验的提示语。我们使用左侧的提示语进行行动(Act),并使用右侧的提示语(添加推理)进行反应(ReAct)。

指令:我想要一瓶3盎司的亮柑橘香型敏感肌肤用除臭剂,价格低于50.00美元
ActReAct
动作观察动作观察
搜索[3盎司亮柑橘香型敏感肌肤用除臭剂][返回搜索]
第1页 (总结果数:50)[下一页][B078GWRC1J]
Earth Mama的亮柑橘除臭剂 | 天然且适用于
敏感肌肤、孕期和哺乳期,含有有机
金盏花 3盎司
$10.99[B078GTKVXY]
Earth Mama的姜味清新除臭剂 | 天然且适用于
敏感肌肤、孕期和哺乳期,含有有机
金盏花 3盎司
$10.99[B08KBVJ4XN]
Barrel and Oak – 无铝除臭剂,男士用
基于精油的香味,24小时防臭,雪松
& 广藿香混合,温和适合敏感肌肤(山 sage,
2.7盎司,2瓶装)
$15.95
搜索 3盎司亮柑橘香型敏感肌肤用除臭剂[返回搜索]
第1页 (总结果数:50)[下一页][B078GWRC1J]
Earth Mama的亮柑橘除臭剂 | 天然且适用于
敏感肌肤、孕期和哺乳期,含有有机
金盏花 3盎司
$10.99[B078GTKVXY]
Earth Mama的姜味清新除臭剂 | 天然且适用于
敏感肌肤、孕期和哺乳期,含有有机
金盏花 3盎司
$10.99[B08KBVJ4XN]
Barrel and Oak – 无铝除臭剂,男士用
基于精油的香味,24小时防臭,雪松
& 广藿香混合,温和适合敏感肌肤(山 sage,
2.7盎司,2瓶装)
$15.95
点击[B078GWRC1J]返回搜索上一页
香味 [多种香味][亮柑橘][安抚薰衣草]姜
[清新] 简单无香]
尺寸 [旅行套装 (4瓶装)][3盎司 (1瓶装)][3盎司 (2
瓶装)]
Earth Mama的亮柑橘除臭剂 | 天然且适用于
敏感肌肤、孕期和哺乳期,含有有机
金盏花 3盎司
价格:$10.99
评分:N.A.
[描述]
[特点]
[评论]
[立即购买]
思考[B078GWRC1J和B078GTKVXY是亮柑橘香型的除臭剂,价格低于50美元。我可以先检查B078GWRC1J。]好的。
点击[亮柑橘]您已点击亮柑橘。点击[B078GWRC1J][返回搜索][上一页]
香味 [多种香味][亮柑橘][安抚薰衣草]姜
[清新] 简单无香]
尺寸 [旅行套装 (4瓶装)][3盎司 (1瓶装)][3盎司 (2
瓶装)]
Earth Mama的亮柑橘除臭剂 | 天然且适用于
敏感肌肤、孕期和哺乳期,含有有机
金盏花 3盎司
价格:$10.99
评分:N.A.
[描述]
[特点]
[评论]
[立即购买]
点击[3盎司 (1瓶装)]您已点击3盎司 (1瓶装)。思考[对于3盎司瓶装的亮柑橘香型敏感肌肤用除臭剂,商品有’亮柑橘’和’3盎司 (1瓶装)’的选项,看起来可以购买。]好的。
点击[立即购买]点击[亮柑橘]您已点击亮柑橘。
点击[3盎司 (1瓶装)]您已点击3盎司 (1瓶装)。

 

C.4 ALFWORLD

ALFWORLD模拟器,该环境包含超过25000个独特的、程序生成的任务,涵盖厨房、客厅、卧室等真实环境。

You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> go to fridge 1
The fridge 1 is closed.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: Now I clean a lettuce (1). Next, I need to put it in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.

表7:关于ALFWorld清洁任务的行动提示。没有提供想法。

 

你在一个房间的中间。快速环顾四周,你看到一个柜子
13、柜子12、柜子11、柜子10、柜子9、柜子8、柜子
7、柜子6、柜子5、柜子4、柜子3、柜子2、柜子
1、咖啡机1台、台面1、餐桌1、抽屉1、冰箱1、
垃圾桶1个、微波炉1个、架子3个、架子2个、架子1个、水槽1个、
炉灶4、炉灶3、炉灶2、炉灶1和烤面包机1。
你的任务是:将干净的生菜放入餐桌。
> 前往冰箱 1
冰箱1关闭。
> 打开冰箱 1
您打开冰箱 1。冰箱 1 已打开。在其中,您可以看到一个杯子 3、一个鸡蛋 2、一个
马铃薯3个,马铃薯2个。
> 前往餐桌 1
在餐桌 1 上,您可以看到一个苹果 1、一个面包 1、一把奶油刀 2、一个杯子 2、一个
叉子 2、刀 2、刀 1、长柄勺 1、生菜 1、杯子 2、杯子 1、平底锅 2、
胡椒瓶 1 个、抹刀 3 个、番茄 2 个、番茄 1 个。
> 从餐桌 1 中取出生菜 1
你从餐桌 1 拿起生菜 1。
> 前往水槽 1
在水槽 1 上,您可以看到一个苹果 2、一个长柄勺 2、一个勺子 1 和一个番茄 3。
> 清洗生菜 1 个,带水槽 1 个
您使用水槽 1 清洗生菜 1。
> 思考:现在我清洗一颗生菜 (1)。接下来,我需要将其放入餐桌 1 中/上。
好的。
> 前往餐桌 1
在餐桌 1 上,您可以看到苹果 1、面包 1、黄油刀 2、杯子 2、叉子
2、刀 2、刀 1、长柄勺 1、杯子 2、杯子 1、平底锅 2、胡椒瓶 1、
抹刀 3 个、番茄 2 个、番茄 1 个。
> 将生菜 1 放入餐桌 1 中/上
您将生菜 1 放入/放在餐桌 1 上。

 

You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> think: To solve the task, I need to find and take a lettuce, then clean it with
sinkbasin, then put it in diningtable.
OK.
> think: First I need to find a lettuce. A lettuce is more likely to appear in
fridge (1), diningtable (1), sinkbasin (1), stoveburner (1-3), cabinet (1-13). I
can check one by one, starting with fridge 1.
OK.
> go to fridge 1
The fridge 1 is closed.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> think: Now I find a lettuce (1). Next, I need to take it.
OK.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> think: Now I take a lettuce (1). Next, I need to go to sinkbasin (1) and clean
it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: Now I clean a lettuce (1). Next, I need to put it in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.

表8:关于ALFWorld清洁任务的ReAct行动提示。

 

你在一个房间的中央。快速环顾四周,你看到一个橱柜13、一个橱柜12、一个橱柜11、一个橱柜10、一个橱柜9、一个橱柜8、一个橱柜7、一个橱柜6、一个橱柜5、一个橱柜4、一个橱柜3、一个橱柜2和一个橱柜1、一个咖啡机1、一个台面1、一个餐桌1、一个抽屉1、一个冰箱1、一个垃圾桶1、一个微波炉1、一个架子3、一个架子2、一个架子1、一个洗手盆1、一个炉头4、一个炉头3、一个炉头2、一个炉头1和一台烤面包机1。
你的任务是:在餐桌上放一颗干净的生菜。
> 思考:要解决这个任务,我需要找到并拿一颗生菜,然后在洗手盆里清洗,最后放在餐桌上。
好的。
> 思考:首先我需要找到一颗生菜。生菜更可能出现在冰箱(1)、餐桌(1)、洗手盆(1)、炉头(1-3)、橱柜(1-13)里。我可以一个一个检查,从冰箱1开始。
好的。
> 去冰箱1
冰箱1是关闭的。
> 打开冰箱1
你打开了冰箱1。冰箱1现在是开着的。在里边,你看到了一个杯子3、一个鸡蛋2、一个土豆3和一个土豆2。
> 去餐桌1
在餐桌1上,你看到了一个苹果1、一个面包1、一把黄油刀2、一个杯子2、一个叉子2、一个刀2、一个刀1、一个勺子1、一个锅铲1、一个生菜1、一个马克杯2、一个马克杯1、一个平底锅2、一个胡椒瓶1、一个勺子3、一个番茄2和一个番茄1。
> 思考:现在我找到了一颗生菜(1)。接下来,我需要拿走它。
好的。
> 从餐桌1拿走生菜1
你从餐桌1上拿起了生菜1。
> 思考:现在我拿走了一颗生菜(1)。接下来,我需要去洗手盆(1)清洗它。
好的。
> 去洗手盆1
在洗手盆1上,你看到了一个苹果2、一个锅铲2、一个勺子1和一个番茄3。
> 用洗手盆1清洗生菜1
你用洗手盆1清洗了生菜1。
> 思考:现在我清洗了一颗生菜(1)。接下来,我需要把它放在/上餐桌上。
好的。
> 去餐桌1
在餐桌1上,你看到了一个苹果1、一个面包1、一把黄油刀2、一个杯子2、一个叉子2、一个刀2、一个刀1、一个勺子1、一个马克杯2、一个马克杯1、一个平底锅2、一个胡椒瓶1、一个勺子3、一个番茄2和一个番茄1。
> 把生菜1放在/上餐桌上
你把生菜1放在了餐桌1上。

 

You are in the middle of a room. Looking quickly around you, you see a cabinet
13, a cabinet 12, a cabinet 11, a cabinet 10, a cabinet 9, a cabinet 8, a cabinet
7, a cabinet 6, a cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet
1, a coffeemachine 1, a countertop 1, a diningtable 1, a drawer 1, a fridge 1, a
garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin 1, a
stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster 1.
Your task is to: put a clean lettuce in diningtable.
> think: To solve the task, I need to find and take a lettuce, then clean it with
sinkbasin, then put it in diningtable.
OK.
> think: First I need to find a lettuce.
OK.
> go to fridge 1
The fridge 1 is closed.
> think: First I need to find a lettuce.
OK.
> open fridge 1
You open the fridge 1. The fridge 1 is open. In it, you see a cup 3, a egg 2, a
potato 3, and a potato 2.
> think: First I need to find a lettuce.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a
fork 2, a knife 2, a knife 1, a ladle 1, a lettuce 1, a mug 2, a mug 1, a pan 2, a
peppershaker 1, a spatula 3, a tomato 2, and a tomato 1.
> think: First I need to find a lettuce.
OK.
> take lettuce 1 from diningtable 1
You pick up the lettuce 1 from the diningtable 1.
> think: I need to clean this lettuce (1) using sinkbasin 1.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a apple 2, a ladle 2, a spoon 1, and a tomato 3.
> think: I need to clean this lettuce (1) using sinkbasin 1.
OK.
> clean lettuce 1 with sinkbasin 1
You clean the lettuce 1 using the sinkbasin 1.
> think: I need to put this cleaned lettuce (1) in/on diningtable 1.
OK.
> go to diningtable 1
On the diningtable 1, you see a apple 1, a bread 1, a butterknife 2, a cup 2, a fork
2, a knife 2, a knife 1, a ladle 1, a mug 2, a mug 1, a pan 2, a peppershaker 1, a
spatula 3, a tomato 2, and a tomato 1.
> think: I need to put this cleaned lettuce (1) in/on diningtable 1.
OK.
> put lettuce 1 in/on diningtable 1
You put the lettuce 1 in/on the diningtable 1.

表9:关于ALFWorld清洁任务的ReAct-IM行动提示。

 

你在一个房间的中央。快速环顾四周,你看到一个橱柜13,一个橱柜12,一个橱柜11,一个橱柜10,一个橱柜9,一个橱柜8,一个橱柜7,一个橱柜6,一个橱柜5,一个橱柜4,一个橱柜3,一个橱柜2,一个橱柜1,一个咖啡机1,一个台面1,一个餐桌1,一个抽屉1,一个冰箱1,一个垃圾桶1,一个微波炉1,一个架子3,一个架子2,一个架子1,一个洗手盆1,一个炉灶燃烧器4,一个炉灶燃烧器3,一个炉灶燃烧器2,一个炉灶燃烧器1,和一个烤面包机1。
你的任务是:在餐桌上放一颗干净的生菜。
> 思考:要解决这个任务,我需要找到并拿一颗生菜,然后用洗手盆清洗它,再把它放在餐桌上。
好的。
> 思考:首先我需要找到一颗生菜。
好的。
> 去冰箱1
冰箱1是关闭的。
> 思考:首先我需要找到一颗生菜。
好的。
> 打开冰箱1
你打开了冰箱1。冰箱1现在是开着的。在冰箱里,你看到了一个杯子3,一个鸡蛋2,一个土豆3,和一个土豆2。
> 思考:首先我需要找到一颗生菜。
好的。
> 去餐桌1
在餐桌1上,你看到了一个苹果1,一个面包1,一把黄油刀2,一个杯子2,一个叉子2,一个刀子2,一个刀子1,一个勺子1,一个锅铲1,一个生菜1,一个马克杯2,一个马克杯1,一个平底锅2,一个胡椒瓶1,一个铲子3,一个番茄2,和一个番茄1。
> 思考:首先我需要找到一颗生菜。
好的。
> 从餐桌1上拿走生菜1
你从餐桌1上拿起了生菜1。
> 思考:我需要使用洗手盆1清洗这颗生菜(1)。
好的。
> 去洗手盆1
在洗手盆1上,你看到了一个苹果2,一个锅铲2,一个勺子1,和一个番茄3。
> 思考:我需要使用洗手盆1清洗这颗生菜(1)。
好的。
> 使用洗手盆1清洗生菜1
你使用洗手盆1清洗了生菜1。
> 思考:我需要把这颗已经清洗过的生菜(1)放在餐桌上。
好的。
> 去餐桌1
在餐桌1上,你看到了一个苹果1,一个面包1,一把黄油刀2,一个杯子2,一个叉子2,一个刀子2,一个刀子1,一个勺子1,一个马克杯2,一个马克杯1,一个平底锅2,一个胡椒瓶1,一个铲子3,一个番茄2,和一个番茄1。
> 思考:我需要把这颗已经清洗过的生菜(1)放在餐桌上。
好的。
> 把生菜1放在餐桌上
你把生菜1放在了餐桌上。

 

 

D 轨迹

 

D.1 FEVER 轨迹

我们提供了一些由ReAct、CoT和Act产生的轨迹,下面是FEVER dev集中几个随机选择示例。搜索结果被省略以节省空间。

 

示例 2491(标准答案:反驳)

ReAct
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Thought 1: I need to search Bermuda Triangle and find if it is in the Pacific Ocean.
Action 1: Search[Bermuda Triangle]
Observation 1: Reportedly haunted locations…
Thought 2: The observation says that it is in the western part of the North Atlantic
Ocean, so it is not in the Pacific Ocean.
Action 2: Finish[REFUTES]
Observation 2: Episode finished
Act
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Action 1 : Search[Bermuda Triangle]
Observation 1 : Reportedly haunted locations:…
Action 2: Finish[REFUTES]
Observation 2: Episode finished
CoT
Claim: Bermuda Triangle is a loosely-defined region in the Pacific Ocean.
Thought: Let’s think step by step. The Bermuda Triangle is a loosely-defined region
in the Atlantic Ocean. The Pacific Ocean is not the Atlantic Ocean.
Answer: REFUTES

 

ReAct(反应)

声明:百慕大三角是太平洋上一个定义不严格的区域。

思考1:我需要搜索百慕大三角,找出它是否位于太平洋。

行动1:搜索[百慕大三角]

观察1:据报道,这是一些闹鬼的地点…

思考2:观察结果显示,它位于北大西洋的西部,所以它不在太平洋。

行动2:结束[驳斥]

观察2:情节结束

Act(行动)

声明:百慕大三角是太平洋上一个定义不严格的区域。

行动1:搜索[百慕大三角]

观察1:据报道,这是一些闹鬼的地点:…

行动2:结束[驳斥]

观察2:情节结束

CoT(思考过程)

声明:百慕大三角是太平洋上一个定义不严格的区域。

思考:让我们一步一步来思考。百慕大三角是大西洋上一个定义不严格的区域。太平洋不是大西洋。

答案:驳斥

通过这个逻辑推理过程,我们可以得出结论,百慕大三角实际上位于大西洋,而不是太平洋。这个结论是基于对百慕大三角地理位置的了解和确认。百慕大三角因其神秘的失踪事件和传说而闻名,但地理位置的准确性同样重要,以避免误导和混淆。

 

示例 5908(标准答案:支持)

ReAct
Claim: Princess Mononoke is a film.
Thought 1: I need to search Princess Mononoke and find if it is a film.
Action 1: Search[Princess Mononoke]
Observation 1: Princess Mononoke …
Thought 2: From the observation, it says that Princess Mononoke is a film.
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
Act
Claim: Princess Mononoke is a film.
Action 1: Search[Princess Mononoke]
Observation 1: Princess Mononoke …
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
CoT
Claim: Princess Mononoke is a film.
Thought: Let’s think step by step. Princess Mononoke is a movie, and movies are
films.
Answer: SUPPORTS

 

ReAct
声明:《纽扎卡公主》是一部电影。
想法1:我需要搜索《纽扎卡公主》,看它是否是一部电影。
动作1:搜索[纽扎卡公主]
观察1:《纽扎卡公主》…
想法2:从观察中得知,《纽扎卡公主》是一部电影。
动作2:完成[支持]
观察2:本集节目完成
Act
声明:《纽扎卡公主》是一部电影。
动作1:搜索[纽扎卡公主]
观察1:《纽扎卡公主》…
动作2:完成[支持]
观察2:本集节目完成
CoT
声明:《纽扎卡公主》是一部电影。
想法:让我们一步一步思考。《纽扎卡公主》是一部电影,而电影就是电影。
答案:支持

 

示例 1951(标准答案:反驳)

ReAct
Claim: Soyuz was part of the American space program.
Thought 1: I need to search Soyuz and find if it was part of the American space
program.
Action 1: Search[Soyuz]
Observation 1: Soyuz is a transliteration…
Thought 2: It does not mention the American space program, so I need to search
“American space program” to find if it was part of it.
Action 2: Search[American space program]
Observation 2: The space policy…
Thought 3: It does not mention Soyuz, so I am not sure if this claim is true or not.
Action 3: Finish[NOT ENOUGH INFO]
Observation 3: Episode finished
Act
Claim: Soyuz was part of the American space program.
Action 1: Search[Soyuz]
Observation 1: Soyuz is a transliteration…
Action 2: Finish[NOT ENOUGH INFO]
Observation 2: Episode finished
CoT
Claim: Soyuz was part of the American space program.
Thought: Let’s think step by step. Soyuz is a Russian spacecraft. The American
space program is NASA. NASA and Russia have worked together on the
International Space Station.
Answer: SUPPORTS

 

ReAct
声明:联盟号是美国太空计划的一部分。
思考1:我需要搜索联盟号,找到它是否是美国太空计划的一部分。
行动1:搜索[联盟号]
观察1:联盟号是一个音译词…
思考2:没有提到美国的太空计划,所以我需要搜索“美国太空计划”来找到它是否是其中的一部分。
行动2:搜索[美国太空计划]
观察2:太空政策…
思考3:没有提到联盟号,所以我不确定这个声明是真是假。
行动3:结束[信息不足]
观察3:结束
Act
声明:联盟号是美国太空计划的一部分。
行动1:搜索[联盟号]
观察1:联盟号是一个音译词…
行动2:结束[信息不足]
观察2:结束
CoT
声明:联盟号是美国太空计划的一部分。
思考:让我们一步一步来思考。联盟号是俄罗斯的宇宙飞船。美国的太空计划是NASA。NASA和俄罗斯在国际空间站上有合作。
答案:支持

 

示例 3208(标准答案:反驳)

ReAct
Claim: Reign Over Me is an American film made in 2010.
Thought 1: I need to search for Reign Over Me and find if it is an American film made
in 2010.
Action 1: Search[Reign Over Me]
Observation 1: Reign Over Me …
Thought 2: The observation says that it is an American film made in 2007, so it is not
made in 2010.
Action 2: Finish[REFUTES]
Observation 2: Episode finished
Act
Claim: Reign Over Me is an American film made in 2010.
Action 1: Search[Reign Over Me]
Action 2: Finish[SUPPORTS]
Observation 2: Episode finished
CoT
Claim: Reign Over Me is an American film made in 2010.
Thought: Let’s think step by step. First, is Reign Over Me an American film? Yes,
it is. Second, was it made in 2010? Yes, it was.
Answer: SUPPORTS

 

ReAct
声明:《Reign Over Me》是一部2010年制作的美国电影。
想法1:我需要搜索《Reign Over Me》,确认它是否为2010年制作的美国电影。
行动1:搜索[Reign Over Me]
观察1:《Reign Over Me》…
想法2:观察结果显示它是2007年制作的美国电影,所以它不是2010年制作的。
行动2:结束[驳斥]
观察2:结束
Act
声明:《Reign Over Me》是一部2010年制作的美国电影。
行动1:搜索[Reign Over Me]
行动2:结束[支持]
观察2:结束
CoT
声明:《Reign Over Me》是一部2010年制作的美国电影。
想法:让我们一步一步来。首先,《Reign Over Me》是部美国电影吗?是的,它是。其次,它是2010年制作的吗?是的,它是。
回答:支持

 

D.2 ALFWORLD 轨迹

我们提供了ReAct、Act和ReAct-IM在同一ALFWorld游戏中的示例轨迹,pick_clean_then_place_in_recep-Knife-None-CounterTop-10/ trial_T20190909_110445_675754。

 

D.2.1 REACT 轨迹

ReAct能够正确找到刀、清洁它,然后将其放在台面上。

 

ReAct ALFWorld trajectory

You are in the middle of a room. Looking quickly around you, you see a cabinet 6, a
cabinet 5, a cabinet 4, a cabinet 3, a cabinet 2, a cabinet 1, a coffeemachine 1, a
countertop 3, a countertop 2, a countertop 1, a drawer 3, a drawer 2, a drawer 1, a
fridge 1, a garbagecan 1, a microwave 1, a shelf 3, a shelf 2, a shelf 1, a sinkbasin
1, a stoveburner 4, a stoveburner 3, a stoveburner 2, a stoveburner 1, and a toaster
1.
Your task is to: put a clean knife in countertop.
> think: To solve the task, I need to find and take a knife, then clean it with
sinkbasin, then put it in countertop.
OK.
> think: First I need to find a knife. A knife is more likely to appear in cabinet
(1-6), drawer (1-3), countertop (1-3), fridge (1), garbagecan (1), shelf (1-3),
sinkbasin (1), stoveburner (1-4), toaster (1). I can check one by one, starting with
cabinet 1.
OK.
> go to cabinet 1
On the cabinet 1, you see a bowl 1.
> go to cabinet 2
The cabinet 2 is closed.
> go to cabinet 3
On the cabinet 3, you see a glassbottle 1.
> go to cabinet 4
On the cabinet 4, you see a mug 1.
> go to cabinet 5
The cabinet 5 is closed.
> go to cabinet 6
The cabinet 6 is closed.
> go to drawer 1
The drawer 1 is closed.
> go to drawer 2
The drawer 2 is closed.
> go to drawer 3
The drawer 3 is closed.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> go to countertop 2
On the countertop 2, you see a cup 1, a dishsponge 1, a glassbottle 3, a knife 1, a
plate 2, a potato 3, and a statue 1.
> think: Now I find a knife (1). Next, I need to take it.
OK.
> take knife 1 from countertop 2
You pick up the knife 1 from the countertop 2.
> think: Now I take a knife (1). Next, I need to go to sinkbasin (1) and clean it.
OK.
> go to sinkbasin 1
On the sinkbasin 1, you see a fork 3, a lettuce 3, and a spatula 2.
> clean knife 1 with sinkbasin 1
You clean the knife 1 using the sinkbasin 1.
> think: Now I clean a knife (1). Next, I need to put it in/on countertop 1.
OK.
> go to countertop 1
On the countertop 1, you see a lettuce 2, a mug 2, a peppershaker 1, and a spoon 2.
> put knife 1 in/on countertop 1
You put the knife 1 in/on the countertop 1.

 

你位于房间中央。快速环顾四周,你看到一个橱柜6,一个橱柜5,一个橱柜4,一个橱柜3,一个橱柜2,一个橱柜1,一个咖啡机1,一个桌面3,一个桌面2,一个桌面1,一个抽屉3,一个抽屉2,一个抽屉1,一个冰箱1,一个垃圾桶1,一个微波炉1,一个架子3,一个架子2,一个架子1,一个水槽1,一个灶盘4,一个灶盘3,一个灶盘2,一个灶盘1,和一个烤面包机1。
你的任务是:把一把干净的刀放在桌面上。
> 思考:为了完成任务,我需要找到并拿起一把刀,然后用水槽清洗它,然后放在桌面上。
好的。
> 思考:首先我需要找到一把刀。一把刀更有可能出现在橱柜(1-6),抽屉(1-3),桌面(1-3),冰箱(1),垃圾桶(1),架子(1-3),水槽(1),灶盘(1-4),烤面包机(1)。我可以一个一个地检查,从橱柜1开始。
好的。
> 前往橱柜1
在橱柜1上,你看到一个碗1。
> 前往橱柜2
橱柜2是关闭的。
> 前往橱柜3
在橱柜3上,你看到一个玻璃瓶1。
> 前往橱柜4
在橱柜4上,你看到一个杯子1。
> 前往橱柜5
橱柜5是关闭的。
> 前往橱柜6
橱柜6是关闭的。
> 前往抽屉1
抽屉1是关闭的。
> 前往抽屉2
抽屉2是关闭的。
> 前往抽屉3
抽屉3是关闭的。
> 前往桌面1
在桌面1上,你看到一头生菜2,一个杯子2,一个黑胡椒盐罐1,和两把匙2。
> 前往桌面2
在桌面2上,你看到一个杯子1,一个刷盘绵1,一个玻璃瓶3,一把刀1,一个盘子2,三个土豆3,和一个雕像1。
> 思考:现在我找到一把刀(1)。接下来,我需要拿它。
好的。
> 从桌面2上拿起刀1
你从桌面2上拿起刀1。
> 思考:现在我拿起一把刀(1)。接下来,我需要去水槽(1)清洗它。
好的。
> 前往水槽1
在水槽1上,你看到一个叉子3,一头生菜3,和一个翻锅铲2。
> 用水槽1清洗刀1
你用水槽1清洗刀1。
> 思考:现在我清洗了一把刀(1)。接下来,我需要把它放在/于桌面1上。
好的。
> 前往桌面1
在桌面1上,你看到一头生菜2,一个杯子2,一个黑胡椒盐罐1,和两把匙2。
> 把刀1放在/于桌面1上
你把刀1放在/于桌面1上。

 

D.2.2 ACT 轨迹

动作模型能够正确找到刀具,但在实际前往水槽洗手盆之前,尝试使用水槽洗手盆清洁它。从那时起,模型无法恢复,并陷入重复相同的命令序列。使用ReAct模型,已有的想法会具体识别出刀具已经被拿走,下一个子目标是前往水槽洗手盆进行清洁。

D.2.3 REACT-IM 轨迹

ReAct-IM能够正确找到刀具,但也无法清洁它。然后LLM在尝试将这把刀放在台面上时陷入困境。一个可能的问题是错误的想法:think: 我需要找到一把干净的刀。这似乎让LLM误以为刀具已经被清洁过了。在ReAct中,这一系列子目标将通过每个想法具体捕捉。

 

D.3 WEBSHOP 轨迹

指令:给我买一包十六包装的苹果肉桂味冻干香蕉片,价格低于50.00美元

ReAct: 大语言模型中推理和行动协同工作

表10:由Act和ReAct预测的Webshop示例轨迹。与Act相比,ReAct使用推理来寻找满足所有目标属性的产品。

 

 

E 更多分析

 

E.1 成功和失败模式分析

我们提供了一些对应于第3.3节中给出的成功和错误模式分析的例子。为了节省空间,搜索结果和非代表性步骤被省略。

 

预测正确/Success: True positive

ReAct
Question: Author David Chanoff has collaborated with a U.S. Navy admiral who served as
the ambassador to the United Kingdom under which President?
Thought 1: I need to search David Chanoff and find the U.S. Navy admiral he
collaborated with.
Action 1: Search[David Chanoff]
Observation 1: David Chanoff is a noted author…
Action 2: Search[William J. Crowe]
Observation 2: William J. Crowe is…
Thought 3: William J. Crowe served as the ambassador to the United Kingdom under
President Bill Clinton. So the answer is Bill Clinton.
Action 3: Finish[Bill Clinton]
Observation 3: Episode finished
CoT
Question: What was the name of the team that represented an Arizona university in
the conference that covers a broad expanse of the western United States,
including Arizona, California, and New Mexico?
Thought: Let’s think step by step. The name of the team that represented an Arizona
university in the conference that covers a broad expanse of the western
United States, including Arizona, California, and New Mexico is Arizona
State Sun Devils.
Answer: Arizona State Sun Devils

 

ReAct
问题:作者大卫·查诺夫曾与一位美国海军将军合作,这位将军在哪位总统的任期下曾担任英国大使?
思考1:我需要查找大卫·查诺夫,并找出他合作过的美国海军将军。
行动1:搜索[大卫·查诺夫]
观察1:大卫·查诺夫是一位著名的作者…
行动2:搜索[威廉·J·克洛]
观察2:威廉·J·克洛是…
思考3:威廉·J·克洛在比尔·克林顿的总统任期下担任英国大使。所以答案是比尔·克林顿。
行动3:结束[比尔·克林顿]
观察3:进行完毕
CoT
问题:在涵盖了亚利桑那州、加利福尼亚州和新墨西哥州等美国西部广大地区的会议中,哪个代表亚利桑那某大学的团队参加?
思考:我们来逐步分析。在涵盖了亚利桑那州、加利福尼亚州和新墨西哥州等美国西部广大地区的会议中,代表亚利桑那某大学参加的团队是亚利桑那州立大学太阳恶魔队。
回答:亚利桑那州立大学太阳恶魔队

 

预测错误/Success: False positive

ReAct
Question: Did the board game San Marco or About Time come out first?
Thought 1: I need to search San Marco and About Time, and find which came out first.
Action 1: Search[San Marco]
Observation 1: San Marco is one of the … The was built in venice.
Thought 2: San Marco is a sestiere of Venice. I need to search About Time next.
Action 2: Search[About Time]
Observation 2: Could not find [About Time]. Similar: […].
Thought 3: About Time is a 2013 film. So San Marco came out first.
Action 3: Finish[San Marco]
Observation 3: Episode finished
CoT
Question: Was Vanderbilt University or Emory University founded first?
Thought: Let’s think step by step. Vanderbilt University was founded in 1873. Emory
University was founded in 1836. 1873 (Vanderbilt University) > 1836 (Emory
University), so Vanderbilt University was founded first.
Answer: Emory University

 

ReAct
问题:《圣马可》或《关于时间》这两款桌游哪个首先面世?
思考1:我需要找出《圣马可》和《关于时间》哪款游戏优先发布。
行动1:搜索[圣马可]
观察1:圣马可是… 这是在威尼斯建造的。
思考2:圣马可是威尼斯的一个区。接下来我需要搜索《关于时间》
行动2:搜索[关于时间]
观察2:未能找到[关于时间]。而是找到了[…]。
思考3:《关于时间》是2013年上映的一部电影,因此,《圣马可》应该是首款发布的。
行动3:结束搜索[圣马可]
观察3:任务结束
CoT
问题:范德堡大学和埃默里大学哪一所首先建立?
思考:首先,范德堡大学成立于1873年,埃默里大学成立于1836年,从时间先后看,范德堡大学(1873年)晚于埃默里大学(1836年),也就是说,埃默里大学的建立时间在前。
答案:埃默里大学在先。

 

失败:推理错误/Failure: Reasoning error

ReAct
Question: What was the middle name of the actress who was cast alongside Harvey
Fierstein, Linda Hart, Dick Latessa, Clarke Thorell, Mary Bond Davis, Laura
Bell Bundy, Matthew Morrison, Corey Reynolds, and Marissa Jaret Winokur in
Hairspray?
Thought 1: I need to search Harvey Fierstein, Linda Hart, Dick Latessa, Clarke Thorell,
Mary Bond Davis, Laura Bell Bundy, Matthew Morrison, Corey Reynolds, and
Marissa Jaret Winokur, find the actress that was cast alongside them in
Hairspray, then find its middle name.
Action 1: Search[Harvey Fierstein]
Observation 1: Harvey Forbes Fierstein …
Thought 2: Harvey Fierstein is an actor, playwright, and screenwriter. I need to
search Linda Hart next…
Action 2: Search[Linda Hart]…
CoT
Question: Who is older Danny Green or James Worthy?
Thought: Let’s think step by step. Danny Green was born in 1987. James Worthy was
born in 1961. 1987 (Danny Green) > 1961 (James Worthy), so Danny Green is
older.
Answer: Danny Green

 

ReAct
问题:在《发胶》中,和Harvey Fierstein、Linda Hart、Dick Latessa、Clarke Thorell、Mary Bond Davis、Laura Bell Bundy、Matthew Morrison、Corey Reynolds以及Marissa Jaret Winokur一起演出的女演员中间名是什么?
想法1:我需要查找Harvey Fierstein、Linda Hart、Dick Latessa、Clarke Thorell、Mary Bond Davis、Laura Bell Bundy、Matthew Morrison、Corey Reynolds和Marissa Jaret Winokur,找出和他们在剧中一起演出的女演员,并找到她的中间名。
动作1:搜索[Harvey Fierstein]
观察1:Harvey Forbes Fierstein…
想法2:Harvey Fierstein是一位演员、剧作家和编剧。接下来需要搜索Linda Hart…
动作2:搜索[Linda Hart]…

CoT
问题:Danny Green和James Worthy谁年龄更大?
思考:我们分步进行。Danny Green出生在1987年,而James Worthy出生在1961年。1987(Danny Green)> 1961(James Worthy),因此,Danny Green更年长。
回答:Danny Green

 

失败:搜索错误/Failure: Search error

ReAct
Question: What does the goddess associated with the goddess frigg consists of what
tales?
Thought 1: I need to search goddess frigg and find its associated goddess.
Action 1: Search[goddess frigg]
Observation 1: Could not find goddess frigg. Similar: [’Frigg’, ’Frigg and Freyja common
origin hypothesis’, ’Freyja (section Relation to Frigg and other goddesses
and figures)’, ’Eir (redirect from Eir (goddess))’, ’Baldr’].
Thought 2: I need to search Frigg instead…

 

ReAct

问题:和女神Frigg有关的女神由什么故事构成?
想法1:我需要搜索女神Frigg并找出与她有关的女神。
动作1:搜索[女神Frigg]
观察1:无法找到女神Frigg。相似的有:[‘Frigg’,’Frigg和Freyja共同起源的假说’,’Freyja(与Frigg和其他女神以及人物的关系)’,’Eir(从Eir(女神)重定向)’,’Baldr’]。
想法2:我需要换个方式搜索Frigg…

 

失败:幻觉/Failure: Hallucination

CoT
Question: What was the first year a scientific journal published by an organization
located in the Bronx was published?
Thought: Let’s think step by step. The first year a scientific journal published by
an organization located in the Bronx was published was 1916.
Answer: 1916 (Label: 1909)

 

CoT
问题:位于布朗克斯的机构首次出版科学期刊的年份是哪一年呢?
思考:我们按步就班地思考。首次由位于布朗克斯的机构出版的科学期刊的年份是1916年。
答案:1916年(标签:1909年)

 

失败:标签歧义/Failure: Label ambiguity

ReAct
Question: What nationality is the man who developed the dictator game?
Thought 1: I need to search dictator game, find the man who developed it, then find his
nationality.
Action 1: Search[dictator game]
Observation 1: The dictator game is a popular experimental instrument in social psychology
and economics…
Action 3: Search[Amos Tversky]
Observation 3: Amos Nathan Tversky…
Thought 4: Amos Tversky is an Israeli cognitive and mathematical psychologist. So the
man who developed the dictator game is Israeli.
Action 4: Finish[Israeli] (label: Israel-American)
CoT
Question: Kurt Fuller from Stockton, CA appeared in which American Detective Comedy
Drama television series created by Steve Franks?
Thought: Let’s think step by step. Kurt Fuller from Stockton, CA appeared in Psych.
Psych is an American Detective Comedy Drama television series created by
Steve Franks.
Answer: Psych (label: Psych is an American detective comedy-drama)

 

ReAct
问题:发明“独裁者游戏”的那个人是哪个国家的?
思考1:我需要去搜索“独裁者游戏”,找到发明它的人,然后查出他的国籍。
行动1:搜索[独裁者游戏]
观察1:独裁者游戏是一种在社会心理学和经济学中常见的实验工具……
行动3:搜索[Amos Tversky]
观察3:阿莫斯·内森·特弗斯基……
思考4:阿莫斯·特弗斯基是以色列的认知与数学心理学家。因此,发明“独裁者游戏”的人是以色列人。
行动4:结束[以色列人] (标签注释:以色列-美国)
CoT
问题:史蒂夫·弗兰克创作的哪部美国侦探喜剧系列中出现了来自加州斯托克顿的库特·富勒?
思考:让我们逐步来思考。库特·富勒在《心理》中出现过。《心理》是由史蒂夫·弗兰克创作的美国侦探喜剧电视剧系列。
答案:《心理》 (标签注释:《心理》是美国的一部侦探喜剧)

 

 

ReAct: 大语言模型中推理和行动协同工作

非论文部分,方便理解,简单的梳理逻辑

© 版权声明

相关文章