来自浙江大学、中科院软件所等机构的研究职员提出了新的Agent进化策略,从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。
通过不断优化自我构建的天下模型和行为策略,Agent-Pro节制了矫揉造作、主动放弃等人类高阶游戏策略。
Agent-Pro以大模型为基座,通过自我优化的Prompt来建模游戏天下模型和行为策略。
比较传统的Agent框架,Agent-Pro能够变通地应对繁芜的动态的环境,而不是仅专注于特界说务。
而且,Agent-Pro还可以通过与环境互动来优化自己的行为,从而更好地达成人类设定的目标。
同时作者还指出,在竞争、公司会谈和安全等现实天下中碰着的情景,大多可以抽象为multi-agent博弈任务,而Agent-Pro通过对这类情境的研究,为办理浩瀚现实天下的问题供应了有效策略。
那么,Agent-Pro在博弈游戏中的表现究竟如何呢?
进化出游戏天下模型在研究中,作者利用了“21点”和“有限注德州扑克”这两款游戏对Agent进行了评估。
首先简要先容下两个博弈游戏的基本规则。
21点游戏中包含一个庄家和至少一名玩家。玩家可以看到自己的两张手牌, 以及庄家的一张明牌,庄家还隐蔽了一张暗牌。玩家须要决定是连续要牌(Hit)还是停牌(Stand)。游戏的目标是在总点数不超过21点的条件下,只管即便使总点数超过庄家。
有限注德州扑克游戏开始阶段为Preflop阶段,每位玩家将得到两张只属于自己且对其他玩家保密的私牌(Hand)。随后,会有五张公共牌面(Public Cards)依次发出:首先翻牌(Flop)3 张,其次转牌(Turn)1张,末了是河牌(River)1张。玩家有四种选择:弃牌(fold)、过牌(check)、跟注(call)或加注(raise)。目标是利用自己的两张Hand和五张Public Cards任意组合,尽可能布局出最佳的五张扑克牌组合。在“21点”当中,同样是利用GPT-4作为根本模型,Agent-Pro的表现超过了ReAct框架。
在手牌相同的情形下,二者的表现如下图所示。
Agent-Pro通过剖析得出自我信念(Self-Belief)和对外部天下的信念(World-Belief),精确认识到自己的手牌已靠近21点,合理的选择了停牌。
而ReAct则未能及时停牌,导致终极爆牌,输掉了游戏。
从游戏中能够看出Agent-Pro更好的理解了游戏的规则,并给出了合理的选择。
接下来再看看在德州扑克中Agent-Pro的表现。
一次牌局中,参赛选手分别是演习后的DQN、DMC策略,原生GPT3.5和Agent-Pro(基于GPT-4),他们的手牌和公共牌如下图所示:
△S、H、C、D分别代表黑桃、红桃、梅花、方块
在当前游戏状态(Current game state)下,Agent-Pro剖析得出Self-Belief、World-Belief和终极的Action,并随着游戏状态的变革,不断更新Belief,根据自身和对手的情形,做出灵偶合理的选择。
△相同牌局同一位置的Baseline(原始大模型)结果为-13
统计数据上看,21点游戏中,在利用GPT、Llama等多种大模型的情形下,Agent-Pro的表现都显著超过了原始模型和其他参与比拟的Agents框架。
在更为繁芜的德州扑克游戏中,Agent-Pro不仅超过了原始大模型,反击败了DMC等演习后的强化学习Agent。
那么,Agent-Pro是如何学习和进化的呢?
三管齐下提高Agent表现Agent-Pro包括“基于信念的决策”“策略层面的反思”和“天下模型和行为策略优化”这三个组件。
基于信念的决策(Belief-aware Decision-making)Agent-Pro根据环境信息,首先形成Self-Belief和World-Belief,然后基于这些Belief做出决策(Action)。
在后续环境交互中,Agent-Pro动态更新Belief,进而使做出的Action适应环境的变革。
例如,德州扑克游戏中:
环境信息可包括手牌(Private State)、公共牌(Public State)、行动轨迹(Trajectory)等;Agent-Pro对手牌(State)、出牌操持(Plan)及潜在风险(Risk)的预估等信息构成了它的Self-Belief;而Agent-Pro对对手(Opponent)、环境(Environment)和规则(Rule)的理解则构成了它的World-Belief;这些Belief在每一个决策周期中都会被更新,从而影响下个周期中Action的产生策略层面的反思(Policy-Level Reflection)与人类一样,Agent-Pro 会从历史履历、历史认知和历史结果中进行反思和优化。它自主调度自己的Belief,探求有用的提示指令,并将其整合到新的策略Policy中。
首先,Agent-Pro以笔墨的形式设计了一个对任务天下的建模以及对行为准则的描述, 他们一起被当做Policy:
World Modeling:任务天下的建模,例如对游戏环境的理解、对手们的风格剖析、环境中其他Agent的策略估计等;Behavioral Guideline:行为准则的描述,例如对游戏目标的认识、自己策略方案、未来可能面临的风险等其次,为了更新World Modeling和Behavioral Guideline,Agent-Pro设计了一个Policy-level Reflection过程。
与Action-level Reflection不同,在Policy-level的反思中,Agent-Pro被勾引去关注内在和外在信念是否对齐终极结果,更主要的是,反思背后的天下模型是否准确,行为准则是否合理,而非针对单个Action。
例如,德州扑克游戏中Policy-level的反思是这样的:
在当前世界模型和行为准则(World Modeling & Behavioral Guideline)的辅导下,Agent-Pro不雅观察到外部状态,然后天生Self-Belief和World-Belief,末了做出Action。但如果Belief不准确,则可能导致不合逻辑的行动和终极结果的失落败;Agent-Pro根据每一次的游戏来核阅Belief的合理性,并反思导致终极失落败的缘故原由(Correct,Consistent,Rationality…);然后,Agent-Pro将反思和对自身及外部天下的剖析整理,天生新的行为准则Behavioral Guideline和天下建模World Modeling;基于新天生的Policy(World Modeling & Behavioral Guideline),Agent-Pro重复进行相同游戏,来进行策略验证。如果终极分数有所提高,则将更新后的World Modeling & Behavioral Guideline和保留在提示中。天下模型和行为准则的优化(World Modeling & Behavioral Guideline Evolution)在Policy-level Reflection之上,面对动态的环境,Agent-Pro还采取了深度优先搜索(DFS)和策略评估,来持续优化天下模型和行为准则,从而找到更优的策略。
策略评估是指Agent-Pro 在新的采样的轨迹中对新Policy进行更全面的评估,从而稽核新策略的泛化能力。例如,德州扑克游戏中,新采样多条游戏轨迹。
通过交流玩家位置或手牌,来肃清由于运气带来的随机成分,从而更全面评估新策略的能力。
而DFS搜索则在新策略不能在新的场景中带来预期的改进(策略评估)时利用,按照DFS搜索策略,从其他候选策略中探求更优的策略。
论文地址:https://arxiv.org/abs/2402.17574Github:https://github.com/zwq2018/Agent-Pro