多模态人工智能系统可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有前景的方法是将它们作为智能体嵌入到物理和虚拟环境中。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这样的环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂、更具上下文意识的人工智能系统至关重要。例如,一个能够感知用户行为、人类行为、环境物体、音频表达和场景整体情绪的系统可以用来通知并指导智能体在特定环境中的响应。为了加速基于智能体的多模态智能研究,我们将“智能体AI”定义为一类交互系统,它们能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生具有无限智能体的有意义的具身行动。特别是,我们探索旨在通过整合外部知识、多感官输入和人类反馈来基于下一具身行动预测改进智能体的系统。我们认为,通过在基于环境的环境中开发具有代理性的AI系统,也可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体AI领域涵盖了多模态交互的更广泛的具身和具有代理性的方面。除了在物理世界中行动和互动的智能体,我们设想一个未来,人们可以轻松地创建任何虚拟现实或模拟场景,并与嵌入虚拟环境中的智能体互动。
https://www.zhuanzhi.ai/paper/6f80b9d0b7b31d7be3b7f5c64c0d5074
1.1 动机
1.2 背景
接下来,我们将介绍支持智能体AI概念、理论背景和现代实现的相关研究论文。
大型基础模型:LLMs和VLMs一直在推动开发通用智能机器的努力(Bubeck等,2023;Mirchandani等,2023)。尽管它们是使用大型文本语料库训练的,但它们的卓越问题解决能力不仅限于规范语言处理领域。LLMs可能处理从数学推理(Imani等,2023;Wei等,2022;Zhu等,2022)到专业法律问题的回答(Blair-Stanek等,2023;Choi等,2023;Nay,2022)等以前被认为是人类专家或特定领域算法专有的复杂任务。最近的研究表明,使用LLMs为机器人和游戏AI生成复杂计划的可能性(Liang等,2022;Wang等,2023a,b;Yao等,2023a;Huang等,2023a),这标志着LLMs作为通用智能智能体的重要里程碑。
具身化AI:许多工作利用LLMs进行任务规划(Huang等,2022a;Wang等,2023b;Yao等,2023a;Li等,2023a),特别是LLMs的WWW级别领域知识和新兴的零样本具身化能力来执行复杂任务规划和推理。最近的机器人研究也利用LLMs进行任务规划(Ahn等,2022a;Huang等,2022b;Liang等,2022),通过将自然语言指令分解为一系列子任务,以自然语言形式或Python代码形式,然后使用低级控制器执行这些子任务。此外,它们结合环境反馈来改进任务性能(Huang等,2022b),(Liang等,2022),(Wang等,2023a),和(Ikeuchi等,2023)。
交互式学习:为交互式学习而设计的AI智能体使用机器学习技术和用户互动的组合操作。最初,AI智能体在大型数据集上进行训练。这个数据集包括各种类型的信息,具体取决于智能体的预期功能。例如,为语言任务设计的AI将在大量文本数据语料库上进行训练。训练涉及使用机器学习算法,可能包括像神经网络这样的深度学习模型。这些训练模型使AI能够识别模式、做出预测,并根据其训练所用的数据生成响应。AI智能体还可以从与用户的实时互动中学习。这种交互式学习可以以多种方式进行:
1)基于反馈的学习:AI根据直接用户反馈调整其响应(Li等,2023b;Yu等,2023a;Parakh等,2023;Zha等,2023;Wake等,2023a,b,c)。例如,如果用户纠正了AI的响应,AI可以使用这些信息来改进未来的响应(Zha等,2023;Liu等,2023a)。2)观察学习:AI观察用户互动并隐式学习。例如,如果用户经常提出类似的问题或以特定方式与AI互动,AI可能会调整其响应以更好地适应这些模式。这允许AI智能体理解和处理人类语言,多模态设置,解释交叉现实-上下文,并生成人类用户的响应。随着时间的推移,随着更多用户互动和反馈,AI智能体的性能通常会持续提高。这个过程通常由人类操作者或开发者监督,他们确保AI适当地学习,不会发展偏见或错误模式。
概述
多模态智能体AI(MAA)是一系列系统,它们基于对多模态感官输入的理解,在给定环境中生成有效行动。随着大型语言模型(LLMs)和视觉-语言模型(VLMs)的出现,多个MAA系统已在从基础研究到应用的领域中被提出。虽然这些研究领域通过与每个领域的传统技术(例如,视觉问答和视觉-语言导航)的集成而迅速发展,但它们共有的兴趣包括数据收集、基准测试和伦理观点。在本文中,我们专注于MAA的一些代表性研究领域,即多模态性、游戏(VR/AR/MR)、机器人学和医疗保健,并旨在提供这些领域中讨论的共同关注点的全面知识。因此,我们期望学习MAA的基础知识,并获得进一步推进其研究的洞察。
具体的学习成果包括:• MAA概览:深入了解其原则及在当代应用中的作用,为研究人员提供全面的重要性和用途理解。• 方法论:详细举例说明LLMs和VLMs如何增强MAAs,并通过在游戏、机器人学和医疗保健领域的案例研究进行说明。• 性能评估:指导如何使用相关数据集评估MAAs,重点是它们的有效性和泛化能力。• 伦理考量:讨论部署智能体AI的社会影响和伦理领导力,强调负责任的发展实践。• 新兴趋势和未来领导力:分类每个领域的最新发展,并讨论未来方向。
计算机基础的行动和通用智能体(GAs)适用于许多任务。要使GA真正对用户有价值,它可以自然地与人交互,并适应广泛的上下文和模态。我们的目标是培育一个充满活力的研究生态系统,并在智能体AI社区中创造共同的身份和目标感。MAA有潜力在各种上下文和模态中得到广泛应用,包括人类的输入。因此,我们相信这个智能体AI领域可以吸引多样化的研究者群体,促进一个充满活力的智能体AI社区和共同目标。在学术界和工业界的著名专家的领导下,我们期望本文将成为一次互动和丰富的体验,完整地包括智能体指导、案例研究、任务会议和实验讨论,确保为所有研究人员提供全面而引人入胜的学习体验。
本文旨在提供关于智能体AI领域当前研究的一般性和全面性知识。为此,本文的其余部分组织如下。第2节概述了智能体AI如何从与相关新兴技术的集成中受益,特别是大型基础模型。第3节描述了我们为训练智能体AI提出的新范式和框架。第4节提供了在智能体AI训练中广泛使用的方法论概述。第5节分类讨论了各种类型的智能体。第6节介绍了智能体AI在游戏、机器人学和医疗保健中的应用。第7节探讨了研究社区开发能够跨越不同模态、领域应用并弥合模拟到实际(sim-to-real)差距的多才多艺的智能体AI的努力。第8节讨论了不仅依赖于预训练的基础模型,而且还通过利用与环境和用户的互动持续学习和自我改进的智能体AI的潜力。第9节介绍了我们为训练多模态智能体AI设计的新数据集。第11节讨论了AI智能体的伦理考虑、局限性和我们论文的社会影响的热门话题。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复或发消息“MA80” 就可以获取《多模态智能体AI开启新浪潮!李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》》专知下载链接
点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料
评论前必须登录!
立即登录 注册