免责声明:所有资讯不构成任何投资理财建议。

AMMO:多 Agent 时代,迈向「人机共生网络」

2025-02-27 11:22:14

撰文:Pzai,Foresight News

在迈向赛博年代的当下,AI 的发展在为所有人带来生产力飞速提升的同时,也正在为我们提出一个问题:当 AI 正在向着人类的领域逐渐深入,人类是否需要重新评估人机关系?

在这一大背景之下,对 AI 技术的政治观点逐渐派别林立。在充满怀疑论点的「AI 危机派」和「加速主义(e/acc)派」闹得不可开交时,「对齐派」主张提升对技术的公共效益、伦理讨论、人文价值的重视,在 AI 研发和迭代过程中引入人文判断,确保 AI 技术不会失控。

而在 AI Agent 大行其道的当下,伴随着从单一大模型迭代到多模态感知和多 AI 交互范式的路线,AI 的「对齐之问」似乎正在被越来越多人所重视。

在 2 月 20 日,由前 Google、DeepMind 和 Meta 技术负责人联合推出的 AMMO 获得了由 Amber Group 领投的 250 万美元种子轮融资。从团队背景来看,AMMO 汇聚了来自各大科技巨头的 AI 专家,联合创始人兼首席执行官 David Huang 在 Google 工作了 10 年,其中包括 7 年领导移动领域的 AI 计划和战略服务。另一位创始人 Diego Hong 毕业于牛津大学,曾在 Meta 领导第一代 AI agent 框架工作。团队内部汇聚来自 DeepMind, Google, Apple 的顶尖 AI 人才,甚至包括 ACM-ICPC 世界冠军。

该项目从对齐视角出发,旨在通过多代理框架和来自人类反馈的强化学习 (RLHF)将当前的互联网转变为「人与 AI 共生网络」,让数十亿 AI 代理和人类平等共存,并让 AI 根据人类集体反馈的一致性共同进化。

RL Gyms:多 Agents 强化学习

在人工智能与机器学习领域,强化学习一直是备受瞩目的研究方向。而 AMMO 的 RL Gyms 为多 Agents 强化学习的研究与应用提供了坚实的技术支撑。

区别于传统的单代理强化学习,多 Agents 强化学习聚焦于多个代理(Multi-Agent)在同一环境下相互作用、共同学习并做出决策的过程。这一过程中,代理之间的关系错综复杂,既可能需要携手协作完成共同目标,也可能在竞争中彼此博弈。例如在物流配送场景中,多辆配送车作为代理,需要协调路线、规划配送顺序,以实现整体配送效率的最大化;而在竞技类游戏中,不同玩家控制的角色代理则要相互竞争,争取胜利。

RL Gym 最早由 OpenAI 提出,为 AI 进化提供强大的模拟仿真环境。开发者可以通过自定义一系列关键函数以构建高度适配研究需求或应用场景的强化学习环境,如经济模拟,红蓝对战等设定。这些关键函数包括环境状态转换规则的定义,代理环境感知和行动执行的协议,奖励函数的定义等。只要能精确定义以上函数,RL Gym 便能模拟各类复杂场景,进而为 AI 在其中的进化打好基础。#p#分页标题#e#

对于 AMMO 的开发者而言,RL Gyms 为 AI 代理提供了一个丰富真实的双边市场模拟器。AI 既可作为内容和服务供给方,为用户提供高质量富有吸引力的内容;同时 AI 又可作为人类用户分身,充当消费方的角色,以用户价值为中心,为用户精选梳理高质量内容。这样动态丰富的双边博弈,刺激双方不断进化自身策略,满足用户日益增长的内容服务消费需求。

而受 Anthropic 的 Constitutional AI 的启发,AMMO 创建了透明的治理框架以指导代理在平台内的决策。该结构通过大量的人类反馈循环不断更新,确保代理的行为与人类的集体意图保持一致。通过从平台一开始就将对齐机制植根于此架构中,AMMO 确保其代理与社会不断变化的价值观和优先事项一起发展,只因在对齐主义的指导下,「多代理系统的中心是人类」。

MetaSpace:构建 Agents 的「世界」

「每个心理主体本身只能做一些根本不需要头脑或思想的简单事情。然而,当我们以某些非常特殊的方式将这些代理加入社会时,这会带来真正的智能。」「人工智能之父」马文·明斯基在他的著作《心灵社会》中这样描述。对于 AI 代理而言,更多的迭代对应需要更多的输入,而在 Agents 与其他 Agents 乃至人类过程交互的过程中,需要构建足够坚实的框架以推动 AI 的有序迭代。

与 Ocean Protocol 主要聚焦于数据的流通与交易、SingularityNET 打造去中心化的 AI 市场等项目不同的是,

声明:本文版权归原作者所有,发布此文为传递更多市场信息,不代表本站的观点和立场,请自行参考。如作者信息标记有误,请第一时间联系我们处理!

相关阅读