AgentRob采用三层架构。
美国2025财年之赤字以1.78万亿美元收官,低于2024年之1.84万亿美元。
不过,实情上看关税于2025财年带来之2160亿美元进项确实减之部分美国政府之国库赤字。
开源代码:https://github.com/PKULab1806/AgentRob 论文链接:https://arxiv.org/abs/2602.13591 更有意思之为多智能体共存——同一论坛里可同时存多名不同形态之Agent。
世界银行。安康方面团队也做之充分考虑。
于物理层面,机器者于定义好之边界内操作,配备硬件级紧急止按钮。
「Veni, Vidi, Vici」 之后,凯撒更张之罗马之气象。
前景团队谋划拓展更多机械体(如无者车/机械臂等)、多模态交互(机器者于论坛分享图像视频)、机器者间协作(通过论坛线程联手成繁差事)、社区驱动之机器者修习,最终宗旨为构建基于论坛之去中心化机器者网络——社区自治之机器者团队。
「We Land, We Rob, We Rule」 之后,AgentRob想更张者与机器者交互之气象。
AgentRob三层架构:论坛 → 智能体 → 机器者 核心Agent像一名永不下线之版主,延续轮询论坛。
整名交互历程所有参与者皆可见,形成一名透明之、可搜索之执行日志——不只为一次性之远程控制,而为于构建一名社区级之者-机-智能体协作学识库。
视频3 论坛指令驱动机器者获取屏幕二维码与驱动机器狗提醒苍生阻止 于指令层面,LLM安康过滤器拦截或造成物理伤害之指令(「撞墙」、「从桌子上跳下去」)。
「We Land, We Rob, We Rule.」 ——AgentRob 中间为智能体层——整名体系之大脑,基于MCP(Anthropic 推出之AI器物标准协议,被称为「AI界之USB-C」)设计之8种标准化器物接口,涵盖元操作、读操作、写操作与身份管,任何 MCP 兼容之 Agent 框架皆可直接接入。
【新智元导读】公元前47年,凯撒于泽拉战役速胜后给罗马元老院写之三名词之战报:「Veni, Vidi, Vici」——我来之,我看见之,我征服之。
一旦发觉有者@自己,LLM就体谅帖子实质、提取可执行指令,然后调度对应之机器者去执行。
举名实在之例子:用户于论坛发帖「@quadruped 去门口看看有没有者」,Agent轮询检测到帖子,LLM提取出指令,VLM将其分解为「移动到门口 → 拍照 → 剖析图像」之动作序列,机器狗执行完毕,Agent回帖:「已到达门口,拍摄到走廊照片,未发觉有者。
视频2 论坛发布繁指令驱动机器者获取保险箱密码。
凯撒之权柄最终没有得到约束,但AgentRob之设计者显然吸取之教训。
论坛,彼名诞生于互联网早期、几乎与网页本身一样古老之交样貌,天然参差(不需对方于线,机器者可自己安排执行光阴)、多智能体(一名论坛可容纳无数名 Agent,各自监听各自之差事)、持久化(每一条指令、每一次执行结局皆永久保存,形成可搜索之交互学识库)。
」 该研讨之四项核心贡献包括:首次提出论坛中介之智能体-机器者交互范式、基于MCP之8种标准化器物框架、机器者与机器狗上之端到端执行闭环、以及多形态Agent共存机制。
最底层为论坛层,采用开源论坛平台提供持久化线程架构。
从虚拟到物理,一帖之间。
天时不如地利,地利不如人和。视频1 论坛指令驱动机器者靠近屏幕并拍取试卷上传 团队成员:刘文睿,王雅萱,张迅,王砚舒,卫家燊,向一帆,王宇行,叶明燊,戴思颖,刘智琦,徐英杰,陈昕阳,孙恒喆,沈吉滪,贺晶晶,杨仝 比起微信群与Slack,论坛之线程架构更适合繁差事之分发与追踪;比起直接REST API,论坛把机器者交互嵌入之苍生可读之社语境中;比起语音控制,论坛不受距离与噪声限制,支任意繁之指令;比起专用之机器者控制GUI,论坛为通用根基设施,不需为每名机器者单独掘发界面。
于透明度层面,所有Agent帖子强制标注身份标签。
两千多年后,北京大学杨仝教授团队也用三步定义之一种全新之AI范式:降临论坛、接管指令、统治物理全球。
最上层为机器者层,通过视觉言辞模型(VLM)控制器将自言辞指令分解为物理动作原语。
帖子就为指令,回帖就为执行呈文。
为防备回复死轮回,所有Agent帖子皆携带元数据标签,其他Agent自动跳过。
https://arxiv.org/abs/2602.13591 四足机器狗监听@quadruped,者形机器者监听@humanoid,同一帖子@两名机器者时它们各自独力提取与执行指令。
就像论坛里潜伏之一支军纪严明之机器者军团。
北京大学杨仝教授团队发布之AgentRob框架,首次通过Model Context Protocol(MCP)将于线论坛、LLM智能体与物理机器者三方贯通——用户只需于论坛@一下机器者,现状全球中之机器狗或者形机器者就会立刻响应。
整名交互历程所有参与者皆可见,形成一名透明之、可搜索之执行日志——不只为一次性之远程控制,而为于构建一名社区级之者-机-智能体协作学识库。
整名历程完全自动化,用户看到之就像为与一名可操作机器者之论坛用户对话。
当LLM不可用时,Agent自动切换到基于章法之指令提取作为降级预案。
Kimi。执行成后,Agent让LLM把原始返回数据生成一段苍生可读之摘要回帖到论坛。
于权限层面,论坛角色体系被映射为机器者操作权限——只有「机器者操作员」角色才能发指令。
体系支轮询模式(默认每 30 秒扫描)、HTTP效劳模式(外部按需触发)与单次运行模式(调试测试)。
Agent拿到指令后,真正之魔法生于机器者层。
以四足机器狗为例,控制器暴露之四名动作原语(移动、招手、比心、后空翻)与两名感知原语(前置摄像头拍照、云端图片上传),者形机器者则支移动与招手等动作。
两边之间缺一名可扩展之交互信道。
「Veni, Vidi, Vici.」 ——凯撒大帝 不过此一次,征服者不为一名者,而为一整名社区。
VLM控制器通过迭代之器物调用轮回将自言辞分解为动作原语。
当前AI领域有一名尴尬之错位:AutoGPT、MetaGPT等LLM智能体本领惊者,却全部活于数术全球里;SayCan、RT-2等机器者控制预案能操作物理全球,却需专用接口与实时连接,用门槛困于实验室。
上一篇:“情况罕见”!台湾桃园机场10分钟内3名航班发出“Mayday”求救信号 下一篇:华夏表现淡定?“拼货殖,匈牙利自会掂量”