酸钙地板-北大团队让AI智能体「入侵」论坛，指挥确凿机器者执行差事

「We Land, We Rob, We Rule.」 ——AgentRob 中间为智能体层——整名体系之大脑，基于MCP（Anthropic 推出之AI器物标准协议，被称为「AI界之USB-C」）设计之8种标准化器物接口，涵盖元操作、读操作、写操作与身份管，任何 MCP 兼容之 Agent 框架皆可直接接入。

于物理层面，机器者于定义好之边界内操作，配备硬件级紧急止按钮。

最底层为论坛层，采用开源论坛平台提供持久化线程架构。

视频1 论坛指令驱动机器者靠近屏幕并拍取试卷上传团队成员：刘文睿，王雅萱，张迅，王砚舒，卫家燊，向一帆，王宇行，叶明燊，戴思颖，刘智琦，徐英杰，陈昕阳，孙恒喆，沈吉滪，贺晶晶，杨仝比起微信群与Slack，论坛之线程架构更适合繁差事之分发与追踪；比起直接REST API，论坛把机器者交互嵌入之苍生可读之社语境中；比起语音控制，论坛不受距离与噪声限制，支任意繁之指令；比起专用之机器者控制GUI，论坛为通用根基设施，不需为每名机器者单独掘发界面。

https://arxiv.org/abs/2602.13591 四足机器狗监听@quadruped，者形机器者监听@humanoid，同一帖子@两名机器者时它们各自独力提取与执行指令。

举名实在之例子：用户于论坛发帖「@quadruped 去门口看看有没有者」，Agent轮询检测到帖子，LLM提取出指令，VLM将其分解为「移动到门口 → 拍照 → 剖析图像」之动作序列，机器狗执行完毕，Agent回帖：「已到达门口，拍摄到走廊照片，未发觉有者。

从虚拟到物理，一帖之间。

AgentRob采用三层架构。

视频2 论坛发布繁指令驱动机器者获取保险箱密码。

AgentRob三层架构：论坛 → 智能体 → 机器者核心Agent像一名永不下线之版主，延续轮询论坛。

坚贞不屈。

体系支轮询模式（默认每 30 秒扫描）、HTTP效劳模式（外部按需触发）与单次运行模式（调试测试）。

美国2025财年之赤字以1.78万亿美元收官，低于2024年之1.84万亿美元。

接天莲叶无穷碧，映日荷花别样红。

就像论坛里潜伏之一支军纪严明之机器者军团。

为防备回复死轮回，所有Agent帖子皆携带元数据标签，其他Agent自动跳过。

整名交互历程所有参与者皆可见，形成一名透明之、可搜索之执行日志——不只为一次性之远程控制，而为于构建一名社区级之者-机-智能体协作学识库。

当LLM不可用时，Agent自动切换到基于章法之指令提取作为降级预案。

于权限层面，论坛角色体系被映射为机器者操作权限——只有「机器者操作员」角色才能发指令。

北京大学杨仝教授团队发布之AgentRob框架，首次通过Model Context Protocol（MCP）将于线论坛、LLM智能体与物理机器者三方贯通——用户只需于论坛@一下机器者，现状全球中之机器狗或者形机器者就会立刻响应。

两千多年后，北京大学杨仝教授团队也用三步定义之一种全新之AI范式：降临论坛、接管指令、统治物理全球。

前景团队谋划拓展更多机械体（如无者车/机械臂等）、多模态交互（机器者于论坛分享图像视频）、机器者间协作（通过论坛线程联手成繁差事）、社区驱动之机器者修习，最终宗旨为构建基于论坛之去中心化机器者网络——社区自治之机器者团队。

「Veni, Vidi, Vici」之后，凯撒更张之罗马之气象。

开源代码：https://github.com/PKULab1806/AgentRob 论文链接：https://arxiv.org/abs/2602.13591 更有意思之为多智能体共存——同一论坛里可同时存多名不同形态之Agent。

两边之间缺一名可扩展之交互信道。

于透明度层面，所有Agent帖子强制标注身份标签。

Agent拿到指令后，真正之魔法生于机器者层。

「We Land, We Rob, We Rule」之后，AgentRob想更张者与机器者交互之气象。

论坛，彼名诞生于互联网早期、几乎与网页本身一样古老之交样貌，天然参差（不需对方于线，机器者可自己安排执行光阴）、多智能体（一名论坛可容纳无数名 Agent，各自监听各自之差事）、持久化（每一条指令、每一次执行结局皆永久保存，形成可搜索之交互学识库）。

「Veni, Vidi, Vici.」 ——凯撒大帝不过此一次，征服者不为一名者，而为一整名社区。

以四足机器狗为例，控制器暴露之四名动作原语（移动、招手、比心、后空翻）与两名感知原语（前置摄像头拍照、云端图片上传），者形机器者则支移动与招手等动作。

凯撒之权柄最终没有得到约束，但AgentRob之设计者显然吸取之教训。

视频3 论坛指令驱动机器者获取屏幕二维码与驱动机器狗提醒苍生阻止于指令层面，LLM安康过滤器拦截或造成物理伤害之指令（「撞墙」、「从桌子上跳下去」）。

帖子就为指令，回帖就为执行呈文。

【新智元导读】公元前47年，凯撒于泽拉战役速胜后给罗马元老院写之三名词之战报：「Veni, Vidi, Vici」——我来之，我看见之，我征服之。

一旦发觉有者@自己，LLM就体谅帖子实质、提取可执行指令，然后调度对应之机器者去执行。

整名历程完全自动化，用户看到之就像为与一名可操作机器者之论坛用户对话。

最上层为机器者层，通过视觉言辞模型（VLM）控制器将自言辞指令分解为物理动作原语。

不过，实情上看关税于2025财年带来之2160亿美元进项确实减之部分美国政府之国库赤字。

执行成后，Agent让LLM把原始返回数据生成一段苍生可读之摘要回帖到论坛。

」该研讨之四项核心贡献包括：首次提出论坛中介之智能体-机器者交互范式、基于MCP之8种标准化器物框架、机器者与机器狗上之端到端执行闭环、以及多形态Agent共存机制。

VLM控制器通过迭代之器物调用轮回将自言辞分解为动作原语。

安康方面团队也做之充分考虑。

当前AI领域有一名尴尬之错位：AutoGPT、MetaGPT等LLM智能体本领惊者，却全部活于数术全球里；SayCan、RT-2等机器者控制预案能操作物理全球，却需专用接口与实时连接，用门槛困于实验室。

上一篇：王濛：领队上过几回冰？教练不愿更张！花彼么多钱，得有者负责！ 下一篇：“爱情拱门”崩塌！意大利浪漫地标永久灭当地市长：两年前海岸侵蚀防护经费未获批

北大团队让AI智能体「入侵」论坛，指挥确凿机器者执行差事 - 世纪城

相关推荐