问题部分在于,我们仍处在为这些 AI 智能体构建必要基础设施的阶段。如果我们希望智能体能为我们完成任务,就需要赋予它们必要的工具,同时确保它们能负责任地使用这些权力。
Anthropic 和谷歌(Google)等公司和团体就在致力于解决这个问题。在过去的一年里,他们相继推出了新的协议,试图定义 AI 智能体之间以及它们与外部世界交互的方式。这些协议有望让 AI 智能体更轻松地控制电子邮件客户端和笔记应用等其他程序。
这背后的关键在于应用程序编程接口(API,Application Programming Interfaces),正是这些接口构成了我们线上世界中计算机与程序之间信息交换的基石。目前,API 通过标准化的信息来回应“ping”请求。但 AI 模型的设计并非旨在每次都以完全相同的方式工作,其内在的随机性一方面让它们的对话显得自然且富有表现力,另一方面也给调用 API 并理解其响应带来了困难。
“模型说的是自然语言,”Anthropic 的项目经理 Theo Chu 表示。“要让模型获取上下文并利用其完成某项任务,就必须存在一个翻译层,让模型能够理解这些信息。”Chu 所参与的,正是这样一种翻译技术——模型上下文协议(MCP,Model Context Protocol),该协议由 Anthropic 于去年年底推出。
MCP 旨在标准化 AI 智能体通过各种程序与世界互动的方式,并且已经相当普及。一个用于 MCP 服务器(本质上是智能体访问不同程序或工具的门户)的网络聚合器显示,已有超过 15,000 个服务器上线。
MCP 和 A2A 都是基于“智能体的语言”来工作的——它们使用词语和短语(在 AI 领域被称为自然语言),就像 AI 模型回应人类时一样。这是这些协议的卖点之一,因为它意味着模型无需为了适应一种不自然的方式而接受额外训练。“允许在智能体之间,而不仅仅是与人类之间,使用自然语言接口,从而释放了这些智能体内置的智能,” Surapaneni 解释道。
但这种选择也有其弊端。自然语言接口缺乏 API 的精确性,可能导致不正确的响应,并造成效率低下。
我们真的准备好把钥匙交给 AI 智能体了吗?我们正开始赋予 AI 智能体真正的自主权,但我们还没准备好应对可能发生的后果。
通常,AI 模型通过将文本拆分成“令牌”(token)来读取和响应。AI 模型读取提示,将其拆分为输入 token,生成响应,再将输出 token 组合成词语发送回去。这些 token 在某种程度上定义了 AI 模型需要完成多少工作量——这也是大多数 AI 平台根据使用的 token 数量向用户收费的原因。