"智能体"这个词有点奇怪。它出现在科幻电影里,大家脑海中立刻浮现出红眼睛、穿风衣、认定人类是麻烦的机器人。它出现在科技博客里,大家又以为是个能自己定目标、脱离人类管控的程序。
两种印象都不对。真实情况平静得多,一旦看清楚,其实相当显而易见。
这是《AI 大白话》系列的第四篇。如果你是第一次读,本系列始终围绕同一个画面:墙后信箱口旁的图书馆员。图书馆员读过所有书,续写纸条(prompt,提示词)的本事无人能及,但他们坐在墙后面,只有一个信箱口(mail slot)。你塞进去一张纸条,一张纸条滑回来。仅此而已。而且,纸条一消失,图书馆员就把你忘得一干二净。
图书馆员的尴尬短板
问题就出在这里。假设你想问:"曼彻斯特周六的天气预报是什么?"
图书馆员没法好好回答。他们没看过今天的天气预报,也没看过过去一年的任何预报。他们的知识在某个时间点就停了,就算没停,他们也不能迈出墙外去查。他们在墙后面,只有一个信箱口,仅此而已。
再比如:"帮我把这张表格里的数字加起来告诉我总数。"图书馆员会写字,会推理,但没有表格可以打开,没有计算器可以用。纸条进来,纸条出去,表格还是原封不动地搁在你的桌上,从没到过他们那里。
还有:"帮我读一下我刚传的 PDF,总结一下。"那堵墙后面没有 PDF,只有一个信箱口。
这不是在批评图书馆员。他们在自己擅长的事情上真的了不起。但他们擅长的事情很窄:续写纸条。其他的一切——出去查东西、打开文件、在另一个程序里按按钮——根本不在他们的职责范围内。
跑腿的出场了
于是你雇了个帮手。不是另一个天才,就是一个普通帮手,专门替你守在信箱口旁边。
我们叫他跑腿的——而"agent(智能体)"就是同一个意思的技术说法。**智能体(agent)**是一段包在图书馆员外面的程序,专门负责处理杂活。
交接流程是这样的:你有一个问题,你不用自己写纸条塞进信箱口,而是把问题交给跑腿的。跑腿的写好纸条,塞进去,读取滑回来的回复。如果图书馆员的回复里写着"我需要今天的天气数据才能回答",跑腿的就出去把数据找来。然后跑腿的重新写一张纸条——你原来的问题,加上刚刚查到的天气数据订在后面——再塞进去。这次图书馆员有了所有需要的信息,回复就有用了。
跑腿的把回复转交给你。从你的角度来看,这个系统"直接回答了"。
这就是那张画:你——跑腿的——图书馆员。跑腿的站在你和那堵墙之间,处理一切图书馆员做不了的事。
一句话点破关键
这里有一个洞见,能把整个概念说清楚。
智能体就是那些不需要天才的部分。
再读一遍,因为这句话立刻去掉了所有神秘感。图书馆员是天才,负责做难的、微妙的、有创造性的工作:理解语言、推理、生成连贯的回复。智能体负责其他一切——固定的、机械的、普通的步骤:查一个天气网站、打开一个文件、把数字送进计算器、检查一项任务有没有完成、把结果写进表格。
这些步骤一个都不需要天赋。一个听话的中学生按说明来也能做。智能体本质上就是一个组织有序的小助手,来回传话,顺便做做跑腿的小差事。
早期的智能体有多简单
这是最让人意外的地方。既然"AI 智能体"这个词听起来那么厉害,你可能以为它是一件工程上极其复杂的事情。
早期的一些智能体简单得近乎可笑。在一个基础的实现里,"智能体"做的全部,就是在你的纸条顶部加几行字,比如:"你是一个有用的助手。如果你需要搜索网络,请写 SEARCH: 后面跟上你的查询词,我会把结果带回来。"就这些。那个"智能"只是几句用普通话写的说明。智能体是一个循环:发送纸条,检查回复里有没有出现 SEARCH 这个词,有就去搜索,然后再发一次。
后来的智能体越来越复杂——可以使用多种工具、做一系列决策、把大任务拆成小任务。但原则从未改变。天才留在图书馆员那里。机械的步骤留在跑腿的这里。
为什么"智能体"这个词听起来比实际可怕
语言很重要。"智能体"或"agent"这个词在电影和小说里背负了太多包袱,那些故事里人工存在会发展出自己的欲望,然后反过来对付创造者。那个故事画面太鲜明,人们记住了。
但在软件领域,"agent"来自一个古老得多、也无聊得多的传统。它只是"代表别人行事的东西"。旅行代理(travel agent)代表你行事。软件智能体代表程序行事——在这里,它代表图书馆员行事,做那些图书馆员自己没法做的差事。
以后每当你在新闻里看到"AI 智能体",都可以直接翻译成:"一个帮 AI 大模型(LLM,大语言模型)去查东西、按按钮的小助手程序。"
当然,随着这些系统越来越强大,确实有值得认真对待的问题——比如如何监督、一个智能体把错误传给下一个怎么办、出了问题谁来负责。这些是真实的讨论。但概念本身,在核心上,是一个跑腿小助手。仅此而已。
脑子里留住这张画
想象三张桌子排成一排。
左边是你的桌子。墙中间有一个信箱口。图书馆员在墙的右边,看不见。
在你和信箱口之间,跑腿的坐在一张小桌子旁。他有一部手机可以联网搜索,有权限访问你的文件,有一个计算器,还有一张说明单,告诉他当图书馆员的回复里出现某些词时该怎么做。
你把问题交给跑腿的。跑腿的处理一切后续。你拿到答案。图书馆员从没离开他的椅子。你也从没需要去弄明白怎么用那部手机或者找哪个文件。跑腿的把那些不需要天才的部分都做了。
这三张桌子的画面,就是 AI 智能体的全部。
下一篇
本系列下一篇——AI 怎么读文件和上网搜索——会仔细看跑腿的能跑的两种差事:按意思从书架上找对的书(工程师叫它 RAG,检索增强生成),以及出门去问一圈(联网搜索)。这两件事都能扩大图书馆员能有用地回答的范围,但两件事都不会改变图书馆员本身是什么。天才还是待在墙后面。跑腿的负责杂活。
那个规律就是这样。跑腿的只是一个组织有序的小助手,手上有一张不长的清单写着他能做的事。那句关键话还是成立的:智能体就是那些不需要天才的部分。
这是《AI 大白话》系列第 4 篇,共 10 篇。从头开始请访问系列首页,或回到 aitutors.me。