我对Chatbot的一些看法

营销技术Martech
王智远
2025-02-10

这几天,看了一些关于聊天机器人(Chatbot)的论文,也想了不少东西;这里分享一下我的看法,如果有谬误,可以提出来,也欢迎和我交流。

事情是这样:

我前些天遇到一个问题,电脑里、各种工具(比如印象笔记、Obsidian、飞书、钉钉)里,文档太多了,到处乱放,看着就头疼。人天生不喜欢乱糟糟的东西,这太烦了。

我就想,要有个本地模型或者AI助理,我一问,它就能帮我把相关内容找出来,整理好,直接给我一个清晰的答案,那该多好;不过,想法只是想法,要实现它还得好好探索。

在探索过程中,我又一次接触到了聊天机器人(Chatbot)和人工智能体(AI Agent)这两个词。很多人以为它们是一样的,其实完全不一样。

有什么不一样呢?

Chatbot收到你的问题后,会用自然语言处理技术去理解你的意思,然后,生成一个合适的回答。在这个过程中,Chatbot得能理解你的话(语义理解),还得记住你们的对话内容(对话管理),这样才能准确回答你的问题。

比如,你问它:今天天气怎么样?它得先明白你想问天气,然后去查今天的天气,最后告诉你答案。要是你接着问:“明天呢?”它还得记得你刚刚问过天气,接着回答明天的情况。

Chatbot在很多地方都很有用,不管是生产还是研究,要是它没有本地知识,可能就答不上你的问题了。

你有没有想过,为啥工业界都这么喜欢Chatbot呢?因为它能自动跟人对话,能当智能客服,也能当语音助手。比如天猫、京东、滴滴、支付宝这些平台,它们的智能客服就是Chatbot,能帮我们解决很多问题,效率很高。

再说说Chatbot的种类,我大概知道有三种。

第一种是关键字识别类。

这种机器人很常见,在电商平台和银行APP里。它会从你的话里找出关键字,然后根据关键字来回答你,或者,引导你下一步该怎么做。这种机器人主要是给企业用的,比较实用。

第二种是按钮/菜单类。

这种机器人没有太多对话功能。用户只要点按钮或者选菜单,就能找到自己想要的信息。它有时候会和关键字识别类的机器人一起用,方便用户操作。

第三种是AI + ML类(人工智能加机器学习)。这种机器人最厉害,它能根据聊天的内容和上下文,进行自然的对话。在GPT出来之前,这种高级的聊天机器人基本都被大公司垄断了。

后来,随着自然语言处理技术(NLP)的发展,它有了一个新名字,叫AI Agent。

为啥叫AI Agent呢?

因为现在的聊天机器人变得更强大、更灵活了。按功能分,有任务型、闲聊型和混合型。任务型的机器人像一个小助手,能帮你订机票、查股票价格或者管理日程,通过多轮对话帮你完成任务。

闲聊型的机器人,主要是陪你聊天,提供情感陪伴,给它一个话题,它都能回应,不过它没有那么明确的目标;混合型的机器人则是把任务型、闲聊型的特点结合起来,像个全能选手。

再说说对话领域。

开放域的机器人,可以和它聊任何话题。比如你用过Kimi、DeepSeek这些AI聊天框,它们有个联网功能,打开后就能边搜边回答,这就是开放域。

半开放域的机器人,范围稍微窄一些,但也能聊很多东西。它更专注,聊天范围很明确,像百度给比亚迪做的那个智能体一样,它只回答和比亚迪有关的内容。

现在最流行的聊天机器人,大家都知道,是既能检索又能生成,既可以单轮对话,也能多轮对话,既可以开放域,也能封闭域。因为它们变得这么灵活,功能也升级了,它的名字也升级了,才叫:AI Agent。

这就是它的不同和升级之处。

既然这样,问题来了,是不是AI Agent出来后,代表着传统的chatbot能力没用了呢?不是的。我认为,诸多厂商都在补齐这个能力。

为什么这么说呢?先说说我的解决方案,你就明白了。

我电脑里存了大量资料,像各种各样的文件夹,生活工作的照片,还有五花八门的文档,Word、Excel、PDF啥都有。

为了让MacBook里的文件和笔记能快速找到,又不想部署本地模型,我就在Cherry Studio里接入了BAAI/bge-m3模型,这样,它能调用本地知识库,我现在可以用对话框,对电脑知识库提问。

说个例子:

比如,我现在想知道电脑里几十个PPT里,关于某个方案的结论。我的做法是,把它们放到一个主题文件夹里,然后在Cherry Studio的对话框里输入问题,比如:这个方案的最终结论是什么?

模型就会自动从这些PPT里找到相关内容,把结论整理出来告诉我。这样,我就不要一个个打开PPT去翻找了,方便多了;其实,这个能力是Chatbot、工具、本地知识库和AI模型结合起来实现的。

再举个例子,Obsidian。

我之前说过,Obsidian里有500多万字的内容,这些是我一点点积累下来的碎片化想法。但是,内容这么多,用Dataview插件都过滤不出来,要是靠人工去查找特定信息,那可太累了。

怎么办?

后来,我在Obsidian里装了一个Copilot插件,然后通过API接入了豆包大模型。有了这个Chatbot,豆包直接基于我的知识库给我回答问题,它不仅能给我相关链接,还能生成我想要的内容,方便多了。

所以,结论是:AI Agent并不是独立存在的。

我是通过工具(比如Cherry Studio、Copilot)接入API,用它来索引本地知识库,这样,智能体,就能更好地融入工作流、理解和回答我的问题。

但是,这样还不够。因为,它只能做生成式回答,还不具备制定任务和执行复杂操作的能力。

换句话说,它能根据我的问题调动电脑上任何交流的内容、资料,生成合适的回答,但没办法主动去安排任务、乃至,协调多个步骤或者管理复杂的工作流程。

市面上,目前我看到把检索、本地知识和技能打通的有三家:Notion、钉钉、Apple Intelligence。

Notion的特点是,你可以直接对着它的Notion AI进行操作,比如做表格、提问、画流程图、头脑风暴想法,或者起草会议流程。它把那些繁琐的操作都隐藏起来,实现了自动化。它的搜索功能,本质上已经像一个智能体了。

钉钉的个人AI助理,是聊天机器人的升级版。它不仅有了“手脚”(通过API接入各种技能),还能记住本地知识库的内容,并且能帮你制定任务。

苹果的Apple Intelligence本质上也是一个聊天机器人。你可能在小红书或抖音上看到过很多人用Intelligence的场景,用户只要对着iPhone问问题、提任务、做搜索或者做备忘,它都能搞定。

所以,它们三家的前瞻之处在于,从根源、从系统的底层入手,都在理解,并尝试解决一个人在面对工具和内容混乱时的低效和协同性问题。

AIPC到来,相信肯定也是电脑上带一个AI助理,用嘴喊一下,“嗨,Siri,帮我打开微信,我要给……

但这种简单的语音指令只是表面功能,而背后是不是像我上述说的一样:自动整合相关工具、内容,从而让用户从繁琐的操作中解放出来呢?我想,肯定会的,应该快了。

参与讨论

回到顶部