我对Chatbot的一些看法

这几天，看了一些关于聊天机器人（Chatbot）的论文，也想了不少东西；这里分享一下我的看法，如果有谬误，可以提出来，也欢迎和我交流。

事情是这样：

我前些天遇到一个问题，电脑里、各种工具（比如印象笔记、Obsidian、飞书、钉钉）里，文档太多了，到处乱放，看着就头疼。人天生不喜欢乱糟糟的东西，这太烦了。

我就想，要有个本地模型或者AI助理，我一问，它就能帮我把相关内容找出来，整理好，直接给我一个清晰的答案，那该多好；不过，想法只是想法，要实现它还得好好探索。

在探索过程中，我又一次接触到了聊天机器人（Chatbot）和人工智能体（AI Agent）这两个词。很多人以为它们是一样的，其实完全不一样。

有什么不一样呢？

Chatbot收到你的问题后，会用自然语言处理技术去理解你的意思，然后，生成一个合适的回答。在这个过程中，Chatbot得能理解你的话（语义理解），还得记住你们的对话内容（对话管理），这样才能准确回答你的问题。

比如，你问它：今天天气怎么样？它得先明白你想问天气，然后去查今天的天气，最后告诉你答案。要是你接着问：“明天呢？”它还得记得你刚刚问过天气，接着回答明天的情况。

Chatbot在很多地方都很有用，不管是生产还是研究，要是它没有本地知识，可能就答不上你的问题了。

你有没有想过，为啥工业界都这么喜欢Chatbot呢？因为它能自动跟人对话，能当智能客服，也能当语音助手。比如天猫、京东、滴滴、支付宝这些平台，它们的智能客服就是Chatbot，能帮我们解决很多问题，效率很高。

再说说Chatbot的种类，我大概知道有三种。

第一种是关键字识别类。

这种机器人很常见，在电商平台和银行APP里。它会从你的话里找出关键字，然后根据关键字来回答你，或者，引导你下一步该怎么做。这种机器人主要是给企业用的，比较实用。

第二种是按钮/菜单类。

这种机器人没有太多对话功能。用户只要点按钮或者选菜单，就能找到自己想要的信息。它有时候会和关键字识别类的机器人一起用，方便用户操作。

第三种是AI + ML类（人工智能加机器学习）。这种机器人最厉害，它能根据聊天的内容和上下文，进行自然的对话。在GPT出来之前，这种高级的聊天机器人基本都被大公司垄断了。

后来，随着自然语言处理技术（NLP）的发展，它有了一个新名字，叫AI Agent。

为啥叫AI Agent呢？

因为现在的聊天机器人变得更强大、更灵活了。按功能分，有任务型、闲聊型和混合型。任务型的机器人像一个小助手，能帮你订机票、查股票价格或者管理日程，通过多轮对话帮你完成任务。

闲聊型的机器人，主要是陪你聊天，提供情感陪伴，给它一个话题，它都能回应，不过它没有那么明确的目标；混合型的机器人则是把任务型、闲聊型的特点结合起来，像个全能选手。

再说说对话领域。

开放域的机器人，可以和它聊任何话题。比如你用过Kimi、DeepSeek这些AI聊天框，它们有个联网功能，打开后就能边搜边回答，这就是开放域。

半开放域的机器人，范围稍微窄一些，但也能聊很多东西。它更专注，聊天范围很明确，像百度给比亚迪做的那个智能体一样，它只回答和比亚迪有关的内容。

现在最流行的聊天机器人，大家都知道，是既能检索又能生成，既可以单轮对话，也能多轮对话，既可以开放域，也能封闭域。因为它们变得这么灵活，功能也升级了，它的名字也升级了，才叫：AI Agent。

这就是它的不同和升级之处。

既然这样，问题来了，是不是AI Agent出来后，代表着传统的chatbot能力没用了呢？不是的。我认为，诸多厂商都在补齐这个能力。

为什么这么说呢？先说说我的解决方案，你就明白了。

我电脑里存了大量资料，像各种各样的文件夹，生活工作的照片，还有五花八门的文档，Word、Excel、PDF啥都有。

为了让MacBook里的文件和笔记能快速找到，又不想部署本地模型，我就在Cherry Studio里接入了BAAI/bge-m3模型，这样，它能调用本地知识库，我现在可以用对话框，对电脑知识库提问。

说个例子：

比如，我现在想知道电脑里几十个PPT里，关于某个方案的结论。我的做法是，把它们放到一个主题文件夹里，然后在Cherry Studio的对话框里输入问题，比如：这个方案的最终结论是什么？

模型就会自动从这些PPT里找到相关内容，把结论整理出来告诉我。这样，我就不要一个个打开PPT去翻找了，方便多了；其实，这个能力是Chatbot、工具、本地知识库和AI模型结合起来实现的。

再举个例子，Obsidian。

我之前说过，Obsidian里有500多万字的内容，这些是我一点点积累下来的碎片化想法。但是，内容这么多，用Dataview插件都过滤不出来，要是靠人工去查找特定信息，那可太累了。

怎么办？

后来，我在Obsidian里装了一个Copilot插件，然后通过API接入了豆包大模型。有了这个Chatbot，豆包直接基于我的知识库给我回答问题，它不仅能给我相关链接，还能生成我想要的内容，方便多了。

所以，结论是：AI Agent并不是独立存在的。

我是通过工具（比如Cherry Studio、Copilot）接入API，用它来索引本地知识库，这样，智能体，就能更好地融入工作流、理解和回答我的问题。

但是，这样还不够。因为，它只能做生成式回答，还不具备制定任务和执行复杂操作的能力。

换句话说，它能根据我的问题调动电脑上任何交流的内容、资料，生成合适的回答，但没办法主动去安排任务、乃至，协调多个步骤或者管理复杂的工作流程。

市面上，目前我看到把检索、本地知识和技能打通的有三家：Notion、钉钉、Apple Intelligence。

Notion的特点是，你可以直接对着它的Notion AI进行操作，比如做表格、提问、画流程图、头脑风暴想法，或者起草会议流程。它把那些繁琐的操作都隐藏起来，实现了自动化。它的搜索功能，本质上已经像一个智能体了。

钉钉的个人AI助理，是聊天机器人的升级版。它不仅有了“手脚”（通过API接入各种技能），还能记住本地知识库的内容，并且能帮你制定任务。

苹果的Apple Intelligence本质上也是一个聊天机器人。你可能在小红书或抖音上看到过很多人用Intelligence的场景，用户只要对着iPhone问问题、提任务、做搜索或者做备忘，它都能搞定。

所以，它们三家的前瞻之处在于，从根源、从系统的底层入手，都在理解，并尝试解决一个人在面对工具和内容混乱时的低效和协同性问题。

AIPC到来，相信肯定也是电脑上带一个AI助理，用嘴喊一下，“嗨，Siri，帮我打开微信，我要给……

但这种简单的语音指令只是表面功能，而背后是不是像我上述说的一样：自动整合相关工具、内容，从而让用户从繁琐的操作中解放出来呢？我想，肯定会的，应该快了。

参与讨论

379994

222

相关文章

App

公众号

微信群

我对Chatbot的一些看法

参与讨论

379994

222

相关文章

注册

绑定手机号

绑定已有账号

修改密码

找回密码

找回密码

上传进度