2025年距离HER变成现实, 还有多久?

你以为AIAgent只是效率工具？它正在变得更像“人”。本文通过对Agent技术的拆解，分析其在感知、理解、表达等方面的演进趋势，并提出产品人在设计AI产品时应关注的关键维度。

今天来聊聊怎么做好AI聊天这个基础简单的功能，以及背后的架构是怎样的。说直白点，怎样实现一个HER里的萨曼莎，而不是做成一个语音的问答机器人。

现在所有的AI聊天模型都有这个问题，就是用户在没有问题想问的时候，是不会想起来主动来找AI的，因为AI缺少“主动性”。对我来说，聊天是双方消费信息的过程，我跟AI聊天，它永远不能给出一个我意料之外的话题。这是最根本的问题。

我为什么想要刷视频？因为我虽然有自己偏好的领域，但是我并不能提前知道我会看到什么样的内容，现在推荐算法提供给我的信息是“新”的，是我预料不到的。

如果现在的抖音还需要我提前说一句“我想看罗翔最近有啥新动态”，使用门槛就太高了，但现在的AI聊天就类似有一个这样的门槛。

如何做一个更主动的聊天功能

上面大概解释了一下为什么要让AI更具有主动性，那现在拆解一下怎么实现。

首先从产品的角度来拆，就是如何用AI来复刻用户和真实朋友之间的对话，这个话题乍一想很复杂，因为你不可能穷举所有聊天的话题和场景。但是从用户视角来看，无论是跟谁对话，无非分成三步：开始对话、聊某一个话题、结束对话。我们依次来分析。

第一步，发起对话

指从零开始打一通电话（忘记说了，既然是HER，我们聚焦于一个AI角色跟你语音进行聊天的场景）。以往这个动作都是由用户完成的，但是未来必定更多是AI主动发起的。

AI发起对话的动机有两类，一是消息通知，类似app的弹窗，另一类就是AI角色自己有找你的动机。前者非常简单，后者非常难。

难不在于实现，而在于真正把体验做好，哪怕是真人主动找你聊天，太频繁会让人心烦、话题太琐碎会让人觉得你大题小做、话题太无聊会让人毫无兴趣。总之主动发起语音的对话，相比弹窗要更谨慎，因为听觉的迫听性，对于用户的打扰非常大。只要发起的话题不对，就会适得其反，让用户极其厌烦。

第二步，聊好一个话题

假设AI成功的从海量信息中找到了一个用户感兴趣、愿意花几分钟跟你聊一会的话题，如何把这个话题聊好，也是非常难的。比如话术，AI的话术至今仍然没有变得特别口语化，这个问题是因为缺少数据，缺少语音聊天的、口语化的数据，因为AI模型本质就是数据。

另一个大模块是记忆，记忆是跟用户聊好一个话题的重要基础。这个记忆的范围非常广，但是简单说就是让AI知道，它在跟“谁”说话。假如选了一个话题《黑神话：钟馗》，对面的人是喜欢游戏还是无感？是否知道游科和冯骥？是否之前聊过？是否甚至是游科的一员？

上面每一个分类的不同，都可能导致分享这些信息时，策略完全不同，或者语气也完全不同。

对于话题的内容，还有一个点在于AI能否主动提供新信息。现在哪怕跟豆包聊天，也有一个最大的硬伤（在我看来），就是你很难从她那里知道一些你意想不到的信息，但这一点是真人聊天最重要的部分，即互相的信息消费。

比如我跟朋友聊周杰伦，他可能随口联想到周杰伦最近发了新歌，但我完全不知道，于是我继而联想到最近另一个明星也发了新歌，朋友刚好也不知道。

这个过程就能看到，对话的过程是一个线状的、由联想串起来的，而这是目前AI缺少的。现在的AI更像是一个语音版的搜索引擎，它很难提供给我“联想”，我基本每次和豆包聊天前，都能预想到整个对话的大概走向，从来没有哪一次聊天结束后，想的是“我咋跟一个AI聊到这去了”。

但是跟真人朋友，对话是很容易从“周杰伦”聊到美国最近的社会动荡，过程甚至自然到双方都感知不到。

第三步，结束对话

如何把话题聊好，其实还有很多方面的细节，还是先继续聊完整个流程吧。对话的结束也很简单，一个是用户主动结束，另一个就是AI主动结束，后者其实仔细一想，是非常有趣的，甚至很大程度能塑造AI人格的方式。

比如AI能否看到现在时间晚了，主动让我别熬夜了，去睡觉吧。甚至能否说“我今天心情也有点差，先不跟你聊了”，让AI也偶尔耍耍小脾气？

情感构建的一些深入思考

其实深入想为什么要做AI的聊天，甚至为什么要给AI做一个人格出来，当一个AI有了人格，就能让用户更愿意表达自身了吗？

很多人一直以来认为AI聊天不可替代，是因为AI永远不会像真人一样“批判”你，你跟AI聊天心里是有预期的，知道自己可以说出任何事，而且对方都会非常耐心的善待自己，这种情绪价值是现实生活中真的没有替代的。

但是另一个方向，正是这样的设计，也让AI越来越难拥有自己的人格，因为前面可以得知，用户的目的是在于“输出”，在于找个地方表达自己，然后获得“输入”，这个输入最好是结合记忆的、善意的输入。

之前gpt4o事件也体现出了用户对AI记忆的重视程度。但是我个人也有个疑问，即用户到底希望AI记住ta的什么？

会有一个现象：一个人打开一个AI窗口，故意跟AI说一些挑衅甚至恶意的话，抱有试探的心态，这种话题通常不会跟一个真实的陌生人说，因为这样会影响自己的“形象”。但是跟AI聊天的时候，似乎打开一个新的聊天窗口，就是一个新的自己了。

这一点是个双刃剑，可以让用户没有心里压力、随心所欲的说；但是否也会导致用户不把AI当一个“真人”，只在意AI的工具属性。还是说，用户根本不需要把AI当做“有性格的人”或是“代码块”，用户的本质只是需要获得个性化的情绪价值、需求满足。

总之对话作为人与人之间互动的最最基础的方式，背后有非常多的细节和思考方式，甚至最好还能有一些社科类的专家共同讨论。

而目前豆包也好、gpt也好，距离一个HER里的萨曼莎，还有挺远的距离。

不过也并不是说HER就是终极的正确答案了，因为AI也不应该把“占据人们的时间和情绪”作为目的，反而应该是让用户去回归现实生活，哪怕是情绪价值，也应该是AI引领着用户一步步从现实生活中学着找到。