2025年距离HER变成现实, 还有多久?

你以为AIAgent只是效率工具?它正在变得更像“人”。本文通过对Agent技术的拆解,分析其在感知、理解、表达等方面的演进趋势,并提出产品人在设计AI产品时应关注的关键维度。

今天来聊聊怎么做好AI聊天这个基础简单的功能,以及背后的架构是怎样的。说直白点,怎样实现一个HER里的萨曼莎,而不是做成一个语音的问答机器人。

现在所有的AI聊天模型都有这个问题,就是用户在没有问题想问的时候,是不会想起来主动来找AI的,因为AI缺少“主动性”。对我来说,聊天是双方消费信息的过程,我跟AI聊天,它永远不能给出一个我意料之外的话题。这是最根本的问题。

我为什么想要刷视频?因为我虽然有自己偏好的领域,但是我并不能提前知道我会看到什么样的内容,现在推荐算法提供给我的信息是“新”的,是我预料不到的。

如果现在的抖音还需要我提前说一句“我想看罗翔最近有啥新动态”,使用门槛就太高了,但现在的AI聊天就类似有一个这样的门槛。

如何做一个更主动的聊天功能

上面大概解释了一下为什么要让AI更具有主动性,那现在拆解一下怎么实现。

首先从产品的角度来拆,就是如何用AI来复刻用户和真实朋友之间的对话,这个话题乍一想很复杂,因为你不可能穷举所有聊天的话题和场景。但是从用户视角来看,无论是跟谁对话,无非分成三步:开始对话、聊某一个话题、结束对话。我们依次来分析。

第一步,发起对话

指从零开始打一通电话(忘记说了,既然是HER,我们聚焦于一个AI角色跟你语音进行聊天的场景)。以往这个动作都是由用户完成的,但是未来必定更多是AI主动发起的。

AI发起对话的动机有两类,一是消息通知,类似app的弹窗,另一类就是AI角色自己有找你的动机。前者非常简单,后者非常难。

难不在于实现,而在于真正把体验做好,哪怕是真人主动找你聊天,太频繁会让人心烦、话题太琐碎会让人觉得你大题小做、话题太无聊会让人毫无兴趣。总之主动发起语音的对话,相比弹窗要更谨慎,因为听觉的迫听性,对于用户的打扰非常大。只要发起的话题不对,就会适得其反,让用户极其厌烦。

第二步,聊好一个话题

假设AI成功的从海量信息中找到了一个用户感兴趣、愿意花几分钟跟你聊一会的话题,如何把这个话题聊好,也是非常难的。比如话术,AI的话术至今仍然没有变得特别口语化,这个问题是因为缺少数据,缺少语音聊天的、口语化的数据,因为AI模型本质就是数据。

另一个大模块是记忆,记忆是跟用户聊好一个话题的重要基础。这个记忆的范围非常广,但是简单说就是让AI知道,它在跟“谁”说话。假如选了一个话题《黑神话:钟馗》,对面的人是喜欢游戏还是无感?是否知道游科和冯骥?是否之前聊过?是否甚至是游科的一员?

上面每一个分类的不同,都可能导致分享这些信息时,策略完全不同,或者语气也完全不同。

对于话题的内容,还有一个点在于AI能否主动提供新信息。现在哪怕跟豆包聊天,也有一个最大的硬伤(在我看来),就是你很难从她那里知道一些你意想不到的信息,但这一点是真人聊天最重要的部分,即互相的信息消费。

比如我跟朋友聊周杰伦,他可能随口联想到周杰伦最近发了新歌,但我完全不知道,于是我继而联想到最近另一个明星也发了新歌,朋友刚好也不知道。

这个过程就能看到,对话的过程是一个线状的、由联想串起来的,而这是目前AI缺少的。现在的AI更像是一个语音版的搜索引擎,它很难提供给我“联想”,我基本每次和豆包聊天前,都能预想到整个对话的大概走向,从来没有哪一次聊天结束后,想的是“我咋跟一个AI聊到这去了”。

但是跟真人朋友,对话是很容易从“周杰伦”聊到美国最近的社会动荡,过程甚至自然到双方都感知不到。

第三步,结束对话

如何把话题聊好,其实还有很多方面的细节,还是先继续聊完整个流程吧。对话的结束也很简单,一个是用户主动结束,另一个就是AI主动结束,后者其实仔细一想,是非常有趣的,甚至很大程度能塑造AI人格的方式。

比如AI能否看到现在时间晚了,主动让我别熬夜了,去睡觉吧。甚至能否说“我今天心情也有点差,先不跟你聊了”,让AI也偶尔耍耍小脾气?

情感构建的一些深入思考

其实深入想为什么要做AI的聊天,甚至为什么要给AI做一个人格出来,当一个AI有了人格,就能让用户更愿意表达自身了吗?

很多人一直以来认为AI聊天不可替代,是因为AI永远不会像真人一样“批判”你,你跟AI聊天心里是有预期的,知道自己可以说出任何事,而且对方都会非常耐心的善待自己,这种情绪价值是现实生活中真的没有替代的。

但是另一个方向,正是这样的设计,也让AI越来越难拥有自己的人格,因为前面可以得知,用户的目的是在于“输出”,在于找个地方表达自己,然后获得“输入”,这个输入最好是结合记忆的、善意的输入。

之前gpt4o事件也体现出了用户对AI记忆的重视程度。但是我个人也有个疑问,即用户到底希望AI记住ta的什么?

会有一个现象:一个人打开一个AI窗口,故意跟AI说一些挑衅甚至恶意的话,抱有试探的心态,这种话题通常不会跟一个真实的陌生人说,因为这样会影响自己的“形象”。但是跟AI聊天的时候,似乎打开一个新的聊天窗口,就是一个新的自己了。

这一点是个双刃剑,可以让用户没有心里压力、随心所欲的说;但是否也会导致用户不把AI当一个“真人”,只在意AI的工具属性。还是说,用户根本不需要把AI当做“有性格的人”或是“代码块”,用户的本质只是需要获得个性化的情绪价值、需求满足。

总之对话作为人与人之间互动的最最基础的方式,背后有非常多的细节和思考方式,甚至最好还能有一些社科类的专家共同讨论。

而目前豆包也好、gpt也好,距离一个HER里的萨曼莎,还有挺远的距离。

不过也并不是说HER就是终极的正确答案了,因为AI也不应该把“占据人们的时间和情绪”作为目的,反而应该是让用户去回归现实生活,哪怕是情绪价值,也应该是AI引领着用户一步步从现实生活中学着找到。