Chat模式是和AI最好的交互范式吗?

构建AI功能/应用的一些理解,关键不是交互的形式,而是找到用户意图复杂度与交互密度的最佳匹配点

cover

为什么有些 AI 功能越用越离不开,有些用了几次尝鲜之后,就不再碰?

我从 GPT-3.5 发布第一个月就开始用 AI,也尝试写过各种demo项目,参与过早期的NextChat开源项目,现在每天都离不开各类ai工具。最近在想一个问题: Chat模式是和AI最好的交互范式吗?

Chat模式为什么让人感觉舒服?

用ChatGPT的时候,我经常有种感觉:就像在和一个很聪明的朋友聊天。我说一句,它回一句,我们慢慢把问题聊清楚。

这种感觉和用其他AI功能很不一样。比如一些”一键生成”的功能,我点一下,它哗啦啦输出一大堆,我看着就头大。

想了想,发现Chat模式有个特点: 你一句,我一句,每次交换的信息都是小块的。

从AI的工作原理看Chat模式

大模型本质上是预测下一个token。它需要基于前面的内容来预测后面的内容。

这让我想到一个角度: Chat模式中,每次用户的一句话,其实都是对AI预测下一段token的调整。

或者用更技术的语言说:每次人的输入都在减少AI理解用户意图的熵。

Chat交互模式:
用户: "我想写个用户管理功能"
AI: "好的,你需要哪些具体功能?增删改查?还是..."
用户: "主要是查询和编辑,要支持分页"
AI: "明白了,你用的是什么技术栈?数据库是..."
用户: "React + Node.js,MongoDB"
AI: "好的,我来帮你写一个基于这个技术栈的用户管理..."

每一轮对话,AI对用户意图的理解都更精确一些。

意图信息密度匹配的概念

从这个观察中,我想到一个概念: 意图信息密度匹配

用户的意图信息密度:
┌─────────────────────┐
│ 具体目标 + 使用场景   │
│ + 个人偏好 + 约束条件 │
└─────────────────────┘

AI理解的意图信息密度:
┌─────────────────────┐
│ 从对话中提取的      │
│ 用户真实意图程度    │
└─────────────────────┘

当两者匹配度高时,AI输出就符合期望;当差距过大时,AI输出就会偏离预期。

无论是AI理解不了人,还是人不再能够理解AI输出的内容,都不是一个好的体验。

Chat模式的本质就是: 它能和AI进行高密度的意图交互。

其他成功的交互模式也有类似特征

想到这里,我开始观察其他好用的AI功能,发现它们虽然不是Chat模式,但本质上也在做类似的事情。

Cursor Tab补全:另一种”你一句我一句”

我: function calculatePrice(
AI: items: Product[], discount: number): number {
我: ↵ (采纳)  const basePrice = 
AI: items.reduce((sum, item) => sum + item.price, 0);
我: ↵ (采纳)  return basePrice * 
AI: (1 - discount);

这也是人一下,AI一下的模式。我写前几个单词,AI预测后面的,我选择是否采纳。整个过程协同密度足够高,每一步都在对齐认知。

cursor tab cursor tab

Granola会议笔记:并行理解,AI往人靠

会议进行中:
我手动记录:  [重要决定] 下周发布新功能
              [风险点] 数据库性能  
              [行动项] 张三负责测试

AI同时记录:  完整的会议转录内容

结合阶段:
AI基于我的重点标记来组织它记录的详细内容

这个设计很有意思:它没有采取”你一句我一句”,而是采取 并行理解相同的内容,然后AI往人的理解上靠

本质也是在减少熵增,拉齐认知,并且以人为主导。

为什么一键生成常常让人失望?

对比一下一键生成的模式:

一键生成模式:
用户: "帮我写个电商网站"
AI: [生成大量代码和文档]
用户: [需要花很多时间理解和修改,最后发现根本用不了!!!]

问题在于:

  • 用户一次性描述很难传达完整意图
  • AI大量输出让用户认知负荷爆炸
  • 缺乏中间的意图校准过程

成功的AI产品/功能都在不断拉齐人和ai的共同认知

观察一些真正好用的AI产品:

  • GitHub Copilot :在代码编写过程中实时预测,保持高频意图同步
  • Notion AI :基于已有文档内容进行续写,上下文丰富
  • Figma AI :在现有设计基础上调整,意图边界清晰

它们的共同点: 都在用户提供丰富意图上下文的基础上进行AI增强,同时保持人和AI一致性理解

什么场景适合”一键生成”?

当然,也有一些场景适合大颗粒度生成:

意图简单明确的场景

  • 翻译 :意图就是转换语言
  • 格式转换 :规则清晰,没有歧义
  • 模板生成 :标准化程度高

容错度高的场景

  • 头脑风暴 :随便生成想法,错了也无所谓
  • 快速原型 :只要能跑起来就行

这些场景的特点是:用户意图相对简单,或者对结果要求不高。 比如飞书的会议总结就是好的应用场景

一些思考

基于这些观察,我觉得设计AI功能时可以考虑:

1. 评估意图复杂度

  • 用户意图是否容易一次性描述清楚?
  • 个性化需求有多强?
  • 对结果的精确度要求如何?

2. 选择合适的交互密度

  • 复杂意图:高频交互,保持同步(像Chat、Tab补全、Granola这种后置拉齐ai和人协同的认知)
  • 简单意图:可以支持一键生成

3. 设计意图校准机制

  • 如何让用户轻松提供上下文?
  • 如何及时发现意图理解偏差?
  • 如何保持以人为主导?

未来的方向

从技术发展看,可能的优化方向:

更长的上下文窗口 :能处理更丰富的意图信息 更好的意图推断 :从少量输入中理解更多意图 多模态意图捕获 :结合语音、手势、视觉等 个性化记忆 :记住用户的习惯和偏好

但核心还是: 人机意图信息密度匹配

回到最初的问题

Chat模式是和AI最好的交互范式吗?

我觉得不是唯一的,但它确实体现了一个重要原则: 高密度的意图交互

好的AI交互设计,本质上都在解决人机意图信息密度匹配问题。Chat模式是一种很好的实现方式,但不是唯一的方式。

关键是要理解你的用户意图有多复杂,然后设计合适密度的交互方式。


这是我作为重度AI用户的一些观察和思考。

Leave a Comment

Comments

Loading comments...