超越文本:为什么 AI 的输出形式与内容同样重要
Thariq 发表了一个简单的观察:AI 模型默认使用 Markdown —— 这种格式是为编写文档的开发者设计的,而不是为试图学习或思考的普通人设计的。这就像把一个网站打印成纯代码交给读者。技术上完整,但体验上痛苦。
Andrej Karpathy 对此进行了回复,对话变得非常有趣。
引起讨论的对话
“试着要求你的 LLM ‘将回复结构化为 HTML’,然后在浏览器中查看生成的文件。我们大脑中约有三分之一是专门用于视觉的大规模并行处理器。它是进入大脑的信息十车道高速公路。”
— Andrej Karpathy,AI 研究员,前 OpenAI & Tesla 成员
Karpathy 的回复勾勒出了一个清晰的演进过程 —— 文本、Markdown、HTML,以及最终像交互式神经视频(interactive neural video)之类的形式 —— 他认为当前的 AI 输出与人类认知偏好之间存在巨大的鸿沟,且在很大程度上尚未被探索。
他今天的“锦囊妙计”?直接要 HTML。
我们认为 HTML 是一个很好的开始。但它仅仅是个开始。
为什么视觉改变一切
Karpathy 的“十车道高速公路”比喻有着真实的神经科学依据。视觉信息避开了语言那种缓慢的串行处理方式,直接进入模式识别 —— 这是我们大脑能够毫不费力且快速完成的事情。
当 AI 输出文本时,它实际上是在要求你的大脑将代码转化为意义。而当它输出设计良好的视觉内容 —— 带有层级、颜色和空间布局 —— 你的大脑可以像吸收照片一样吸收它。
人类与 AI 之间的输入/输出“心智融合”正在进行中 —— 还有很多工作要做。
一些直观的数据:
| 事实 | 数据 |
|---|---|
| 图像优势效应 (Picture Superiority Effect) | 人们对视觉信息的记忆效果比纯文本好 6 倍 |
| 图像处理速度 | 大脑识别一张图片最快仅需 13 毫秒 |
| 视觉大脑占比 | 连接到大脑的神经纤维中有 40% 与视网膜相连 |
视觉不仅仅是众多感官中的一种 —— 它是主导。这正是我们构建 MindMax 的初衷:不是为了美化界面,而是为了解决一个认知设计挑战。
Karpathy 的演进阶梯(批注版)
他描绘了一个清晰的输出质量阶梯。每一步都是在读者每秒注意力所能传输的信息量上的飞跃。
第一步 —— 原始文本 (Raw Text)
没有格式。密集。迫使读者从零开始构建心理结构。这是最初的起点。
第二步 —— Markdown ← 当前的默认值
标题和加粗有助于扫描。但在许多应用中渲染效果欠佳,视觉表现力有限。它是为开发者文档设计的,而非通用沟通。
第三步 —— HTML ← 正在兴起
真正的布局。颜色。交互性。这是一个巨大的进步 —— 但它需要用户显式要求。大多数人并不知道可以这样做。
第四步 —— MindMax ← 我们所处的阶段
围绕认知负荷而设计。视觉层级与人类实际记忆和连接想法的方式相匹配。无需任何提示词技巧 —— 每一条回复默认就是视觉智能的。
第 N 步 —— 神经视频 (Neural Video) (远景)
Karpathy 的外推:由扩散神经网络直接生成的交互式模拟。这项技术尚未完全实现,但方向很明确。
MindMax 的不同之处
ChatGPT、Claude 和 Gemini 都是出色的推理引擎。但它们的默认输出是为界面设计的,而不是为读者。
MindMax 并不只是给 AI 答案套上一个 CSS 主题。它从根本上重新思考了输出 —— 追问:当信息是为理解和记忆而设计时,它应该长什么样?

💡 认知负荷设计
信息被分组、分层,并按照大脑自然渴望的顺序呈现。更少的扫描,更多的理解。
🗺️ 视觉知识地图
复杂的答案变成了空间地图 —— 而不是项目符号列表。想法之间的关系是被展示出来的,而不仅仅是被描述出来的。
⚡ 零配置的丰富表现
你不需要要求 HTML 或输入特殊的提示词。MindMax 让每一条回复在默认情况下都具备视觉智能。
📈 内置记忆增强
视觉层级、颜色编码和空间布局并非装饰品 —— 它们是被证实的记忆辅助工具,深深植根于每一次输出中。
直观对比
| 能力 | 原始文本 | Markdown | HTML | MindMax |
|---|---|---|---|---|
| 视觉层级 | ✕ | 部分 | ✓ | ✓✓ |
| 为记忆而设计 | ✕ | ✕ | 视情况而定 | ✓ |
| 无需提示词工程 | ✓ | ✓ | ✕ | ✓ |
| 空间 / 关联布局 | ✕ | ✕ | 可能实现 | ✓ |
| 交互元素 | ✕ | ✕ | ✓ | ✓ |
| 统一的视觉语言 | ✓ | 部分 | ✕ | ✓ |
| 减少阅读疲劳 | ✕ | 有一点 | 基本实现 | 是 |
更宏大的图景
Karpathy 是对的。而我们现在才走到第三步。
他的外推止于“由扩散神经网络直接生成的交互式神经视频” —— AI 产生的不是一份文档,而是一种体验。那个未来确实令人兴奋。但目前的默认 Markdown 与第三步(HTML)之间的差距,每天都在消耗用户巨大的认知精力。
MindMax 的赌注很简单:现在就缩小这个差距。 不要等待神经视频。利用我们已知的关于视觉认知、记忆和界面设计的一切,让 AI 的回复感觉不再像是在读说明书,而更像是一位优秀的老师在白板上挥毫泼墨。
“音频是人类首选的 AI 输入方式。但视觉 —— 图像、动画、视频 —— 则是首选的 AI 输出方式。我们大脑中约有三分之一的功能正是为此而生。”
— Andrej Karpathy
Karpathy 描述的输入/输出心智融合是一个漫长的旅程。但下一步并不是技术突破,而是一个设计决策。
MindMax 围绕这一核心洞察而设计。每一条回复。每一天。不仅仅是因为它更漂亮 —— 而是因为你的大脑值得拥有比一堆星号更好的体验。