跳到主要内容

超越文本:为什么 AI 的输出形式与内容同样重要

· 阅读需 9 分钟

Thariq 发表了一个简单的观察:AI 模型默认使用 Markdown —— 这种格式是为编写文档的开发者设计的,而不是为试图学习或思考的普通人设计的。这就像把一个网站打印成纯代码交给读者。技术上完整,但体验上痛苦。

Andrej Karpathy 对此进行了回复,对话变得非常有趣。

引起讨论的对话

“试着要求你的 LLM ‘将回复结构化为 HTML’,然后在浏览器中查看生成的文件。我们大脑中约有三分之一是专门用于视觉的大规模并行处理器。它是进入大脑的信息十车道高速公路。”

Andrej Karpathy,AI 研究员,前 OpenAI & Tesla 成员

Karpathy 的回复勾勒出了一个清晰的演进过程 —— 文本、Markdown、HTML,以及最终像交互式神经视频(interactive neural video)之类的形式 —— 他认为当前的 AI 输出与人类认知偏好之间存在巨大的鸿沟,且在很大程度上尚未被探索。

他今天的“锦囊妙计”?直接要 HTML。

我们认为 HTML 是一个很好的开始。但它仅仅是个开始。


为什么视觉改变一切

Karpathy 的“十车道高速公路”比喻有着真实的神经科学依据。视觉信息避开了语言那种缓慢的串行处理方式,直接进入模式识别 —— 这是我们大脑能够毫不费力且快速完成的事情。

当 AI 输出文本时,它实际上是在要求你的大脑将代码转化为意义。而当它输出设计良好的视觉内容 —— 带有层级、颜色和空间布局 —— 你的大脑可以像吸收照片一样吸收它。

人类与 AI 之间的输入/输出“心智融合”正在进行中 —— 还有很多工作要做。

一些直观的数据:

事实数据
图像优势效应 (Picture Superiority Effect)人们对视觉信息的记忆效果比纯文本好 6 倍
图像处理速度大脑识别一张图片最快仅需 13 毫秒
视觉大脑占比连接到大脑的神经纤维中有 40% 与视网膜相连

视觉不仅仅是众多感官中的一种 —— 它是主导。这正是我们构建 MindMax 的初衷:不是为了美化界面,而是为了解决一个认知设计挑战


Karpathy 的演进阶梯(批注版)

他描绘了一个清晰的输出质量阶梯。每一步都是在读者每秒注意力所能传输的信息量上的飞跃。

第一步 —— 原始文本 (Raw Text)

没有格式。密集。迫使读者从零开始构建心理结构。这是最初的起点。

第二步 —— Markdown ← 当前的默认值

标题和加粗有助于扫描。但在许多应用中渲染效果欠佳,视觉表现力有限。它是为开发者文档设计的,而非通用沟通。

第三步 —— HTML ← 正在兴起

真正的布局。颜色。交互性。这是一个巨大的进步 —— 但它需要用户显式要求。大多数人并不知道可以这样做。

第四步 —— MindMax ← 我们所处的阶段

围绕认知负荷而设计。视觉层级与人类实际记忆和连接想法的方式相匹配。无需任何提示词技巧 —— 每一条回复默认就是视觉智能的。

第 N 步 —— 神经视频 (Neural Video) (远景)

Karpathy 的外推:由扩散神经网络直接生成的交互式模拟。这项技术尚未完全实现,但方向很明确。


MindMax 的不同之处

ChatGPT、Claude 和 Gemini 都是出色的推理引擎。但它们的默认输出是为界面设计的,而不是为读者。

MindMax 并不只是给 AI 答案套上一个 CSS 主题。它从根本上重新思考了输出 —— 追问:当信息是为理解和记忆而设计时,它应该长什么样?

MindMax 思维导图

💡 认知负荷设计

信息被分组、分层,并按照大脑自然渴望的顺序呈现。更少的扫描,更多的理解。

🗺️ 视觉知识地图

复杂的答案变成了空间地图 —— 而不是项目符号列表。想法之间的关系是被展示出来的,而不仅仅是被描述出来的。

⚡ 零配置的丰富表现

你不需要要求 HTML 或输入特殊的提示词。MindMax 让每一条回复在默认情况下都具备视觉智能。

📈 内置记忆增强

视觉层级、颜色编码和空间布局并非装饰品 —— 它们是被证实的记忆辅助工具,深深植根于每一次输出中。


直观对比

能力原始文本MarkdownHTMLMindMax
视觉层级部分✓✓
为记忆而设计视情况而定
无需提示词工程
空间 / 关联布局可能实现
交互元素
统一的视觉语言部分
减少阅读疲劳有一点基本实现

更宏大的图景

Karpathy 是对的。而我们现在才走到第三步。

他的外推止于“由扩散神经网络直接生成的交互式神经视频” —— AI 产生的不是一份文档,而是一种体验。那个未来确实令人兴奋。但目前的默认 Markdown 与第三步(HTML)之间的差距,每天都在消耗用户巨大的认知精力。

MindMax 的赌注很简单:现在就缩小这个差距。 不要等待神经视频。利用我们已知的关于视觉认知、记忆和界面设计的一切,让 AI 的回复感觉不再像是在读说明书,而更像是一位优秀的老师在白板上挥毫泼墨。

“音频是人类首选的 AI 输入方式。但视觉 —— 图像、动画、视频 —— 则是首选的 AI 输出方式。我们大脑中约有三分之一的功能正是为此而生。”

Andrej Karpathy

Karpathy 描述的输入/输出心智融合是一个漫长的旅程。但下一步并不是技术突破,而是一个设计决策。

MindMax 围绕这一核心洞察而设计。每一条回复。每一天。不仅仅是因为它更漂亮 —— 而是因为你的大脑值得拥有比一堆星号更好的体验。