超越文本：为什么 AI 的输出形式与内容同样重要

2026年5月15日 · 阅读需 9 分钟

Thariq 发表了一个简单的观察：AI 模型默认使用 Markdown —— 这种格式是为编写文档的开发者设计的，而不是为试图学习或思考的普通人设计的。这就像把一个网站打印成纯代码交给读者。技术上完整，但体验上痛苦。

Andrej Karpathy 对此进行了回复，对话变得非常有趣。

引起讨论的对话

“试着要求你的 LLM ‘将回复结构化为 HTML’，然后在浏览器中查看生成的文件。我们大脑中约有三分之一是专门用于视觉的大规模并行处理器。它是进入大脑的信息十车道高速公路。”

— Andrej Karpathy，AI 研究员，前 OpenAI & Tesla 成员

Karpathy 的回复勾勒出了一个清晰的演进过程 —— 文本、Markdown、HTML，以及最终像交互式神经视频（interactive neural video）之类的形式 —— 他认为当前的 AI 输出与人类认知偏好之间存在巨大的鸿沟，且在很大程度上尚未被探索。

他今天的“锦囊妙计”？直接要 HTML。

我们认为 HTML 是一个很好的开始。但它仅仅是个开始。

为什么视觉改变一切

Karpathy 的“十车道高速公路”比喻有着真实的神经科学依据。视觉信息避开了语言那种缓慢的串行处理方式，直接进入模式识别 —— 这是我们大脑能够毫不费力且快速完成的事情。

当 AI 输出文本时，它实际上是在要求你的大脑将代码转化为意义。而当它输出设计良好的视觉内容 —— 带有层级、颜色和空间布局 —— 你的大脑可以像吸收照片一样吸收它。

人类与 AI 之间的输入/输出“心智融合”正在进行中 —— 还有很多工作要做。

一些直观的数据：

事实	数据
图像优势效应 (Picture Superiority Effect)	人们对视觉信息的记忆效果比纯文本好 6 倍
图像处理速度	大脑识别一张图片最快仅需 13 毫秒
视觉大脑占比	连接到大脑的神经纤维中有 40% 与视网膜相连

视觉不仅仅是众多感官中的一种 —— 它是主导。这正是我们构建 MindMax 的初衷：不是为了美化界面，而是为了解决一个认知设计挑战。

Karpathy 的演进阶梯（批注版）

他描绘了一个清晰的输出质量阶梯。每一步都是在读者每秒注意力所能传输的信息量上的飞跃。

第一步 —— 原始文本 (Raw Text)

没有格式。密集。迫使读者从零开始构建心理结构。这是最初的起点。

第二步 —— Markdown ← 当前的默认值

标题和加粗有助于扫描。但在许多应用中渲染效果欠佳，视觉表现力有限。它是为开发者文档设计的，而非通用沟通。

第三步 —— HTML ← 正在兴起

真正的布局。颜色。交互性。这是一个巨大的进步 —— 但它需要用户显式要求。大多数人并不知道可以这样做。

第四步 —— MindMax ← 我们所处的阶段

围绕认知负荷而设计。视觉层级与人类实际记忆和连接想法的方式相匹配。无需任何提示词技巧 —— 每一条回复默认就是视觉智能的。

第 N 步 —— 神经视频 (Neural Video) (远景)

Karpathy 的外推：由扩散神经网络直接生成的交互式模拟。这项技术尚未完全实现，但方向很明确。

MindMax 的不同之处

ChatGPT、Claude 和 Gemini 都是出色的推理引擎。但它们的默认输出是为界面设计的，而不是为读者。

MindMax 并不只是给 AI 答案套上一个 CSS 主题。它从根本上重新思考了输出 —— 追问：当信息是为理解和记忆而设计时，它应该长什么样？

MindMax 思维导图

💡 认知负荷设计

信息被分组、分层，并按照大脑自然渴望的顺序呈现。更少的扫描，更多的理解。

🗺️ 视觉知识地图

复杂的答案变成了空间地图 —— 而不是项目符号列表。想法之间的关系是被展示出来的，而不仅仅是被描述出来的。

⚡ 零配置的丰富表现

你不需要要求 HTML 或输入特殊的提示词。MindMax 让每一条回复在默认情况下都具备视觉智能。

📈 内置记忆增强

视觉层级、颜色编码和空间布局并非装饰品 —— 它们是被证实的记忆辅助工具，深深植根于每一次输出中。

直观对比

能力	原始文本	Markdown	HTML	MindMax
视觉层级	✕	部分	✓	✓✓
为记忆而设计	✕	✕	视情况而定	✓
无需提示词工程	✓	✓	✕	✓
空间 / 关联布局	✕	✕	可能实现	✓
交互元素	✕	✕	✓	✓
统一的视觉语言	✓	部分	✕	✓
减少阅读疲劳	✕	有一点	基本实现	是

更宏大的图景

Karpathy 是对的。而我们现在才走到第三步。

他的外推止于“由扩散神经网络直接生成的交互式神经视频” —— AI 产生的不是一份文档，而是一种体验。那个未来确实令人兴奋。但目前的默认 Markdown 与第三步（HTML）之间的差距，每天都在消耗用户巨大的认知精力。

MindMax 的赌注很简单：现在就缩小这个差距。 不要等待神经视频。利用我们已知的关于视觉认知、记忆和界面设计的一切，让 AI 的回复感觉不再像是在读说明书，而更像是一位优秀的老师在白板上挥毫泼墨。

“音频是人类首选的 AI 输入方式。但视觉 —— 图像、动画、视频 —— 则是首选的 AI 输出方式。我们大脑中约有三分之一的功能正是为此而生。”

— Andrej Karpathy

Karpathy 描述的输入/输出心智融合是一个漫长的旅程。但下一步并不是技术突破，而是一个设计决策。

MindMax 围绕这一核心洞察而设计。每一条回复。每一天。不仅仅是因为它更漂亮 —— 而是因为你的大脑值得拥有比一堆星号更好的体验。

引起讨论的对话​

为什么视觉改变一切​

Karpathy 的演进阶梯（批注版）​

第一步 —— 原始文本 (Raw Text)​

第二步 —— Markdown ← 当前的默认值​

第三步 —— HTML ← 正在兴起​

第四步 —— MindMax ← 我们所处的阶段​

第 N 步 —— 神经视频 (Neural Video) (远景)​

MindMax 的不同之处​

💡 认知负荷设计​

🗺️ 视觉知识地图​

⚡ 零配置的丰富表现​

📈 内置记忆增强​

直观对比​

更宏大的图景​