🧠

推理

让 AI 像人一样「一步步想」再回答——o1、DeepSeek-R1 这类会思考的模型属于这块。

前沿简报

2026-06-09

让「会思考」的 AI 省着点用脑内存

背景：会思考的 AI 有个「记性」负担

像 o1、DeepSeek-R1 这类模型，回答前会先「想很久」（一长串草稿推理）。想得越长，它要记住的中间内容越多——这块「短期记忆」叫 KV 缓存。记忆涨得越快，模型就越慢、越吃显存。

这篇研究做了什么

过去省记忆的办法都「一刀切」：每层、每个部位平均分配记忆。这篇 ReasonAlloc 发现：模型不同层对记忆的需求像一道「波」——浅层需求高、中层低、临到要给答案的深层又突然飙高（像最后做一次通盘检查）。于是它按需分配：哪儿需要多就给多。

效果：在数学题上，记忆预算卡得很紧时优势最明显（比平均分配的几种主流方法准不少），而且几乎不增加额外开销。

对「我」意味着什么

这属于「让模型跑得更快更省」的底层优化方向——主要对自己部署模型的人有用；如果你只是调用 DeepSeek 这类 API，这些由服务商在后台处理，你享受到的是「更快更便宜」的结果。

来源

ReasonAlloc（arXiv 2606.11164）

← 返回领域地图