🧠

推理

让 AI 像人一样「一步步想」再回答——o1、DeepSeek-R1 这类会思考的模型属于这块。

前沿简报

2026-06-09

让「会思考」的 AI 省着点用脑内存

背景:会思考的 AI 有个「记性」负担

像 o1、DeepSeek-R1 这类模型,回答前会先「想很久」(一长串草稿推理)。想得越长,它要记住的中间内容越多——这块「短期记忆」叫 KV 缓存。记忆涨得越快,模型就越慢、越吃显存。

这篇研究做了什么

过去省记忆的办法都「一刀切」:每层、每个部位平均分配记忆。这篇 ReasonAlloc 发现:模型不同层对记忆的需求像一道「波」——浅层需求高、中层低、临到要给答案的深层又突然飙高(像最后做一次通盘检查)。于是它按需分配:哪儿需要多就给多。

效果:在数学题上,记忆预算卡得很紧时优势最明显(比平均分配的几种主流方法准不少),而且几乎不增加额外开销。

对「我」意味着什么

这属于「让模型跑得更快更省」的底层优化方向——主要对自己部署模型的人有用;如果你只是调用 DeepSeek 这类 API,这些由服务商在后台处理,你享受到的是「更快更便宜」的结果。

← 返回领域地图