让「会思考」的 AI 省着点用脑内存
背景:会思考的 AI 有个「记性」负担
像 o1、DeepSeek-R1 这类模型,回答前会先「想很久」(一长串草稿推理)。想得越长,它要记住的中间内容越多——这块「短期记忆」叫 KV 缓存。记忆涨得越快,模型就越慢、越吃显存。
这篇研究做了什么
过去省记忆的办法都「一刀切」:每层、每个部位平均分配记忆。这篇 ReasonAlloc 发现:模型不同层对记忆的需求像一道「波」——浅层需求高、中层低、临到要给答案的深层又突然飙高(像最后做一次通盘检查)。于是它按需分配:哪儿需要多就给多。
效果:在数学题上,记忆预算卡得很紧时优势最明显(比平均分配的几种主流方法准不少),而且几乎不增加额外开销。
对「我」意味着什么
这属于「让模型跑得更快更省」的底层优化方向——主要对自己部署模型的人有用;如果你只是调用 DeepSeek 这类 API,这些由服务商在后台处理,你享受到的是「更快更便宜」的结果。