AI 自学研究站

把 AI 拆成一个个细分领域，每天只挑「真有重大进展」的事，写成你能听懂的简报。想深扎的，从「世界模型」学习轨道开始边学边搭。

让 AI 在「脑子里」建一个小宇宙，能预测、想象接下来会发生什么——通往更强 AI 与机器人的关键路径之一。

世界模型分成两条路——「不画像素、只在脑内抽象预测」和「真把未来一帧帧画出来」。两条路今年都拿出了让人眼前一亮的成果。

给 AI 一个「身体」，让它在真实物理世界里看、动、操作——机器人、机械臂、自动驾驶都属这块。

2026 年机器人圈两件大事：一是「视觉-语言-动作」大模型成主流，让一个模型能指挥多种机器人；二是人形机器人价格从百万美元级跌到 10 万美元以内。最难的仍是「稳定地把东西抓起来放好」。

让 AI 自己定计划、调用工具、一步步把任务干完——你用的 Claude Code、Cursor 就是智能体。

AI 智能体「自己操作电脑/浏览器」的成功率一年内从 12% 涨到 66%；最落地的是写代码——有团队用 Claude Code 后交付提速 30%、省下 50 万小时。能力大致每 7 个月翻一倍。

让 AI 同时看懂文字、图片、声音、视频，并在它们之间自由转换。

2026 年「同时看懂文字+图+视频」已经不是亮点、而是大模型的标配。开源阵营今年大幅追上：阿里 Qwen3-VL、智谱 GLM-4.6V 等在多项测评上叫板 Gemini-2.5-Pro、GPT-5。

让 AI 像人一样「一步步想」再回答——o1、DeepSeek-R1 这类会思考的模型属于这块。

会一步步思考的 AI（像 DeepSeek-R1）想得越久、占的「短期记忆」越多，越慢越费显存。一篇新研究教模型按需分配这块记忆，在记忆很紧时尤其管用。

文生图、文生视频——一句话变出图片、画面甚至可交互世界（Midjourney、Sora 那一类）。

文生视频今年极卷：谷歌 Veo 3.1 做到 4K/60fps 还自带配音，快手可灵 Kling 3.0 能生成近 2 分钟，字节 Seedance 2.0 擅长多角色叙事。OpenAI 的初代 Sora 反而已下线，Sora 2 接棒。