AI 自学研究站

把 AI 拆成一个个细分领域,每天只挑「真有重大进展」的事,写成你能听懂的简报。 想深扎的,从「世界模型」学习轨道开始边学边搭。

🌍

世界模型

学习轨道

让 AI 在「脑子里」建一个小宇宙,能预测、想象接下来会发生什么——通往更强 AI 与机器人的关键路径之一。

2026-06-09 · 最新前沿
世界模型 2026:AI 开始学着在脑子里「做梦」

世界模型分成两条路——「不画像素、只在脑内抽象预测」和「真把未来一帧帧画出来」。两条路今年都拿出了让人眼前一亮的成果。

🤖

具身智能

给 AI 一个「身体」,让它在真实物理世界里看、动、操作——机器人、机械臂、自动驾驶都属这块。

2026-06-10 · 最新前沿
人形机器人「降价 + 通用大脑」双线推进

2026 年机器人圈两件大事:一是「视觉-语言-动作」大模型成主流,让一个模型能指挥多种机器人;二是人形机器人价格从百万美元级跌到 10 万美元以内。最难的仍是「稳定地把东西抓起来放好」。

🧩

智能体

让 AI 自己定计划、调用工具、一步步把任务干完——你用的 Claude Code、Cursor 就是智能体。

2026-06-10 · 最新前沿
智能体「会用电脑」了,写代码提速最实在

AI 智能体「自己操作电脑/浏览器」的成功率一年内从 12% 涨到 66%;最落地的是写代码——有团队用 Claude Code 后交付提速 30%、省下 50 万小时。能力大致每 7 个月翻一倍。

🎨

多模态

让 AI 同时看懂文字、图片、声音、视频,并在它们之间自由转换。

2026-06-10 · 最新前沿
多模态成「标配」,开源追平闭源

2026 年「同时看懂文字+图+视频」已经不是亮点、而是大模型的标配。开源阵营今年大幅追上:阿里 Qwen3-VL、智谱 GLM-4.6V 等在多项测评上叫板 Gemini-2.5-Pro、GPT-5。

🧠

推理

让 AI 像人一样「一步步想」再回答——o1、DeepSeek-R1 这类会思考的模型属于这块。

2026-06-09 · 最新前沿
让「会思考」的 AI 省着点用脑内存

会一步步思考的 AI(像 DeepSeek-R1)想得越久、占的「短期记忆」越多,越慢越费显存。一篇新研究教模型按需分配这块记忆,在记忆很紧时尤其管用。

🎬

生成(图像 / 视频)

文生图、文生视频——一句话变出图片、画面甚至可交互世界(Midjourney、Sora 那一类)。

2026-06-10 · 最新前沿
AI 视频卷出「4K+声音+更长」,几乎每月上新

文生视频今年极卷:谷歌 Veo 3.1 做到 4K/60fps 还自带配音,快手可灵 Kling 3.0 能生成近 2 分钟,字节 Seedance 2.0 擅长多角色叙事。OpenAI 的初代 Sora 反而已下线,Sora 2 接棒。