🎨

多模态

让 AI 同时看懂文字、图片、声音、视频，并在它们之间自由转换。

前沿简报

2026-06-10

多模态成「标配」，开源追平闭源

一句话

多模态 = 让 AI 同时看懂文字、图片、声音、视频，并在它们之间自由转换。

值得知道的进展

从「卖点」变「标配」：2023–2025 是「谁的模型更强」的军备竞赛，2026 是「整合落地」年——多模态能力几乎所有前沿模型都有了，不再是差异化卖点。
开源追平闭源，比预期快：阿里 Qwen3-VL（旗舰版在通用问答、图像/视频理解、OCR、文档理解等多项测评上对标 Gemini-2.5-Pro、GPT-5）、智谱 GLM-4.6V（原生多模态工具调用 + 128K 长上下文）等开源模型，把和闭源的差距拉得很小。

对「我」意味着什么

好消息：强大的多模态模型很多已经开源、免费可用——非技术的人也能直接调来「让 AI 看图说话/读文档/理解视频」，做点自己的小应用。这块和「智能体」「生成」结合，是普通人最容易上手做出东西的方向之一。

来源

← 返回领域地图