🎨

多模态

让 AI 同时看懂文字、图片、声音、视频,并在它们之间自由转换。

前沿简报

2026-06-10

多模态成「标配」,开源追平闭源

一句话

多模态 = 让 AI 同时看懂文字、图片、声音、视频,并在它们之间自由转换。

值得知道的进展

  • 从「卖点」变「标配」:2023–2025 是「谁的模型更强」的军备竞赛,2026 是「整合落地」年——多模态能力几乎所有前沿模型都有了,不再是差异化卖点。
  • 开源追平闭源,比预期快:阿里 Qwen3-VL(旗舰版在通用问答、图像/视频理解、OCR、文档理解等多项测评上对标 Gemini-2.5-Pro、GPT-5)、智谱 GLM-4.6V(原生多模态工具调用 + 128K 长上下文)等开源模型,把和闭源的差距拉得很小。

对「我」意味着什么

好消息:强大的多模态模型很多已经开源、免费可用——非技术的人也能直接调来「让 AI 看图说话/读文档/理解视频」,做点自己的小应用。这块和「智能体」「生成」结合,是普通人最容易上手做出东西的方向之一。

← 返回领域地图