多模态成「标配」,开源追平闭源
一句话
多模态 = 让 AI 同时看懂文字、图片、声音、视频,并在它们之间自由转换。
值得知道的进展
- 从「卖点」变「标配」:2023–2025 是「谁的模型更强」的军备竞赛,2026 是「整合落地」年——多模态能力几乎所有前沿模型都有了,不再是差异化卖点。
- 开源追平闭源,比预期快:阿里 Qwen3-VL(旗舰版在通用问答、图像/视频理解、OCR、文档理解等多项测评上对标 Gemini-2.5-Pro、GPT-5)、智谱 GLM-4.6V(原生多模态工具调用 + 128K 长上下文)等开源模型,把和闭源的差距拉得很小。
对「我」意味着什么
好消息:强大的多模态模型很多已经开源、免费可用——非技术的人也能直接调来「让 AI 看图说话/读文档/理解视频」,做点自己的小应用。这块和「智能体」「生成」结合,是普通人最容易上手做出东西的方向之一。