CURD 程序员，该如何理解 AI 大模型中的多模态（Multimodal）？

AI 多模态学习笔记：多模态大模型排名、原理与应用

2026-04-24 | 9 分钟 | 4414 字 | - 阅读 | - 评论

AI大模型中的多模态是什么意思，它又是如何工作的？从应用层程序员视角拆解多模态大模型的工作原理，涵盖主流模型排名、实际应用场景与行业思考，帮你真正理解 AI 多模态技术。

文章目录

本文已同步发布到微信公众号「人言兑」

👈 扫描二维码关注，第一时间获取更新！

🔗 点击前往微信公众号阅读本文

搞应用开发的 CURD 程序员，该如何理解多模态 AI 大模型？

最近打算认真写一点关于 AI 方面的学习笔记。本文是我整理的多模态相关的内容，不是那种底层原理——太底层的我也看不懂——只是用自己的理解记录一下大概的实现原理。如果你也是写业务代码的，对 AI 有点兴趣但又不想啃论文，这篇文章应该适合你。

理解 AI 大模型中的多模态（Multimodal）

先解决最基础的问题：多模态是什么意思

多模态的英文是 Multimodal，这个词拆开来看，multi 是「多」，modal 是「模态」。模态这个词听起来有点学术，其实就是「信息的载体形式」。

我们人类认识世界本来就不是只靠一种感官的。你看到一个苹果，是红色的、圆的，这是视觉信息；你咬一口，咔嚓一声，这是听觉信息；尝到甜味，这是味觉信息；摸起来光滑，这是触觉信息。你的大脑把这些不同渠道的信息整合在一起，才形成了对「苹果」这个概念的完整理解。

AI 里的多模态，就是让模型也能干同样的事——同时处理和理解多种不同类型的信息。这些信息类型主要包括：

文本（Text）：文章、对话、代码
图像（Image）：照片、图表、截图
音频（Audio）：语音、音乐、环境声
视频（Video）：动态画面，本质上是图像+音频+时间轴
其他：比如 3D 模型、传感器数据、甚至脑电波信号

所以 多模态学习（Multimodal Learning） 就是研究怎么让 AI 同时处理、关联、融合这些不同模态的数据。而 多模态大模型（Multimodal Large Language Model，简称 MLLM），就是在大语言模型的基础上，给它装上了「眼睛」和「耳朵」，让它不再只能读文字，还能看图、听声音、看视频。

多模态大模型是怎么工作的

我一开始以为多模态模型就是分别训练一个视觉模型和一个语言模型，然后硬拼在一起。后来看了一些技术资料才知道，事情没那么简单，但也没那么复杂。

目前主流的多模态大模型架构，基本思路是这样的：

第一步：通过视觉编码器对图片或视频进行编码

视觉编码器（Vision Encoder）负责把图像或视频帧转换成模型能理解的向量表示。最常用的就是 ViT（Vision Transformer），把图片切成一个个小 patch，每个 patch 变成一个 token。一张 224x224 的图片大概能拆成几百个 token。

大语言模型（比如 GPT、Claude、Llama）本质上是处理文本的。大家都知道，现在token中文命名叫做「词元」了，你输入一串 token（可以粗暴理解为「词」），它输出一串 token。它不认识图，不认识声音，只认识数字向量。

所以多模态要做的第一件事，就是把非文本的东西转换成文本模型能消化的形式。

用一个类比来理解这个过程。

假设你有一个只会说中文的翻译官（大语言模型），现在来了一个只会说法语的客户（一张图片）。你们之间需要一个翻译流程，向量编码就是将法语翻译成某种中间语言。

图片本身是一堆像素（RGB 值），模型看不懂像素。所以需要「视觉编码器」把图片转换成一组向量。

可以粗暴理解为：把图片「翻译」成了一组数字。这个过程类似你做图片压缩。一张 1024x1024 的图有几百万个像素，视觉编码器把它压缩成几百个「特征向量」。

每个向量代表图片里的某个局部信息，比如「左上角有个红色的圆形物体」「中间偏右有文字」。

第二步：通过投影层对齐

视觉编码器输出的向量维度和语言模型的 token 维度通常不一样，就像那个中间语言可能是某种方言，翻译官还是听不懂，需要一个中间层来做对齐。

「投影层 / 连接器（Projection Layer / Connector）」就是这个用来做中间转换的对齐层。这个对齐层的设计很关键，它决定了视觉信息能不能被语言模型「看懂」。常见的做法有简单的线性投影，也有更复杂的 Q-Former 结构（比如 BLIP-2 用的那种）。你可以把它想象成一个适配器（Adapter），把视觉向量映射到语言模型的 token 空间里。

这个对齐层是怎么训练出来的？简单说就是：给模型看大量的「图片+文字描述」对，让它学会「这张图」和「这段文字」在向量空间里应该离得近。

训练完成后，模型就建立了一种「跨模态的对应关系」—— 它知道一张猫的图片和「一只猫」这句话，在内部表示中是同一个东西。

第三步：推理

这就是模型的「大脑」了，负责接收对齐后的视觉 token 和文本 token，进行统一的推理和生成。可以是 GPT 系列、Llama 系列、Qwen 系列等等。

现在图片已经被转换成语言模型能理解的 token 了，和文本 token 混在一起丢进大语言模型。模型看到的大概是这样的序列：

[图片token_1] [图片token_2] ... [图片token_N] [用户问题：「这张图里有什么？」]

然后模型开始自回归生成回答，和平时处理纯文本没什么区别。

用一个代码类比来理解！

# 原始的大语言模型，只处理文本
def llm(text_tokens):
    return generate(text_tokens)

# 多模态改造后
def multimodal_llm(image, text):
    # 1. 编码：图片 → 向量
    image_vectors = vision_encoder(image)

    # 2. 对齐：向量 → 和文本token同维度的表示
    image_tokens = projection_layer(image_vectors)

    # 3. 拼接：图片token + 文本token，一起喂给LLM
    all_tokens = image_tokens + text_tokens

    # 4. 推理：LLM统一处理
    return llm(all_tokens)

关于「原生多模态」和「后期拼接」

行业里有「原生多模态」和「后期拼接」两种路线：

后期拼接：先有一个训练好的纯文本大模型，再外挂一个视觉模块。就像给一个人配了个翻译耳机，他本身还是只会中文。优点是快，缺点是跨模态的理解能力有天花板。
原生多模态：从训练初期就把文本、图像、音频、视频混在一起训练。就像一个人从小就在多语言环境里长大，他脑子里没有「先翻译成中文再理解」这个过程，而是直接理解。

Gemini 和文心 5.0 都强调自己是原生全模态。理论上原生路线的跨模态能力更强，比如处理长视频时能理解时间线和因果关系，而不是把视频当成一帧帧独立的图片来看。

现在有哪些主流的多模态大模型

这个问题我专门去翻了下最近的榜单，因为模型迭代实在太快了，去年的排名放今年可能完全不准。

根据 Arena AI （就是以前的 Chatbot Arena）2026 年 3 月的数据，多模态能力比较突出的模型包括：

Gemini 3 Pro：Google 的旗舰，原生全模态打通，视频、音频、文字、图像的理解和联动能力目前是第一梯队
Claude Opus 4.6：Anthropic 的模型，在综合推理上很强，多模态表现也很稳
GPT-5.2：OpenAI 的最新对话模型，通用能力依然标杆
文心 ERNIE-5.0：百度 2025 年底发布的原生全模态大模型，参数量 2.4 万亿，在 LMArena 视觉理解榜上排中国第一、全球第八，是该榜单前十里唯一的中国模型
混元 Large-Vision：腾讯的视觉理解模型，在 LMArena Vision 排行榜上拿过国内第一，和 GPT-4.5、Claude-4-Sonnet 处于同一水平

开源模型方面，2026 年比较能打的包括：

InternVL3-78B：上海 AI Lab 和清华联合出品，在 OpenCompass 多模态学术评测上表现很好
Qwen2.5-VL 系列：阿里通义千问的视觉语言模型，支持 131K 上下文，具备视觉智能体能力
GLM-4.5V：智谱的模型，用了 MoE 架构，在创意任务和 3D 推理上有优势

说到排名，其实不同榜单的侧重点差别很大。 OpenCompass 的评测更偏学术基准，比如 MMBench 测感知和推理、MMBench-Video 测视频理解、VBench 测视频生成质量。而 LMArena 是人类盲测投票，更反映真实使用体验。所以看排名的时候得先搞清楚这个榜到底在测什么。

Arena Leaderboard

OpenCompass Official Rankings

多模态模型到底能干什么

我觉得多模态最大的价值不是「能看图了」这么简单，而是让 AI 从「只读文字」变成了「能观察世界」。一些实际有用的场景：

1. 视觉问答（Visual Question Answering）

给模型一张图，问它问题。比如拍一道数学题，模型能识别题目、理解题意、给出解答步骤。或者拍一朵花问「这是什么花」，模型能识别品种。

2. 视频理解

丢给它一个会议录像，它能出结构化总结，甚至能指出谁在什么时候说了什么关键内容。这个对打工人来说太实用了，不用自己看一小时的回放。

3. 图文生成

根据文字描述生成图片（比如 Stable Diffusion、DALL-E），或者根据图片生成文字描述（Image Captioning）。更高级的是图文交错生成，比如写一段带插图的故事。

4. 文档理解

处理 PDF、扫描件、表格、PPT。传统的 OCR 只能把图里的文字提取出来，多模态模型能理解文档的版面结构、图表含义、甚至手写批注。

5. 具身智能（Embodied AI）

给机器人装上多模态模型，它就能通过摄像头「看」环境，通过麦克风「听」指令，然后做出相应的动作。这是通往通用人工智能（AGI）的一个重要方向。

6. 医疗辅助

看 X 光片、CT、病理切片，结合病历文本给出诊断建议。这个领域有个专门的基准叫 MMMU，测模型在医学、科学等专业领域的多模态理解能力。

说到这里，推荐一位医生博主的博客： DrPika’s Blog ，他是一位影像科医生，也是互联网与AI爱好者，AI对他的行业也有深切的影响。

五、关于多模态的一些思考

1. 原生多模态 vs 拼接多模态

Gemini 和文心 5.0 都强调自己是「原生全模态统一建模」，意思是从训练初期就把文本、图像、音频、视频放在一起训练，而不是先训好语言模型再外挂视觉模块。

理论上原生多模态的跨模态理解能力会更强，比如 Gemini 3 可以直接处理一个小时的视频并理解其中的时间线和因果关系。但具体强多少，我觉得还得看实际应用。

2. 评测基准的局限性

现在多模态的评测基准已经很多了：MMMU 测专业知识、MMBench 测感知推理、MVBench 测视频理解、Video-MME 测长视频分析、Audio Reasoning Tasks 测音频推理。

但有个问题：这些基准大多是选择题或者短答案，模型可以通过刷题来提高分数，不代表真的理解了。就像学生刷五年高考三年模拟，分数上去了，但碰到没见过的题型还是懵。所以 Arena AI 这种人类盲测投票的榜单越来越受重视，因为它反映的是真实用户体验。

3. 快慢思考切换

最近有个有意思的方向，就是让多模态模型能「按需思考」。简单的问题直接回答，复杂的问题多想想。DeepSeek 和 GPT-5 都在尝试这个，有篇论文叫《R-4B: INCENTIVIZING GENERAL-PURPOSE AUTOTHINKING CAPABILITY IN MLLMS VIA BI-MODE ANNEALING AND REINFORCE LEARNING》，提出了一个叫 R-4B 的 4B 参数小模型，通过双模式退火和强化学习，让模型自己决定什么时候该深入思考。

这个思路我觉得挺对的。人也不是每个问题都深思熟虑，看到一张图问「这是猫还是狗」，一眼就能判断，不需要层层推理。

4. 多模态的英文表达

最后提一下，如果你在查英文资料，多模态相关的关键词包括：

Multimodal（多模态）
Multimodal Large Language Model / MLLM（多模态大语言模型）
Vision-Language Model / VLM（视觉语言模型）
Cross-modal（跨模态，强调不同模态之间的关联）
Modality Alignment（模态对齐）

六、写在最后

多模态这个领域发展太快了，我这篇文章写的时候是 2026 年 4 月，可能过两个月又有新模型出来把排名全洗牌了。不过底层的原理变化没那么快，理解了「编码-对齐-推理」这个基本框架，再看新出的模型就不会一脸懵了。

如果你跟我一样同为CURD仔，想深入学习AI，我的建议是：先别纠结底层架构细节，直接上手用。现在主流的多模态模型 API 调用方式和纯文本模型几乎没区别，就是多传一个图片 URL 或 base64 编码。把精力放在怎么用好这些能力解决实际问题上，比研究 ViT 的 patch size 要有价值得多。

当然如果你想深入，上面提到的那些论文和开源项目都是很好的切入点。我这篇文章主要是帮我自己理清思路，如果能帮到你，那更好。