多模态语言模型#
这些模型接受多模态输入(例如,图像和文本)并生成文本输出。它们通过多模态编码器增强了语言模型。
启动命令示例#
python3 -m sglang.launch_server \
--model-path meta-llama/Llama-3.2-11B-Vision-Instruct \ # example HF/local path
--host 0.0.0.0 \
--port 30000 \
支持的指标#
模型系列 (变体) |
HuggingFace 标识符示例 |
聊天模板 |
描述 |
---|---|---|---|
Qwen-VL (Qwen2 系列) |
|
|
阿里云 Qwen 的视觉-语言扩展;例如,Qwen2.5-VL(7B 及更大变体)可以分析图像内容并进行对话。 |
DeepSeek-VL2 |
|
|
DeepSeek 的视觉-语言变体(带专用图像处理器),支持对图像和文本输入进行高级多模态推理。 |
Janus-Pro (1B, 7B) |
|
|
DeepSeek 的开源多模态模型,既能理解图像也能生成图像。Janus-Pro 采用解耦架构,实现独立的视觉编码路径,从而提升了在两项任务中的性能。 |
MiniCPM-V / MiniCPM-o |
|
|
MiniCPM-V (2.6, 约 8B) 支持图像输入,MiniCPM-o 添加了音频/视频;这些多模态 LLM 针对移动/边缘设备的终端部署进行了优化。 |
Llama 3.2 Vision (11B) |
|
|
Llama 3 (11B) 的视觉增强变体,接受图像输入用于视觉问答和其他多模态任务。 |
LLaVA (v1.5 & v1.6) |
例如 |
|
开源视觉聊天模型,为 LLaMA/Vicuna(例如 LLaMA2 13B)添加了图像编码器,用于遵循多模态指令提示。 |
LLaVA-NeXT (8B, 72B) |
|
|
改进的 LLaVA 模型(包括 8B Llama3 版本和 72B 版本),在多模态基准测试上提供增强的视觉指令跟随能力和准确性。 |
LLaVA-OneVision |
|
|
增强型 LLaVA 变体,集成了 Qwen 作为骨干网络;通过与 OpenAI Vision API 兼容的格式支持将多张图像(甚至视频帧)作为输入。 |
Gemma 3 (多模态) |
|
|
Gemma 3 的大型模型(4B、12B、27B)在总计 128K token 的上下文中,接受图像(每张图像编码为 256 个 token)以及文本输入。 |
Kimi-VL (A3B) |
|
|
Kimi-VL 是一种多模态模型,可以理解图像并从中生成文本。 |