多模态语言模型

目录

多模态语言模型#

这些模型接受多模态输入（例如，图像和文本）并生成文本输出。它们通过多模态编码器增强了语言模型。

启动命令示例#

python3 -m sglang.launch_server \
  --model-path meta-llama/Llama-3.2-11B-Vision-Instruct \  # example HF/local path
  --host 0.0.0.0 \
  --port 30000 \

支持的指标#

模型系列 (变体)	HuggingFace 标识符示例	聊天模板	描述
Qwen-VL (Qwen2 系列)	`Qwen/Qwen2.5-VL-7B-Instruct`	`qwen2-vl`	阿里云 Qwen 的视觉-语言扩展；例如，Qwen2.5-VL（7B 及更大变体）可以分析图像内容并进行对话。
DeepSeek-VL2	`deepseek-ai/deepseek-vl2`	`deepseek-vl2`	DeepSeek 的视觉-语言变体（带专用图像处理器），支持对图像和文本输入进行高级多模态推理。
Janus-Pro (1B, 7B)	`deepseek-ai/Janus-Pro-7B`	`janus-pro`	DeepSeek 的开源多模态模型，既能理解图像也能生成图像。Janus-Pro 采用解耦架构，实现独立的视觉编码路径，从而提升了在两项任务中的性能。
MiniCPM-V / MiniCPM-o	`openbmb/MiniCPM-V-2_6`	`minicpmv`	MiniCPM-V (2.6, 约 8B) 支持图像输入，MiniCPM-o 添加了音频/视频；这些多模态 LLM 针对移动/边缘设备的终端部署进行了优化。
Llama 3.2 Vision (11B)	`meta-llama/Llama-3.2-11B-Vision-Instruct`	`llama_3_vision`	Llama 3 (11B) 的视觉增强变体，接受图像输入用于视觉问答和其他多模态任务。
LLaVA (v1.5 & v1.6)	例如 `liuhaotian/llava-v1.5-13b`	`vicuna_v1.1`	开源视觉聊天模型，为 LLaMA/Vicuna（例如 LLaMA2 13B）添加了图像编码器，用于遵循多模态指令提示。
LLaVA-NeXT (8B, 72B)	`lmms-lab/llava-next-72b`	`chatml-llava`	改进的 LLaVA 模型（包括 8B Llama3 版本和 72B 版本），在多模态基准测试上提供增强的视觉指令跟随能力和准确性。
LLaVA-OneVision	`lmms-lab/llava-onevision-qwen2-7b-ov`	`chatml-llava`	增强型 LLaVA 变体，集成了 Qwen 作为骨干网络；通过与 OpenAI Vision API 兼容的格式支持将多张图像（甚至视频帧）作为输入。
Gemma 3 (多模态)	`google/gemma-3-4b-it`	`gemma-it`	Gemma 3 的大型模型（4B、12B、27B）在总计 128K token 的上下文中，接受图像（每张图像编码为 256 个 token）以及文本输入。
Kimi-VL (A3B)	`moonshotai/Kimi-VL-A3B-Instruct`	`kimi-vl`	Kimi-VL 是一种多模态模型，可以理解图像并从中生成文本。