多模态语言模型

多模态语言模型#

这些模型接受多模态输入(例如,图像和文本)并生成文本输出。它们通过多模态编码器增强了语言模型。

启动命令示例#

python3 -m sglang.launch_server \
  --model-path meta-llama/Llama-3.2-11B-Vision-Instruct \  # example HF/local path
  --host 0.0.0.0 \
  --port 30000 \

支持的指标#

模型系列 (变体)

HuggingFace 标识符示例

聊天模板

描述

Qwen-VL (Qwen2 系列)

Qwen/Qwen2.5-VL-7B-Instruct

qwen2-vl

阿里云 Qwen 的视觉-语言扩展;例如,Qwen2.5-VL(7B 及更大变体)可以分析图像内容并进行对话。

DeepSeek-VL2

deepseek-ai/deepseek-vl2

deepseek-vl2

DeepSeek 的视觉-语言变体(带专用图像处理器),支持对图像和文本输入进行高级多模态推理。

Janus-Pro (1B, 7B)

deepseek-ai/Janus-Pro-7B

janus-pro

DeepSeek 的开源多模态模型,既能理解图像也能生成图像。Janus-Pro 采用解耦架构,实现独立的视觉编码路径,从而提升了在两项任务中的性能。

MiniCPM-V / MiniCPM-o

openbmb/MiniCPM-V-2_6

minicpmv

MiniCPM-V (2.6, 约 8B) 支持图像输入,MiniCPM-o 添加了音频/视频;这些多模态 LLM 针对移动/边缘设备的终端部署进行了优化。

Llama 3.2 Vision (11B)

meta-llama/Llama-3.2-11B-Vision-Instruct

llama_3_vision

Llama 3 (11B) 的视觉增强变体,接受图像输入用于视觉问答和其他多模态任务。

LLaVA (v1.5 & v1.6)

例如 liuhaotian/llava-v1.5-13b

vicuna_v1.1

开源视觉聊天模型,为 LLaMA/Vicuna(例如 LLaMA2 13B)添加了图像编码器,用于遵循多模态指令提示。

LLaVA-NeXT (8B, 72B)

lmms-lab/llava-next-72b

chatml-llava

改进的 LLaVA 模型(包括 8B Llama3 版本和 72B 版本),在多模态基准测试上提供增强的视觉指令跟随能力和准确性。

LLaVA-OneVision

lmms-lab/llava-onevision-qwen2-7b-ov

chatml-llava

增强型 LLaVA 变体,集成了 Qwen 作为骨干网络;通过与 OpenAI Vision API 兼容的格式支持将多张图像(甚至视频帧)作为输入。

Gemma 3 (多模态)

google/gemma-3-4b-it

gemma-it

Gemma 3 的大型模型(4B、12B、27B)在总计 128K token 的上下文中,接受图像(每张图像编码为 256 个 token)以及文本输入。

Kimi-VL (A3B)

moonshotai/Kimi-VL-A3B-Instruct

kimi-vl

Kimi-VL 是一种多模态模型,可以理解图像并从中生成文本。