奖励模型#
这些模型输出标量奖励分数或分类结果,常用于强化学习或内容审核任务。
重要提示
它们通过 --is-embedding
执行,有些可能需要 --trust-remote-code
。
启动命令示例#
python3 -m sglang.launch_server \
--model-path Qwen/Qwen2.5-Math-RM-72B \ # example HF/local path
--is-embedding \
--host 0.0.0.0 \
--tp-size=4 \ # set for tensor parallelism
--port 30000 \
支持矩阵#
模型家族 (奖励) |
HuggingFace 标识符示例 |
描述 |
---|---|---|
Llama (3.1 奖励 / |
|
基于 Llama 3.1 (8B) 的奖励模型(偏好分类器),用于对 RLHF 的响应进行评分和排名。 |
Gemma 2 (27B 奖励 / |
|
源自 Gemma‑2 (27B),该模型为 RLHF 和多语言任务提供人类偏好评分。 |
InternLM 2 (奖励 / |
|
基于 InternLM 2 (7B) 的奖励模型,用于对齐流程中,引导输出倾向于期望的行为。 |
Qwen2.5 (奖励 - 数学 / |
|
源自 Qwen2.5 系列的 72B 数学专业 RLHF 奖励模型,经过调优用于评估和优化响应。 |
Qwen2.5 (奖励 - 序列 / |
|
Qwen2.5 的一个较小变体,用于序列分类,提供另一种 RLHF 评分机制。 |