重排序模型#

SGLang 通过结合优化的推理框架和灵活的编程接口,为重排序模型提供全面支持。该设置能够高效处理交叉编码器 (Cross-encoder) 重排序任务,提高搜索结果排序的准确性和相关性。SGLang 的设计确保了重排序模型部署期间的高吞吐量和低延迟,使其成为大规模检索系统中基于语义结果精炼的理想选择。

重要提示

它们通过 --is-embedding 参数执行,某些模型可能需要 --trust-remote-code

启动命令示例#

python3 -m sglang.launch_server \
  --model-path BAAI/bge-reranker-v2-m3 \
  --host 0.0.0.0 \
  --disable-radix-cache \
  --chunked-prefill-size -1 \
  --attention-backend triton \
  --is-embedding \
  --port 30000

客户端请求示例#

import requests

url = "http://127.0.0.1:30000/v1/rerank"

payload = {
    "model": "BAAI/bge-reranker-v2-m3",
    "query": "what is panda?",
    "documents": [
        "hi",
        "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."
    ]
}

response = requests.post(url, json=payload)
response_json = response.json()

for item in response_json:
    print(f"Score: {item['score']:.2f} - Document: '{item['document']}'")

支持的重排序模型#

模型系列 (重排序)

HuggingFace 标识符示例

对话模板

描述

BGE-Reranker (BgeRerankModel)

BAAI/bge-reranker-v2-m3

目前仅支持 attention-backendtritontorch_native。来自北京智源人工智能研究院 (BAAI) 的高性能交叉编码器重排序模型。适用于根据语义相关性对搜索结果进行重排序。