重排序模型#
SGLang 通过结合优化的推理框架和灵活的编程接口,为重排序模型提供全面支持。该设置能够高效处理交叉编码器 (Cross-encoder) 重排序任务,提高搜索结果排序的准确性和相关性。SGLang 的设计确保了重排序模型部署期间的高吞吐量和低延迟,使其成为大规模检索系统中基于语义结果精炼的理想选择。
重要提示
它们通过 --is-embedding 参数执行,某些模型可能需要 --trust-remote-code
启动命令示例#
python3 -m sglang.launch_server \
--model-path BAAI/bge-reranker-v2-m3 \
--host 0.0.0.0 \
--disable-radix-cache \
--chunked-prefill-size -1 \
--attention-backend triton \
--is-embedding \
--port 30000
客户端请求示例#
import requests
url = "http://127.0.0.1:30000/v1/rerank"
payload = {
"model": "BAAI/bge-reranker-v2-m3",
"query": "what is panda?",
"documents": [
"hi",
"The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."
]
}
response = requests.post(url, json=payload)
response_json = response.json()
for item in response_json:
print(f"Score: {item['score']:.2f} - Document: '{item['document']}'")
支持的重排序模型#
模型系列 (重排序) |
HuggingFace 标识符示例 |
对话模板 |
描述 |
|---|---|---|---|
BGE-Reranker (BgeRerankModel) |
|
无 |
目前仅支持 |