故障排除#
本页列出了一些常见错误及修复它们的技巧。
CUDA 内存不足#
如果看到内存不足 (OOM) 错误,可以尝试调整以下参数。
如果在预填充(prefill)期间发生 OOM,尝试将
--chunked-prefill-size
减小到4096
或2048
。如果在解码(decoding)期间发生 OOM,尝试减小
--max-running-requests
。也可以尝试减小
--mem-fraction-static
,这会减少 KV 缓存内存池的内存使用,有助于预填充和解码。
CUDA 错误:检测到非法内存访问#
此错误可能是由于内核错误或内存不足问题引起的。
如果是内核错误,修复起来不容易。请在 GitHub 上提交一个问题。
如果是内存不足,有时会报告此错误而不是“内存不足”。请参考上面一节来避免 OOM。