故障排除#

本页列出了一些常见错误及修复它们的技巧。

CUDA 内存不足#

如果看到内存不足 (OOM) 错误,可以尝试调整以下参数。

  • 如果在预填充(prefill)期间发生 OOM,尝试将 --chunked-prefill-size 减小到 40962048

  • 如果在解码(decoding)期间发生 OOM,尝试减小 --max-running-requests

  • 也可以尝试减小 --mem-fraction-static,这会减少 KV 缓存内存池的内存使用,有助于预填充和解码。

CUDA 错误:检测到非法内存访问#

此错误可能是由于内核错误或内存不足问题引起的。

  • 如果是内核错误,修复起来不容易。请在 GitHub 上提交一个问题。

  • 如果是内存不足,有时会报告此错误而不是“内存不足”。请参考上面一节来避免 OOM。