Войти
26.04.2026 14:38

SGLang получил поддержку NVIDIA Model Optimizer

Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.

 

Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн.

Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.