SGLang получил поддержку NVIDIA Model Optimizer
- Елена Санникова
- Технологии
- 0 комментарии
Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.
Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн.
Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.





