Logo
Версия для печати

SGLang получил поддержку NVIDIA Model Optimizer

Важное обновление SGLang, которое кардинально упрощает работу ML-инженеров, позволяя проводить квантование и деплой моделей внутри одной экосистемы без использования сторонних утилит и сложных пайплайнов.

 

Теперь разработчики могут напрямую через API конвертировать модели в форматы NVFP4, MXFP4, FP8 и сразу запускать их в продакшн.

Тесты на архитектуре NVIDIA Blackwell показали, что использование квантования NVFP4 через SGLang удваивает пропускную способность по сравнению с базовым FP8.

2013 - 2026 © 24minsk.by. Все права защищены.
Использование любых материалов, размещённых на интернет-сайте, разрешается при условии ссылки (для интернет-ресурсов - активной гиперссылки) на 24minsk.by.