Alibaba открыла исходный код модели Qwen3-VL
- Елена Санникова
- Технологии
- 0 комментарии
Это vision-language модель, которая умеет управлять графическими интерфейсами, писать код, строить диаграммы в Draw.io по макетам и распознавать объекты в самых разных областях - от повседневной жизни до узкоспециализированных сфер.
Среди ключевых возможностей: точное определение событий в видео продолжительностью до двух часов, расширение поддержки OCR с 19 до 32 языков с улучшением качества на редких символах и наклонном тексте, работа с контекстом длиной 256 тысяч токенов с возможностью увеличения до миллиона, а также высокая точность в задачах обнаружения рисков в реальных условиях.


































