Китайская компания DeepSeek представила флагманскую языковую модель V4 в двух версиях — Pro и Flash. Обе построены на архитектуре Mixture of Experts (MoE) и доступны бесплатно в веб-чате и мобильном приложении DeepSeek, где режим Instant соответствует V4-Flash, а режим Expert — V4-Pro.
V4-Pro превосходит существующие модели с открытым кодом в агентных задачах, математике, программировании и естественных науках. В бенчмарке Apex Shortlist модель показала результат 90,2%, в Codeforces — рейтинг 3206, а в SWE Verified (тест на решение задач из GitHub) — 80,6% наравне с ведущими закрытыми моделями.
V4-Flash предлагает более высокую скорость ответа за счёт меньшего числа активируемых параметров, демонстрируя сравнимую с Pro-версией эффективность на простых задачах, но уступая в сложных сценариях.
«DeepSeek-V4 Preview официально запущен и имеет открытый исходный код! Добро пожаловать в эру экономичной длины контекста в 1 М. DeepSeek-V4-Pro: 1,6 Тб общего объема / 49 Б активных параметров. Производительность, сопоставимая с лучшими в мире моделями с закрытым исходным кодом. DeepSeek-V4-Flash: 284 Б общего объема / 13 Б активных параметров. Ваш быстрый, эффективный и экономичный выбор», — написали разрабы в своих соцсетях.
Самое главное в обновлении, что модели умеют работать с большим объёмом контекста (неважно код это или обычный текст) и нормально встраиваются в инструменты разработки вроде Claude Code и других open-source решений.
Обновление вышло весьма незаметно, т.к. при входе в саму нейросеть подпись о таком крупном обновлении не бросается в глаза, она сделана маленьким шрифтом. Более заметно об этом написал официальный канал разработчиков в соцсетях и новостные тг-каналы. Пока это самая обсуждаемая новость дня.
Больше интересных новостей смотрите в нашем федеральном тг-канале и в МАХ.