Microsoft Phi-4-Vision-Reasoning: компактная модель с навыками рассуждения
Microsoft представляет новую модель семейства Phi, объединяющую визуальное восприятие и сложные цепочки рассуждений в компактном формате.
Microsoft представляет новую модель семейства Phi, объединяющую визуальное восприятие и сложные цепочки рассуждений в компактном формате.
5 мин

Microsoft Research анонсировала новую модель в своей линейке компактных языковых моделей — Phi-4-Vision-Reasoning. Это мультимодальная модель, которая не просто распознает изображения, но и способна проводить сложные рассуждения (reasoning) на основе визуальных данных. Главная цель разработчиков заключалась в том, чтобы преодолеть типичные недостатки крупных мультимодальных систем — их медлительность, высокую стоимость использования и сложности при внедрении. Новая модель стремится объединить эффективность небольших моделей с аналитическими способностями, ранее доступными только гигантам индустрии.
Индустрия искусственного интеллекта движется в двух, казалось бы, противоположных направлениях. С одной стороны, мы видим гонку за созданием всё более огромных моделей (как GPT-4 или Gemini Ultra), которые требуют колоссальных вычислительных мощностей. С другой стороны, растет спрос на «малые языковые модели» (SLM), которые можно запускать локально на устройствах пользователей или с минимальными затратами в облаке.
Семейство моделей Phi от Microsoft зарекомендовало себя как лидер в нише компактных решений. Предыдущие версии (Phi-1, Phi-2, Phi-3) показывали удивительно высокие результаты на бенчмарках, несмотря на скромное количество параметров, благодаря использованию синтетических данных высокого качества для обучения. Теперь Microsoft делает следующий шаг, добавляя к этому «визуальный интеллект» и способность к пошаговым рассуждениям.

Performance charts comparing Phi-4-Reasoning-Vision-15B against other models (Kimi-VL, Qwen-3, Gemma-3) on accuracy vs. response time and accuracy vs. completion tokens. Phi-4 stands out as being fast and token-efficient while achieving ~75% accuracy.
Ключевая особенность Phi-4-Vision-Reasoning заключается в интеграции двух важных компонентов:
Разработчики подчеркивают, что объединение этих навыков в компактной архитектуре позволяет снизить задержку (latency) при генерации ответов и сделать передовые технологии доступнее для широкого круга разработчиков и компаний.

A physics problem about spring-mass systems, with two diagrams. The model correctly works through the spring constant relationships and arrives at answer B (0.433s).
Появление Phi-4-Vision-Reasoning сигнализирует о важном сдвиге в приоритетах крупных игроков. Если раньше фокус был смещен на «сырую мощь» и объем знаний модели, то теперь на первый план выходят эффективность и специализация. Компактные модели с навыками рассуждения открывают дорогу для создания действительно умных агентов, работающих на периферийных устройствах (edge devices) — от смартфонов до промышленных роботов.
Это также решает проблему стоимости. Запуск огромной модели для каждой задачи часто экономически нецелесообразен. Небольшая, но «умная» модель, способная видеть и думать, может стать идеальным решением для автоматизации рутинных бизнес-процессов, где требуется анализ документов или визуальный контроль качества.
В ближайшем будущем мы увидим усиление конкуренции в сегменте малых мультимодальных моделей. Успех Phi-4 может подтолкнуть другие лаборатории (например, Google с их Gemma или Meta с Llama) к выпуску аналогичных специализированных версий.
Главный вопрос, который предстоит решить индустрии, — насколько надежными могут быть рассуждения в моделях с ограниченным числом параметров. Если Microsoft удастся доказать, что «маленький мозг» может рассуждать так же логично, как и большой, это кардинально изменит архитектуру будущих AI-систем, сместив баланс от облачных вычислений к локальной обработке данных.
Microsoft выпустила Phi-4-Vision-Reasoning — компактную модель, которая объединяет анализ изображений с глубокими логическими рассуждениями, делая сложные AI-системы быстрее и дешевле.
Тренд на «умные» компактные модели может вернуть вычисления из облака обратно на устройства пользователей, так как для сложного анализа больше не потребуется суперкомпьютер.