Омни — всему голова: GPT-4o научилась чувствовать без посредников
OpenAI представила GPT-4o — флагманскую модель, которая видит, слышит и говорит в реальном времени, стирая границы между человеком и кодом.
OpenAI представила GPT-4o — флагманскую модель, которая видит, слышит и говорит в реальном времени, стирая границы между человеком и кодом.
3 мин

<a href="/glossary/openai" class="text-primary hover:underline">OpenAI</a> официально перевернула страницу «текстовых чат-ботов», представив <a href="/glossary/gpt" class="text-primary hover:underline">GPT</a>-4o (где «o» означает Omni). Это не просто очередной инкрементальный апдейт, а попытка научить алгоритм воспринимать мир так же целостно, как это делает человек — без костылей в виде промежуточных моделей. Почему это важно? Потому что теперь ИИ не просто «обрабатывает данные», он начинает имитировать присутствие.
До появления GPT-4o общение голосом с <a href="/glossary/chatgpt" class="text-primary hover:underline">ChatGPT</a> напоминало сеанс связи с Марсом через трех переводчиков. Вы говорите — одна нейросеть переводит звук в текст, вторая (GPT-4) анализирует смысл, третья озвучивает ответ. В этой цепочке терялось всё: интонации, эмоции, фоновый шум и, главное, время. Задержки в 3-5 секунд делали диалог механическим.
GPT-4o — это единая нейросеть, обученная сквозь текст, зрение и аудио (end-to-end). Все входные и выходные сигналы обрабатываются одним и тем же «цифровым мозгом». Результаты впечатляют:
Для индустрии ИИ и бизнеса GPT-4o несет не только вау-эффект, но и жесткую экономическую выгоду. OpenAI удалось оптимизировать стек так, что модель уровня GPT-4 Turbo стала доступнее:
Новый алгоритм токенизации стал настоящим подарком для неанглоязычных пользователей. Для русского языка количество необходимых токенов сократилось в 1.7 раза. Это означает, что генерация текста на русском стала быстрее, а стоимость использования модели через API для локальных разработчиков существенно снизилась. В целом, API GPT-4o в два раза быстрее и на 50% дешевле, чем предыдущие флагманские решения компании.
Несмотря на почти пугающую «человечность» (демо-версии уже вовсю флиртуют и иронизируют), OpenAI сохраняет осторожность. Модель прошла тестирование у более чем 70 экспертов в области социальной психологии и кибербезопасности. Чтобы минимизировать риски, аудио-возможности будут внедряться постепенно, а на старте пользователи получат доступ только к предустановленным голосам.
GPT-4o — это первый уверенный шаг к интерфейсу из фильма «Она». OpenAI перестала гнаться только за объемом параметров и сосредоточилась на юзабилити. Пока конкуренты пытаются увеличить контекстное окно, Сэм Альтман делает ставку на скорость и естественность. Мы входим в эру, где взаимодействие с компьютером больше не требует клавиатуры — достаточно просто быть рядом и говорить.