Компания OpenAI официально объявила о значительном расширении своего программного интерфейса (API), представив новую модель GPT-Realtime-2, специально разработанную для работы с голосом в режиме реального времени.

Это обновление знаменует собой важный шаг в развитии технологий искусственного интеллекта, позволяющий разработчикам создавать приложения, которые не просто распознают речь, но и способны вести полноценные, естественные диалоги, выполнять синхронный перевод и мгновенно транскрибировать аудио в текст с минимальной задержкой. Новые инструменты призваны трансформировать простые голосовые интерфейсы в мощные системы, способные слушать, анализировать контекст и предпринимать действия непосредственно в ходе разговора.

Центральным элементом анонса стала модель GPT-Realtime-2. Это флагманское решение для голосового взаимодействия, которое, по заявлению разработчиков, построено на основе логики и архитектурных решений класса GPT-5. Такое техническое основание позволяет модели эффективно обрабатывать значительно более сложные запросы пользователей по сравнению с предыдущими версиями. В отличие от своей предшественницы, GPT-Realtime-1.5, новая модель демонстрирует существенный скачок в качестве понимания контекста и выполнении задач.

Одним из ключевых улучшений GPT-Realtime-2 является радикальное увеличение контекстного окна. Теперь оно составляет 128 тысяч токенов, что в четыре раза больше, чем у предыдущего поколения (32 тысячи токенов). Это позволяет агенту «помнить» гораздо боль объем информации в рамках одной сессии, что критически важно для длинных и сложных диалогов. Кроме того, модель получила возможность параллельного вызова инструментов. Это означает, что ИИ-агент может одновременно использовать несколько внешних сервисов или функций для решения задачи, оперативно информируя пользователя о процессе.

Для повышения естественности общения внедрена функция «преамбул». Разработчики могут настроить модель так, чтобы она использовала короткие вводные фразы, такие как «позвольте мне это проверить» или «секунду, я поищу информацию», перед тем как выдать основной ответ. Это имитирует человеческое поведение и делает взаимодействие менее роботизированным. Также модель научилась лучше управлять тоном речи, корректируя интонацию в зависимости от эмоционального контекста ситуации.

Важным аспектом стало улучшение устойчивости к ошибкам. Если ранее при возникновении сбоя модель могла просто прекратить работу, то теперь она способна корректно восстановиться и продолжить диалог без потери нити разговора. Помимо этого, GPT-Realtime-2 демонстрирует улучшенное понимание специализированных предметных областей. Она лучше запоминает и правильно использует сложные термины, имена собственные и лексику, связанную со здравоохранением и другими профессиональными сферами. Разработчики также получили возможность гибко настраивать уровень сложности рассуждений модели, выбирая между пятью градациями: от минимального до сверхвысокого, что позволяет оптимизировать скорость ответа и глубину анализа под конкретные задачи.

По мнению представителей компании, запуск GPT-Realtime-2 переводит аудио-взаимодействие из категории простых диалоговых систем в категорию полноценных голосовых интерфейсов, которые действительно могут работать, рассуждать и действовать по мере развития разговора, открывая новые горизонты для создания интеллектуальных ассистентов.

Ранее киберы писали, что OpenAI хотят выпустить собственный смартфон. Больше интересных новостей смотрите в нашем федеральном тг-канале и МАХ, там новости выходят намного раньше других соцсетей, а ещё есть много уникального контента.