Компания OpenAI выпустила обновленную модель генерации изображений ChatGPT Images 2.0, существенно улучшающую читабельность надписей и уровень детализации. Новый инструмент позволяет быстро создавать сложные изображения (от постеров и презентаций до комиксов и интерфейсных макетов UI) всего за несколько минут. Об этом пишет TechCrunch.
Новое поколение генерации изображений заметно уменьшает разницу между результатами, созданными человеком и искусственным интеллектом. Если еще несколько лет назад модели часто ошибались в текстах и сочиняли некорректные надписи, то Images 2.0 уже способна формировать изображения, которые выглядят целостно и пригодны для реального использования без очевидных дефектов.
Кроме того, системы генерации изображений имели проблемы с точностью текста из-за использования диффузионных моделей, которые восстанавливают картинку шума и хуже прорабатывают мелкие элементы. В новой же модели существенно повысилось качество и точность результатов.
Компания OpenAI не раскрывает техническую архитектуру Images 2.0, однако сообщает, что у модели есть так называемые "возможности мышления" (режим "thinking"). Они разрешают анализировать запрос, проверять собственные результаты. Кроме того, добавлена возможность создавать несколько вариантов изображения по одному запросу, а также поддержка разных форматов и размеров для адаптации под разные платформы.
Также модель демонстрирует улучшенную работу с нелатинскими языками (на японском, корейском, хинди и бенгальском). В то же время, ее учебная база ограничена данными до декабря 2025 года, что может влиять на актуальность отдельных визуальных результатов.
В компании добавили, что Images 2.0 обеспечивает беспрецедентный уровень точности и детализации. Она способна не только концептуализировать более сложные изображения, но и эффективно воплощать их, следуя инструкциям, сохраняя детали и воспроизводя мелкие элементы, обычно "ломающие" модели: мелкий текст, иконки, UI-элементы, сложные композиции и тонкие стилистические ограничения - вплоть до разрешения 2K.
Инструмент уже доступен всем пользователям ChatGPT и Codex, платные подписчики получат доступ к расширенным возможностям. Для разработчиков открыт доступ к модели через API под названием gpt-image-2, а цена зависит от качества и разрешения изображений.
OpenAI позиционирует ChatGPT Images 2.0 как следующий этап развития собственных зрительных моделей после диффузионных систем.
- 20 апреля пользователи во многих странах сообщили о сбое в работе AI-моделей – Gemini, Claude, Copilot, ChatGPT.
- В начале апреля в Минцифры анонсировали появление искусственного интеллекта, который будет консультировать украинцев на горячей линии. Этот сервис будет доступен всем и круглосуточно.