Компанія OpenAI випустила оновлену модель генерації зображень ChatGPT Images 2.0, яка суттєво покращує читабельність написів і рівень деталізації. Новий інструмент дозволяє швидко створювати складні зображення (від постерів і презентацій до коміксів та інтерфейсних макетів UI) лише за кілька хвилин. Про це пише TechCrunch.
Нове покоління генерації зображень помітно зменшує різницю між результатами, створеними людиною та штучним інтелектом. Якщо ще кілька років тому моделі часто помилялися в текстах і вигадували некоректні написи, то Images 2.0 уже здатна формувати зображення, які виглядають цілісно й придатні для реального використання без очевидних дефектів.
Крім того, системи генерації зображень мали проблеми з точністю тексту через використання дифузійних моделей, які відновлюють картинку з шуму та гірше опрацьовують дрібні елементи. Проте в новій моделі суттєво підвищилася якість і точність результатів.
Компанія OpenAI не розкриває технічну архітектуру Images 2.0, однак повідомляє, що модель має так звані "можливості мислення" (режим thinking). Вони дозволяють аналізувати запит, перевіряти власні результати. Крім того, додано можливість створювати кілька варіантів зображення з одного запиту, а також підтримку різних форматів і розмірів для адаптації під різні платформи.
Також модель демонструє покращену роботу з нелатинськими мовами (японською, корейською, хінді та бенгальською). Водночас її навчальна база обмежена даними до грудня 2025 року, що може впливати на актуальність окремих візуальних результатів.
У компанії додали, що Images 2.0 забезпечує безпрецедентний рівень точності та деталізації. Вона здатна не лише концептуалізувати складніші зображення, але й ефективно втілювати їх, дотримуючись інструкцій, зберігаючи деталі та відтворюючи дрібні елементи, які зазвичай "ламають" моделі: дрібний текст, іконки, UI-елементи, складні композиції та тонкі стилістичні обмеження - аж до роздільної здатності 2K.
Інструмент уже доступний усім користувачам ChatGPT і Codex, тоді як платні підписники отримають доступ до розширених можливостей. Для розробників відкрито доступ до моделі через API під назвою gpt-image-2, а ціна залежатиме від якості та роздільної здатності зображень. Він дозволяє генерувати та редагувати зображення, а також працювати з різними рівнями роздільної здатності включно з високодеталізованими варіантами.
OpenAI позиціонує ChatGPT Images 2.0 як наступний етап розвитку своїх візуальних моделей після дифузійних систем.
- 20 квітня користувачі в багатьох світових країнах повідомили про збій у роботі AI-моделей - Gemini, Claude, Copilot, ChatGPT. Це зафіксував Downdetector, який відстежує перебої в роботі сервісів.
- На початку квітня у Мінцифри анонсували появу голосового штучного інтелекту, який консультуватиме українців на гарячій лінії Мінцифри. Цей сервіс буде доступний для всіх і цілодобово.