AI-генерираните изображения стават все по-трудни за разпознаване, а новата актуализация ChatGPT Images 2.0 на OpenAI показва колко бързо се променя границата между реална и създадена от изкуствен интелект визуализация. Доскоро потребителите можеха да търсят познати признаци като неправилни пръсти, странни детайли или нечетим текст, но тези слабости постепенно изчезват.
Има обичайни белези, по които едно AI изображение може да бъде разпознато. Проблемът е, че с всяко ново поколение модели те стават все по-малко видими. Преди можеше да се разчита, че ръцете в AI изображенията често ще имат твърде много или твърде малко пръсти. Днес това вече не е толкова сигурен ориентир.
Една от най-ясните слабости на моделите за генериране на изображения досега беше текстът. Самото изображение можеше да изглежда убедително, но при по-внимателен поглед към думите често се виждаше, че нещо не е наред. Някои думи бяха правилни, други почти точни, но в много случаи имаше очевидни несъответствия: прекалено много повтарящи се букви, знаци, които не са истински букви, символи, които се сливат, размиват или извиват един в друг. Подобни странности напомняха на измислените писмености от „Междузвездни войни“, поне когато AI се опитваше да пресъздаде американски английски.

Най-новите AI модели обаче стават значително по-добри и в генерирането на текст. Според OpenAI ChatGPT Images 2.0 е голяма стъпка напред при създаването на изображения, включително при следване на инструкции, работа с детайли и генериране на плътен текст в самите изображения. Компанията посочва, че новият thinking mode добавя разсъждение и използване на инструменти в процеса на генериране, включително интегриране на данни от уеб търсене и създаване на няколко изображения от една заявка.
Това означава, че моделът може да отделя повече време за разбиване на една заявка на отделни стъпки, което може да доведе до по-детайлни и по-точни изображения. Сред възможностите е и генерирането на до осем изображения от един prompt, като по-широкият достъп до разширените функции е насочен към платените потребители. Безплатните потребители също могат да използват част от предимствата на Images 2.0, включително възможността системата да търси информация в интернет и да проверява резултата си.
OpenAI описва резултатите като по-малко „AI-генерирани“ и по-скоро „умишлено проектирани“. На практика това означава, че изображенията, създавани чрез ChatGPT, ще стават все по-трудни за разпознаване като изкуствено генерирани.

Компанията демонстрира увереност в новия модел, като показва широк набор от визуални формати, които той може да създава. Това не са само фотореалистични изображения, а още screenshots на компютърен интерфейс, списателни колажи, купчина ориз, страница от списание и ръкописно есе. В официалната си публикация OpenAI показва примери с реалистични снимки, графични новели, movie posters, различни съотношения на страните и дори формати, напомнящи панорамен изглед от iPhone.
Особено впечатляващ е примерът с ръкописния текст, включително детайли като петно от кафе върху листа. На пръв поглед това вече не е просто AI изображение, а визуален материал, който може да изглежда като реално заснет или сканиран документ.
Всички тези подобрения са едновременно впечатляващи и тревожни. Най-съществената промяна обаче е именно при текста. Много модели вече са достатъчно добри в създаването на изображения, които могат да подведат потребителите, че са реални. Но нивото на детайлност при надписи, менюта, страници, плакати и други текстови елементи в примерите на OpenAI показва нов етап в развитието на AI визуализациите.

При тест със заявка за меню на италиански ресторант, включващо пет вечерни ястия и два десерта, ChatGPT успява да генерира реалистично изглеждащо меню с коректни записи за основни ястия и десерти. След това при заявка за вестникарска публикация, която съобщава, че Boston Red Sox и New York Yankees ще разменят градовете си, моделът също генерира резултат без очевидни грешки в текста.
Това не означава, че изображенията са перфектни. Все още може да се забележи определен AI „блясък“, който тренирано око или внимателен наблюдател би могъл да улови. OpenAI също признава, че Images 2.0 има затруднения при някои сложни задачи, например пъзели, както и при детайли, разположени на скрити, обърнати или необичайно позиционирани повърхности.
Но това може да няма голямо значение за масовия потребител. Ако едно изображение е достатъчно убедително, за да заблуди повечето хора, които просто го виждат в социалните мрежи, то вече изпълнява основната си роля. Инфографики, фотографии, карти, комикси, movie posters и всякакви други визуални формати ще се появяват все по-често в интернет, като в много случаи потребителите може изобщо да не разберат, че са създадени от изкуствен интелект.
OpenAI посочва, че при ChatGPT Images 2.0 продължава да използва инструменти за произход на съдържанието, включително C2PA metadata и невидим воден знак, които трябва да помогнат за разпознаването на изображения, създадени чрез продуктите на компанията. Въпреки това самата компания признава, че няма едно универсално решение за проблема с произхода и прозрачността на AI съдържанието.
- ТЕМИ: