OpenAI ogłosiło trzecią wersję swojego generatora obrazów opartego na sztucznej inteligencji, DALL-E 3, dokładnie 20 września 2023 roku. Chociaż DALL-E było pierwszym narzędziem do tworzenia obrazów AI (pionierskie narzędzie, które zapoczątkowało cały ten powszechny szał), nie zdominowało ono rynku pod względem popularności, ze względu na ostrą konkurencję, w postaci programów takich jak Midjourney i Stable Diffusion, Jasper Art (oraz niedawno uruchomionego Adobe FireFly).
Niemniej jednak wraz z DALL-3 zostały zaimplementowanie ulepszenia i szereg nowych funkcji, które mają na celu uplasowanie się przez DALL-E na pozycji numer 1 w wyścigu o miano najlepszego generatora obrazów opartego o sztucznej inteligencji, ale są też zmiany i kwestie, które sprawiają, że wiele osób może kwestionować, czy DALL-E 3 jest lepsze, ponieważ nie można już naśladować stylu innych artystów. Poniżej przedstawiamy treściwe wyjaśnienie na temat tego, jakie są różnice pomiędzy DALL-E 2 oraz DALL-E 2, oraz jakie zmiany dokładnie zostały wprowadzone.
DALL-E 2 vs DALL-E 3: poważną zmianą jest integracja z ChatGPT
Aby odzyskać „skradziony” tron, OpenAI stojące za ChatGPT musiało zaoferować coś, czego konkurenci nie byli w stanie zaoferować, i osiągnęli dzięki integracji DALL-E 3 z ChatGPT. Jest to bardzo ważna zmiana, ponieważ dobre zrozumienie tekstu wejściowego jest niezbędne do osiągnięcia pożądanego efektu wizualnego obrazu. A ponieważ OpenAI jest obecnie liderem wśród twórców dużych modeli językowych, naturalne jest, że w końcu zaczęli wykorzystywać swoje możliwości do ulepszania generowania obrazów pod względem jakości i ułatwienia użytkownikom korzystania narzędzia, tak aby nie musieli uczyć się rozmawiać z modelem, zanim będzie on w stanie wygenerować obraz, którego naprawdę pozadają. ChatGPT wykorzystywany jest w „burzy mózgów”, aby pomóc użytkownikowi w tworzeniu pomysłów na obrazy poprzez wymianę konwersacji między tymi dwoma narzędziami.
W DALL-E 3 nie można już naśladować stylu innych (żyjących) artystów w obrazach AI
To kolejna znacząca zmiana. W zależności od punktu widzenia, dla niektórych może to być zła wiadomość: DALL-E 3 odrzuca zapytania, w których użytkownicy proszą sztuczną inteligencję o stworzenie dzieła sztuki inspirowanego stylem żyjącego artysty (inspirowanie się stylem nieżyjących artystów jest dozwolone). Jednocześnie artyści mogą również zrezygnować z wykorzystywania ich dzieł sztuki do trenowania generatywnej sztucznej inteligencji – przynajmniej tak twierdzi OpenAI.
Te nowe ograniczenia pojawiły się w następstwie rosnącej presji prawnej związanej z prawami autorskimi do dzieł AI w sądach na całym świecie, ponieważ generatory obrazów AI, a precyzując ich właściciele, stają w obliczu procesów sądowych.
Ponadto OpenAI wdrożyło dodatkowe zabezpieczenia, które sprawiają, że narzędzie nie generuje treści zawierających przemoc, treści dla dorosłych lub treści nienawistnych. Bezpośredni konkurenci DALL-E, będą prawdopodobnie zmuszeni do podążania podobną ścieżką.
DALL-E 2 vs DALL-E 3: różnice w interpretacji promptów (zapytań)
DALL-E 2 nie jest pozbawione problemów w kwestii interpretowaniu promptów tekstowych. Ta wersja generatora obrazów AI nie interpretuje poprawnie wszystkich poleceń tekstowych i nie radzi sobie w generowaniu określonych obiektów.
Jednym z najważniejszych ulepszeń wprowadzonych w DALL-E 3 jest to, że nowa wersja lepiej rozumie podpowiedzi tekstowe, zwłaszcza te dłuższe. DALL-E 3 wyróżnia się wiernym podążaniem za złożonymi wskazówkami. Na przykład DALL-E 3 jest w stanie dokładnie wyrenderować sceny z określonymi wieloma obiektami, takimi jak „kot siedzący na kanapie obok lampy” lub „niebieski samochód zaparkowany przed czerwonym domem”. W przeciwieństwie do tego DALL-E 2 czasami błędnie interpretuje lub ignoruje pewne znaki, co wymaga doświadczenia użytkownika w układaniu promptów.
DALL-E 2 vs DALL-E 3: czy jakość obrazu jest lepsza?
Porównując bezpośrednio wyniki DALL-E 2 z DALL-E 3 dla tego samego promptu, od razu widać, że nowa wersja generuje znacznie lepsze obrazy. Obrazy z DALL-E 3 charakteryzują się większą szczegółowością, ostrzejszym oświetleniem, wyraźniejszymi teksturami i bardziej szczegółowym tłem. Pod niemal każdym względem jakość obrazu jest lepsza. Oto szczegółowe zmiany w jakości obrazu:
- W DALL E 3, w szczególności ulepszone zostało renderowanie ludzkich detali, w tym twarzy, dłoni, włosów i ubrań. Generator tworzy realistyczne i zróżnicowane ludzkie twarze z różnymi wyrazami twarzy, pozami, kątami i warunkami oświetleniowymi. W przeciwieństwie do tego, DALL-E 2 zmaga się z tymi aspektami, czasami dając zniekształcone lub nienaturalne rezultaty.
- Kolejną uderzającą różnicą jest rozdzielczość. DALL-E 2 generuje obrazy o rozdzielczości 512×512 pikseli, co stanowi znaczną poprawę w stosunku do 256×256 pikseli oryginalnego DALL-E. Jednak DALL-E 3 oferuje imponującą rozdzielczość 1024×1024 pikseli.
- Innym aspektem związanym z jakością obrazu w DALL-E 3 jest jego zdolność do generowania wysokiej jakości tekstu na obrazie. Przez długi czas był to problem nawet dla najpotężniejszych narzędzi tego typu, ale wygląda na to, że w końcu został on rozwiązany w najnowszej wersji.
Nowość DALL-E 3: integracja z wyszukiwarką
Podczas gdy narzędzie DALL-E 2 było dostępne tylko za pośrednictwem strony internetowej OpenAI, DALL-E 3 jest teraz dostępne bezpośrednio w wyszukiwarce Microsoftu, Bing. Funkcja jest dostępna za pośrednictwem czatu Bing Chat. DALL-E 2 nigdy nie zawierał takich integracji. Ta funkcja jest dostępna tylko dla użytkowników ChatGPT Plus, którzy muszą płacić miesięczną subskrypcję.
DALL-E 3 umożliwia sprawdzenie, czy obraz został wygenerowany przez to narzędzie
DALL-E 3 posiada klasyfikator pochodzenia – wewnętrzne narzędzie zaprojektowane w celu identyfikacji, czy obraz został wygenerowany przez DALL-E 3. Narzędzie to służy wielu celom, pomagając OpenAI zrozumieć możliwe zastosowania i nadużycia generowanych obrazów oraz pomagając użytkownikom zweryfikować autentyczność generowanych obrazów.
Ewolucja DALL-E: wnioski
Premiera DALL-E w 2021 roku nie tylko zaszokowała świat technologii, ale także zainspirowała twórców ze wszystkich zakątków świata. Artyści wizualni, pisarze, projektanci i twórcy treści postrzegali DALL-E jako niezrównane narzędzie do wykorzystania swojej wyobraźni. Możliwości wydawały się nieograniczone, od generowania unikalnych ilustracji po tworzenie wizualnych historii, które przenoszą ludzi do niewyobrażalnych wcześniej światów.
DALL-E 1 i DALL-E 2 były przykładami tego, jak ludzie z iskrą kreatywności i inteligentne maszyny są w stanie razem współpracować, aby tworzyć wyjątkowe obrazu. Druga wersja tego generatora obrazów potwierdziła, że jest to narzędzie, z którym należy się liczyć: DALLE nie był już tylko eksperymentem, ale doskonale sprawdzającym się narzędziem zastępującym projektantów graficznych.
Wraz z DALL-E 3, ten generator obrazu oficjalnie osiągnął „pełnoletniość”, dzięki funkcjom, zaprojektowanymi tak, aby uczynić go narzędziem dostępnym dla jak najszerszego grona odbiorców, z poszanowaniem stale zmieniających się ram etycznych i prawnych.