OpenAI poprawia w popularnym czacie AI funkcję generowania obrazków. Model DALL-E 3 zastąpi nowy oparty na GPT-4o.
OpenAI twierdzi, że nowe narzędzie dostarcza obrazy, które są znacznie dokładniejsze i bardziej szczegółowe niż te tworzone przez poprzednika. Jednak ich wygenerowanie zajmuje trochę więcej czasu.
Prace, których autorem jest teraz ChatGPT są bardziej fotorealistyczne, a elementy na nich są poprawniej ze sobą zestawiane. Lepiej renderowane są też na nich napisy. Rozwinięto ponadto możliwości edycji i przekształcania obrazów – naturalnie robimy to, rozmawiając z AI.
Nowe narzędzie doskonale sobie radzi z przekształcaniem załadowanych do niego szkiców i grafik. Nie tylko tworzy prace, które opiszemy wcześniej słowami. Możemy więc np. naszkicować coś i poprosić, by ChatGPT zamienił to w „zdjęcie”. Abo stworzył dla nas na bazie naszych prymitywnych rysunków bardziej „artystyczny” komiks.
Dołączenie do generowania obrazków modelu GPT-4o spowodowało też, że teraz ChatGPT może dla nas przygotować dobrze wyglądające slajdy od razu z sensownym opisem. Idealne w biznesie lub w edukacji.
OpenAI uczciwie zaznacza, że nie wszystko jest idealnie. Nowy model do generowanie obrazków czasami ma m.in. problemy z ich przycinaniem oraz tworzeniem napisów w innych językach niż łacińskie. Nie działa też optymalnie precyzyjna edycja i szczegółowe renderowanie mniejszych obiektów. Jak każda AI, ta też cierpi sporadycznie na halucynacje. Przez to może tworzyć czasem naprawdę „bajkowe” kompozycje.
ChatGPT. Ograniczenia w generowania obrazów
OpenAI wdrożyło do modułu generowania obrazów pewne środki bezpieczeństwa. Wszystkie prace stworzone za pomocą tego narzędzia będą zawierały „cyfrowy podpis” zapisany w formacie C2PA jasno łączący je z GPT-4o.
ChatGPT będzie również blokował możliwość tworzenia obrazów będących dziecięcą pornografią, seksualnymi deepfak’ami lub zawierających „nieodpowiednie zdjęcia prawdziwych osób”.
Poprawienie funkcji generowania obrazów w ChatGPT jest odpowiedzią na niedawne zmiany w konkurencyjnym Gemini. Google znacznie ulepszyło możliwości generowania obrazów w swojej sztucznej inteligencji dzięki modelowi Flash 2.0. Duże poruszenie wywołało np. odkrycie przez użytkowników, że Gemini doskonale sobie dobrze z usuwaniem znaków wodnych z załadowanych do niego zdjęć.
Foto: ChatGPT/AI.