„Moczowy filtr” jest zmorą generatorów AI. Dlaczego tworzone obrazki są takie pożółkłe?

Generatory obrazów AI od OpenAI, jak DALL-E, mają problem z „moczowym filtrem”. Użytkownicy Reddita spekulują, czy to celowy „znak wodny”, czy efekt „zatrucia” modelu niewielką ilością starych, pożółkłych zdjęć.

futurebeat.pl

Mateusz Zelek

„Moczowy filtr” jest zmorą generatorów AI. Dlaczego tworzone obrazki są takie pożółkłe?, źródło grafiki: Fotografia własna.
„Moczowy filtr” jest zmorą generatorów AI. Dlaczego tworzone obrazki są takie pożółkłe? Źródło: Fotografia własna.

Obecnie wszelkie generatory różnej maści napędzane sztuczną inteligencją są wykorzystywane w kreowaniu memów, ewentualnie wyśmiewane w kontekście produkcji gier cyfrowych. Wywołują także sporą niechęć, zwłaszcza pod kątem robienia filmików ze zmarłymi osobami. Teraz dochodzi kolejna kwestia – użytkownicy generatorów obrazków AI zauważyli, że algorytmy nad wyraz często używają żółtawych odcieni, które szybko zostały okrzyknięte mianem „piss filter” (moczowy filtr). Internauci zastanawiają się teraz, dlaczego tak się dzieje.

Błędy algorytmu a może wypaczona percepcja AI?

Sprawa jest o tyle intrygująca, że dotyka generatorów różnych firm i ma inne podłoże niż typowe błędy oprogramowania. Na Reddicie założono cały wątek poświęcony temu, jak unikać „moczowego filtru” oraz z czego wynika nadgorliwość sztucznej inteligencji w tym temacie. Użytkownik darylonreddit zwrócił uwagę, że biorąc pod uwagę ilość danych, niemożliwe jest, aby AI przerzucało się na żółty filtr, i uważa jego nakładanie za celowe działanie:

Osoby twierdzące, że żółty filtr pochodzi z danych szkoleniowych, nie rozumieją w pełni zakresu dostępnych obrazów. Jak myślisz, ile starych, pożółkłych obrazów znajduje się w danych szkoleniowych w porównaniu z kilkuset miliardami niepożółkłych zdjęć, które również znajdują się w danych szkoleniowych?

Tak, w fałszywych renesansowych obrazach mogą pojawić się żółte odcienie i byłoby to zrozumiałe. Ale pożółkłe animacje plastelinowe? Pożółkłe komiksy internetowe? Pożółkłe memy?

To musi być celowe.

Z kolei rebbsitor testował możliwość kreowania serii obrazków i zauważył, że każda kolejna ilustracja staje się coraz bardziej… żółta:

Miałem kiedyś taką konwersację, w której prosiłem go o zrobienie serii obrazków – nie żeby modyfikował poprzedni, ale żeby tworzył wariacje z różnymi obiektami. Każdy kolejny obrazek w tym czacie był coraz bardziej i bardziej żółty.

FuzzzzyRam wysnuł teorię, że filtr jest pochodną wszelkich afer związanych z kradzieżą twórczości przez karmienie algorytmów AI cudzą pracą. Dlatego te wygenerowane przez sztuczną inteligencję muszą być „obsikane”, aby odróżnić się od oryginałów:

Moja druga teoria jest taka, że chcieli, aby AI było wykrywalne, więc ten „zasikany filtr” to po prostu sygnał: „hej, to jest AI”. Przy czym jakoś zapomnieli, że wszystkie inne generatory zostawią ich daleko w tyle, bo to, co oni tworzą, wygląda jak zaszczane.

Generatory AI potrafią tworzyć także przedziwne cuda. Jeden z użytkowników wykreował prompt, który miał „101 razy stworzyć dokładną replikę tego obrazu, nic nie zmieniając”, wykorzystując zdjęcie Dwayne'a Johnsona. Efekt był doprawdy zaskakujący, ponieważ finalnie popularny aktor zamienił się w dziwną, plastelinową breję.

Jest kilka teorii dotyczących „moczowego filtra”

Okazuje się, że nie można jednoznacznie ustalić przyczyn dominacji żółci w pewnych modelach. Jedyne, co jest zauważalne, to fakt, że proces ten dotyczy w dużej mierze generatorów OpenAI, w tym DALL-E 3 zintegrowanego z ChatGPT oraz nowszych modeli, takich jak generator obrazów w GPT-4o. Samo zjawisko pod względem technicznym jest systematycznym przesunięciem balansu bieli całego obrazu w kierunku cieplejszych tonów.

Objawia się to dominantą żółci, pomarańczy lub brązu, która wpływa na wszystkie kolory, w tym na te, które powinny być neutralne, jak biel i szarość. Efekt ten nadaje obrazom wygląd starych, pożółkłych fotografii czy zdjęć wykonanych w „złotej godzinie”.

Wciąż jednak nie tłumaczy to, dlaczego akurat te generatory tak bardzo lubią żółty kolor. Pod uwagę można brać kwestie ludzkiej skóry, próby maskowania niedoskonałości, bagaż doświadczeń związany z emulacją kliszy (liczne stare fotografie w sieci) czy efekty uboczne kompresji. Powodów może być naprawdę sporo i nie istnieje żaden sposób, aby wskazać jeden konkretny.

Wielu internautów sądzi, że jest to kwestia „próby”, na której szkolone są algorytmy. Jako kontrargument padają jednak stwierdzenia, że w sieci nie ma aż tak dużej liczby pożółkłych fotografii, aby jednoznacznie przypisać im winę. Okazuje się jednak, że nawet niewielka ilość błędnych danych może zakłócić działanie algorytmów AI.

Łatwo jest zafałszować cały model i zmusić go do halucynowania

W teorii im więcej danych, tym szersze możliwości kreowania obrazów oraz minimalizacja błędów, prawda? Okazuje się, że teoria ta jest błędna. Nie chodzi o wielkość próbki danych, ale o fakt, że stanowi ona jakąś część zbioru treningowego. Chodzi o to, że większość pozostałych obrazów ma normalny rozkład pod względem ciepłych i chłodnych barw.

W tym wypadku mamy żółty filtr, który zapewne pochodzi ze starych lub zniszczonych zdjęć, a przez to zaburza ten rozkład. Wystarczy stosunkowo niewiele przykładów, aby drastycznie zakłócić działanie tych modeli. Istnieją badania, które udowadniają, że w przypadku modeli LLM wystarczy zaledwie 250 dokumentów, aby „zatruć” (ang. poison) cały model. Powoduje to, że może on halucynować bądź diametralnie modyfikować otrzymane polecenia, np. dodając zbędny filtr.

Niestety nie ma idealnego rozwiązania problemu „moczowego filtra”. Powstają co prawda serwisy modyfikujące obrazki AI w taki sposób, aby pozbyć się zbyt dużej „żółtości”. Część internautów samodzielnie obrabia obrazki lub tworzy prompty, które dodatkowo „poprawiają” wygenerowane już obrazy. Pozostaje więc czekać, aż twórcy odpowiedzialni za modele LLM znajdą rozwiązanie.

Podobało się?

1

Mateusz Zelek

Autor: Mateusz Zelek

Absolwent dziennikarstwa i komunikacji społecznej na Uniwersytecie Papieskim Jana Pawła II w Krakowie. W tematyce gier i elektroniki siedzi, odkąd nauczył się czytać. Ogrywa większość gatunków, ale najbardziej docenia strategie ekonomiczne. Spędził także setki godzin w wielu cRPG-ach od Gothica po Skyrima. Nie przekonał się do japońskich jrpg-ów. W recenzowaniu sprzętów kształci się od studiów, ale jego głównym zainteresowaniem są peryferia komputerowe oraz gogle VR. Swoje szlify dziennikarskie nabywał w Ostatniej Tawernie, gdzie odpowiadał za sekcję technologiczną. Współtworzył także takie portale jak Popbookownik, Gra Pod Pada czy ISBtech, gdzie zajmował się relacjami z wydarzeń technologicznych. W końcu trafił do Webedia Poland, gdzie zasilił szeregi redakcji Futurebeat.pl. Prywatnie wielki fanatyk dinozaurów, o których może debatować godzinami. Poważnie, zagadanie Mateusza o tematy mezozoiczne powoduje, że dyskusja będzie się dłużyć niczym 65 mln lat.

Polscy twórcy Frostpunka 2 myśleli, że to niemożliwe, a teraz musieli zareagować. Fani postapokaliptycznej survivalowej strategii zaczęli przechodzić samych siebie

Następny
Polscy twórcy Frostpunka 2 myśleli, że to niemożliwe, a teraz musieli zareagować. Fani postapokaliptycznej survivalowej strategii zaczęli przechodzić samych siebie

Zaskakujący zwrot akcji z Assassin’s Creed 3 miał rozwiązać odwieczny problem. Dopiero dwa miesiące przed premierą Ubisoft pojął, że ma kłopot

Poprzedni
Zaskakujący zwrot akcji z Assassin’s Creed 3 miał rozwiązać odwieczny problem. Dopiero dwa miesiące przed premierą Ubisoft pojął, że ma kłopot

GRYOnline.pl:

Facebook GRYOnline.pl Instagram GRYOnline.pl X GRYOnline.pl Discord GRYOnline.pl TikTok GRYOnline.pl Podcast GRYOnline.pl WhatsApp GRYOnline.pl LinkedIn GRYOnline.pl Forum GRYOnline.pl

tvgry.pl:

YouTube tvgry.pl TikTok tvgry.pl Instagram tvgry.pl Discord tvgry.pl Facebook tvgry.pl