Wiadomość sprzęt i soft 5 czerwca 2025, 11:25

AI zaczyna się krztusić własnymi śmieciami. Modele uczą się na tym, co same stworzyły, i tracą na jakości

AI napotkało spory problem. To informacje wygenerowane przez samą sztuczną inteligencję, co może mieć opłakane skutki dla branży. Brana pod uwagę jest nawet zapaść AI.

Źródło fot. TheDigitalArtist; Unsplash.com; 2019

Zaczyna realizować się scenariusz, o którym mówiono już w 2024 roku. Sztuczna inteligencja – karmiona informacjami wygenerowanymi przez nią samą – zaczyna podawać coraz mniej dokładne informacje. Największy problem pojawia się, gdy AI przeszukuje Internet. Wszystko przez użytkowników sieci, którzy sztucznej inteligencji używają do tworzenia treści wątpliwej jakości (vide Futurism).

Głuchy telefon AI

Pod koniec maja w serwisie The Register opublikowano artykuł, który przybliża problemy sztucznej inteligencji. Wynika z niego, że potwierdzają się tezy z magazynu Nature – AI „zapada się” poprzez trenowanie na danych, które samo wygenerowało. Dlatego korzystając z AI, jak z wyszukiwarki, należy być dokładnym. Zadanie ogólnego pytania może poskutkować wątpliwymi odpowiedziami.

Podawane są trzy różne powody, dlaczego tak się dzieje:

Pierwszy to akumulacja błędów, która działa niczym głuchy telefon. Każdy kolejny model AI dziedziczy błędy poprzednika i dodatkowo je wzmacnia, przez co nowe dane są coraz bardziej niezgodne z oryginalnymi.
Drugi dotyczy utraty części danych używanych do trenowania AI, co sprawia, że informacje są niepełne.
Trzecim jest pętla informacji zwrotnej, która wzmacnia pewne wzorce, co prowadzi do generowania powtarzalnego tekstu lub stronnicznych rekomendacji.

Wydaje się, że powodem takiego stanu rzeczy jest korzystanie z generowania wspomaganego wyszukiwaniem (ang. retrieval-augmented generation, RAG). Deweloperzy AI podłączają sztuczną inteligencję do Internetu, a ta następnie wyszukuje nowe dla siebie informacje i na nich się trenuje. Sieć jednak została zalana generowaną przez AI treścią niskiej jakości, co wpływa na pogorszenie działania.

W kwietniu tego roku opublikowano informacje potwierdzające zachodzące zjawisko. Według nich modele, takie jak GPT-4o, Claude-3.5-Sonnet i Gemma-7B, generują mniej spójne i prawidłowe informacje niż ich odpowiedniki, które z RAG nie korzystają. Dodano, że przez RAG sztuczna inteligencja może rozpowszechniać dezinformację, a w skrajnych przypadkach nawet naruszać bezpieczeństwo i prywatność danych osób.

AI jednak potrzebuje danych do trenowania. Posiadane informacje są skończone, a Internet teoretycznie pozwala na korzystania z nieprzepastnych zasobów, które jednak są coraz gorszej jakości. Odpowiedzią byłoby włączenie do treningu autorskich treści generowanych przez człowieka, ale współpraca może być ciężka, biorąc pod uwagę niektóre wypowiedzi, o czym donosił Futurism.

Jeśli nic nie zostanie zrobione, branżę może czekać zapaść. AI zacznie wyrzucać z siebie dane tak złej jakości, że ludzie powrócą do standardowych wyszukiwarek.