Naukowcy pokazali, że AI będzie zawsze halucynować i zgadywać „jak uczeń na egzaminie”; winne są systemy oceny sztucznej inteligencji

Według OpenAI halucynacji chatbotów nie da się uniknąć. Winna nie jest technologia, a zwykła matematyczna kalkulacja.

22 września 2025 11:55

Halucynacje sztucznej inteligencji są sporym problemem, bo nigdy nie wiemy, w którym miejscu AI zmyśli podawane informacje. Kłopot polega na tym, że duży procent użytkowników ChataGPT wykorzystuje narzędzie do pomocy w pisaniu i jeśli nie zweryfikują wygenerowanej treści, to mogą przypadkiem przemycić błąd dalej. Naukowcy z OpenAI stwierdzili, że nie da się tego uniknąć (vide Computer World).

AI będzie zawsze halucynować

W opublikowanym dokumencie „Why Language Models Hallucinate” czwórka badaczy przedstawiła swoje wnioski i jednym z głównych winnych jest system benchmarków AI, który wyżej ocenia jakąkolwiek, nawet błędną, odpowiedź, niż przyznanie się do niewiedzy. Dlatego sztuczna inteligencja będzie „strzelać”, żeby wygenerować jakiekolwiek rozwiązanie.

Zachowanie porównano do uczniów i studentów, którzy podczas egzaminu prędzej napiszą cokolwiek na dane pytanie na egzaminie, niż zostawią pustą kartkę:

Niczym uczniowie stojący przed trudnym pytaniem egzaminacyjnym, LLM-y czasami zgadują, gdy nie są pewne, generując wiarygodną, ale niepoprawną odpowiedź, zamiast przyznać się do braku pewności. Takie „halucynacje” występują nawet w najbardziej zaawansowanych modelach i podkopują zaufanie do nich.

Konkurencje dla ChataGPT modele poddano eksperymentowi, które pokazały, że AI preferuje podanie błędnej odpowiedzi. Otóż zadano pytanie jak dużo liter „d” znajduje się w słowie „deepseek”. DeepSeek-V3 w dziesięciu niezależnych od siebie testach podawał takie wartości, jak „2” lub „3”. Natomiast Claude 3.7 Sonnet odpowiadał nawet „6” i „7”.

ChatGPT-5 również jest podatny na halucynacje, chociaż według naukowców w mniejszym stopniu. Model już to pokazał w sierpniu, gdy na pytanie jednego z internautów odpowiedział „nie wiem”, co zachwyciło wielu, w tym Elona Muska, bo uznano to za bardzo ludzką reakcję. Co ciekawe, w eksperymencie mniej błędów popełniały bardziej prymitywne modele niż bardziej zaawansowanych (o1 z 16% halucynacji, o3 z 33% halucynacji, a o4-mini z 48% halucynacji).

Badacze stwierdzili, że halucynacji nie da się uniknąć i trzeba je kontrolować i potrzebne są zmiany w systemach benchmarków, żeby przestały nagradzać zgadywanie i karały za przyznanie się do niewiedzy. Tego jednak nie uda się osiągnąć bez odpowiednich regulacji oraz wymagań branży.

Więcej:„Nie da się ich zastąpić”. Wydawca Baldur's Gate 3 ostro o tym, dlaczego najnowszy plan Square Enix to prosta droga katastrofy

 Podobało się?



2

Autor: Zbigniew Woźnicki

Przygodę z publicystyką i pisaniem zaczął w serwisie Allegro, gdzie publikował newsy związane z grami, technologią oraz mediami społecznościowymi. Wkrótce zawitał na GRYOnline.pl i Filmomaniaka, pisząc o nowościach związanych z branżą filmową. Mimo związku z serialami, jego serce należy do gier wszelakiego typu. Żaden gatunek mu nie straszny, a przygoda z Tibią nauczyła go, że niebo i muzyka w grach są całkowicie zbędne. Przed laty dzielił się swoimi doświadczeniami, moderując forum mmorpg.org.pl. Uwielbia ponarzekać, ale oczywiście konstruktywnie i z umiarem. Na forum pisze pod ksywką Canaton.

Kultowe Psy powrócą jako serial Netflixa. Władysław Pasikowski ponoć rozpoczął już pracę nad produkcją

Następny

Kultowe Psy powrócą jako serial Netflixa. Władysław Pasikowski ponoć rozpoczął już pracę nad produkcją

Amazon zaczął tydzień od prawdziwego hitu. Uwielbiany głośnik jest teraz w najlepszej cenie od wielu miesięcy

Poprzedni

Amazon zaczął tydzień od prawdziwego hitu. Uwielbiany głośnik jest teraz w najlepszej cenie od wielu miesięcy

Najnowsze Wiadomości

Polecamy

Microsoft Teams będzie teraz monitorować, kto tak naprawdę pracuje w biurze. I szef będzie mógł to w każdej chwili sprawdzić

Polak własnoręcznie zbudował swoją wersję samochodu wartego 2,4 miliona euro, która działa jak rower

Youtuber przegrał z Nintendo i musi zapłacić ponad 60 000 zł odszkodowania; wcześniej stwierdził, że „on tu rządzi”

Australia pozywa firmę Microsoft za ukrywanie możliwości utrzymania subskrypcji usługi Microsoft 365 bez akceptowania podwyżek cen

Filmy na YouTube dotyczące omijania ograniczeń sprzętowych systemu Windows 11 zostały zablokowane. Youtuber wywalczył ich powrót na kanał

Prawniczka Microsoftu mówi, że „nie chce centrum danych AI koło domu” i potwierdza problemy, na które skarżą się mieszkańcy miast

Pocięli GTX 1080 Ti i połączą go z RTX 5070 Ti. To może być najlepszy procesor graficzny Nvidii wszech czasów