Naukowcy pokazali, że AI będzie zawsze halucynować i zgadywać „jak uczeń na egzaminie”; winne są systemy oceny sztucznej inteligencji
Według OpenAI halucynacji chatbotów nie da się uniknąć. Winna nie jest technologia, a zwykła matematyczna kalkulacja.

Halucynacje sztucznej inteligencji są sporym problemem, bo nigdy nie wiemy, w którym miejscu AI zmyśli podawane informacje. Kłopot polega na tym, że duży procent użytkowników ChataGPT wykorzystuje narzędzie do pomocy w pisaniu i jeśli nie zweryfikują wygenerowanej treści, to mogą przypadkiem przemycić błąd dalej. Naukowcy z OpenAI stwierdzili, że nie da się tego uniknąć (vide Computer World).
AI będzie zawsze halucynować
W opublikowanym dokumencie „Why Language Models Hallucinate” czwórka badaczy przedstawiła swoje wnioski i jednym z głównych winnych jest system benchmarków AI, który wyżej ocenia jakąkolwiek, nawet błędną, odpowiedź, niż przyznanie się do niewiedzy. Dlatego sztuczna inteligencja będzie „strzelać”, żeby wygenerować jakiekolwiek rozwiązanie.
Zachowanie porównano do uczniów i studentów, którzy podczas egzaminu prędzej napiszą cokolwiek na dane pytanie na egzaminie, niż zostawią pustą kartkę:
Niczym uczniowie stojący przed trudnym pytaniem egzaminacyjnym, LLM-y czasami zgadują, gdy nie są pewne, generując wiarygodną, ale niepoprawną odpowiedź, zamiast przyznać się do braku pewności. Takie „halucynacje” występują nawet w najbardziej zaawansowanych modelach i podkopują zaufanie do nich.
Konkurencje dla ChataGPT modele poddano eksperymentowi, które pokazały, że AI preferuje podanie błędnej odpowiedzi. Otóż zadano pytanie jak dużo liter „d” znajduje się w słowie „deepseek”. DeepSeek-V3 w dziesięciu niezależnych od siebie testach podawał takie wartości, jak „2” lub „3”. Natomiast Claude 3.7 Sonnet odpowiadał nawet „6” i „7”.
ChatGPT-5 również jest podatny na halucynacje, chociaż według naukowców w mniejszym stopniu. Model już to pokazał w sierpniu, gdy na pytanie jednego z internautów odpowiedział „nie wiem”, co zachwyciło wielu, w tym Elona Muska, bo uznano to za bardzo ludzką reakcję. Co ciekawe, w eksperymencie mniej błędów popełniały bardziej prymitywne modele niż bardziej zaawansowanych (o1 z 16% halucynacji, o3 z 33% halucynacji, a o4-mini z 48% halucynacji).
Badacze stwierdzili, że halucynacji nie da się uniknąć i trzeba je kontrolować i potrzebne są zmiany w systemach benchmarków, żeby przestały nagradzać zgadywanie i karały za przyznanie się do niewiedzy. Tego jednak nie uda się osiągnąć bez odpowiednich regulacji oraz wymagań branży.