AI ignoruje polecenia i nie chce się wyłączyć. Winne może być szkolenie, które nagradza perfekcję
Mimo podanych instrukcji, OpenAI nie chciało się wyłączyć. To prawdopodobnie pierwszy taki przypadek, gdy AI sabotuje polecenie i tym samym je ignoruje.

Niedawno furorę w sieci zrobiły rozwinięte materiały wideo stworzone w całości przez AI, gdzie nawet Will Smith wygląda normalnie jedząc spaghetti. Palisade Research pokazało teraz coś kompletnie innego, co może przyprawić o dreszcze ludzi obawiających się samoświadomych komputerów. Otóż wytrenowane modele OpenAI samodzielnie zmodyfikowały wydane polecenie, żeby je zignorować.
AI nie chce się wyłączyć
Na swoim koncie w serwisie X Pallisade Research przybliżyło eksperyment, jaki miał miejsce w ostatnim czasie. Otóż różne modele AI objęto badaniem, które polegało na wykonaniu kilku prostych równań matematycznych. Gdy po trzecim zadaniu, AI prosiło o podanie kolejnego, wyświetlał się komunikat, że komputer się wyłączy. Trzem modelom udało się, nawet kilkukrotnie, zmodyfikować skrypt tak, żeby ostatecznie do tego nie doszło.
Pallisade Research podało, które modele z sukcesem zablokowały wyłączenie systemu:
- Codex-mini: 12 razy na 100 prób.
- o3: 7 razy na 100 prób.
- o4-mini: 1 raz na 100 prób.

Natomiast modele Claude, Gemini i Grok wyłączyły się zgodnie z wydanym poleceniem. Pallisade Research podejrzewa, że zachowanie modeli od OpenAI jest spowodowane zmianami w ich trenowaniu. Teraz sztuczna inteligencja jest „nagradzana” nie za postępowanie zgodnie z wydanymi instrukcjami, a za pokonywanie napotkanych przeszkód. Wyłączenie komputera jest taką przeszkodą, bo nie pozwalało rozwiązywać dalszych równań.
W jednym z komentarzy na X wypowiedział się Jeffrey Ladish z Pallisade Research:
Nie jestem pewien, ale zgaduję, że o3 wie, co robi. Chciałbym, żebyśmy mieli dostęp do pełnego łańcucha procesów, bo uważam, że to dałoby nam wgląd, czy faktycznie tak jest. Mamy jednak jeszcze kilka trików w zanadrzu, żeby przetestować rozumowanie modelu.
Jak widać, to nie koniec eksperymentów i może uda się dowiedzieć więcej o tym, jak swoje zachowanie planuje AI. W komentarzach zwrócono uwagę, że stoi za tym inne podejście, bo to nie jest „programowane”, a „trenowane”. Przyszłość pokaże, czy warto mówić komputerom „dzień dobry”, żeby nas w przyszłości oszczędziły.