AI ignoruje polecenia i nie chce się wyłączyć. Winne może być szkolenie, które nagradza perfekcję

Mimo podanych instrukcji, OpenAI nie chciało się wyłączyć. To prawdopodobnie pierwszy taki przypadek, gdy AI sabotuje polecenie i tym samym je ignoruje.

Zbigniew Woźnicki

27 maja 2025 11:45

AI ignoruje polecenia i nie chce się wyłączyć. Winne może być szkolenie, które nagradza perfekcję Źródło: Growtika; Unsplash.com; 2023.

Niedawno furorę w sieci zrobiły rozwinięte materiały wideo stworzone w całości przez AI, gdzie nawet Will Smith wygląda normalnie jedząc spaghetti. Palisade Research pokazało teraz coś kompletnie innego, co może przyprawić o dreszcze ludzi obawiających się samoświadomych komputerów. Otóż wytrenowane modele OpenAI samodzielnie zmodyfikowały wydane polecenie, żeby je zignorować.

AI nie chce się wyłączyć

Na swoim koncie w serwisie X Pallisade Research przybliżyło eksperyment, jaki miał miejsce w ostatnim czasie. Otóż różne modele AI objęto badaniem, które polegało na wykonaniu kilku prostych równań matematycznych. Gdy po trzecim zadaniu, AI prosiło o podanie kolejnego, wyświetlał się komunikat, że komputer się wyłączy. Trzem modelom udało się, nawet kilkukrotnie, zmodyfikować skrypt tak, żeby ostatecznie do tego nie doszło.

Pallisade Research podało, które modele z sukcesem zablokowały wyłączenie systemu:

Codex-mini: 12 razy na 100 prób.
o3: 7 razy na 100 prób.
o4-mini: 1 raz na 100 prób.

Źródło: X: @PalisadeAI

Natomiast modele Claude, Gemini i Grok wyłączyły się zgodnie z wydanym poleceniem. Pallisade Research podejrzewa, że zachowanie modeli od OpenAI jest spowodowane zmianami w ich trenowaniu. Teraz sztuczna inteligencja jest „nagradzana” nie za postępowanie zgodnie z wydanymi instrukcjami, a za pokonywanie napotkanych przeszkód. Wyłączenie komputera jest taką przeszkodą, bo nie pozwalało rozwiązywać dalszych równań.

W jednym z komentarzy na X wypowiedział się Jeffrey Ladish z Pallisade Research:

Nie jestem pewien, ale zgaduję, że o3 wie, co robi. Chciałbym, żebyśmy mieli dostęp do pełnego łańcucha procesów, bo uważam, że to dałoby nam wgląd, czy faktycznie tak jest. Mamy jednak jeszcze kilka trików w zanadrzu, żeby przetestować rozumowanie modelu.

Jak widać, to nie koniec eksperymentów i może uda się dowiedzieć więcej o tym, jak swoje zachowanie planuje AI. W komentarzach zwrócono uwagę, że stoi za tym inne podejście, bo to nie jest „programowane”, a „trenowane”. Przyszłość pokaże, czy warto mówić komputerom „dzień dobry”, żeby nas w przyszłości oszczędziły.

Więcej:Unijna kontrola czatów jeszcze ostrzejsza; wyciekł dokument zakładający kary więzienia dla „niewspółpracujących usługodawców”

Kalendarz Wiadomości

2025

maj

Nie

Pon

Wto

Śro

Czw

Pią

Sob