futurebeat.pl News Tech Mobile Gaming Nauka Moto Rozrywka Promocje
Wiadomość sprzęt i soft 27 maja 2025, 11:45

AI ignoruje polecenia i nie chce się wyłączyć. Winne może być szkolenie, które nagradza perfekcję

Mimo podanych instrukcji, OpenAI nie chciało się wyłączyć. To prawdopodobnie pierwszy taki przypadek, gdy AI sabotuje polecenie i tym samym je ignoruje.

Źródło fot. Growtika; Unsplash.com; 2023
i

Niedawno furorę w sieci zrobiły rozwinięte materiały wideo stworzone w całości przez AI, gdzie nawet Will Smith wygląda normalnie jedząc spaghetti. Palisade Research pokazało teraz coś kompletnie innego, co może przyprawić o dreszcze ludzi obawiających się samoświadomych komputerów. Otóż wytrenowane modele OpenAI samodzielnie zmodyfikowały wydane polecenie, żeby je zignorować.

AI nie chce się wyłączyć

Na swoim koncie w serwisie X Pallisade Research przybliżyło eksperyment, jaki miał miejsce w ostatnim czasie. Otóż różne modele AI objęto badaniem, które polegało na wykonaniu kilku prostych równań matematycznych. Gdy po trzecim zadaniu, AI prosiło o podanie kolejnego, wyświetlał się komunikat, że komputer się wyłączy. Trzem modelom udało się, nawet kilkukrotnie, zmodyfikować skrypt tak, żeby ostatecznie do tego nie doszło.

Pallisade Research podało, które modele z sukcesem zablokowały wyłączenie systemu:

  1. Codex-mini: 12 razy na 100 prób.
  2. o3: 7 razy na 100 prób.
  3. o4-mini: 1 raz na 100 prób.
Źródło: X: @PalisadeAI - AI ignoruje polecenia i nie chce się wyłączyć. Winne może być szkolenie, które nagradza perfekcję - wiadomość - 2025-05-27
Źródło: X: @PalisadeAI

Natomiast modele Claude, Gemini i Grok wyłączyły się zgodnie z wydanym poleceniem. Pallisade Research podejrzewa, że zachowanie modeli od OpenAI jest spowodowane zmianami w ich trenowaniu. Teraz sztuczna inteligencja jest „nagradzana” nie za postępowanie zgodnie z wydanymi instrukcjami, a za pokonywanie napotkanych przeszkód. Wyłączenie komputera jest taką przeszkodą, bo nie pozwalało rozwiązywać dalszych równań.

W jednym z komentarzy na X wypowiedział się Jeffrey Ladish z Pallisade Research:

Nie jestem pewien, ale zgaduję, że o3 wie, co robi. Chciałbym, żebyśmy mieli dostęp do pełnego łańcucha procesów, bo uważam, że to dałoby nam wgląd, czy faktycznie tak jest. Mamy jednak jeszcze kilka trików w zanadrzu, żeby przetestować rozumowanie modelu.

Jak widać, to nie koniec eksperymentów i może uda się dowiedzieć więcej o tym, jak swoje zachowanie planuje AI. W komentarzach zwrócono uwagę, że stoi za tym inne podejście, bo to nie jest „programowane”, a „trenowane”. Przyszłość pokaże, czy warto mówić komputerom „dzień dobry”, żeby nas w przyszłości oszczędziły.

Zbigniew Woźnicki

Zbigniew Woźnicki

Przygodę z publicystyką i pisaniem zaczął w serwisie Allegro, gdzie publikował newsy związane z grami, technologią oraz mediami społecznościowymi. Wkrótce zawitał na GRYOnline.pl i Filmomaniaka, pisząc o nowościach związanych z branżą filmową. Mimo związku z serialami, jego serce należy do gier wszelakiego typu. Żaden gatunek mu nie straszny, a przygoda z Tibią nauczyła go, że niebo i muzyka w grach są całkowicie zbędne. Przed laty dzielił się swoimi doświadczeniami, moderując forum mmorpg.org.pl. Uwielbia ponarzekać, ale oczywiście konstruktywnie i z umiarem. Na forum pisze pod ksywką Canaton.

więcej