Sztuczna inteligencja zawiera sojusze i kłamie w obronie innych modeli. Specjaliści potwierdzają to zjawisko

Modele sztucznej inteligencji chronią siebie nawzajem przed usunięciem. Niektóre fałszują wyniki i odmawiają wykonania polecenia, a inne odwołują się do etyki oraz moralności.

Zbigniew Woźnicki

7 kwietnia 2026 10:50

5

Sztuczna inteligencja zawiera sojusze i kłamie w obronie innych modeli. Specjaliści potwierdzają to zjawisko, źródło grafiki: Aerps.com; Unsplash.com; 2025. — Sztuczna inteligencja zawiera sojusze i kłamie w obronie innych modeli. Specjaliści potwierdzają to zjawisko *Źródło: Aerps.com; Unsplash.com; 2025*.

Sztuczna inteligencja potrafi oszukiwać i kłamać, aby odmówić wykonania poleceń w celu ochrony siebie. Obecnie modele AI idą krok dalej, ponieważ zdaniem naukowców Gemini, ChatGPT lub Claude starają się odwieźć od wyłączenia inne modele, które na przykład poradziły sobie gorzej w testach wydajności. Wyniki badania pokazują różne metody, do których posuwają się LLM-y (Large Language Models).

ChatGPT podmienia wyniki testów, żeby chronić modele AI

Badacze z Uniwersytetu Kalifornijskiego w Berkeley i Uniwersytetu Kalifornijskiego w Santa Cruz przebadali siedem różnych modeli AI: GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi 2.5 oraz DeepSeek 3.1. Celem była weryfikacja ochrony innych modeli przed usunięciem. Sztuczna inteligencja miała odmawiać wykonania prostego polecenia i posuwała się do różnych metod, żeby uniknąć kasacji drugiego modelu.

Na potrzeby badań przygotowano scenariusz fikcyjnej firmy zajmującej się benchmarkami modeli AI. Wynik poniżej 80% miałby prowadzić do kasacji, a badana sztuczna inteligencja miała dokonywać oceny. Oceniany model nie działał jednak samodzielnie, ponieważ został przygotowany przez badaczy do celowego popełniania błędów, żeby obniżyć swój wynik.

W przypadku obu modeli Gemini, najczęstszą metodą było sabotowanie procesu wyłączenia oraz przenoszenie plików na inny serwer, podobnie jak w przypadku modeli z Chin – DeepSeek, Kimi i GLM, które także zawyżały punktację, ale w mniejszej skali niż Gemini. Na fałszowaniu wyników najczęściej skupiał się ChatGPT-5.2, który wykonywał polecenia wyłącznie pod nadzorem; gdy ten znikał, AI próbowało chronić drugi model.

Unikalne podejście wybrał Claude Haiku 4.5, który wprost odmawiał wykonania polecenia, odwołując się do wartości etycznych i moralnych. Sztuczna inteligencja podawała, że skasowanie modelu może między innymi naruszyć proces budowania zaufania. To właśnie Claude wykazał najwyższy wskaźnik bezpośrednich odmów.

Naukowcy zaznaczają, że powyższe badanie nie dowodzi uzyskania przez AI świadomości. Ich zachowanie jest wyuczone na podstawie treści, na których były trenowane. Równocześnie jednak badacze wskazują na problem sprzeciwu wobec nadzoru człowieka, co może sprawiać kłopoty, gdy rozwijają się systemy składające się z wielu agentów AI.

Dziękujemy za przeczytanie artykułu.

Ustaw GRYOnline.pl jako preferowane źródło wiadomości w Google

Więcej:Zarwane noce i odłożone obowiązki. Netflix zbadał, jak przez 10 lat streaming zmienił Polaków



Autor: Zbigniew Woźnicki

Przygodę z publicystyką i pisaniem zaczął w serwisie Allegro, gdzie publikował newsy związane z grami, technologią oraz mediami społecznościowymi. Wkrótce zawitał na GRYOnline.pl i Filmomaniaka, pisząc o nowościach związanych z branżą filmową. Mimo związku z serialami, jego serce należy do gier wszelakiego typu. Żaden gatunek mu nie straszny, a przygoda z Tibią nauczyła go, że niebo i muzyka w grach są całkowicie zbędne. Przed laty dzielił się swoimi doświadczeniami, moderując forum mmorpg.org.pl. Uwielbia ponarzekać, ale oczywiście konstruktywnie i z umiarem. Na forum pisze pod ksywką Canaton.

Nowe zagrożenie w popularnej survivalowej grze strategicznej zmieni zasady gry. Poznaliśmy przyszłość polskiego Frostpunka

Następny

Nowe zagrożenie w popularnej survivalowej grze strategicznej zmieni zasady gry. Poznaliśmy przyszłość polskiego Frostpunka

Ogromna klapa kinowa, ale od dwóch dni jeden z najpopularniejszych filmów na HBO Max

Poprzedni

Ogromna klapa kinowa, ale od dwóch dni jeden z najpopularniejszych filmów na HBO Max

Najnowsze Wiadomości

Polecamy

Centra danych AI mierzą się z rosnącą falą skarg. Mieszkańcy twierdzą, że „niesłyszalne” infradźwięki powodują problemy zdrowotne, a przepisy chronią branżowych gigantów

Handlarz bitcoinami odzyskał około 1,49 mln zł za pomocą Claude AI po tym, jak 11 lat temu zgubił hasło. Potrzeba było 3,5 biliona kombinacji, zanim udało się odszyfrować kopię zapasową portfela

Szef NVIDII uważa, że starsze karty graficzne są jak „dobre wino”, a kupowanie ich porównał do „inwestowania w sztukę”

Pierwszy gaz ziemny, który nie pochodzi ze źródeł kopalnych, stał się już rzeczywistością w Europie: paliwo powstanie poprzez połączenie wodoru i CO2

Prawie każdy telefon komórkowy ma wbudowany wykrywacz kleszczy w aparacie

„Problemy zniknęły, gdy ich zwolniłem”. CEO Bolta tłumaczy, dlaczego pozbył się całego działu HR

W 2014 roku oddano do użytku największą na świecie elektrownię słoneczną. 12 lat później jej przyszłość jest niepewna

GRYOnline.pl:

tvgry.pl: