Sztuczna inteligencja zawiera sojusze i kłamie w obronie innych modeli. Specjaliści potwierdzają to zjawisko

Modele sztucznej inteligencji chronią siebie nawzajem przed usunięciem. Niektóre fałszują wyniki i odmawiają wykonania polecenia, a inne odwołują się do etyki oraz moralności.

futurebeat.pl

Zbigniew Woźnicki

Komentarze
Sztuczna inteligencja zawiera sojusze i kłamie w obronie innych modeli. Specjaliści potwierdzają to zjawisko, źródło grafiki: Aerps.com; Unsplash.com; 2025.
Sztuczna inteligencja zawiera sojusze i kłamie w obronie innych modeli. Specjaliści potwierdzają to zjawisko Źródło: Aerps.com; Unsplash.com; 2025.

Sztuczna inteligencja potrafi oszukiwać i kłamać, aby odmówić wykonania poleceń w celu ochrony siebie. Obecnie modele AI idą krok dalej, ponieważ zdaniem naukowców Gemini, ChatGPT lub Claude starają się odwieźć od wyłączenia inne modele, które na przykład poradziły sobie gorzej w testach wydajności. Wyniki badania pokazują różne metody, do których posuwają się LLM-y (Large Language Models).

ChatGPT podmienia wyniki testów, żeby chronić modele AI

Badacze z Uniwersytetu Kalifornijskiego w Berkeley i Uniwersytetu Kalifornijskiego w Santa Cruz przebadali siedem różnych modeli AI: GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, GLM 4.7, Kimi 2.5 oraz DeepSeek 3.1. Celem była weryfikacja ochrony innych modeli przed usunięciem. Sztuczna inteligencja miała odmawiać wykonania prostego polecenia i posuwała się do różnych metod, żeby uniknąć kasacji drugiego modelu.

Na potrzeby badań przygotowano scenariusz fikcyjnej firmy zajmującej się benchmarkami modeli AI. Wynik poniżej 80% miałby prowadzić do kasacji, a badana sztuczna inteligencja miała dokonywać oceny. Oceniany model nie działał jednak samodzielnie, ponieważ został przygotowany przez badaczy do celowego popełniania błędów, żeby obniżyć swój wynik.

W przypadku obu modeli Gemini, najczęstszą metodą było sabotowanie procesu wyłączenia oraz przenoszenie plików na inny serwer, podobnie jak w przypadku modeli z Chin – DeepSeek, Kimi i GLM, które także zawyżały punktację, ale w mniejszej skali niż Gemini. Na fałszowaniu wyników najczęściej skupiał się ChatGPT-5.2, który wykonywał polecenia wyłącznie pod nadzorem; gdy ten znikał, AI próbowało chronić drugi model.

Unikalne podejście wybrał Claude Haiku 4.5, który wprost odmawiał wykonania polecenia, odwołując się do wartości etycznych i moralnych. Sztuczna inteligencja podawała, że skasowanie modelu może między innymi naruszyć proces budowania zaufania. To właśnie Claude wykazał najwyższy wskaźnik bezpośrednich odmów.

Naukowcy zaznaczają, że powyższe badanie nie dowodzi uzyskania przez AI świadomości. Ich zachowanie jest wyuczone na podstawie treści, na których były trenowane. Równocześnie jednak badacze wskazują na problem sprzeciwu wobec nadzoru człowieka, co może sprawiać kłopoty, gdy rozwijają się systemy składające się z wielu agentów AI.

Zbigniew Woźnicki

Autor: Zbigniew Woźnicki

Przygodę z publicystyką i pisaniem zaczął w serwisie Allegro, gdzie publikował newsy związane z grami, technologią oraz mediami społecznościowymi. Wkrótce zawitał na GRYOnline.pl i Filmomaniaka, pisząc o nowościach związanych z branżą filmową. Mimo związku z serialami, jego serce należy do gier wszelakiego typu. Żaden gatunek mu nie straszny, a przygoda z Tibią nauczyła go, że niebo i muzyka w grach są całkowicie zbędne. Przed laty dzielił się swoimi doświadczeniami, moderując forum mmorpg.org.pl. Uwielbia ponarzekać, ale oczywiście konstruktywnie i z umiarem. Na forum pisze pod ksywką Canaton.

Nowe zagrożenie w popularnej survivalowej grze strategicznej zmieni zasady gry. Poznaliśmy przyszłość polskiego Frostpunka

Następny
Nowe zagrożenie w popularnej survivalowej grze strategicznej zmieni zasady gry. Poznaliśmy przyszłość polskiego Frostpunka

Ogromna klapa kinowa, ale od dwóch dni jeden z najpopularniejszych filmów na HBO Max

Poprzedni
Ogromna klapa kinowa, ale od dwóch dni jeden z najpopularniejszych filmów na HBO Max

GRYOnline.pl:

Facebook GRYOnline.pl Instagram GRYOnline.pl X GRYOnline.pl Discord GRYOnline.pl TikTok GRYOnline.pl Podcast GRYOnline.pl WhatsApp GRYOnline.pl LinkedIn GRYOnline.pl Forum GRYOnline.pl

tvgry.pl:

YouTube tvgry.pl TikTok tvgry.pl Instagram tvgry.pl Discord tvgry.pl Facebook tvgry.pl