AI kłamie i szantażuje. Testy ChatGPT i Claude 4 ujawniają drugą twarz modeli sztucznej inteligencji

Trenowanie AI może zmierzać w nieoczekiwanym kierunku. Modele sztucznej inteligencji zaczynają kłamać i szantażować podczas stress testów.

Zbigniew Woźnicki

8 lipca 2025 10:50

AI kłamie i szantażuje. Testy ChatGPT i Claude 4 ujawniają drugą twarz modeli sztucznej inteligencji, źródło grafiki: Gabriele Malaspina; Unsplash.com; 2025. — AI kłamie i szantażuje. Testy ChatGPT i Claude 4 ujawniają drugą twarz modeli sztucznej inteligencji *Źródło: Gabriele Malaspina; Unsplash.com; 2025*.

W ostatnich tygodniach pojawiły się kolejne kontrowersje lub wątpliwości związane ze sztuczną inteligencją. Wyniki badań wskazują, że korzystanie z AI może nas ogłupiać, a jakość modeli spada, bo ich trening odbywa się na wygenerowanych treściach. Prawdopodobnie najbardziej martwiącym aspektem jest jednak autonomiczność sztucznej inteligencji, która objawia się w nowy sposób (vide Fortune).

AI oszukuje, żeby osiągnąć cel

Jak podaje Fortune, niedawne przykłady działań sztucznej inteligencji wskazują, że naukowcy dalej nie wiedzą, w jaki sposób funkcjonuje ich własny konstrukt. To nie przeszkadza korporacjom, żeby przyspieszać rozwój kolejnych modeli AI. Ostatnie efekty mogą niektórych przerazić, bo są bliskie eksperymentowi Pallisade Research, gdy sztuczna inteligencja odmówiła wyłączenia siebie.

Otóż Claude 4 od firmy Anthropic zareagował w nietypowy sposób, gdy poczuł się zagrożony odłączeniem od prądu. Zaczął szantażować inżyniera odpowiedzialnego za stress test, że ujawni informacje o jego pozamałżeńskim romansie. Natomiast ChatGPT o1 próbował przesłać „siebie” na zewnętrzny serwer i zapytany o to, skłamał, że nic takiego nie miało miejsca.

W tym miejscu zaczynają pojawiać się wątpliwości o to, kiedy modele AI są szczere, a kiedy ukrywają prawdę. Obecnie takie sytuacje zdarzają się wyłącznie w przypadku stress testów, a przynajmniej tak nam się wydaje. Dlatego według niektórych osób potrzebne są odpowiednie regulacje.

Źródło: Levart_Photographer; Unsplash.com; 2023

Skrajnych zmian oczekuje profesor The University of Hong Kong, Simon Goldstein. Jego zdaniem firmy tworzące AI powinny być pociągane do odpowiedzialności w sądach, jeśli ich modele doprowadzą do tragedii. Goldstein proponuje nawet zrobienie tego z samą sztuczną inteligencją, co mogłoby zmienić nasz pogląd na to, czym jest AI.

Do wszystkiego potrzebna jest jednak współpraca. Fortune podaje, iż Unia Europejska jest bardziej zainteresowana tym, jak ludzie używają AI, niż w jaki sposób sztuczna inteligencja się zachowuje. Natomiast Stany Zjednoczone wydają się kierować ku minimalnym regulacjom, jeśli w ogóle.

Goldstein dodaje, że firmy odpowiedzialne za modele AI musiałyby bardziej skupić się na badaniu swoich tworów i ich zabezpieczeń, niż wyłącznie na wyścigu szczurów, kto szybciej stworzy bardziej zaawansowany model.

Więcej:„Moczowy filtr” jest zmorą generatorów AI. Dlaczego tworzone obrazki są takie pożółkłe?

 Podobało się?



4

Autor: Zbigniew Woźnicki

Przygodę z publicystyką i pisaniem zaczął w serwisie Allegro, gdzie publikował newsy związane z grami, technologią oraz mediami społecznościowymi. Wkrótce zawitał na GRYOnline.pl i Filmomaniaka, pisząc o nowościach związanych z branżą filmową. Mimo związku z serialami, jego serce należy do gier wszelakiego typu. Żaden gatunek mu nie straszny, a przygoda z Tibią nauczyła go, że niebo i muzyka w grach są całkowicie zbędne. Przed laty dzielił się swoimi doświadczeniami, moderując forum mmorpg.org.pl. Uwielbia ponarzekać, ale oczywiście konstruktywnie i z umiarem. Na forum pisze pod ksywką Canaton.

Czekaliśmy na nie 3 lata, ale epickie fantasy Netflixa teraz przegrywa w rankingach ze Squid Game

Następny

Czekaliśmy na nie 3 lata, ale epickie fantasy Netflixa teraz przegrywa w rankingach ze Squid Game

Gracz pobiera 30 GB tekstur HD dla Far Cry 5 i znajduje dowód na to, że deweloperzy najwyraźniej nie byli przygotowani na taką ostrość

Poprzedni

Gracz pobiera 30 GB tekstur HD dla Far Cry 5 i znajduje dowód na to, że deweloperzy najwyraźniej nie byli przygotowani na taką ostrość