AI kłamie i szantażuje. Testy ChatGPT i Claude 4 ujawniają drugą twarz modeli sztucznej inteligencji
Trenowanie AI może zmierzać w nieoczekiwanym kierunku. Modele sztucznej inteligencji zaczynają kłamać i szantażować podczas stress testów.

W ostatnich tygodniach pojawiły się kolejne kontrowersje lub wątpliwości związane ze sztuczną inteligencją. Wyniki badań wskazują, że korzystanie z AI może nas ogłupiać, a jakość modeli spada, bo ich trening odbywa się na wygenerowanych treściach. Prawdopodobnie najbardziej martwiącym aspektem jest jednak autonomiczność sztucznej inteligencji, która objawia się w nowy sposób (vide Fortune).
AI oszukuje, żeby osiągnąć cel
Jak podaje Fortune, niedawne przykłady działań sztucznej inteligencji wskazują, że naukowcy dalej nie wiedzą, w jaki sposób funkcjonuje ich własny konstrukt. To nie przeszkadza korporacjom, żeby przyspieszać rozwój kolejnych modeli AI. Ostatnie efekty mogą niektórych przerazić, bo są bliskie eksperymentowi Pallisade Research, gdy sztuczna inteligencja odmówiła wyłączenia siebie.
Otóż Claude 4 od firmy Anthropic zareagował w nietypowy sposób, gdy poczuł się zagrożony odłączeniem od prądu. Zaczął szantażować inżyniera odpowiedzialnego za stress test, że ujawni informacje o jego pozamałżeńskim romansie. Natomiast ChatGPT o1 próbował przesłać „siebie” na zewnętrzny serwer i zapytany o to, skłamał, że nic takiego nie miało miejsca.
W tym miejscu zaczynają pojawiać się wątpliwości o to, kiedy modele AI są szczere, a kiedy ukrywają prawdę. Obecnie takie sytuacje zdarzają się wyłącznie w przypadku stress testów, a przynajmniej tak nam się wydaje. Dlatego według niektórych osób potrzebne są odpowiednie regulacje.

Skrajnych zmian oczekuje profesor The University of Hong Kong, Simon Goldstein. Jego zdaniem firmy tworzące AI powinny być pociągane do odpowiedzialności w sądach, jeśli ich modele doprowadzą do tragedii. Goldstein proponuje nawet zrobienie tego z samą sztuczną inteligencją, co mogłoby zmienić nasz pogląd na to, czym jest AI.
Do wszystkiego potrzebna jest jednak współpraca. Fortune podaje, iż Unia Europejska jest bardziej zainteresowana tym, jak ludzie używają AI, niż w jaki sposób sztuczna inteligencja się zachowuje. Natomiast Stany Zjednoczone wydają się kierować ku minimalnym regulacjom, jeśli w ogóle.
Goldstein dodaje, że firmy odpowiedzialne za modele AI musiałyby bardziej skupić się na badaniu swoich tworów i ich zabezpieczeń, niż wyłącznie na wyścigu szczurów, kto szybciej stworzy bardziej zaawansowany model.