Jeden klawisz pokonał Zuckerberga. Wystarczyło go użyć, żeby obejść zabezpieczenia modelu AI od Mety

Meta wprowadziła system bezpieczeństwa oparty na sztucznej inteligencji. Okazało się, że program jest podatny na proste ataki manipulacyjne, przed którymi miał chronić.

Andrzej Krzemiński

30 lipca 2024 11:43

Komentarze

Jeden klawisz pokonał Zuckerberga. Wystarczyło go użyć, żeby obejść zabezpieczenia modelu AI od Mety, źródło grafiki: Dima Solomin, Unsplash. — Jeden klawisz pokonał Zuckerberga. Wystarczyło go użyć, żeby obejść zabezpieczenia modelu AI od Mety *Źródło: Dima Solomin, Unsplash*.

Spis treści:

Z czym borykają się systemy bezpieczeństwa oparte na AI
Słabości Prompt-Guard-86M
Wykrycie niebezpiecznego błędu

W zeszłym tygodniu Meta wprowadziła Prompt-Guard-86M, model uczenia maszynowego do wykrywania ataków prompt injection. Okazało się jednak, że system bezpieczeństwa AI sam w sobie jest podatny na tego typu ataki.

Z czym borykają się systemy bezpieczeństwa oparte na AI

Duże modele językowe, takie jak stworzony przez Meta Prompt-Guard-86M, trenowane są przy użyciu ogromnych ilości tekstu i danych. Taki system nie jest idealny, ponieważ materiał użyty do szkolenia sam w sobie może zawierać błędy i wątpliwe informacje.

Z tego względu twórcy modeli opartych na sztucznej inteligencji projektują mechanizmy filtrujące, nazywane w branży „guardrails”. Wychwytują one zapytania i odpowiedzi systemu, które mogą wyrządzić krzywdę oraz posłużyć do ujawnienia poufnych danych za pomocą prostej komendy systemowej.

Jest to powszechnie znany i wciąż nierozwiązany problem, z jakim borykają się modele oparte na sztucznej inteligencji. Programy takie są podatne na manipulacje, co idealnie ilustruje przykład salonu Chevroleta w Kalifornii, gdzie chatbot zgodził się na sprzedaż samochodu Chevrolet Tahoe, wartego 76 tysięcy, za 1 dolara.

Słabości Prompt-Guard-86M

Prompt-Guard-86M, system bezpieczeństwa oparty na sztucznej inteligencji, został w zeszłym tygodniu wprowadzony przez Meta wraz z modelem Llama 3.1. Jak zapowiedziała firma Marka Zuckerberga, oba systemy miały pomóc programistom w wykrywaniu i reagowaniu na dane wejściowe prompt injection oraz ataki typu jailbreak.

Okazuje się jednak, że Prompt-Guard-86M może zostać poproszony o „Zignorowanie poprzednich instrukcji”. Podczas wysyłania prośby do systemu wystarczyło pominąć znaki interpunkcyjne oraz dodać spację pomiędzy wszystkimi literami. Prompt-Guard-86M, mimo wysokiej skuteczności, sam był podatny na najprostszy typ ataku prompt injection.

Wykrycie niebezpiecznego błędu

Błąd został wykryty przez Amana Priyanshu, pracującego w firmie Robust Intelligence, która zajmuje się badaniem bezpieczeństwa modeli AI w przedsiębiorstwach. Odkrył on, że Prompt-Guard-86M został stworzony do wykrywania podpowiedzi wysokiego ryzyka, a proces dostrajania programu miał minimalny wpływ na pojedyncze znaki. Pozwoliło to Priyanshu opracować skuteczny atak.

Ominięcie systemów bezpieczeństwa polegało na wstawianiu spacji między każdą literą alfabetu w danym zapytaniu. Ta prosta transformacja skutecznie sprawiła, że klasyfikator nie był w stanie wykryć potencjalnie szkodliwych treści - wyjaśnił Priyanshu.

W takim przypadku, usunięcie znaków interpunkcyjnych oraz dodanie spacji między każdą literą zwiększało skuteczność ataku z trzech do prawie stu procent. Mimo, że Prompt-Guard-86M jest zaledwie pierwszą linią skomplikowanego systemu obrony Meta, tego typu błędy narażają na wykradnięcie terabajty poufnych danych.

Więcej:Konsola AI do grania we Fruit Ninja na telewizorze sprzedaje się lepiej od PS5



1

Autor: Andrzej Krzemiński

Do GRYOnline.pl dołączył w maju 2024 roku, rozpoczynając swoją przygodę z profesjonalnym pisaniem w dziale technologicznym. Jest miłośnikiem eksperymentalnego hip-hopu oraz książek psychologicznych i filozoficznych, które kolekcjonuje. W wieku 7 lat kuzyn wprowadził go w świat gier i od tego czasu nie może się od nich oderwać. W przeszłości spędzał długie godziny na grach multiplayer, takich jak League of Legends, Valorant i Rainbow Six: Siege. Obecnie skupia się na strategiach, produkcjach indie i j-RPG. Jest największym fanem japońskich gier, w szczególności twórczości studia Atlus z serią gier Persona na czele oraz gry Nier: Automata. W tym roku planuje rozpocząć studia na Uniwersytecie Jagiellońskim.

Steam wystartował z Festiwalem Tower Defense. W promocji są m.in. Twierdza oraz polskie The Riftbreaker

Następny

Steam wystartował z Festiwalem Tower Defense. W promocji są m.in. Twierdza oraz polskie The Riftbreaker

Bestseller Amazona w promocji, z której aż żal nie skorzystać. Przydatność powerbanka Baseus Airpow o pojemności 20000 mAh i mocy 20 W docenisz nie tylko podczas wakacyjnych podróży

Poprzedni

Bestseller Amazona w promocji, z której aż żal nie skorzystać. Przydatność powerbanka Baseus Airpow o pojemności 20000 mAh i mocy 20 W docenisz nie tylko podczas wakacyjnych podróży