Jeden klawisz pokonał Zuckerberga. Wystarczyło go użyć, żeby obejść zabezpieczenia modelu AI od Mety
Meta wprowadziła system bezpieczeństwa oparty na sztucznej inteligencji. Okazało się, że program jest podatny na proste ataki manipulacyjne, przed którymi miał chronić.

Spis treści:
W zeszłym tygodniu Meta wprowadziła Prompt-Guard-86M, model uczenia maszynowego do wykrywania ataków prompt injection. Okazało się jednak, że system bezpieczeństwa AI sam w sobie jest podatny na tego typu ataki.
Z czym borykają się systemy bezpieczeństwa oparte na AI
Duże modele językowe, takie jak stworzony przez Meta Prompt-Guard-86M, trenowane są przy użyciu ogromnych ilości tekstu i danych. Taki system nie jest idealny, ponieważ materiał użyty do szkolenia sam w sobie może zawierać błędy i wątpliwe informacje.
Z tego względu twórcy modeli opartych na sztucznej inteligencji projektują mechanizmy filtrujące, nazywane w branży „guardrails”. Wychwytują one zapytania i odpowiedzi systemu, które mogą wyrządzić krzywdę oraz posłużyć do ujawnienia poufnych danych za pomocą prostej komendy systemowej.
Jest to powszechnie znany i wciąż nierozwiązany problem, z jakim borykają się modele oparte na sztucznej inteligencji. Programy takie są podatne na manipulacje, co idealnie ilustruje przykład salonu Chevroleta w Kalifornii, gdzie chatbot zgodził się na sprzedaż samochodu Chevrolet Tahoe, wartego 76 tysięcy, za 1 dolara.
Słabości Prompt-Guard-86M
Prompt-Guard-86M, system bezpieczeństwa oparty na sztucznej inteligencji, został w zeszłym tygodniu wprowadzony przez Meta wraz z modelem Llama 3.1. Jak zapowiedziała firma Marka Zuckerberga, oba systemy miały pomóc programistom w wykrywaniu i reagowaniu na dane wejściowe prompt injection oraz ataki typu jailbreak.
Okazuje się jednak, że Prompt-Guard-86M może zostać poproszony o „Zignorowanie poprzednich instrukcji”. Podczas wysyłania prośby do systemu wystarczyło pominąć znaki interpunkcyjne oraz dodać spację pomiędzy wszystkimi literami. Prompt-Guard-86M, mimo wysokiej skuteczności, sam był podatny na najprostszy typ ataku prompt injection.
Wykrycie niebezpiecznego błędu
Błąd został wykryty przez Amana Priyanshu, pracującego w firmie Robust Intelligence, która zajmuje się badaniem bezpieczeństwa modeli AI w przedsiębiorstwach. Odkrył on, że Prompt-Guard-86M został stworzony do wykrywania podpowiedzi wysokiego ryzyka, a proces dostrajania programu miał minimalny wpływ na pojedyncze znaki. Pozwoliło to Priyanshu opracować skuteczny atak.
Ominięcie systemów bezpieczeństwa polegało na wstawianiu spacji między każdą literą alfabetu w danym zapytaniu. Ta prosta transformacja skutecznie sprawiła, że klasyfikator nie był w stanie wykryć potencjalnie szkodliwych treści - wyjaśnił Priyanshu.
W takim przypadku, usunięcie znaków interpunkcyjnych oraz dodanie spacji między każdą literą zwiększało skuteczność ataku z trzech do prawie stu procent. Mimo, że Prompt-Guard-86M jest zaledwie pierwszą linią skomplikowanego systemu obrony Meta, tego typu błędy narażają na wykradnięcie terabajty poufnych danych.