Meta wprowadziła system bezpieczeństwa oparty na sztucznej inteligencji. Okazało się, że program jest podatny na proste ataki manipulacyjne, przed którymi miał chronić.
Spis treści:
W zeszłym tygodniu Meta wprowadziła Prompt-Guard-86M, model uczenia maszynowego do wykrywania ataków prompt injection. Okazało się jednak, że system bezpieczeństwa AI sam w sobie jest podatny na tego typu ataki.
Duże modele językowe, takie jak stworzony przez Meta Prompt-Guard-86M, trenowane są przy użyciu ogromnych ilości tekstu i danych. Taki system nie jest idealny, ponieważ materiał użyty do szkolenia sam w sobie może zawierać błędy i wątpliwe informacje.
Z tego względu twórcy modeli opartych na sztucznej inteligencji projektują mechanizmy filtrujące, nazywane w branży „guardrails”. Wychwytują one zapytania i odpowiedzi systemu, które mogą wyrządzić krzywdę oraz posłużyć do ujawnienia poufnych danych za pomocą prostej komendy systemowej.
Jest to powszechnie znany i wciąż nierozwiązany problem, z jakim borykają się modele oparte na sztucznej inteligencji. Programy takie są podatne na manipulacje, co idealnie ilustruje przykład salonu Chevroleta w Kalifornii, gdzie chatbot zgodził się na sprzedaż samochodu Chevrolet Tahoe, wartego 76 tysięcy, za 1 dolara.
Prompt-Guard-86M, system bezpieczeństwa oparty na sztucznej inteligencji, został w zeszłym tygodniu wprowadzony przez Meta wraz z modelem Llama 3.1. Jak zapowiedziała firma Marka Zuckerberga, oba systemy miały pomóc programistom w wykrywaniu i reagowaniu na dane wejściowe prompt injection oraz ataki typu jailbreak.
Okazuje się jednak, że Prompt-Guard-86M może zostać poproszony o „Zignorowanie poprzednich instrukcji”. Podczas wysyłania prośby do systemu wystarczyło pominąć znaki interpunkcyjne oraz dodać spację pomiędzy wszystkimi literami. Prompt-Guard-86M, mimo wysokiej skuteczności, sam był podatny na najprostszy typ ataku prompt injection.
Błąd został wykryty przez Amana Priyanshu, pracującego w firmie Robust Intelligence, która zajmuje się badaniem bezpieczeństwa modeli AI w przedsiębiorstwach. Odkrył on, że Prompt-Guard-86M został stworzony do wykrywania podpowiedzi wysokiego ryzyka, a proces dostrajania programu miał minimalny wpływ na pojedyncze znaki. Pozwoliło to Priyanshu opracować skuteczny atak.
Ominięcie systemów bezpieczeństwa polegało na wstawianiu spacji między każdą literą alfabetu w danym zapytaniu. Ta prosta transformacja skutecznie sprawiła, że klasyfikator nie był w stanie wykryć potencjalnie szkodliwych treści - wyjaśnił Priyanshu.
W takim przypadku, usunięcie znaków interpunkcyjnych oraz dodanie spacji między każdą literą zwiększało skuteczność ataku z trzech do prawie stu procent. Mimo, że Prompt-Guard-86M jest zaledwie pierwszą linią skomplikowanego systemu obrony Meta, tego typu błędy narażają na wykradnięcie terabajty poufnych danych.
Więcej:Konsola AI do grania we Fruit Ninja na telewizorze sprzedaje się lepiej od PS5
1

Autor: Andrzej Krzemiński
Do GRYOnline.pl dołączył w maju 2024 roku, rozpoczynając swoją przygodę z profesjonalnym pisaniem w dziale technologicznym. Jest miłośnikiem eksperymentalnego hip-hopu oraz książek psychologicznych i filozoficznych, które kolekcjonuje. W wieku 7 lat kuzyn wprowadził go w świat gier i od tego czasu nie może się od nich oderwać. W przeszłości spędzał długie godziny na grach multiplayer, takich jak League of Legends, Valorant i Rainbow Six: Siege. Obecnie skupia się na strategiach, produkcjach indie i j-RPG. Jest największym fanem japońskich gier, w szczególności twórczości studia Atlus z serią gier Persona na czele oraz gry Nier: Automata. W tym roku planuje rozpocząć studia na Uniwersytecie Jagiellońskim.