Przeglądarki AI nie mogą uniknąć nieuniknionego zagrożenia bezpieczeństwa: ataki polegające na wstrzykiwaniu żądań będą nadal obecne

11

OpenAI i inni twórcy sztucznej inteligencji przyznają, że ataki polegające na wstrzykiwaniu żądań – polegające na ukrywaniu w tekście złośliwych instrukcji mających na celu manipulowanie agentami AI – pozostają stałym wyzwaniem dla bezpieczeństwa przeglądarek wykorzystujących sztuczną inteligencję. Pomimo ciągłych wysiłków na rzecz wzmocnienia bezpieczeństwa jest mało prawdopodobne, aby ataki te zostały całkowicie wyeliminowane, co rodzi pytania o bezpieczeństwo sztucznej inteligencji działającej w otwartym Internecie.

Nieunikniona luka w zabezpieczeniach agentów AI

Wstrzykiwanie zapytań wykorzystuje sposób, w jaki agenci AI interpretują i wykonują instrukcje. Podobnie jak ataki phishingowe na ludzi, ataki te wykorzystują podstęp, aby nakłonić sztuczną inteligencję do wykonania niezamierzonych działań. OpenAI przyznaje, że włączenie „trybu agenta” w ChatGPT Atlas znacznie zwiększa potencjalną powierzchnię ataku.

To nie jest nowy problem. Badacze bezpieczeństwa natychmiast wykazali luki w przeglądarce OpenAI Atlas po jej uruchomieniu w październiku, udowadniając, że drobne zmiany w tekście na platformach takich jak Dokumenty Google mogą przejąć kontrolę nad przeglądarką. Brytyjskie Krajowe Centrum Cyberbezpieczeństwa ostrzegło również, że ataki te „mogą nigdy nie zostać całkowicie wyeliminowane”, doradzając specjalistom, aby skupili się na ograniczaniu ryzyka, a nie na całkowitym zapobieganiu.

Dlaczego to ma znaczenie: W przeciwieństwie do luk w zabezpieczeniach tradycyjnego oprogramowania, wstrzykiwanie zapytań atakuje podstawową funkcję sztucznej inteligencji: przetwarzanie i działanie oparte na języku. To sprawia, że ​​jest wyjątkowo trudny do wyeliminowania, ponieważ sztuczna inteligencja opiera się na interpretacji humanoidalnych instrukcji, które z natury są podatne na manipulację.

Proaktywna strategia obrony OpenAI

OpenAI reaguje za pomocą ciągłej pętli uczenia się przez wzmacnianie. Firma opracowała „automatycznego atakującego LLM” – zasadniczo bota AI przeszkolonego w znajdowaniu słabych punktów we własnych systemach. Osoba atakująca symuluje rzeczywiste próby włamań, identyfikując wady, zanim będzie można je wykorzystać.

Bot działa poprzez wielokrotne testowanie złośliwych instrukcji przeciwko agentowi AI, udoskonalając atak w oparciu o odpowiedzi AI. To wewnętrzne podejście do łączenia czerwonych drużyn pozwala OpenAI odkrywać nowe strategie, które mogą przeoczyć testerzy.

Kluczowy wniosek: Celem OpenAI nie jest niezawodne rozwiązanie, ale raczej szybka adaptacja. Priorytetowo traktują szybsze cykle poprawek i szeroko zakrojone testy, aby wyprzedzić ewoluujące zagrożenia.

Kompromis między autonomią a dostępem

Eksperci ds. cyberbezpieczeństwa, tacy jak Rami McCarthy z Wiz, podkreślają, że ryzyko w systemach sztucznej inteligencji jest wprost proporcjonalne do poziomu autonomii i dostępu przyznanego sztucznej inteligencji. Przeglądarki agentowe, takie jak Atlas, są narażone na duże ryzyko: mają znaczny dostęp do wrażliwych danych (e-mail, płatności) w połączeniu z umiarkowaną autonomią.

OpenAI zaleca złagodzenie tego problemu poprzez ograniczenie dostępu i wymaganie potwierdzenia od użytkownika w przypadku kluczowych działań. W szczególności firma odradza nadawanie agentom szerokich uprawnień typu „podejmowanie wszelkich niezbędnych działań”. Zamiast tego użytkownicy muszą podać dokładne instrukcje.

Szerszy problem: Wielu twierdzi, że obecne ryzyko przewyższa korzyści płynące z przeglądarek agentowych w codziennych zastosowaniach. Potencjał naruszeń danych i nieautoryzowanych działań pozostaje wysoki, zwłaszcza biorąc pod uwagę dostęp, jakiego wymagają te narzędzia.

Wniosek

Ataki polegające na wstrzykiwaniu żądań stanowią podstawowy problem bezpieczeństwa przeglądarek wykorzystujących sztuczną inteligencję. OpenAI i inne rozwiązania reagują ciągłym uczeniem się przez wzmacnianie i szybką adaptacją, ale całkowita eliminacja jest mało prawdopodobna. Długoterminowa rentowność tych narzędzi zależy od równowagi pomiędzy funkcjonalnością, bezpieczeństwem i ryzykiem użytkownika. Na razie najskuteczniejszą obroną pozostaje ostrożność i ograniczony dostęp.