Prohlížeče s umělou inteligencí se nemohou vyhnout nevyhnutelnému bezpečnostnímu riziku: útoky na vkládání požadavků tu zůstanou

12

OpenAI a další vývojáři umělé inteligence uznávají, že útoky typu request injection – kdy jsou v textu skryty škodlivé pokyny pro manipulaci s agenty AI – zůstávají trvalou bezpečnostní výzvou pro prohlížeče s umělou inteligencí. Navzdory neustálému úsilí o posílení bezpečnosti se tyto útoky pravděpodobně nepodaří zcela odstranit, což vyvolává otázky o bezpečnosti AI běžící na otevřeném internetu.

Nevyhnutelná zranitelnost agentů AI

Vkládání dotazu využívá způsob, jakým agenti AI interpretují a provádějí instrukce. Podobně jako phishingové útoky na lidi využívají tyto útoky klam, aby přiměli umělou inteligenci k provedení nezamýšlených akcí. OpenAI uznává, že povolení „režimu agenta“ v ChatGPT Atlas výrazně zvyšuje potenciální útočnou plochu.

Toto není nový problém. Bezpečnostní výzkumníci okamžitě prokázali zranitelnosti prohlížeče OpenAI Atlas po jeho uvedení v říjnu, což dokazuje, že drobné změny textu na platformách, jako jsou Dokumenty Google, by mohly unést kontrolu nad prohlížečem. Britské National Cyber ​​​​Security Center také varovalo, že tyto útoky „nemusí být nikdy zcela eliminovány“, a radí odborníkům, aby se zaměřili na snižování rizik spíše než na úplnou prevenci.

Proč je to důležité: Na rozdíl od tradičních zranitelností softwaru se vkládání dotazů zaměřuje na hlavní funkci umělé inteligence: zpracování a akci na základě jazyka. To je výjimečně obtížné odstranit, protože AI se spoléhá na interpretaci humanoidních instrukcí, které jsou ze své podstaty náchylné k manipulaci.

Proaktivní obranná strategie OpenAI

OpenAI reaguje pomocí nepřetržité smyčky posilovacího učení. Společnost vyvinula „automatizovaného LLM útočníka“ – v podstatě robota AI vycvičeného k nalezení slabin ve vlastních systémech. Tento útočník simuluje skutečné pokusy o hackování a identifikuje chyby dříve, než je lze zneužít.

Robot funguje tak, že opakovaně testuje škodlivé instrukce proti agentovi AI a zpřesňuje útok na základě odpovědí AI. Tento interní červený týmový přístup umožňuje OpenAI objevovat nové strategie, které by lidským testerům mohly uniknout.

Klíčové shrnutí: OpenAI se nezaměřuje na spolehlivé řešení, ale spíše na rychlou adaptaci. Upřednostňují rychlejší cykly oprav a rozsáhlé testování, aby si udrželi náskok před vyvíjejícími se hrozbami.

Kompromis mezi autonomií a přístupem

Odborníci na kybernetickou bezpečnost, jako je Rami McCarthy z Wiz, zdůrazňují, že riziko v systémech umělé inteligence je přímo úměrné úrovni autonomie a přístupu uděleného umělé inteligenci. Prohlížeče agentů jako Atlas jsou vystaveny vysokému riziku: mají významný přístup k citlivým údajům (e-mail, platby) v kombinaci s mírnou autonomií.

OpenAI doporučuje toto zmírnit omezením přístupu a vyžadováním potvrzení uživatele pro kritické akce. Společnost zejména nedoporučuje udělovat agentům široká oprávnění, jako je „provést jakékoli nezbytné kroky“. Místo toho musí uživatelé poskytnout přesné pokyny.

Širší problém: Mnozí tvrdí, že současná rizika převažují nad výhodami agentských prohlížečů pro každodenní použití. Potenciál narušení dat a neoprávněné akce zůstává vysoký, zejména s ohledem na přístup, který tyto nástroje vyžadují.

Závěr

Útoky typu Request injection představují zásadní bezpečnostní problém pro prohlížeče s umělou inteligencí. OpenAI a další reagují neustálým posilováním a rychlou adaptací, ale úplné odstranění je nepravděpodobné. Dlouhodobá životaschopnost těchto nástrojů závisí na rovnováze mezi funkčností, bezpečností a uživatelským rizikem. Prozatím zůstává nejúčinnější obranou opatrnost a omezený přístup.