OpenAI a další vývojáři umělé inteligence uznávají, že útoky typu request injection – kdy jsou v textu skryty škodlivé pokyny pro manipulaci s agenty AI – zůstávají trvalou bezpečnostní výzvou pro prohlížeče s umělou inteligencí. Navzdory neustálému úsilí o posílení bezpečnosti se tyto útoky pravděpodobně nepodaří zcela odstranit, což vyvolává otázky o bezpečnosti AI běžící na otevřeném internetu.
Nevyhnutelná zranitelnost agentů AI
Vkládání dotazu využívá způsob, jakým agenti AI interpretují a provádějí instrukce. Podobně jako phishingové útoky na lidi využívají tyto útoky klam, aby přiměli umělou inteligenci k provedení nezamýšlených akcí. OpenAI uznává, že povolení „režimu agenta“ v ChatGPT Atlas výrazně zvyšuje potenciální útočnou plochu.
Toto není nový problém. Bezpečnostní výzkumníci okamžitě prokázali zranitelnosti prohlížeče OpenAI Atlas po jeho uvedení v říjnu, což dokazuje, že drobné změny textu na platformách, jako jsou Dokumenty Google, by mohly unést kontrolu nad prohlížečem. Britské National Cyber Security Center také varovalo, že tyto útoky „nemusí být nikdy zcela eliminovány“, a radí odborníkům, aby se zaměřili na snižování rizik spíše než na úplnou prevenci.
Proč je to důležité: Na rozdíl od tradičních zranitelností softwaru se vkládání dotazů zaměřuje na hlavní funkci umělé inteligence: zpracování a akci na základě jazyka. To je výjimečně obtížné odstranit, protože AI se spoléhá na interpretaci humanoidních instrukcí, které jsou ze své podstaty náchylné k manipulaci.
Proaktivní obranná strategie OpenAI
OpenAI reaguje pomocí nepřetržité smyčky posilovacího učení. Společnost vyvinula „automatizovaného LLM útočníka“ – v podstatě robota AI vycvičeného k nalezení slabin ve vlastních systémech. Tento útočník simuluje skutečné pokusy o hackování a identifikuje chyby dříve, než je lze zneužít.
Robot funguje tak, že opakovaně testuje škodlivé instrukce proti agentovi AI a zpřesňuje útok na základě odpovědí AI. Tento interní červený týmový přístup umožňuje OpenAI objevovat nové strategie, které by lidským testerům mohly uniknout.
Klíčové shrnutí: OpenAI se nezaměřuje na spolehlivé řešení, ale spíše na rychlou adaptaci. Upřednostňují rychlejší cykly oprav a rozsáhlé testování, aby si udrželi náskok před vyvíjejícími se hrozbami.
Kompromis mezi autonomií a přístupem
Odborníci na kybernetickou bezpečnost, jako je Rami McCarthy z Wiz, zdůrazňují, že riziko v systémech umělé inteligence je přímo úměrné úrovni autonomie a přístupu uděleného umělé inteligenci. Prohlížeče agentů jako Atlas jsou vystaveny vysokému riziku: mají významný přístup k citlivým údajům (e-mail, platby) v kombinaci s mírnou autonomií.
OpenAI doporučuje toto zmírnit omezením přístupu a vyžadováním potvrzení uživatele pro kritické akce. Společnost zejména nedoporučuje udělovat agentům široká oprávnění, jako je „provést jakékoli nezbytné kroky“. Místo toho musí uživatelé poskytnout přesné pokyny.
Širší problém: Mnozí tvrdí, že současná rizika převažují nad výhodami agentských prohlížečů pro každodenní použití. Potenciál narušení dat a neoprávněné akce zůstává vysoký, zejména s ohledem na přístup, který tyto nástroje vyžadují.
Závěr
Útoky typu Request injection představují zásadní bezpečnostní problém pro prohlížeče s umělou inteligencí. OpenAI a další reagují neustálým posilováním a rychlou adaptací, ale úplné odstranění je nepravděpodobné. Dlouhodobá životaschopnost těchto nástrojů závisí na rovnováze mezi funkčností, bezpečností a uživatelským rizikem. Prozatím zůstává nejúčinnější obranou opatrnost a omezený přístup.
























