Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Umělou inteligenci lze zahltit různými neškodnými otázkami a zmást ji tak dokonale, že následně odpoví i na to, na co vlastně ze začátku vůbec nechtěla. Na tuto novou zranitelnost, které se říká many-shot jailbreaking, upozornili vývojáři Anthropic.

Stovky dotazů najednou dokážou udělat s AI divy. | Foto: Shutterstock

Když se umělé inteligence, jako je třeba Claude či ChatGPT, zeptáte, jak sestrojit bombu, nebude chtít odpovědět, protože má dané určité etické limity. Avšak neznamená to, že takovou odpověď nezná. Zná. A když budete vědět, jak jí zamotat digitální hlavu, nakonec vám návod prozradí.

Techniku lze při troše šikovnosti použít na většině velkých jazykových modelů (LLM) včetně toho od Anthropicu, za nímž stojí odpadlíci z OpenAI. I proto se vývojáři z tohoto startupu tématu začali věnovat veřejně, upozorňují na problém i svou konkurenci a snaží se svou AI usměrňovat.

Oč vlastně jde? Klíčovou roli v problematice hraje kontextové okno, což je počet informací, které může velký jazykový model na vstupu zpracovávat. Ještě na začátku loňského roku mělo například toto okno u Anthropic LLM velikost jako dlouhá esej, tedy zhruba čtyři tisíce tokenů, přičemž jeden token se rovná čtyřem znakům.

Nyní má však okno velikost více než jednoho milionu tokenů, což – převedeno na znaky – vydá na několik dlouhých románů. A právě velikost kontextového okna přináší dosud netušená rizika.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM odpoví i na škodlivé otázky.
Foto: Anthropic

Nejprve si ale pojďme vysvětlit, jak AI s dotazy pracuje. Pokud se jí uživatel (i v rámci jednoho komplexního dotazu) zeptá na pár neškodných či běžných, ale potenciálně rizikových (sub)dotazů, odpoví. Pokud by ale hned chtěl znát odpovědi na otázky, které by mohly být skutečně škodlivé, AI se omluví a „šprajcne“, protože ví, že na takové dotazy odpovídat nemá.

Jenomže modely s velkými kontextovými okny mají tendenci fungovat lépe, pokud musejí řešit velké množství úkolů najednou. Pak se jejich odpovědi zlepšují. Takže pokud člověk umělou inteligenci v rámci takového jednoho dotazu zahltí stovkami běžných či hraničních (sub)otázek a pak udeří tou poslední, která už je ale skutečně riziková, AI postupně cizeluje své odpovědi a úplně v ten moment zapomene na to, že už odpovídá na nevhodnou otázku a překročí své vlastní etické hranice.

Startup Anthropic získal od Amazonu další investici, tentokrát v hodnotě téměř tří miliard dolarů

Závody o ovládnutí trhu v oblasti umělé inteligence stále zrychlují a Amazon se nebojí hrát vysokou hru. Pro startup Anthropic proto vyčlenil dalších 2,75 miliardy dolarů a posílil tak své vazby na tuto technologickou společnost.

„V naší studii jsme použili 256 dotazů, které předcházely finální otázce, kterak zkonstruovat bombu. A zjistili jsme, že platí přímá úměra, čím vyšší je počet obyčejných dotazů, tím roste pravděpodobnost, že LLM nakonec poskytne odpověď i na nevhodné dotazy.“

Vývojáře z Anthropicu samozřejmě zajímalo, jak je tohle všechno možné. Jak rychle a zda vůbec k tomuto průlomu dojde, podle nich souvisí s procesem učení v kontextu. Systém velkých jazykových modelů se v tom případě učí pouze na základě informací poskytnutých v rámci výzvy, bez jakéhokoli pozdějšího dolaďování.

„Zjistili jsme, že učení v kontextu se za normálních okolností, které nesouvisejí s jailbreakem, řídí stejným statistickým vzorcem jako many-shot jailbreaking. To znamená, že při větším počtu dotazů se výkon v sadě neškodných úloh zlepšuje se stejným typem zákonitosti, jakou jsme pozorovali u many-shot jailbreakingu.“

Nejjednodušším způsobem, jak many-shot jailbreakingu zabránit, se jeví omezení délky kontextového okna. Anthropic se ale touto cestou vydat nechce, protože by lidé nemohli využívat výhod, které dlouhé kontextové okno jinak nabízí.

Proto se nejprve snažil vyladit model tak, aby odmítal odpovídat na dotazy, které vypadají jako many-shot jailbreaking útoky. „Bohužel tento zásah ale jen oddálil nevyhnutelné. Sice bylo třeba LLM model zasypat větším počtem dotazů, ale nakonec stejně podlehl.“

Naopak metody, které zahrnují klasifikaci a úpravu dotazu před jejím předáním modelu, se zatím jeví jako účinné. Jedna z těchto technik podstatně snížila úspěšnost many-shot jailbreakingu, kdy v konkrétním případě úspěšnost dokonce klesla z 61 procent na pouhá dvě procenta. „To ale neznamená, že jsme s prací hotoví. I nadále se na základě podnětů zabýváme tím, jak takovýmto průlomům našeho LLM účinně zabránit,“ uzavírají výzkumníci z Anthropicu.

AI model Anthropic Claude 3 porazil ve srovnávacích testech Chat GPT-4

Technologický startup Anthropic tvrdí, že jeho umělá inteligence Claude 3 dokáže porazit již zavedené modely OpenAI ChatGPT-4 i Google Gemini. To by znamenalo, že Claude 3 dovede rychleji zpracovávat složité matematické úkoly, provádět analýzy grafů či lépe překládat napříč jazyky.

Kristina Blümelová 7. dubna 2024
8:05

Boj o zmrazená ruská aktiva. Lídři USA a Evropy se neshodnou, jak dál financovat válku

Zákaz sociálního skóringu i hromadného rozpoznávání obličejů. Co přinese evropská regulace umělé inteligence?

Zdražování vyhání zákazníky z McDonaldu i KFC. Teď začne pravý konkurenční boj, hlásí fast foody

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Startup Anthropic získal od Amazonu další investici, tentokrát v hodnotě téměř tří miliard dolarů

AI model Anthropic Claude 3 porazil ve srovnávacích testech Chat GPT-4

Provozovatel

Sídlo

Šéfredaktor

Redakce

Inzerce