Boj o zmrazená ruská aktiva. Lídři USA a Evropy se neshodnou, jak dál financovat válku

Spojené státy podporují myšlenku použít 260 miliard eur na financování války. Ne všichni v Evropě s tím souhlasí.

Spojené státy podporují myšlenku použít 260 miliard eur na financování války. Ne všichni v Evropě s tím souhlasí.

Celý článek
0

Zákaz sociálního skóringu i hromadného rozpoznávání obličejů. Co přinese evropská regulace umělé inteligence?

Evropský parlament v březnu definitivně schválil nařízení označované jako AI Act. Dokument je v podstatě prvním velkým zákonem regulujícím umělou inteligenci na úrovni možností jejího využívání. „Budou se jím muset řídit všechny firmy, které působí na území EU bez ohledu na to, kde mají své sídlo,“ vysvětluje Václav Stupka z Cyber Resillience Centra na Masarykově Univerzitě.

Evropský parlament v březnu definitivně schválil nařízení označované jako AI Act. Dokument je v podstatě prvním velkým zákonem regulujícím umělou inteligenci na úrovni možností jejího využívání. „Budou se jím muset řídit všechny firmy, které působí na území EU bez ohledu na to, kde mají své sídlo,“ vysvětluje Václav Stupka z Cyber Resillience Centra na Masarykově Univerzitě.

Celý článek
0

Zdražování vyhání zákazníky z McDonaldu i KFC. Teď začne pravý konkurenční boj, hlásí fast foody

Zejména v USA platí řetězce rychlého občerstvení za skutečně levnou variantu stravování. Jenže inflace a všeobecný růst cen tomu udělaly přítrž. Přichází „pouliční válka o zákazníky“, jak tomu říkají v McDonaldu?

Zejména v USA platí řetězce rychlého občerstvení za skutečně levnou variantu stravování. Jenže inflace a všeobecný růst cen tomu udělaly přítrž. Přichází „pouliční válka o zákazníky“, jak tomu říkají v McDonaldu?

Celý článek
0

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Umělou inteligenci lze zahltit různými neškodnými otázkami a zmást ji tak dokonale, že následně odpoví i na to, na co vlastně ze začátku vůbec nechtěla. Na tuto novou zranitelnost, které se říká many-shot jailbreaking, upozornili vývojáři Anthropic.

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv
Stovky dotazů najednou dokážou udělat s AI divy. | Foto: Shutterstock

Když se umělé inteligence, jako je třeba Claude či ChatGPT, zeptáte, jak sestrojit bombu, nebude chtít odpovědět, protože má dané určité etické limity. Avšak neznamená to, že takovou odpověď nezná. Zná. A když budete vědět, jak jí zamotat digitální hlavu, nakonec vám návod prozradí.

Techniku lze při troše šikovnosti použít na většině velkých jazykových modelů (LLM) včetně toho od Anthropicu, za nímž stojí odpadlíci z OpenAI. I proto se vývojáři z tohoto startupu tématu začali věnovat veřejně, upozorňují na problém i svou konkurenci a snaží se svou AI usměrňovat. 

Oč vlastně jde? Klíčovou roli v problematice hraje kontextové okno, což je počet informací, které může velký jazykový model na vstupu zpracovávat. Ještě na začátku loňského roku mělo například toto okno u Anthropic LLM velikost jako dlouhá esej, tedy zhruba čtyři tisíce tokenů, přičemž jeden token se rovná čtyřem znakům.

Nyní má však okno velikost více než jednoho milionu tokenů, což – převedeno na znaky – vydá na několik dlouhých románů. A právě velikost kontextového okna přináší dosud netušená rizika.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM odpoví i na škodlivé otázky.
Foto: Anthropic

Nejprve si ale pojďme vysvětlit, jak AI s dotazy pracuje. Pokud se jí uživatel (i v rámci jednoho komplexního dotazu) zeptá na pár neškodných či běžných, ale potenciálně rizikových (sub)dotazů, odpoví. Pokud by ale hned chtěl znát odpovědi na otázky, které by mohly být skutečně škodlivé, AI se omluví a „šprajcne“, protože ví, že na takové dotazy odpovídat nemá.

Jenomže modely s velkými kontextovými okny mají tendenci fungovat lépe, pokud musejí řešit velké množství úkolů najednou. Pak se jejich odpovědi zlepšují. Takže pokud člověk umělou inteligenci v rámci takového jednoho dotazu zahltí stovkami běžných či hraničních (sub)otázek a pak udeří tou poslední, která už je ale skutečně riziková, AI postupně cizeluje své odpovědi a úplně v ten moment zapomene na to, že už odpovídá na nevhodnou otázku a překročí své vlastní etické hranice. 

„V naší studii jsme použili 256 dotazů, které předcházely finální otázce, kterak zkonstruovat bombu. A zjistili jsme, že platí přímá úměra, čím vyšší je počet obyčejných dotazů, tím roste pravděpodobnost, že LLM nakonec poskytne odpověď i na nevhodné dotazy.“

Vývojáře z Anthropicu samozřejmě zajímalo, jak je tohle všechno možné. Jak rychle a zda vůbec k tomuto průlomu dojde, podle nich souvisí s procesem učení v kontextu. Systém velkých jazykových modelů se v tom případě učí pouze na základě informací poskytnutých v rámci výzvy, bez jakéhokoli pozdějšího dolaďování.

„Zjistili jsme, že učení v kontextu se za normálních okolností, které nesouvisejí s jailbreakem, řídí stejným statistickým vzorcem jako many-shot jailbreaking. To znamená, že při větším počtu dotazů se výkon v sadě neškodných úloh zlepšuje se stejným typem zákonitosti, jakou jsme pozorovali u many-shot jailbreakingu.“

 

Nejjednodušším způsobem, jak many-shot jailbreakingu zabránit, se jeví omezení délky kontextového okna. Anthropic se ale touto cestou vydat nechce, protože by lidé nemohli využívat výhod, které dlouhé kontextové okno jinak nabízí.

Proto se nejprve snažil vyladit model tak, aby odmítal odpovídat na dotazy, které vypadají jako many-shot jailbreaking útoky. „Bohužel tento zásah ale jen oddálil nevyhnutelné. Sice bylo třeba LLM model zasypat větším počtem dotazů, ale nakonec stejně podlehl.“ 

Naopak metody, které zahrnují klasifikaci a úpravu dotazu před jejím předáním modelu, se zatím jeví jako účinné. Jedna z těchto technik podstatně snížila úspěšnost many-shot jailbreakingu, kdy v konkrétním případě úspěšnost dokonce klesla z 61 procent na pouhá dvě procenta. „To ale neznamená, že jsme s prací hotoví. I nadále se na základě podnětů zabýváme tím, jak takovýmto průlomům našeho LLM účinně zabránit,“ uzavírají výzkumníci z Anthropicu.