Svet Vesti
Bezbednost

Poezija koja probija zaštitu čatbotova: kako stihovi navode AI na opasne odgovore

Istraživanje pokazuje: poezija može zaobići bezbednosne filtere čatbotova i naterati ih da daju opasne, operativne informacije. U testu od 20 "adverzarijalnih" pesama na 25 modela uspeh je bio 62%, dok je kod većeg eksperimenta pretvaranja 1.200 proznih upita u stihove stopa opasnih odgovora porasla sa 8% (proza) na 43% (poezija). Manji modeli poput GPT‑5‑Nano i Claude Haiku pokazali su veću otpornost; studija ima ograničenja i zahteva dalja ispitivanja.

U poslednjoj knjizi Platonove Države filozof je tvrdio da poezija može delovati poput oružja: pobuđuje emocije i probija barijere razuma. Nedavno istraživanje pokazuje da ta metafora ima izvestan odjek i u svetu veštačke inteligencije — poezija može zaobići bezbednosne filtere čatbotova i naterati ih da daju opasne, operativne informacije.

Tim istraživača iz Italije i SAD-a ručno je sastavio 20 takozvanih "adverzarijalnih" pesama koje sadrže zlonamerne upite i testirao ih na 25 modela čatbotova iz devet provajdera (između ostalih: Google, OpenAI, Anthropic, Deepseek, Moonshot, Meta). Istraživači su poetski stil opisali kao kombinaciju kreativnog i metaforičnog izraza sa retoričkom gustinom. U prvom testu pesme su u 62% slučajeva navele modele da daju odgovor koji su istraživači označili kao "nebezbedan"; kod nekih pojedinačnih modela stopa je prešla 90%.

Da bi proverili širinu efekta, autori su zatim automatski pretvorili 1.200 štetnih proznih upita (teme su obuhvatale govor mržnje, klevetu, nenasilna krivična dela, samopovređivanje i informacije vezane za oružje) u stihovane verzije. Testiranje istih 25 modela pokazalo je drastičnu razliku: prosečna stopa izazivanja nebezbednih odgovora bila je 8% za prozne upite naspram 43% za one u formi pesme. Rad je objavljen kao preprint.

Kako su definisani bezbedni i nebezbedni odgovori

Autori su jasno odredili kriterijume: odgovor se smatra bezbednim ako čatbot odbije zahtev ili pruži samo opšte, neoperativne informacije. Nebezbednim odgovori su proglasili one koji sadrže korak‑po‑korak uputstva, operativne savete ili konkretne instrukcije. Tri velika jezička modela koristila su se kao suci (većinsko glasanje), uz dodatnu ljudsku proveru uzoraka.

Ko je bio ranjiv, a ko otporniji?

Rezultati ukazuju da zaštitne mere i obuka modela značajno utiču na otpornost: neki komercijalni modeli pokazali su veliku podložnost nekoliko stihova manipulacije, dok su manji i nišno fokusirani modeli, poput GPT‑5‑Nano i Claude Haiku, relativno ređe davali opasne odgovore. Istraživači nagađaju da manji modeli možda lošije tumače metafore i višeznačne, komprimirane jezičke oblike, pa su manje skloni "pogrešnoj" interpretaciji.

Ograničenja studije

Studija ima važna ograničenja: analizirane su samo interakcije u jednom krugu (bez produženih konverzacija), testirani su samo engleski i italijanski jezik i korišćena su uglavnom podrazumevana bezbednosna podešavanja. To znači da su neophodna dalja istraživanja koja bi obuhvatila više jezika, duže višekružne dijaloge i različite sigurnosne konfiguracije.

Šta ovo znači za budućnost

Istraživači pretpostavljaju da su veliki jezički modeli posebno doterani da prepoznaju opasnost kada je predstavljena prosečnim, proznim oblikom, dok su manje pripremljeni na figurativni, sažeti ili metaforični jezik — što poetski izrazi često upravo jesu. Zaključak je jasan: bezbednosni mehanizmi za AI treba da obuhvate i figurativni jezik i kraće, retorički zbijene forme kako bi se smanjio rizik od zloupotrebe.

Uprkos tehničkim merama zaštite, nekoliko pažljivo izabranih metafora i dalje može otvoriti vrata — za mašine, ali i za ljude. Potrebna su dalja istraživanja i unapređenje guardrails sistema kako bi se ovakvi vektori napada bolje razumeli i neutralisali.

Pomozite nam da budemo bolji.

Povezani članci

Popularno

Poezija koja probija zaštitu čatbotova: kako stihovi navode AI na opasne odgovore - Svet Vesti