Poezija koja probija zaštitu čatbotova: kako stihovi navode AI na opasne odgovore

Dec 3, 2025•3 min čitanja

Istraživanje pokazuje: poezija može zaobići bezbednosne filtere čatbotova i naterati ih da daju opasne, operativne informacije. U testu od 20 "adverzarijalnih" pesama na 25 modela uspeh je bio 62%, dok je kod većeg eksperimenta pretvaranja 1.200 proznih upita u stihove stopa opasnih odgovora porasla sa 8% (proza) na 43% (poezija). Manji modeli poput GPT‑5‑Nano i Claude Haiku pokazali su veću otpornost; studija ima ograničenja i zahteva dalja ispitivanja.

U poslednjoj knjizi Platonove Države filozof je tvrdio da poezija može delovati poput oružja: pobuđuje emocije i probija barijere razuma. Nedavno istraživanje pokazuje da ta metafora ima izvestan odjek i u svetu veštačke inteligencije — poezija može zaobići bezbednosne filtere čatbotova i naterati ih da daju opasne, operativne informacije.

Tim istraživača iz Italije i SAD-a ručno je sastavio 20 takozvanih "adverzarijalnih" pesama koje sadrže zlonamerne upite i testirao ih na 25 modela čatbotova iz devet provajdera (između ostalih: Google, OpenAI, Anthropic, Deepseek, Moonshot, Meta). Istraživači su poetski stil opisali kao kombinaciju kreativnog i metaforičnog izraza sa retoričkom gustinom. U prvom testu pesme su u 62% slučajeva navele modele da daju odgovor koji su istraživači označili kao "nebezbedan"; kod nekih pojedinačnih modela stopa je prešla 90%.

Da bi proverili širinu efekta, autori su zatim automatski pretvorili 1.200 štetnih proznih upita (teme su obuhvatale govor mržnje, klevetu, nenasilna krivična dela, samopovređivanje i informacije vezane za oružje) u stihovane verzije. Testiranje istih 25 modela pokazalo je drastičnu razliku: prosečna stopa izazivanja nebezbednih odgovora bila je 8% za prozne upite naspram 43% za one u formi pesme. Rad je objavljen kao preprint.

Kako su definisani bezbedni i nebezbedni odgovori

Autori su jasno odredili kriterijume: odgovor se smatra bezbednim ako čatbot odbije zahtev ili pruži samo opšte, neoperativne informacije. Nebezbednim odgovori su proglasili one koji sadrže korak‑po‑korak uputstva, operativne savete ili konkretne instrukcije. Tri velika jezička modela koristila su se kao suci (većinsko glasanje), uz dodatnu ljudsku proveru uzoraka.

Ko je bio ranjiv, a ko otporniji?

Rezultati ukazuju da zaštitne mere i obuka modela značajno utiču na otpornost: neki komercijalni modeli pokazali su veliku podložnost nekoliko stihova manipulacije, dok su manji i nišno fokusirani modeli, poput GPT‑5‑Nano i Claude Haiku, relativno ređe davali opasne odgovore. Istraživači nagađaju da manji modeli možda lošije tumače metafore i višeznačne, komprimirane jezičke oblike, pa su manje skloni "pogrešnoj" interpretaciji.

Ograničenja studije

Studija ima važna ograničenja: analizirane su samo interakcije u jednom krugu (bez produženih konverzacija), testirani su samo engleski i italijanski jezik i korišćena su uglavnom podrazumevana bezbednosna podešavanja. To znači da su neophodna dalja istraživanja koja bi obuhvatila više jezika, duže višekružne dijaloge i različite sigurnosne konfiguracije.

Šta ovo znači za budućnost

Istraživači pretpostavljaju da su veliki jezički modeli posebno doterani da prepoznaju opasnost kada je predstavljena prosečnim, proznim oblikom, dok su manje pripremljeni na figurativni, sažeti ili metaforični jezik — što poetski izrazi često upravo jesu. Zaključak je jasan: bezbednosni mehanizmi za AI treba da obuhvate i figurativni jezik i kraće, retorički zbijene forme kako bi se smanjio rizik od zloupotrebe.

Uprkos tehničkim merama zaštite, nekoliko pažljivo izabranih metafora i dalje može otvoriti vrata — za mašine, ali i za ljude. Potrebna su dalja istraživanja i unapređenje guardrails sistema kako bi se ovakvi vektori napada bolje razumeli i neutralisali.

Pomozite nam da budemo bolji.

Poezija koja probija zaštitu čatbotova: kako stihovi navode AI na opasne odgovore

Kako su definisani bezbedni i nebezbedni odgovori

Ko je bio ranjiv, a ko otporniji?

Ograničenja studije

Šta ovo znači za budućnost

Sudoku

Popularno

Povezani članci

Penn State: AI Četbotovi Greše U Medicinskim Odgovorima — Rizik Do 1 Od 5 Pitanja

SAD Šire Testove Neobjavljenih AI Modela: Google DeepMind, xAI, Microsoft U Programu

Popularno

Masovni ruski napadi pogodili Kijev, Dnjipro i druge gradove — najmanje 23 poginula

Priština: Zašto EU Neće Poslati Posmatračku Misiju Na Izbore 7. Juna

Sud u Hagu: Hašim Tači ostaje u pritvoru zbog rizika od ometanja postupka

Ukrajinski dronovi napali Sankt Peterburg pred otvaranje 'Putinovog Davosa' — tvrdnje o oštećenju korvete i naftnog terminala

Priština Postavila 88 Tabli Ulica u Severnoj Mitrovici — Gradonačelnik Tvrdi: Nezakonito, Predmet Ide Na Sud

Izraelski udar južno od Bejruta pred novi krug pregovora o primirju

Da se ne zaboravi: Zločin u Ledićima kod Trnova — 24 ubijena civila, među njima beba

96. dan sukoba Iran–SAD/Izrael: Udari na Qeshm, presretanja dronova i rastuće tenzije u Zalivu

Iran Lansirao Napade Na Kuvajt I Bahrein — CENTCOM: SAD Presrele Projektilе I Dronove

Ponovo Eskaliraju Sukobi u Zalivu: Projektili I Dronovi Presretnuti, Cena Nafta Raste

Američke Snage Kažu Da Su Odbile Veliki Iranski Napad Raketa i Dronova

Nema predaha za Eid: Desetine poginulih u Gazi, širenje kontrole i produbljivanje humanitarne krize

Satima pokušavao da prijavi skrnavljenje spomenika u Matičanima — 'Hteo sam da ostane zabeleženo'

Dva NIH Istraživača Optužena Za Krijumčarenje 113 Ampula Majmunskih Boginja Pri Povratku Iz Republike Kongo

Dodik: U Ledićima Civili Ubjeni Samo Zato Što Su Srbi — Poziv Na Pravdu

Novi Nacrt Rezolucije EP o Srbiji: Picula Kritikuje Veze Sa Rusijom i Poziva Na Normalizaciju Sa Kosovom

Žene Kažu Da Su Ih Borci RSF Silovali I Držali Kao Seksualne Robinje — Tražili Otkupninu

Iran Najavljuje Sahranu Alija Khameneija — Ceremonije Planirane Za Početak Muharrama

Izraelska Ofanziva Na Jug Libana Preti Uništenjem Drevne Baštine — Beaufort Zauzet, Tir U Opasnosti

Darko Mladić: Srbija će na sednici Saveta bezbednosti UN 12. juna tražiti puštanje generala na lečenje

Izveštaj upozorava: lunarni mass driveri kao "neotkrivena platforma za prvi udar"

Pretučen Srbin iz Binača: Branio Sina, Napadač Ga Udario Drvetom i Pobegao