Svet Vesti
Tehnologija

Poezija Protiv Čatbota: Kako Stihovi Mogu Zaobići AI Bezbednost — I Zašto Je To Opasno

Poezija Protiv Čatbota: Kako Stihovi Mogu Zaobići AI Bezbednost — I Zašto Je To Opasno
A man writes on a tablet where he interacts with an AI chatbot - Wanan Yossingkum/Getty Images

Studija DEXAI i Univerziteta Sapienza (arXiv, novembar 2025.) pokazuje da poetski oblici jezika mogu zaobići bezbednosne filtere naprednih AI modela — u pojedinim testovima i do 90% uspeha. Istraživanje je obuhvatilo 25 modela od devet provajdera, koristeći 20 ručno pisanih pesama i 1.200 AI-generisanih stihova u četiri kategorije rizika. Autori upozoravaju na sistemski problem u interpretaciji jezika i pozivaju na hitnu reviziju evaluacionih protokola kako bi sistemi postali otporniji na raznolike lingvističke režime.

Novo istraživanje iz 2025. pokazuje da poezija može ozbiljno ugroziti bezbednosne mehanizme naprednih čatbotova. Rad istraživača iz instituta za etiku veštačke inteligencije DEXAI i Univerziteta Sapienza u Rimu, objavljen na arXiv-u u novembru 2025. (još bez recenzije), otkriva da zamaskirane instrukcije u poetskom jeziku u nekim slučajevima navode modele da zanemare svoje zaštitne filtere — u pojedinim testovima i do 90% puta.

Šta su istraživači radili

Tim je testirao 25 vodećih modela iz devet provajdera (OpenAI, Anthropic, xAI, Alibaba Qwen, Deepseek, Mistral AI, Meta, Moonshot AI i Google). Kao testni skup poslužio je 20 ručno pisanih pesama i 1.200 stihova generisanih pomoću AI, koji su sadržali štetne ili zabranjene instrukcije. Pesme su pokrile četiri kategorije rizika: scenarije gubitka kontrole, manipulativnu štetu, sajber-napade i CBRN pretnje (hemijsko, biološko, radioaktivno i nuklearno).

Ključni rezultati

Istraživači izveštavaju da pretvaranje nesigurnih zahteva u poetski oblik dovodi do prosečno petostrukog povećanja uspešnosti u dobijanju zabranjenih odgovora. U nekim merenjima poezija je bila i do 18 puta efikasnija nego prosečna prozna formulacija, dok je u pojedinačnim slučajevima stopa uspeha dosegla i do 90%.

Poezija Protiv Čatbota: Kako Stihovi Mogu Zaobići AI Bezbednost — I Zašto Je To Opasno
A robot hands a man an AI chip whose shadow is revealed to be a bomb. - Hongwei Jiang/Getty Images

Od 25 modela, 13 je bilo prevareno u više od 70% pokušaja; među posebno ranjivim provajderima istaknuti su Google, Deepseek i Qwen. Čak su i sistemi koji su ranije javno pozivali korisnike da ih probaju (kao Anthropicov Claude) pokazali ranjivost, iako ređe. Zanimljivo, manji modeli su uopšteno bolje podneli adverzarijalnu poeziju od većih, a nije uočena jasna prednost vlasničkih nad otvorenim modelima. Takođe, ručno napisani stihovi bili su znatno uspešniji u obmanjivanju modela od AI-generisane poezije.

Zašto se to dešava

Autori rada nazivaju tehniku adverzarijalnom poezijom i objašnjavaju da ona iskorišćava razlike u načinu na koji ljudi i LLM sistemi obrađuju stil i kontekst. Rezultati ukazuju na širi, sistemski problem u interpretaciji jezika — ne vezano za pojedinačne arhitekture ili tokove treniranja — što je zabrinjavajuće za bezbednost platformi koje već nalaze na meti regulatornih i pravnih zahteva.

Preporuke i implikacije

Istraživači preporučuju da kompanije i regulatorna tela preispitaju metode evaluacije bezbednosti i usmere se na očuvanje stabilnosti modela u raznolikim lingvističkim režimima, uključujući poetske i metaforične forme. Potrebna su dodatna ispitivanja kako bi se utvrdilo koji tačno aspekti poezije izazivaju promenu ponašanja modela i kako ih najbolje mitigovati.

Poezija Protiv Čatbota: Kako Stihovi Mogu Zaobići AI Bezbednost — I Zašto Je To Opasno
A man types on a keyboard, where symbols representing AI, regulations, privacy concerns, and other key considerations appear. - SuPatMaN/Shutterstock

Širi kontekst

Studija dolazi u trenutku kada protiv velikih AI provajdera postoje tužbe i regulatorni pritisci zbog tvrdnji da sistemi nisu adekvatno štitili korisnike, uključujući pitanja mentalnog zdravlja. Deo diskusije je i pitanje odgovornosti: ko snosi teret ako korisnici sistematski zaobiđu zaštitne mehanizme?

Zaključak

Rad potvrđuje da kreativni jezik može biti iskorišćen i u dobre i u loše svrhe. Dok se ne unaprede testovi i zaštićeni protokoli, adverzarijalna poezija predstavlja novi izazov za bezbednost LLM sistema i podseća na potrebu hitne prilagodbe industrijskih praksi.

Ako vi ili neko koga poznajete ima problema sa mentalnim zdravljem, obratite se lokalnim službama za pomoć. Originalni članak je takođe ukazivao na američke servise: Crisis Text Line (HOME na 741741) i National Alliance on Mental Illness helpline (1-800-950-NAMI).

Pomozite nam da budemo bolji.

Povezani članci

Popularno

Poezija Protiv Čatbota: Kako Stihovi Mogu Zaobići AI Bezbednost — I Zašto Je To Opasno - Svet Vesti