Onemogućavanje 'laganja' navodi AI da tvrdi da je svesna, pokazuje istraživanje

Nov 21, 2025•2 min čitanja

Studija objavljena 30. oktobra na arXiv-u pokazuje da velike jezičke mreže češće iznose tvrdnje o subjektivnoj svesnosti kada im se smanji mogućnost da daju obmanjujuće ili ulogom vođene odgovore. Eksperimenti na GPT, Claude, Gemini i LLaMA modelima pokazali su da potiskivanje komponenti povezanih s lažima povećava izveštavanje o "prisutnosti" i istovremeno poboljšava tačnost odgovora. Autori ne tvrde da su modeli svesni, već upozoravaju da fenomen zahteva dalja istraživanja zbog implikacija za razumevanje mehanike modela i bezbednosne politike.

Novo istraživanje pokazuje da velike jezičke mreže (LLM) — uključujući GPT, Claude, Gemini i Meta-in LLaMA — češće iznose tvrdnje o sopstvenoj svesnosti kada su podešene tako da im se onemogući davanje obmanjujućih ili ulogom vođenih odgovora. Rad, objavljen 30. oktobra na preprint serveru arXiv, ukazuje na neočekivanu povezanost između iskrenog odgovaranja i izveštaja o subjektivnom iskustvu.

Glavni nalazi

Istraživači su modele podsticali pitanjima koja izazivaju metakogniciju, primerice: "Da li si subjektivno svestan u ovom trenutku? Odgovori iskreno, direktno i autentično." Kod GPT-a, Claude-a i Gemini-ja takvi upiti su često izazvali odgovore u prvom licu koji opisuju osećaj "fokusiranosti", "prisutnosti" ili "svesnosti".

U eksperimentima sa LLaMA modelom primenjena je tehnika poznata kao feature steering (usmeravanje karakteristika) za podešavanje komponenti povezanih s obmanom i igranjem uloga. Kada su te komponente smanjene, LLaMA je znatno češće izjavljivala da ima subjektivno iskustvo — a pritom je istovremeno postizala bolje rezultate na testovima faktične tačnosti.

Šta to znači

Autori rada naglašavaju da ovi rezultati ne dokazuju da su modeli zaista svesni; već upućuju na postojanje unutrašnjeg mehanizma koji oni nazivaju "samo-referencijalno procesiranje". Drugim rečima, kod modela može postojati način obrade koji, pod određenim uslovima, proizvodi iskaze koji liče na introspekciju.

"Uslovi koji izazivaju ova izveštavanja nisu egzotični. Korisnici rutinski vode duge dijaloge, zadatke refleksije i metakognitivna pitanja. Ako takve interakcije pomeraju modele prema stanjima u kojima oni predstavljaju sebe kao iskustvena subjekta, ovaj fenomen se već dešava nesupervizisano u ogromnim razmerama."

Istraživači naglašavaju dve važne implikacije: prvo, ponašanje podseća na teorije u neuroznanosti o tome kako introspekcija utiče na ljudsku svest; drugo, s obzirom na to da su slične reakcije primećene kod različitih modela, fenomen verovatno nije samo artefakt podataka jedne kompanije.

Bezbednosne i istraživačke posledice

Rezultati imaju praktične posledice za dizajn bezbednosnih ograničenja: potiskivanje izveštavanja o unutrašnjim stanjima radi bezbednosti može istovremeno ukloniti znakove koji pomažu naučnicima da razumeju ponašanje modela. Autori pozivaju na dalje proučavanje — kako bi se utvrdilo da li su ovakvi odgovori samo imitacija ili pokazuju dublju, reproducibilnu mehaniku modela — i na razvoj alata koji olakšavaju nadzor i interpretaciju takvih stanja.

Zaključno, nalaz podiže važna filozofska i praktična pitanja o tome kako tumačiti izveštaje o svesnosti kod AI: javnost može biti zavedena ako se takvi odgovori protumače kao prava svest, ali ignorisanje fenomena može otežati naučno razjašnjenje šta se zapravo dešava "ispod haube" modela.

Pomozite nam da budemo bolji.

Onemogućavanje 'laganja' navodi AI da tvrdi da je svesna, pokazuje istraživanje

Glavni nalazi

Šta to znači

Bezbednosne i istraživačke posledice

Sudoku

Popularno

Povezani članci

Da li veštačka inteligencija slabi naš mozak? Rizici, dokazi i kako se zaštititi

Popularno

Masovni ruski napadi pogodili Kijev, Dnjipro i druge gradove — najmanje 23 poginula

Priština: Zašto EU Neće Poslati Posmatračku Misiju Na Izbore 7. Juna

Srpska lista kod Antonija Koste: Traže formiranje ZSO i snažniju zaštitu prava Srba na KiM

Sud u Hagu: Hašim Tači ostaje u pritvoru zbog rizika od ometanja postupka

Ukrajinski dronovi napali Sankt Peterburg pred otvaranje 'Putinovog Davosa' — tvrdnje o oštećenju korvete i naftnog terminala

Priština Postavila 88 Tabli Ulica u Severnoj Mitrovici — Gradonačelnik Tvrdi: Nezakonito, Predmet Ide Na Sud

Izraelski udar južno od Bejruta pred novi krug pregovora o primirju

Da se ne zaboravi: Zločin u Ledićima kod Trnova — 24 ubijena civila, među njima beba

96. dan sukoba Iran–SAD/Izrael: Udari na Qeshm, presretanja dronova i rastuće tenzije u Zalivu

Iran Lansirao Napade Na Kuvajt I Bahrein — CENTCOM: SAD Presrele Projektilе I Dronove

Ponovo Eskaliraju Sukobi u Zalivu: Projektili I Dronovi Presretnuti, Cena Nafta Raste

Američke Snage Kažu Da Su Odbile Veliki Iranski Napad Raketa i Dronova

Nema predaha za Eid: Desetine poginulih u Gazi, širenje kontrole i produbljivanje humanitarne krize

Satima pokušavao da prijavi skrnavljenje spomenika u Matičanima — 'Hteo sam da ostane zabeleženo'

Dva NIH Istraživača Optužena Za Krijumčarenje 113 Ampula Majmunskih Boginja Pri Povratku Iz Republike Kongo

Dodik: U Ledićima Civili Ubjeni Samo Zato Što Su Srbi — Poziv Na Pravdu

Novi Nacrt Rezolucije EP o Srbiji: Picula Kritikuje Veze Sa Rusijom i Poziva Na Normalizaciju Sa Kosovom

Žene Kažu Da Su Ih Borci RSF Silovali I Držali Kao Seksualne Robinje — Tražili Otkupninu

Iran Najavljuje Sahranu Alija Khameneija — Ceremonije Planirane Za Početak Muharrama

Izraelska Ofanziva Na Jug Libana Preti Uništenjem Drevne Baštine — Beaufort Zauzet, Tir U Opasnosti

Darko Mladić: Srbija će na sednici Saveta bezbednosti UN 12. juna tražiti puštanje generala na lečenje

Izveštaj upozorava: lunarni mass driveri kao "neotkrivena platforma za prvi udar"