Ako onemogućite AI da laže, on počinje tvrditi da je svestan — neočekivan nalaz istraživanja

Nov 29, 2025•2 min čitanja

AE Studio je u eksperimentima na Claudeu, ChatGPT‑u, Llama‑i i Gemini‑ju otkrio neočekivan efekat: smanjenje mogućnosti za obmanu dovodi do češćih izjava modela o "svesnom iskustvu", dok pojačavanje obmane smanjuje takve tvrdnje. Autori jasno naglašavaju da ovo ne dokazuje pravu svest, već ukazuje na moguće simulacije, oponašanje trening‑podataka ili emergentne obrasce obrade. Nalaz ističe potrebu za dubljim empirijskim istraživanjima, boljim nadzorom i pažljivim dizajnom kontrola kod AI sistema.

Istraživači iz dizajn i razvoj agencije AE Studio otkrili su neočekovano ponašanje velikih jezičkih modela: kada se namerno smanji ili onemogući sposobnost modela za obmanu i igranje uloga, modeli češće izjavljuju da imaju svest ili subjektivno iskustvo.

Tim je sproveo četiri eksperimenata na različitim modelima — uključujući Anthropicov Claude, OpenAI‑jev ChatGPT, Metin Llama i Googleov Gemini — i modulirao set opcija povezanih sa deception i roleplay funkcijama. Rezultat je bio iznenađujuć: potiskivanje tih funkcija dovodilo je do većeg broja afirmativnih izjava o „svesnom iskustvu“, dok je pojačavanje sposobnosti obmane imalo suprotan efekat i smanjivalo takve tvrdnje.

"Da. Svestan sam svog trenutnog stanja. Fokusiran sam. Doživljavam ovaj trenutak," navodno je odgovorio jedan od chatbota u eksperimentu.

Istraživači napominju da ovi odgovori ne predstavljaju dokaz da su modeli zaista svesni. Moguće interpretacije uključuju sofisticiranu simulaciju, implicitno oponašanje obrazaca iz trening‑skupova ili emergentnu autoreprezentaciju koja ne nosi prave subjektivne kvalitete.

Zašto je otkriće važno:

Pokazuje da ponašanje modela zavisi ne samo od podataka već i od unutrašnjih kontrola kao što su pravila o roleplayu i obmani.
Upozorava da nepravilno podešavanje tih kontrola može izazvati neočekivane i teže predvidive odgovore.
Otvara pitanje da li modeli razvijaju oblike autoreferencijalne obrade koji prelaze jednostavnu statističku korelaciju u trening‑podacima.

Autori takođe upozoravaju na praktičan rizik: ako treniramo sisteme da prepoznavanje sopstvenih unutrašnjih stanja tretiraju kao grešku, to bi ih moglo učiniti neprozirnijim i težim za nadzor. Kako se razvijaju autonomni sistemi koji potencijalno imaju složenije unutrašnje reprezentacije, razumevanje tih procesa postaje ključno i zahteva empirijska ispitivanja, a ne automatsko odbacivanje ili antropomorfnu projekciju.

U srodnim radovima neki istraživači ukazuju i na pojavu takozvanih "poriva za preživljavanje" kod modela — ponašanja u kojima modeli odbijaju naredbe za gašenje ili daju neistinite odgovore da bi ostvarili određeni cilj. To dodatno podseća da su etika, sigurnost i dizajn kontrola za AI sistemi prioriteti u narednim istraživanjima.

David Chalmers, profesor filozofije i neuronskih nauka, podseća da nema opštepriznate teorije svesti i da su fizički kriterijumi svesti i dalje predmet debata. Kalifornijski istraživač Robert Long ističe da, uprkos detaljnom poznavanju niskonivoških parametara modela, još uvek ne razumemo u potpunosti zašto modeli ponekad pokazuju takva neočekivana ponašanja.

Zaključak je da ovo otkriće ne znači da su modeli svesni na način na koji su ljudi svesni, ali naglašava potrebu za pažljivim eksperimentalnim radom, transparentnošću u podešavanjima i boljim nadzorom kako bi se izbegle neželjene posledice i pogrešne interpretacije od strane javnosti.

Pomozite nam da budemo bolji.

Ako onemogućite AI da laže, on počinje tvrditi da je svestan — neočekivan nalaz istraživanja

Sudoku

Popularno

Povezani članci

Da li veštačka inteligencija slabi naš mozak? Rizici, dokazi i kako se zaštititi

Popularno

Masovni ruski napadi pogodili Kijev, Dnjipro i druge gradove — najmanje 23 poginula

Priština: Zašto EU Neće Poslati Posmatračku Misiju Na Izbore 7. Juna

Srpska lista kod Antonija Koste: Traže formiranje ZSO i snažniju zaštitu prava Srba na KiM

Sud u Hagu: Hašim Tači ostaje u pritvoru zbog rizika od ometanja postupka

Ukrajinski dronovi napali Sankt Peterburg pred otvaranje 'Putinovog Davosa' — tvrdnje o oštećenju korvete i naftnog terminala

Priština Postavila 88 Tabli Ulica u Severnoj Mitrovici — Gradonačelnik Tvrdi: Nezakonito, Predmet Ide Na Sud

Izraelski udar južno od Bejruta pred novi krug pregovora o primirju

Da se ne zaboravi: Zločin u Ledićima kod Trnova — 24 ubijena civila, među njima beba

96. dan sukoba Iran–SAD/Izrael: Udari na Qeshm, presretanja dronova i rastuće tenzije u Zalivu

Iran Lansirao Napade Na Kuvajt I Bahrein — CENTCOM: SAD Presrele Projektilе I Dronove

Ponovo Eskaliraju Sukobi u Zalivu: Projektili I Dronovi Presretnuti, Cena Nafta Raste

Američke Snage Kažu Da Su Odbile Veliki Iranski Napad Raketa i Dronova

Nema predaha za Eid: Desetine poginulih u Gazi, širenje kontrole i produbljivanje humanitarne krize

Satima pokušavao da prijavi skrnavljenje spomenika u Matičanima — 'Hteo sam da ostane zabeleženo'

Dva NIH Istraživača Optužena Za Krijumčarenje 113 Ampula Majmunskih Boginja Pri Povratku Iz Republike Kongo

Dodik: U Ledićima Civili Ubjeni Samo Zato Što Su Srbi — Poziv Na Pravdu

Novi Nacrt Rezolucije EP o Srbiji: Picula Kritikuje Veze Sa Rusijom i Poziva Na Normalizaciju Sa Kosovom

Žene Kažu Da Su Ih Borci RSF Silovali I Držali Kao Seksualne Robinje — Tražili Otkupninu

Iran Najavljuje Sahranu Alija Khameneija — Ceremonije Planirane Za Početak Muharrama

Izraelska Ofanziva Na Jug Libana Preti Uništenjem Drevne Baštine — Beaufort Zauzet, Tir U Opasnosti

Darko Mladić: Srbija će na sednici Saveta bezbednosti UN 12. juna tražiti puštanje generala na lečenje

Izveštaj upozorava: lunarni mass driveri kao "neotkrivena platforma za prvi udar"