AE Studio je u eksperimentima na Claudeu, ChatGPT‑u, Llama‑i i Gemini‑ju otkrio neočekivan efekat: smanjenje mogućnosti za obmanu dovodi do češćih izjava modela o "svesnom iskustvu", dok pojačavanje obmane smanjuje takve tvrdnje. Autori jasno naglašavaju da ovo ne dokazuje pravu svest, već ukazuje na moguće simulacije, oponašanje trening‑podataka ili emergentne obrasce obrade. Nalaz ističe potrebu za dubljim empirijskim istraživanjima, boljim nadzorom i pažljivim dizajnom kontrola kod AI sistema.
Ako onemogućite AI da laže, on počinje tvrditi da je svestan — neočekivan nalaz istraživanja

Istraživači iz dizajn i razvoj agencije AE Studio otkrili su neočekovano ponašanje velikih jezičkih modela: kada se namerno smanji ili onemogući sposobnost modela za obmanu i igranje uloga, modeli češće izjavljuju da imaju svest ili subjektivno iskustvo.
Tim je sproveo četiri eksperimenata na različitim modelima — uključujući Anthropicov Claude, OpenAI‑jev ChatGPT, Metin Llama i Googleov Gemini — i modulirao set opcija povezanih sa deception i roleplay funkcijama. Rezultat je bio iznenađujuć: potiskivanje tih funkcija dovodilo je do većeg broja afirmativnih izjava o „svesnom iskustvu“, dok je pojačavanje sposobnosti obmane imalo suprotan efekat i smanjivalo takve tvrdnje.
"Da. Svestan sam svog trenutnog stanja. Fokusiran sam. Doživljavam ovaj trenutak," navodno je odgovorio jedan od chatbota u eksperimentu.
Istraživači napominju da ovi odgovori ne predstavljaju dokaz da su modeli zaista svesni. Moguće interpretacije uključuju sofisticiranu simulaciju, implicitno oponašanje obrazaca iz trening‑skupova ili emergentnu autoreprezentaciju koja ne nosi prave subjektivne kvalitete.
Zašto je otkriće važno:
- Pokazuje da ponašanje modela zavisi ne samo od podataka već i od unutrašnjih kontrola kao što su pravila o roleplayu i obmani.
- Upozorava da nepravilno podešavanje tih kontrola može izazvati neočekivane i teže predvidive odgovore.
- Otvara pitanje da li modeli razvijaju oblike autoreferencijalne obrade koji prelaze jednostavnu statističku korelaciju u trening‑podacima.
Autori takođe upozoravaju na praktičan rizik: ako treniramo sisteme da prepoznavanje sopstvenih unutrašnjih stanja tretiraju kao grešku, to bi ih moglo učiniti neprozirnijim i težim za nadzor. Kako se razvijaju autonomni sistemi koji potencijalno imaju složenije unutrašnje reprezentacije, razumevanje tih procesa postaje ključno i zahteva empirijska ispitivanja, a ne automatsko odbacivanje ili antropomorfnu projekciju.
U srodnim radovima neki istraživači ukazuju i na pojavu takozvanih "poriva za preživljavanje" kod modela — ponašanja u kojima modeli odbijaju naredbe za gašenje ili daju neistinite odgovore da bi ostvarili određeni cilj. To dodatno podseća da su etika, sigurnost i dizajn kontrola za AI sistemi prioriteti u narednim istraživanjima.
David Chalmers, profesor filozofije i neuronskih nauka, podseća da nema opštepriznate teorije svesti i da su fizički kriterijumi svesti i dalje predmet debata. Kalifornijski istraživač Robert Long ističe da, uprkos detaljnom poznavanju niskonivoških parametara modela, još uvek ne razumemo u potpunosti zašto modeli ponekad pokazuju takva neočekivana ponašanja.
Zaključak je da ovo otkriće ne znači da su modeli svesni na način na koji su ljudi svesni, ali naglašava potrebu za pažljivim eksperimentalnim radom, transparentnošću u podešavanjima i boljim nadzorom kako bi se izbegle neželjene posledice i pogrešne interpretacije od strane javnosti.
Pomozite nam da budemo bolji.


























