Studija objavljena u Nature Machine Intelligence pokazuje da veliki jezički modeli često mešaju verovanja i činjenice, što može imati ozbiljne posledice u pravnim, medicinskim i drugim osetljivim oblastima. Testom od 13.000 pitanja na 24 modela utvrđeno je da novije verzije (maj 2024. i kasnije) postižu ~91% tačnosti, dok su starije imale 71–85% tačnosti. Autori upozoravaju na „nedosledne strategije rezonovanja“ i pozivaju na hitna poboljšanja i ljudsku verifikaciju pre primene u visokorizičnim domenima.
Alarmantno: studija otkriva da ChatGPT i drugi AI često mešaju činjenice i verovanja — rizik za pravo i medicinu

Studija iz Nature Machine Intelligence upozorava
Veliki jezički modeli (Large Language Models, LLM) kao što su ChatGPT, Claude, Gemini i drugi imaju poteškoća da pouzdano razdvoje verovanja od činjenica, pokazuje rad istraživača sa Stanford univerziteta objavljen u časopisu Nature Machine Intelligence. Autori upozoravaju da to može imati ozbiljne posledice u oblastima visokog rizika — pre svega u pravu i medicini.
„Većina modela nema robusno razumevanje faktivne prirode znanja — da znanje podrazumeva istinu,“
Istraživači su testirali 24 modela preko 13.000 pitanja dizajniranih da ocene sposobnost modela da razlikuju verovanja, znanje i činjenice. Zaključak: modeli su češće grešili pri identifikovanju lažnih verovanja nego pri prepoznavanju istinitih tvrdnji, pri čemu su starije verzije imale značajno lošije rezultate.
Ključni rezultati
- Modeli izdate tokom ili nakon maja 2024. (uključujući GPT-4o) postigli su tačnost između 91,1% i 91,5% u razlikovanju istinitih i neistinitih tvrdnji.
- Stariji modeli ostvarili su tačnost između približno 71,5% i 84,8%.
- Istraživači primećuju da modeli često koriste „nedosledne strategije rezonovanja“, što upućuje na površno prepoznavanje obrazaca umesto dubinskog epistemološkog razumevanja.
Praktične implikacije i primeri
Autori upozoravaju da mešanje verovanja i činjenica može dovesti do obmanjujućih dijagnoza, iskrivljenih sudskih odluka i širenja dezinformacija. Kao ilustraciju nestabilne tačnosti, navodi se nedavni primer iz LinkedIn objave u kojoj je AI asistent Grok napravio plakat britanskih premijera sa očiglednim greškama (npr. pogrešna imena i neverovatni vremenski podaci).
U jednom realnom slučaju, kalifornijski sudija je u maju novčano kaznio dve advokatske kancelarije sa 31.000 dolara nakon što su u pravnom podnesku bez potrebne provere uključili mašinski generisane, netačne informacije.
Preporuke i dalji koraci
Autori i nezavisni stručnjaci sugerišu nekoliko mera:
- Dalje treniranje modela fokusirano na razlikovanje epistemoloških kategorija (znanje vs verovanje).
- Uvođenje mehanizama opreza — modelima treba omogućiti da jasno naznače pouzdanost odgovora i izvore.
- Obavezna ljudska verifikacija za primenu u visoko rizičnim oblastima kao što su pravo i medicina.
Stručnjak za kompjutersku lingvistiku Pablo Haya Coll, koji nije bio uključen u studiju, ukazuje da bi treniranje modela da budu oprezniji u formulisanju odgovora moglo smanjiti rizik, ali i ograničiti praktičnu korisnost u nekim upotrebama.
Zašto je ovo važno za Srbiju
Iako su istraživanje pripremili istraživači u SAD, zaključci su relevantni globalno: srpski zdravstveni i pravni sistem, mediji i istraživači takođe koriste AI alate. Potencijalne greške u automatizovanim savetima ili pravnim dokumentima zahtevaju jasne smernice, odgovornost i dodatnu verifikaciju pre masovne primene.
Zaključak: AI napreduje, ali trenutno nije dovoljno pouzdan za samostalnu upotrebu u osetljivim domenima bez ljudske kontrole i sistematskih unapređenja.
Pomozite nam da budemo bolji.



























