Svet Vesti
Tehnologija

Alarmantno: studija otkriva da ChatGPT i drugi AI često mešaju činjenice i verovanja — rizik za pravo i medicinu

Alarmantno: studija otkriva da ChatGPT i drugi AI često mešaju činjenice i verovanja — rizik za pravo i medicinu

Studija objavljena u Nature Machine Intelligence pokazuje da veliki jezički modeli često mešaju verovanja i činjenice, što može imati ozbiljne posledice u pravnim, medicinskim i drugim osetljivim oblastima. Testom od 13.000 pitanja na 24 modela utvrđeno je da novije verzije (maj 2024. i kasnije) postižu ~91% tačnosti, dok su starije imale 71–85% tačnosti. Autori upozoravaju na „nedosledne strategije rezonovanja“ i pozivaju na hitna poboljšanja i ljudsku verifikaciju pre primene u visokorizičnim domenima.

Studija iz Nature Machine Intelligence upozorava

Veliki jezički modeli (Large Language Models, LLM) kao što su ChatGPT, Claude, Gemini i drugi imaju poteškoća da pouzdano razdvoje verovanja od činjenica, pokazuje rad istraživača sa Stanford univerziteta objavljen u časopisu Nature Machine Intelligence. Autori upozoravaju da to može imati ozbiljne posledice u oblastima visokog rizika — pre svega u pravu i medicini.

„Većina modela nema robusno razumevanje faktivne prirode znanja — da znanje podrazumeva istinu,“

Istraživači su testirali 24 modela preko 13.000 pitanja dizajniranih da ocene sposobnost modela da razlikuju verovanja, znanje i činjenice. Zaključak: modeli su češće grešili pri identifikovanju lažnih verovanja nego pri prepoznavanju istinitih tvrdnji, pri čemu su starije verzije imale značajno lošije rezultate.

Ključni rezultati

  • Modeli izdate tokom ili nakon maja 2024. (uključujući GPT-4o) postigli su tačnost između 91,1% i 91,5% u razlikovanju istinitih i neistinitih tvrdnji.
  • Stariji modeli ostvarili su tačnost između približno 71,5% i 84,8%.
  • Istraživači primećuju da modeli često koriste „nedosledne strategije rezonovanja“, što upućuje na površno prepoznavanje obrazaca umesto dubinskog epistemološkog razumevanja.

Praktične implikacije i primeri

Autori upozoravaju da mešanje verovanja i činjenica može dovesti do obmanjujućih dijagnoza, iskrivljenih sudskih odluka i širenja dezinformacija. Kao ilustraciju nestabilne tačnosti, navodi se nedavni primer iz LinkedIn objave u kojoj je AI asistent Grok napravio plakat britanskih premijera sa očiglednim greškama (npr. pogrešna imena i neverovatni vremenski podaci).

U jednom realnom slučaju, kalifornijski sudija je u maju novčano kaznio dve advokatske kancelarije sa 31.000 dolara nakon što su u pravnom podnesku bez potrebne provere uključili mašinski generisane, netačne informacije.

Preporuke i dalji koraci

Autori i nezavisni stručnjaci sugerišu nekoliko mera:

  • Dalje treniranje modela fokusirano na razlikovanje epistemoloških kategorija (znanje vs verovanje).
  • Uvođenje mehanizama opreza — modelima treba omogućiti da jasno naznače pouzdanost odgovora i izvore.
  • Obavezna ljudska verifikacija za primenu u visoko rizičnim oblastima kao što su pravo i medicina.

Stručnjak za kompjutersku lingvistiku Pablo Haya Coll, koji nije bio uključen u studiju, ukazuje da bi treniranje modela da budu oprezniji u formulisanju odgovora moglo smanjiti rizik, ali i ograničiti praktičnu korisnost u nekim upotrebama.

Zašto je ovo važno za Srbiju

Iako su istraživanje pripremili istraživači u SAD, zaključci su relevantni globalno: srpski zdravstveni i pravni sistem, mediji i istraživači takođe koriste AI alate. Potencijalne greške u automatizovanim savetima ili pravnim dokumentima zahtevaju jasne smernice, odgovornost i dodatnu verifikaciju pre masovne primene.

Zaključak: AI napreduje, ali trenutno nije dovoljno pouzdan za samostalnu upotrebu u osetljivim domenima bez ljudske kontrole i sistematskih unapređenja.

Pomozite nam da budemo bolji.

Povezani članci

Popularno