Nova studija Oksforda: benchmarkovi često precenjuju sposobnosti veštačke inteligencije

Nov 6, 2025•3 min čitanja

Nova studija Oxford Internet Institute-a analizirala je 445 AI benchmarkova i zaključila da mnogi testovi često precenjuju sposobnosti modela zbog nedovoljno jasnih ciljeva, ponovne upotrebe podataka i slabih statističkih metoda. Autori upozoravaju da tačni odgovori na testovima ne moraju značiti stvarno rezonovanje ili sposobnost koju benchmark tvrdi da meri. Rad predlaže osam preporuka i kontrolnu listu za poboljšanje validnosti i transparentnosti benchmarkova, dok primeri kao što su OpenAI testovi za 44 profesije i rad Centra za bezbednost AI pokazuju pravac ka realnijim evaluacijama.

Ključna poruka: Istraživači upozoravaju da mnogi testovi koji mere sposobnosti AI — tzv. benchmarkovi — često daju obmanjujuće rezultate zbog loše definisanih ciljeva, ponovne upotrebe podataka i nedostatka statističke rigoroznosti.

Šta je istraživanje otkrilo?

Tim sa Oxford Internet Institute-a, u saradnji sa više od trideset istraživača iz različitih institucija, analizirao je 445 vodećih AI benchmarkova. Autori zaključuju da značajan broj tih testova ne definiše jasno šta meri, reciklira podatke i metode iz ranijih benchmarkova i retko primenjuje pouzdane statističke procedure za poređenje modela.

Zašto je to problem?

Benchmarkovi se često koriste da predstave tehnički napredak i da potkrepe tvrdnje o sposobnostima modela — od programiranja do apstraktnog rezonovanja. Međutim, prema autorima rada, tačni odgovori na testovima ne moraju nužno značiti da model poseduje sposobnost koju benchmark navodno ocenjuje. Ovo pitanje autori opisuju kao "konstruktna validnost" — da li test zaista meri fenomen iz stvarnog sveta koji tvrdi da meri.

„Kada od AI modela tražimo da izvrše određene zadatke, često zapravo merimo potpuno druge koncepte ili konstrukte od onoga što želimo da izmerimo,“

— Adam Mahdi, viši istraživač na Oxford Internet Institute.

Primer: GSM8K

Autori navode benchmark Grade School Math 8K (GSM8K), skup osnovnih matematičkih zadataka koji se često koristi da pokaže da modeli postižu „informal reasoning“ u matematici. Međutim, tačan odgovor na zadatak ne dokazuje nužno da model primenjuje matematičko rezonovanje, već može da ukazuje samo na sposobnost reprodukcije odgovora ili šablona u podacima.

Šta autori predlažu?

U radu su predstavljene osam preporuka i kontrolna lista za podizanje standarda benchmarkova. Glavne smernice uključuju:

jasno definisanje opsega i konstruktâ koje benchmark meri;
konstrukciju baterija zadataka koje bolje predstavljaju procenjivane sposobnosti;
izbegavanje neželjene ponovne upotrebe podataka i curenja informacija;
primenu statističkih testova za pouzdano poređenje modela.

Nikola Jurković iz istraživačkog centra METR AI pozdravio je rad kao korak ka većoj rigoroznosti: „Ova kontrolna lista je polazna tačka da istraživači provere da li će njihov benchmark biti informativan.“

Širi kontekst i primeri novih pristupa

Rad se nadovezuje na ranije kritike benchmarkova. Prošle godine, istraživači iz Anthropic-a pozivali su na pojačano statističko testiranje kako bi se utvrdilo da li pobeda na benchmarku zaista odražava razliku u sposobnostima ili je slučajna. Noviji primeri nastoje da benchmarkove približe stvarnim zadacima: OpenAI je lansirao seriju testova za 44 profesije, a Centar za bezbednost AI (Center for AI Safety) razvio je real-world benchmarke za automatizaciju rada na daljinu.

„Često sistemi postižu visoke rezultate na benchmarku, a ipak ne rešavaju stvarni cilj koji taj benchmark nastoji da izmeri,“

— Dan Hendrycks, direktor Center for AI Safety.

Zaključak

Autori ističu da smo tek na početku sistematskog, naučnog vrednovanja AI sistema i pozivaju na veću transparentnost i metodičku pažnju pri konstrukciji i upotrebi benchmarkova. Preporuke i kontrolna lista iz rada mogu pomoći istraživačima i developerima da dobiju pouzdanije i informativnije mere performansi modela.

Ovaj članak je baziran na tekstu objavljenom na NBCNews.com.

Pomozite nam da budemo bolji.

Nova studija Oksforda: benchmarkovi često precenjuju sposobnosti veštačke inteligencije

Šta je istraživanje otkrilo?

Zašto je to problem?

Primer: GSM8K

Šta autori predlažu?

Širi kontekst i primeri novih pristupa

Zaključak

Sudoku

Popularno

Povezani članci

Da li veštačka inteligencija slabi naš mozak? Rizici, dokazi i kako se zaštititi

Kako AI Može Dovesti Do Pogrešnih Hapšenja I Osuđujućih Presuda: Lekcije Iz 2025.

Popularno

Masovni ruski napadi pogodili Kijev, Dnjipro i druge gradove — najmanje 23 poginula

Priština: Zašto EU Neće Poslati Posmatračku Misiju Na Izbore 7. Juna

Sud u Hagu: Hašim Tači ostaje u pritvoru zbog rizika od ometanja postupka

Ukrajinski dronovi napali Sankt Peterburg pred otvaranje 'Putinovog Davosa' — tvrdnje o oštećenju korvete i naftnog terminala

Priština Postavila 88 Tabli Ulica u Severnoj Mitrovici — Gradonačelnik Tvrdi: Nezakonito, Predmet Ide Na Sud

Izraelski udar južno od Bejruta pred novi krug pregovora o primirju

Da se ne zaboravi: Zločin u Ledićima kod Trnova — 24 ubijena civila, među njima beba

96. dan sukoba Iran–SAD/Izrael: Udari na Qeshm, presretanja dronova i rastuće tenzije u Zalivu

Iran Lansirao Napade Na Kuvajt I Bahrein — CENTCOM: SAD Presrele Projektilе I Dronove

Ponovo Eskaliraju Sukobi u Zalivu: Projektili I Dronovi Presretnuti, Cena Nafta Raste

Američke Snage Kažu Da Su Odbile Veliki Iranski Napad Raketa i Dronova

Nema predaha za Eid: Desetine poginulih u Gazi, širenje kontrole i produbljivanje humanitarne krize

Satima pokušavao da prijavi skrnavljenje spomenika u Matičanima — 'Hteo sam da ostane zabeleženo'

Dva NIH Istraživača Optužena Za Krijumčarenje 113 Ampula Majmunskih Boginja Pri Povratku Iz Republike Kongo

Dodik: U Ledićima Civili Ubjeni Samo Zato Što Su Srbi — Poziv Na Pravdu

Novi Nacrt Rezolucije EP o Srbiji: Picula Kritikuje Veze Sa Rusijom i Poziva Na Normalizaciju Sa Kosovom

Žene Kažu Da Su Ih Borci RSF Silovali I Držali Kao Seksualne Robinje — Tražili Otkupninu

Iran Najavljuje Sahranu Alija Khameneija — Ceremonije Planirane Za Početak Muharrama

Izraelska Ofanziva Na Jug Libana Preti Uništenjem Drevne Baštine — Beaufort Zauzet, Tir U Opasnosti

Darko Mladić: Srbija će na sednici Saveta bezbednosti UN 12. juna tražiti puštanje generala na lečenje

Izveštaj upozorava: lunarni mass driveri kao "neotkrivena platforma za prvi udar"

Pretučen Srbin iz Binača: Branio Sina, Napadač Ga Udario Drvetom i Pobegao