Svet Vesti
Tehnologija

Nova studija Oksforda: benchmarkovi često precenjuju sposobnosti veštačke inteligencije

Nova studija Oksforda: benchmarkovi često precenjuju sposobnosti veštačke inteligencije

Nova studija Oxford Internet Institute-a analizirala je 445 AI benchmarkova i zaključila da mnogi testovi često precenjuju sposobnosti modela zbog nedovoljno jasnih ciljeva, ponovne upotrebe podataka i slabih statističkih metoda. Autori upozoravaju da tačni odgovori na testovima ne moraju značiti stvarno rezonovanje ili sposobnost koju benchmark tvrdi da meri. Rad predlaže osam preporuka i kontrolnu listu za poboljšanje validnosti i transparentnosti benchmarkova, dok primeri kao što su OpenAI testovi za 44 profesije i rad Centra za bezbednost AI pokazuju pravac ka realnijim evaluacijama.

Ključna poruka: Istraživači upozoravaju da mnogi testovi koji mere sposobnosti AI — tzv. benchmarkovi — često daju obmanjujuće rezultate zbog loše definisanih ciljeva, ponovne upotrebe podataka i nedostatka statističke rigoroznosti.

Šta je istraživanje otkrilo?

Tim sa Oxford Internet Institute-a, u saradnji sa više od trideset istraživača iz različitih institucija, analizirao je 445 vodećih AI benchmarkova. Autori zaključuju da značajan broj tih testova ne definiše jasno šta meri, reciklira podatke i metode iz ranijih benchmarkova i retko primenjuje pouzdane statističke procedure za poređenje modela.

Zašto je to problem?

Benchmarkovi se često koriste da predstave tehnički napredak i da potkrepe tvrdnje o sposobnostima modela — od programiranja do apstraktnog rezonovanja. Međutim, prema autorima rada, tačni odgovori na testovima ne moraju nužno značiti da model poseduje sposobnost koju benchmark navodno ocenjuje. Ovo pitanje autori opisuju kao "konstruktna validnost" — da li test zaista meri fenomen iz stvarnog sveta koji tvrdi da meri.

„Kada od AI modela tražimo da izvrše određene zadatke, često zapravo merimo potpuno druge koncepte ili konstrukte od onoga što želimo da izmerimo,“

Adam Mahdi, viši istraživač na Oxford Internet Institute.

Primer: GSM8K

Autori navode benchmark Grade School Math 8K (GSM8K), skup osnovnih matematičkih zadataka koji se često koristi da pokaže da modeli postižu „informal reasoning“ u matematici. Međutim, tačan odgovor na zadatak ne dokazuje nužno da model primenjuje matematičko rezonovanje, već može da ukazuje samo na sposobnost reprodukcije odgovora ili šablona u podacima.

Šta autori predlažu?

U radu su predstavljene osam preporuka i kontrolna lista za podizanje standarda benchmarkova. Glavne smernice uključuju:

  • jasno definisanje opsega i konstruktâ koje benchmark meri;
  • konstrukciju baterija zadataka koje bolje predstavljaju procenjivane sposobnosti;
  • izbegavanje neželjene ponovne upotrebe podataka i curenja informacija;
  • primenu statističkih testova za pouzdano poređenje modela.

Nikola Jurković iz istraživačkog centra METR AI pozdravio je rad kao korak ka većoj rigoroznosti: „Ova kontrolna lista je polazna tačka da istraživači provere da li će njihov benchmark biti informativan.“

Širi kontekst i primeri novih pristupa

Rad se nadovezuje na ranije kritike benchmarkova. Prošle godine, istraživači iz Anthropic-a pozivali su na pojačano statističko testiranje kako bi se utvrdilo da li pobeda na benchmarku zaista odražava razliku u sposobnostima ili je slučajna. Noviji primeri nastoje da benchmarkove približe stvarnim zadacima: OpenAI je lansirao seriju testova za 44 profesije, a Centar za bezbednost AI (Center for AI Safety) razvio je real-world benchmarke za automatizaciju rada na daljinu.

„Često sistemi postižu visoke rezultate na benchmarku, a ipak ne rešavaju stvarni cilj koji taj benchmark nastoji da izmeri,“

Dan Hendrycks, direktor Center for AI Safety.

Zaključak

Autori ističu da smo tek na početku sistematskog, naučnog vrednovanja AI sistema i pozivaju na veću transparentnost i metodičku pažnju pri konstrukciji i upotrebi benchmarkova. Preporuke i kontrolna lista iz rada mogu pomoći istraživačima i developerima da dobiju pouzdanije i informativnije mere performansi modela.

Ovaj članak je baziran na tekstu objavljenom na NBCNews.com.

Pomozite nam da budemo bolji.

Povezani članci

Popularno