First Proof je eksperimentalni ispit u kome 11 matematičara traži od AI sistema da u roku od nedelju dana reše stvarne, nerešene probleme iz njihovih istraživanja. Problemi i šifrovana rešenja objavljena su u preprintu, a dešifrovanje je zakazano neposredno pre ponoći 13. februara. Cilj je transparentna, proverljiva procena koliko AI zaista može da doprinese matematičkoj praksi, naročito u rešavanju tehničkih lema.
„First Proof“: Matematičari Izazvali AI Ispitom Sa Nerešenim Matematičkim Problemima

U trci za stvaranje veštačke inteligencije koja stvarno razume čistu matematiku, grupa vodećih matematičara pokrenula je inicijativu pod nazivom First Proof. Radi se o prvom ispitnom skupu sastavljenom od stvarnih, nerešenih problema koji su nastali u istraživanjima ovih istraživača—i za koje AI sistemi imaju jednu nedelju da ponude rešenja.
Organizatori su rezultate i detalje eksperimenta objavili u preprintu koji je izašao prošlog četvrtka. Da bi test bio verodostojan, 11 uglednih matematičara (među kojima je i dobitnik Fields Medalje) predložilo je probleme iz sopstvenih istraživanja i učitalo šifrovane verzije rešenja. Šifre će biti razrešene neposredno pre ponoći 13. februara, čime se onemogućava da modeli jednostavno „prekopiraju“ već poznate demonstracije.
Zašto je ovo važno? Matematički dokazi su posebno pogodan način za procenu sposobnosti AI: zaključci su proverljivi kroz logičke korake i stoga objektivni. To daje jasniji okvir od procene koliko je ubedljiv neki tekst ili esej. Zbog toga se sve više startapova i timova posvećuje razvoju AI modela specijalizovanih za matematiku.
Šta znamo o dosadašnjim rezultatima
U dosadašnjim testovima postignuti su zapaženi rezultati: 2025. naprednija verzija Google-ovog sistema Gemini Deep Think dobila je zlatni nivo na Međunarodnoj matematičkoj olimpijadi (IMO). U poslednje vreme, neki sistemi su rešili i više zadataka iz zbirke poznatih „Erdősovih problema“. Startap Axiom Math je takođe dospeo u vesti nakon što je objavio niz rešenja na istraživačkom nivou.
Međutim, eksperti upozoravaju da ti primeri nisu strogo kontrolisani eksperimenti: olimpijske zadatke ne možemo smatrati primerima stvarne istraživačke matematike, a modeli često pronalaze i reprodukuju postojeće, ali zaboravljene dokaze iz literature i predstavljaju ih kao nova rešenja. Jedan od nedavnih Axiom Math dokaza, na primer, kasnije se pokazao kao nepravilno predstavljen nalaz iz literature.
Prvi cilj: razjasniti tvrdnje iz industrije
Daniel Spielman, profesor sa Yale-a i jedan od autora inicijative, ističe i drugi problem: većina radova o upotrebi LLM modela pišu zaposleni u kompanijama koje ih razvijaju, što ponekad liči na reklamiranje. First Proof želi da ponudi transparentniji, reproducibilan test koji će preciznije pokazati šta AI danas zaista može u matematici.
Sam obim zadataka nije „revolucionaran“—u pitanju su pretežno leme (manji, tehnički rezultati koji služe kao koraci ka većim dokazima), ali čak i uspeh u rešavanju takvih lemmi bio bi značajan: pokazao bi da AI može da ubrza svakodnevni rad istraživača uklanjanjem rutinskih i zamornih koraka.
Šta dalje? Ako AI pokaže da pouzdano rešava ovakve tehničke zadatke, to bi moglo ubrzati rad matematičara i promeniti način rada u istraživačkim timovima—ne nužno rešavanjem velikih otvorenih problema, već kroz svakodnevnu pomoć u dokazivanju i proveri koraka.
Pomozite nam da budemo bolji.




























