Istraživanje Penn State pokazuje da popularni AI četbotovi greše u značajnom broju medicinskih odgovora (od ~15% do 50% u zavisnosti od modela i tipa pitanja). Test je obuhvatio 212 pitanja ocenjenih od strane devet lekara; ChatGPT-4o je najprecizniji (84,6%), a Llama3-8b je tačan u oko 50% slučajeva. Neurologija i dermatologija su najproblematičnije oblasti, RAG rešenja nisu dosledno poboljšala tačnost, a lekari upozoravaju da AI ne može zameniti stručni savet.
Penn State: AI Četbotovi Greše U Medicinskim Odgovorima — Rizik Do 1 Od 5 Pitanja

Novo istraživanje sa Penn State univerziteta otkriva značajnu razliku između samouvernih odgovora veštačke inteligencije i njihove stvarne medicinske tačnosti. Iako najnoviji modeli ponekad daju korisne smernice, greške su česte i mogu biti klinički značajne.
Šta je istraživanje obuhvatilo?
Istraživači su testirali četiri popularna četbota — ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama3-8b — na skupu od 212 realnih zdravstvenih pitanja prikupljenih kroz univerzitetski takmičarski format. Odgovore je procenjivalo devet lekara sa sertifikatom.
Ključni rezultati
Ukupno, oko 24% svih odgovora nije ispunilo medicinske standarde. Najbolji rezultat postigao je ChatGPT-4o sa 84,6% validnih odgovora, dok je Llama3-8b bio tačan u otprilike polovini slučajeva. Za pojedine tipove pitanja greške su se kretale od približno 15% do čak 50%.
Koje oblasti su problematične?
Pitanja iz akušerstva i ginekologije imala su najveću tačnost, dok su neurologija i dermatologija izdvojene kao oblasti sa najvećim slabostima. Autori objašnjavaju da je to očekivano: neurologija često zahteva znanje o retkim stanjima, a dermatologija se oslanja na vizuelnu procenu koju tekstualni modeli bez slike ne mogu pouzdano da izvedu.
Uticaj dužine upita i RAG pristupa
Studija je pokazala da dužina upita utiče na preciznost: najbolje rezultate davali su upiti dužine 60–250 karaktera. Takođe je testiran retrieval-augmented generation (RAG) — pristup gde modeli pretražuju kurirane baze medicinskog znanja radi utemeljenijih odgovora. RAG nije dosledno poboljšao performanse; za modele Gemini-1.5 Pro i Llama3-8b lekari su ponekad više preferirali standardne verzije bez RAG-a.
Stav lekara i preporuke
U intervjuima, lekari su prepoznali korisne uloge AI: podrška zdravstvenoj pismenosti, pomoć pacijentima da formulišu pitanja za lekare i pomoć u odlučivanju da li simptomi zahtevaju profesionalnu pažnju. Međutim, upozorili su na rizike prekomernog oslanjanja, probleme privatnosti i posebno opasne greške u savetima vezanim za mentalno zdravlje — gde pogrešna preporuka može imati ozbiljne posledice.
Zaključak: AI četbotovi mogu biti koristan alat za informisanje, ali ne bi smeli zameniti profesionalni medicinski savet, naročito u slučajevima koji utiču na dijagnozu, trijažu ili lečenje.
Pomozite nam da budemo bolji.




























