Penn State: AI Četbotovi Greše U Medicinskim Odgovorima — Rizik Do 1 Od 5 Pitanja

May 30•2 min čitanja

Image: Deposit Photos

Istraživanje Penn State pokazuje da popularni AI četbotovi greše u značajnom broju medicinskih odgovora (od ~15% do 50% u zavisnosti od modela i tipa pitanja). Test je obuhvatio 212 pitanja ocenjenih od strane devet lekara; ChatGPT-4o je najprecizniji (84,6%), a Llama3-8b je tačan u oko 50% slučajeva. Neurologija i dermatologija su najproblematičnije oblasti, RAG rešenja nisu dosledno poboljšala tačnost, a lekari upozoravaju da AI ne može zameniti stručni savet.

Novo istraživanje sa Penn State univerziteta otkriva značajnu razliku između samouvernih odgovora veštačke inteligencije i njihove stvarne medicinske tačnosti. Iako najnoviji modeli ponekad daju korisne smernice, greške su česte i mogu biti klinički značajne.

Šta je istraživanje obuhvatilo?

Istraživači su testirali četiri popularna četbota — ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro i Llama3-8b — na skupu od 212 realnih zdravstvenih pitanja prikupljenih kroz univerzitetski takmičarski format. Odgovore je procenjivalo devet lekara sa sertifikatom.

Ključni rezultati

Ukupno, oko 24% svih odgovora nije ispunilo medicinske standarde. Najbolji rezultat postigao je ChatGPT-4o sa 84,6% validnih odgovora, dok je Llama3-8b bio tačan u otprilike polovini slučajeva. Za pojedine tipove pitanja greške su se kretale od približno 15% do čak 50%.

Koje oblasti su problematične?

Pitanja iz akušerstva i ginekologije imala su najveću tačnost, dok su neurologija i dermatologija izdvojene kao oblasti sa najvećim slabostima. Autori objašnjavaju da je to očekivano: neurologija često zahteva znanje o retkim stanjima, a dermatologija se oslanja na vizuelnu procenu koju tekstualni modeli bez slike ne mogu pouzdano da izvedu.

Uticaj dužine upita i RAG pristupa

Studija je pokazala da dužina upita utiče na preciznost: najbolje rezultate davali su upiti dužine 60–250 karaktera. Takođe je testiran retrieval-augmented generation (RAG) — pristup gde modeli pretražuju kurirane baze medicinskog znanja radi utemeljenijih odgovora. RAG nije dosledno poboljšao performanse; za modele Gemini-1.5 Pro i Llama3-8b lekari su ponekad više preferirali standardne verzije bez RAG-a.

Stav lekara i preporuke

U intervjuima, lekari su prepoznali korisne uloge AI: podrška zdravstvenoj pismenosti, pomoć pacijentima da formulišu pitanja za lekare i pomoć u odlučivanju da li simptomi zahtevaju profesionalnu pažnju. Međutim, upozorili su na rizike prekomernog oslanjanja, probleme privatnosti i posebno opasne greške u savetima vezanim za mentalno zdravlje — gde pogrešna preporuka može imati ozbiljne posledice.

Zaključak: AI četbotovi mogu biti koristan alat za informisanje, ali ne bi smeli zameniti profesionalni medicinski savet, naročito u slučajevima koji utiču na dijagnozu, trijažu ili lečenje.

Pomozite nam da budemo bolji.

Penn State: AI Četbotovi Greše U Medicinskim Odgovorima — Rizik Do 1 Od 5 Pitanja

Šta je istraživanje obuhvatilo?

Ključni rezultati

Koje oblasti su problematične?

Uticaj dužine upita i RAG pristupa

Stav lekara i preporuke

Sudoku

Popularno

Povezani članci

Koliko greše AI „doktori“? Studija Penn State: ChatGPT tačan u oko 76% slučajeva

Treći glas u terapiji: 77% psihologa kaže da pacijenti koriste AI — šta to menja za terapeute?

Istraživanje ASU: Chatbotovi Mogu Ugroziti Mentalno Zdravlje Tinejdžera — Potrebne Su Zaštitne Mere

Nova Studija: Lak Pristup AI Četbotovima Izaziva Značajan Pad Učenja

Studija u Nature: „Spirala Pojačavanja“ AI Može Učvrstiti Deluzije Kod Ranjivih Korisnika

AI Pomogao Da Se Dijagnostikuje 18 Dece Sa Retkim Bolestima — Preokret U Analizi Genoma

Popularno

Kako livestream zlostavljanje dece menja debatU o privatnosti na internetu

Masovni balistički udar na Ukrajinu: Kijev među glavnim metama, desetine žrtava i velika razaranja

CENTCOM Počinje Desetu Noć Napada Na Iran — Prijavljene Eksplozije U Južnim Lukama i Aktivirana Protivvazdušna Odbrana

Izbijanje vodenih kozica u šatorskim kampovima Gaze: Preko 9.300 sumnjivih slučajeva

Severna Koreja i Rusija Dogovorile Produbljivanje Vojne i Bezbednosne Saradnje u Moskvi

Pouke Posle Venecuele: Kako Skalirati Inovacije i Pojačati Zaštitu Od Zemljotresa

Tajvan Optužio Bivšeg Menadžera TSMC‑a: Navodna Krađa 21 Tajnog Dokumenta Za Kinu — Prvi Slučaj Po Zakonu O Nacionalnoj Bezbednosti

Srpski logoraši pred američkim istražiteljima u Derventi: "Najviše su me tukli oni s kojima sam jeo i pio"

Slovenačka drama u Briselu: Tanja Fajon izgubila kandidaturu za posebnu predstavnicu EU za Sahel

IRGC Tvrdi: Pogodili i „Uništili" Američke Lokacije u Bahreinu i Kuvajtu

Otkriveno "treće stanje" između života i smrti — ćelije koje nastavljaju da funkcionišu

Ruski vazdušni udar na Odesu: najmanje troje civila poginulo, oštećenja u luci

Američki tužioci u Derventi: Saslušanja preživelih zbog sumnje da su počinioci zločina pobegli u SAD

Ukrajinski dronovi srednjeg dometa prave „slobodan lov“ stotinama kilometara iza fronta — ruska logistika na udaru

Eparhija Raško‑Prizrenjska Demantuje Džufku: Nema Sudske Presude Protiv SPC, Postoje Krivični Postupci

Vulin: Smanjenje KFOR-a Predstavlja Veliku Bezbednosnu Opasnost — Srbija Mora Hitno Da Reaguje

Vašington Menja Pristup Balkanu: Srbija Postaje Ključni Partner — Šta Donosi Strateški Dijalog?

Dnevni pregled: Španija šampion, istorijski poluvremenski šou i tropska depresija u zalivu

Khalil al‑Hayya Izabran Za Novog Lidera Hamasa Nakon Drugog Kruga

EPA Odbacila Pravila Za PFAS U Kanalizacionom Mulju — Poljoprivrednici I Potrošači U Riziku

Suđenje Za Račak Odloženo: Optužbe Protivreče Izjavama Bivše Istražne Sudije

Španija 1–0 Argentina: Ferran Torres rešio finale, Andy Burnham novi premijer UK, lažno pozitivan Cyclospora nalaz u Taylor Farms salati