Svet Vesti
Nauka

Kako nas opsesija p‑vrednošću razara nauku — vreme za „kulturu procenjivanja“

Kako nas opsesija p‑vrednošću razara nauku — vreme za „kulturu procenjivanja“

Tekst objašnjava kako je fiksacija na statističku značajnost (najčešće p<0,05) izobličila naučne rezultate i dovela do objavljivačke pristrasnosti i opasnih posledica u medicini. Autor podseća na doprinos Williama S. Gosseta koji je promovisao pristup orijentisan na procenu veličine efekata i poverenja u procene. Predlaže se pomak ka „kulturi procenjivanja“: fokus na veličinu efekta, intervale poverenja, kontekst i računanje troškova i koristi umesto oslanjanja na arbitrarne pragove.

Pre oko sto godina nekoliko jednostavnih praktičnih problema postavilo je temelje pristupa koji danas odlučuje šta ćemo smatrati „pravim“ naučnim nalazom: kontrola kvaliteta u pivari Guinness i čuveni Fisherov primer dame koja tvrdi da razlikuje da li je mleko sipano pre čaja. Danas ta mehanika odlučivanja — fiksiranje na statističku značajnost (najčešće p<0,05) — često vodi do iskrivljene naučne slike i štetnih posledica po medicinsku praksu i javno zdravlje.

Poreklo problema

U prvoj polovini 20. veka statistika je dobila ključne alate: Studentova t‑raspodela (William S. Gosset), p‑vrednosti i testiranje značajnosti (Ronald Fisher), analiza varijanse i metode eksperimenta. Fisherova ideja o p‑vrednosti i pragovima značajnosti bila je korisna u pojedinim kontekstima — npr. u jednostavnim binarnim testovima — ali njena univerzalna primena učinila je p‑vrednost merilom uspeha istraživanja, umesto jednog od alata za razumevanje podataka.

Gosset i pivo — primer praktične statistike

William S. Gosset, statističar u pivari Guinness, razvio je formulu za rad sa malim uzorcima (objavljeno pod pseudonimom "Student") zato što je u proizvodnji morao da donosi praktične odluke na osnovu malog broja merenja. Njegov je cilj bio precizna procena i kontrola greške — nije ga zanimao arbitrarni prag „značajnosti“. Gossetova filozofija naglašava procenjivanje veličine efekta i pouzdanost procene, a ne da‑ne sud.

Fisher i limitacije p‑vrednosti

Fisher je formalizovao testiranje značajnosti i predstavio prag od 5% kao praktičnu granicu. Njegov primer sa ispitivanjem dame koja pogađa redosled mleka i čaja jasno vodi ka binarnoj odluci: ima sposobnost ili nema. Međutim, većina naučnih pitanja nije takvog tipa — često nas zanima koliko je velika razlika, koliko je pouzdana i kakve su praktične posledice, a ne samo da li je p<0,05.

Posledice fiksiranja na "značajnost"

Opsesija statističkom značajnošću dovela je do ozbiljnih problema:

  • Pristrasnost objavljivanja: studije sa "pozitivnim" (značajnim) rezultatima mnogo su verovatnije da će biti objavljene, dok su negativni i nesigurni nalazi često skrivani.
  • Lažno pozitivni rezultati: veći broj testova i veliki skupovi podataka povećavaju verovatnoću da slučajni efekti budu predstavljeni kao stvarni.
  • Loše kliničke odluke: primer Vioxxa pokazuje kako ignorisanje praktičnog značenja pored statističke nevažnosti može voditi do ozbiljnih šteta javnom zdravlju.

Primeri iz prakse

Millikanov eksperiment sa uljnim kapljicama ilustruje eksperiment orijentisan na procenu: merio se naboj elektrona, nije se testirala irelevantna nul‑hipoteza. Suprotno tome, u kliničkom ispitivanju Vioxxa statistički "nenađeno značajno" izveštavanje odložilo je uočavanje stvarnog povećanja rizika od srčanih komplikacija.

Estimation culture — alternativni put

Kultura procenjivanja (estimation culture) predlaže da se fokus pomeri sa binarne odluke na:

  • procenu veličine efekta (point estimates),
  • intervale poverenja i nesigurnost oko procene,
  • ocenu relevantnosti i praktičnih posledica (troškova i koristi),
  • transparentnost i objavljivanje rezultata bez selekcije prema p‑vrednosti.

Industrijski data scientisti često vode ovakav pristup — jer ih ne pritiska model "objavi ili umri", plaćeni su za tačnost i kontekstualnu vrednost nalaza. Slično, akademska praksa može da usvoji mere koje smanjuju p‑haking, unaprede preregistraciju studija i vrednuju replikacije i procene veličine efekata.

Kako čitaoci i novinari treba da pristupe nalazima

Pri čitanju naučnih radova ili medijskih izveštaja, imajte na umu:

  • Tražite procenu veličine efekta i interval poverenja, ne samo p‑vrednost.
  • Procenite praktičnu važnost nalaza i moguće troškove/koristi.
  • Budite svesni objavljivačke pristrasnosti: ne vidite sve negativne ili insignifikantne studije.

Zaključak: nije dovoljno "pasti" na prag od 0,05. Bolja nauka zahteva procenjivanje, transparentnost i vrednovanje stvarnog uticaja nalaza — upravo ono što je Gosset zagovarao pre više od jednog veka.

Pomozite nam da budemo bolji.

Povezani članci

Popularno