Tim sa ETH Ciriha razvio je MetaGraph — pretraživač genetskih sekvenci koji konsoliduje javne arhive u jedan indeks sa ~600 miliona sekvenci i ~21 milion GB podataka. Sistem kompresuje podatke ~300×, omogućava pretragu bez skidanja velikih datasetova i značajno smanjuje troškove i vreme analize. MetaGraph je otvorenog koda, trenutno obuhvata oko 50% javnih podataka, a ostatak bi trebao biti indeksiran do kraja 2025.
MetaGraph — novi "Google za DNK" koji kompresuje petabajte genetskih podataka

Sekvenciranje DNK i RNK predstavlja osnovu savremenih biomedicinskih istraživanja, od razumevanja genetskih uzroka raka i neurodegenerativnih bolesti do praćenja patogena. Tim sa ETH Ciriha razvio je MetaGraph — sistem za pretraživanje genetskih podataka koji konsoliduje raznolike javne arhive u jedan pretraživi indeks sa gotovo 600 miliona različitih sekvenci i oko 21 milion gigabajta podataka.
Kako MetaGraph funkcioniše
MetaGraph pretvara ogromne, nepovezane skupove podataka u kompresovane, puno‑tekstualno pretražive indekse. Sirovi sekvencijalni podaci prolaze kroz korake čišćenja i ispravljanja grešaka, nakon čega se predstavljaju kao rafinirani grafovi koji se potom spajaju u jedinstveni indeks. Zahvaljujući ovim pristupima, prosečna veličina podataka smanjena je za oko 300× — primerice, skupovi od ~100 TB (kao GTEx ili TCGA) mogu biti sažeti na oko 10 GB.
Šta je u indeksu i zašto je to važno
Indeks obuhvata sekvence virusa, mikroba, gljivica, biljaka, bakterija i ljudskog porekla (uključujući crevni metagenom i razne metazoanske uzorke), kao i sirove metagenomske podatke iz javnih repozitorijuma. Korišćenjem naprednih matematičkih grafova i povezivanjem sirovih podataka sa metapodacima, tim je uklonio redundanciju i postigao visoku stopu kompresije, što omogućava efikasnije pretraživanje i analizu.
Prednosti za istraživače i primene
Glavne prednosti MetaGrapha su:
- Pretraga bez potrebe za preuzimanjem ogromnih dataset‑ova — istraživači više ne moraju da skidaju terabajte pre nego što izvrše pretragu.
- Niži troškovi: pojedinačna pretraga može koštati samo nekoliko centi, a kompletna javno dostupna zbirka može stati na nekoliko eksternih diskova. Procena ukupnih troškova infrastrukture i rada navedena je na otprilike $2.500.
- Skalabilnost: arhitektura je dizajnirana tako da zadrži visoke brzine pretrage kako skup podataka raste.
MetaGraph je otvorenog koda i već obuhvata oko polovine javno dostupnih sekvenci; tim sa ETH očekuje da će preostali javni podaci biti indeksirani do kraja 2025.
„U ranim danima ni Google nije u potpunosti znao za šta će sve pretraživači biti korisni. Ako sekvenciranje nastavi ovim tempom, mogla bi da postane uobičajena praksa precizno identifikovati biljku na svom balkonu,“ kaže dr André Kahles iz Grupe za biomedicinsku informatiku na ETH‑u.
Primeri praktične upotrebe
Brže i jeftinije pretraživanje genomskih podataka može ubrzati istraživanja kao što su mapiranje virusa za razvoj vakcina (npr. SARS‑CoV‑2), analize metagenoma koje objašnjavaju ulogu mikrobioma u zdravlju, ili evolucione studije koje koriste DNK organizama poput kišnih crva. MetaGraph olakšava strukturiranje, poređenje i testiranje sekvenci, što doprinosi bržem razvoju naredne generacije tehnologija sekvenciranja.
Za one koji žele da isprobaju alat, MetaGraph održava otvoreni "Open Data" repozitorijum u kome je moguće izvršavati pretrage unutar njihovog cloud indeksa i pregledati primere vizualizacija, uključujući poznate proteine i gene povezane sa rezistencijom na antimikrobne supstance.
Autori rada su tim sa ETH Ciriha; u naučnom članku u časopisu Nature predstavljeni su detalji metode i rezultati kompresije i pretraživanja.
Pomozite nam da budemo bolji.




























