DNA için “Google”: MetaGraph genetik verileri saniyeler içinde tarıyor

ETH Zurich bilim insanları, dünyanın en büyük genetik veri tabanlarını saniyeler içinde tarayabilen yeni bir araç geliştirdi. “MetaGraph” adı verilen sistem, DNA ve RNA dizilerini doğrudan arayarak araştırmacılara büyük zaman ve maliyet tasarrufu sağlıyor. Bilim dünyasında “DNA için Google” olarak tanımlanan teknoloji, genetik araştırmalarda devrim yaratabilir.

Nadir genetik hastalıkların tespiti ve tümörlere özgü mutasyonların belirlenmesi artık mümkün. Bu başarı, yıllar önce biyomedikal araştırmalarda devrim yaratan DNA dizileme teknolojileri sayesinde elde edildi. Özellikle son dönemde geliştirilen yeni nesil dizileme (NGS) yöntemleri, genetik araştırmalarda büyük bir veri patlamasına yol açtı.

Amerikan Sequence Read Archive (SRA) ve Avrupa’daki European Nucleotide Archive (ENA) gibi dev veri merkezlerinde artık toplamda yaklaşık 100 petabayt genetik bilgi bulunuyor. Bu miktar, internetteki tüm metin verilerine eşdeğer. Ancak bu kadar büyük bir veriyi aramak bugüne kadar son derece maliyetli ve zaman alıcıydı.

ETH Zurich araştırmacıları, bu engeli aşmak için yeni bir çözüm geliştirdi.

METAGRAPH: DNA İÇİN BİR ARAMA MOTORU

ETH Zurich’teki araştırma ekibi, MetaGraph adını verdikleri yeni bir araçla bu süreci kökten değiştirdi. MetaGraph, araştırmacıların tüm veri setlerini indirmesine gerek kalmadan, doğrudan DNA veya RNA dizileri içinde tam metin araması yapmalarını sağlıyor.

ETH Zürih Bilgisayar Bilimi Bölümü’nden Prof. Gunnar Rätsch, sistemi “DNA için Google” olarak tanımlıyor: “Eskiden araştırmacılar sadece açıklayıcı meta verilerde arama yapabiliyor, ham veriye ulaşmak için devasa dosyalar indirmek zorunda kalıyordu. MetaGraph bunu saniyeler içinde yapabiliyor.”

Araştırmaya göre sistem son derece maliyet verimli: Tüm kamuya açık biyolojik dizilerin temsil edilmesi yalnızca birkaç sabit diske sığabiliyor ve büyük sorguların maliyeti megabaz başına yaklaşık 0,74 dolar düzeyinde kalıyor.

Bu özellik, MetaGraph’i özellikle yeni patojenlerin tespiti, antibiyotik direnci genlerinin analizi veya yararlı virüslerin (bakteriyofajlar) belirlenmesi gibi alanlarda son derece değerli hale getiriyor.

300 KAT SIKIŞTIRMA ORANIYLA DEV BİR VERİ DEVRİMİ

8 Ekim’de Nature dergisinde yayımlanan çalışmada ETH ekibi, MetaGraph’in teknik altyapısını detaylandırdı. Araç, genetik verileri gelişmiş matematiksel grafik yapıları kullanarak düzenliyor ve sıkıştırıyor.

Prof. Rätsch, sistemi şöyle özetliyor: “Matematiksel olarak bu, milyonlarca sütun ve trilyonlarca satır içeren dev bir matristen ibaret.”

MetaGraph’in farkı, ham veriyi meta verilerle doğrudan ilişkilendirirken 300 katlık sıkıştırma oranı yakalaması. Bu sıkıştırma, bir kitabı özetlemek gibi çalışıyor: gereksiz tekrarları ortadan kaldırıyor, ancak anlamlı ilişkileri koruyarak tüm bilgiyi daha küçük bir formda tutuyor.

ETH Biyomedikal Enformatik Grubu’ndan Dr. André Kahles, “Veriyi olabildiğince kompakt hale getiriyoruz ama bilgi kaybı olmadan,” diyor. Ayrıca sistem ölçeklenebilir yapısıyla, veri büyüdükçe ek hesaplama gücü ihtiyacını azaltıyor.

METAGRAPH ARTIK KAMUYA AÇIK

İlk olarak 2020’de tanıtılan MetaGraph, aradan geçen süreçte önemli ölçüde geliştirildi. Araç artık kamuya açık bir şekilde kullanılabiliyor: https://metagraph.ethz.ch/search adresi üzerinden araştırmacılar doğrudan genetik arama yapabiliyor.

MetaGraph, şu anda milyonlarca DNA, RNA ve protein dizisini indeksliyor. Veritabanının yaklaşık yarısı şimdiden erişilebilir, kalan kısmın ise yıl sonuna kadar eklenmesi bekleniyor.

Dr. Kahles’e göre bu teknoloji gelecekte yalnızca araştırmacılar için değil, bireyler için de kullanılabilir hale gelebilir: “Google ilk çıktığında kimse bir arama motorunun tam olarak ne işe yarayacağını bilmiyordu. DNA dizilemedeki bu hızlı ilerleme devam ederse, bir gün insanlar balkon bitkilerini bile MetaGraph ile tanımlayabilir.”