Dijital veriler DNA'da depolanabilir mi?

Büyük bir havuzdaki DNA veri dosyalarını etiketlemek ve geri almak için geliştirilen bir teknik, DNA'da veri depolamayı mümkün kılabilir.

Google Haberlere Abone ol

Massachusetts Teknoloji Enstitüsü

Şu an itibariyle, Dünya’da yaklaşık 10 trilyon gigabayt dijital veri mevcut ve her gün insanlar bu havuza 2.5 milyon gigabayta kadar veri ekleyen e-postalar, fotoğraflar, tweetler ve dosyalar üretiyorlar. Bu verilerin büyük kısmı, birkaç futbol sahası büyüklüğünde olabilen ve inşa edilmesi ve bakımı yaklaşık 1 milyar dolara mal olan ‘eksabayt (bir eksabayt=1 milyar gigabayt) veri merkezleri’  adıyla bilinen devasa tesislerde saklanır.

Birçok bilim insanı, alternatif bir çözümün genetik bilgilerimizi içeren molekülde yattığına inanıyor: DNA, çok büyük miktarlardaki bilgiyi çok yüksek yoğunlukta depolamak üzere evrimleşmiştir. Massachusetts Teknoloji Enstitüsü (MIT) Biyoloji Mühendisliği Profesörü Mark Bathe, teorik olarak, Uz söylüyor.

Hem MIT Broad Enstitüsü hem de Harvard’ın ortak üyesi olan Bathe, “Dünyanın biriktirdiği bu büyük miktardaki veriyi, özellikle de arşiv verilerini depolamak için yeni çözümlere ihtiyaç duyuyoruz” diyor: “DNA, flash bellekten bile bin kat daha yoğundur ve ilginç olan bir başka özelliği de bir kez DNA polimerini ürettikten sonra herhangi bir enerji tüketmemesidir. DNA üzerine bilgi yazabilir ve onu sonsuza dek saklayabilirsiniz.”

Bilim insanları, görüntüleri ve metin sayfalarını DNA biçiminde kodlayabildiklerini daha önce ortaya koymuşlardı. Bununla beraber, birçok DNA parçasının oluşturduğu bir karışımın içinden istenen bir dosyayı seçmek için kolay bir yola da ihtiyaç duyulacaktır. Bathe ve meslektaşları, [eski bir çalışmada] her bir veri dosyasını, içeriği oluşturan kısa DNA dizileri ile etiketlenmiş 6 mikrometre uzunluğunda bir silika parçacığına işleyerek bunu yapmanın bir yolunu göstermişlerdi.

Araştırmacılar, bu yaklaşımı kullanarak, 20 görüntüden oluşan bir dizi içerisinden, DNA olarak depolanan görüntüleri tek tek doğru bir şekilde çıkarabileceklerini gösterdiler. Kullanılabilecek olası etiketlerin sayısı göz önüne alındığında, bu yaklaşım 1020 dosyaya kadar ölçeklenebiliyor. 

STABİL DEPOLAMA

Dijital depolama sistemleri, metinleri, fotoğrafları ya da farklı herhangi bir bilgiyi 0’lar ve 1’ler dizisi şeklinde kodlar. Bu aynı bilgi, genetik kodu meydana getiren A, T, G ve C* adı verilen dört nükleotid kullanılarak DNA’da da kodlanabilir. Mesela, G ve C 0’ı temsil etmek için kullanılabilirken, A ve T 1’i temsil eder.

DNA, bir depolama ortamı olarak arzu edilen birkaç özelliği bünyesinde barındırır: Son derece stabildir ve sentezlenmesi ile dizilenmesi fazlasıyla kolaydır (ama pahalıdır da). Öte yandan, yüksek yoğunluğu sebebiyle -her nükleotid iki bite eşdeğer, yaklaşık 1 nanometre küp büyüklüğündedir- DNA biçiminde depolanan bir eksabayt veri, avucunuzun içine bile sığabilir.

Bu türden veri depolamanın önündeki engellerden biri, bu derece büyük miktarda DNA’nın sentezlenmesinin maliyetidir. Günümüzde, bir petabayt veri (1 milyon gigabayt) yazmak 1 trilyon dolara mal oluyor. Bathe, çoğunlukla arşiv verilerini depolamak amacıyla kullanılan manyetik bantlarla rekabet edebilmek için, DNA sentezinin maliyetinden yaklaşık altı sıfır atılması gerektiğini tahmin ediyor. Bathe, flash belleklerdeki bilgi depolama maliyetinde son birkaç on yılda görülen önemli düşüşe benzer biçimde, bu düşüşün on ilâ yirmi yıl içinde gerçekleşeceğini düşündüğünü ifade ediyor. Maliyetin yanı sıra, verileri depolamak amacıyla DNA’yı kullanmanın önündeki bir başka büyük engel, diğerleri arasından istediğiniz dosyayı seçmenin güçlüğüdür.

Bathe, “Peki, DNA yazma teknolojilerinin, DNA üzerine bir eksabayt veya zettabayt veri yazmanın uygun maliyetli olduğu bir noktaya ulaştığını varsaydığımız durumda ne olacak? Üzerinde sayısız dosya, resim ya da film ve diğer şeyler bulunan bir DNA yığınına sahip olacaksınız ve aradığınız resmi ya da filmi bulmanız gerekecek” diyor: “Bu, tıpkı samanlıkta iğne bulmaya çalışmaya benzeyecek.”

Şu anda, DNA dosyaları geleneksel biçimde PCR (‘polimeraz zincir reaksiyonu’) kullanılarak alınıyor. Her bir DNA veri dosyası, belirli bir PCR kapsülüne (ing. ‘primer’) bağlanan bir dizi içerir. Belirli bir dosyayı buradan çıkarmak, istenen diziyi bulmak ve büyütmek için örneğe bu kapsül eklenir. Bununla beraber, bu yaklaşımın dezavantajlarından biri, kapsül ve hedef dışı DNA dizileri arasında çapraz karışmanın gerçekleşebilmesidir; bu durum, istenmeyen dosyaların çağrılmasına yol açar. Ayrıca, PCR geri çağırma işlemi bazı enzimlere ihtiyaç duyar ve havuzda bulunan DNA’nın büyük kısmını tüketir. Bathe, “Bu durumda, iğneyi bulmak için samanlığı yakarsınız; zira geri kalan DNA güçlendirilmemiş olur ve aslında onları çöpe atmış olursunuz” diyor.

DOSYA ALMA

MIT ekibi, alternatif bir yaklaşım olarak, her DNA dosyasını küçük bir silika parçacığı içine yerleştirmeyi içeren yeni bir dosya çağırma tekniği geliştirdi. Her kapsül, dosyanın içeriğine karşılık gelen tek sarmallı DNA ‘barkodları’ ile etiketleniyor. Araştırmacılar, bu yaklaşımın uygun maliyetli olabileceğini göstermek için yaklaşık 100 bayta eşdeğer olan yaklaşık 3 bin nükleotid uzunluğundaki DNA parçalarına 20 farklı görüntü kodladılar. (Ayrıca kapsüllerin bir gigabayta kadar DNA dosyalarına sığabileceğini de ortaya koydular.)

Dosyaların her biri ‘kedi’ ya da ‘uçak’ gibi başlıklara karşılık gelen barkodlarla etiketlendi. “Araştırmacılar seçilen bir görüntüyü geri almak istediklerinde, bir DNA örneğini çıkarıyor ve aradıkları etiketlere karşılık gelen kapsülleri ekliyorlar; mesela, bir kaplan görüntüsü için ‘kedi’, ‘turuncu’ ve ‘vahşi’ ya da bir ev kedisi için ‘kedi’, ‘turuncu’ ve ‘yerli’ etiketlerini kullanıyorlar.”

Kapsüller, floresan ya da manyetik parçacıklarla etiketlenir; bu ise numuneden herhangi bir eşleşmeyi çıkarmayı ve onu tanımlamayı kolaylaştırır. Bu yaklaşım, arzu edilen dosyanın alınmasına olanak sağlarken, DNA’nın geri kalanını bozulmadan bırakarak depoya geri konmasını sağlar. Kullandıkları geri alma süreci, “Başkan VE 18.yüzyıl” gibi Boole** mantık ifadelerinin, tıpkı bir Google görsel araması ile bulunmasına benzer biçimde, [ABD’nin eski başkanlarından] George Washington’ın bulunmasına imkân sağlar.

Banal, “Kavramsal kanıtımızın mevcut haliyle, saniyede 1 kilobaytlık veri arama hızındayız. Şu anda, dosya sistemimizin arama hızı, DNA üzerine 100 megabayt boyutunda veri yazmayı imkânsız kılan büyük maliyeti ve paralel olarak kullanabileceğimiz dizileyici sayısı ile sınırlı olan ‘kapsül başına veri’ boyutuna göre belirleniyor. DNA sentezi yeterince ucuzlarsa, kullandığımız yaklaşımla dosya başına depolayabileceğimiz veri boyutunu en üst düzeye çıkarabiliriz” diyor.

Araştırmacılar, [etiketleme] barkodları için, Harvard Tıp Fakültesi’nde genetik ve tıp profesörü olan Stephen Elledge tarafından geliştirilen ve her biri yaklaşık 25 nükleotid uzunluğundaki 100 bin diziden oluşan bir kütüphanede bulunan tek sarmallı DNA dizilerini kullandılar. Her dosyaya bu etiketlerden ikisini eklemeniz halinde, 1010 (10 milyar) farklı dosyayı benzersiz biçimde etiketleyebilir ve her birine dört etiket eklediğinizde 1020 dosyayı benzersiz biçimde etiketleyebilirsiniz.

Bathe, buna benzer bir DNA kapsüllemenin 'soğuk' verileri, yani bir arşivde tutulan ve çok sık kullanılmayan verileri depolamak söz konusu olduğunda faydalı olabileceğini düşünüyor. Laboratuvarı, hem uzun vadede DNA verilerini depolamak hem de kısa vadede klinik ve diğer mevcut DNA örneklerini depolamak amacıyla, DNA’nın uzun süreli depolanması doğrultusunda teknoloji geliştirecek ‘Cache DNA’ adlı bir çalışmayı hayata geçiriyor. Bathe, “DNA’yı bir veri depolama ortamı olarak uygulanabilir hale getirmek zaman alsa bile, şu anda Covid-19 testi, insan genom dizileme ve diğer alanlardan gelen DNA ve RNA örneklerinin düşük maliyetli büyük depolanması hususunda acil bir ihtiyaç söz konusu” diyor.

*A, T, G, C: Adenin, Timin, Guanin, Sitozin.

**Boole mantığı, Boole operatörleri olarak bilinen, ‘veya’, ‘ve’ ve ‘değil’ şeklindeki üç basit kelime etrafında odaklanmış bir cebir biçimidir. Boole mantığının merkezinde, tüm değerlerin doğru veya yanlış olduğu fikri bulunur.


Yazının orijinali EurekAlert sitesinden alınmıştır. (Çeviren: Tarkan Tufan)