在科技飛速發展的今天,數據量正呈現出井噴式的增長態勢。據國際數據公司(IDC)預測,2025年全球將產生213ZB數據(1ZB=10億TB),2029年數據量將再次翻倍。傳統硅基存儲技術(如硬盤、閃存等)正陷入存儲密度逼近物理極限、能耗成本高、介質壽命有限等多重瓶頸,基于現有技術預計5年內將只有不到1%的數據可被保存。在ZB級數據洪流的沖擊下,研究開發新型數據存儲技術勢在必行。而此時,一種全新的存儲技術——DNA數據存儲,正逐漸嶄露頭角,有望引領數據存儲從“硅基”向“碳基”的重大轉變。
一、DNA數據存儲介紹
DNA數據存儲是利用人工合成的脫氧核糖核酸(DNA)作為信息載體的前沿存儲技術。作為生物體遺傳信息的天然存儲器,DNA由四種核苷酸構成,分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C)四種堿基,可以翻譯成二進制中的00(A)、01(T)、10(G)、11(C)。在數據寫入時,先將文本、圖片等信息翻譯成二進制代碼,再將二進制代碼轉換為堿基的四進制序列,然后通過人工合成技術生成對應的DNA分子,并放到適宜環境中保存,從而實現數據的高密度存儲。當數據讀取時,再通過DNA測序技術反向操作即可。
圖片來源:擎科生物公眾號
圖1 DNA數據存儲及讀取流程圖
二、發展歷程
DNA數據存儲的發展并非一蹴而就,而是經歷了多個關鍵的技術突破階段。
早期探索階段——從概念構想到實驗突破。20世紀60年代,美國麻省理工學院教授維納與蘇聯物理學家涅曼率先提出“遺傳記憶”概念,大膽設想將DNA作為信息存儲載體,為DNA數據存儲技術播下理論種子。但受限于當時落后的DNA測序與合成技術,這一構想長期停留在紙面。直到1988年,哈佛大學教授戴維斯成功設計并合成含18個核苷酸的DNA片段,完成DNA存儲的首次實驗驗證,標志著該技術從理論走向實踐,開啟了科研界對DNA存儲的探索之路。
突破性發展階段——從實驗可行到實踐可行。2012年,哈佛大學教授丘奇采用短鏈DNA進行編碼,成功將一本659kb的書籍內容轉化為DNA序列,最終測序結果僅出現22個錯誤。2016年,微軟和華盛頓大學的研究人員對外公布,其利用DNA存儲技術成功實現了約200MB數據的保存,包括《戰爭與和平》在內的100部文學作品。這些成果首次證明DNA能夠存儲大容量數據,充分展現了其作為存儲介質的巨大潛力。
快速迭代階段——技術革新與成本優化。2025年,麻省理工學院的研究團隊研發出一種新型聚合物材料,能夠在室溫環境下實現DNA的長期穩定保存。同年,中國科學院北京基因組研究所(國家生物信息中心)等單位科研人員提出了一種經濟高效的存儲方法——DNA活字噴墨打印機“畢昇一號”。該技術以預制短DNA片段為存儲單元,每個片段存1字節信息,通過酶連接組裝成DNA活字塊,類似于畢昇印刷術的“活字重組邏輯”,通過標準化預制片段的靈活拼接實現信息的高效存儲與組合。“畢昇一號”成功實現各類數字文件的高效存儲與精準還原,解碼準確率達100%,并且無需從頭合成DNA序列進行編碼,將DNA活字存儲成本降至122美元/MB(主流DNA存儲3500美元/MB),推動DNA存儲技術邁向實用化。
圖片來源:中國科學院北京基因組研究所(國家生物信息中心)官網
圖2 “畢昇一號”DNA活字存儲流程圖
三、優勢分析
與傳統數據儲存方式相比,DNA數據存儲主要具有以下三大優勢:
超高存儲密度:DNA數據存儲的超高存儲密度堪稱“數據存儲界的奇跡”,1克DNA就能容納約215PB的數據(約1000萬小時高清視頻),理論上一噸DNA即可存儲全球現有數據總量,遠超傳統硬盤或磁帶的容量極限。
超長存儲壽命:DNA具有高度穩定性,在適宜條件下,可保存數千年乃至更久。近年科學家曾從格陵蘭島凍土中成功提取200萬年前的DNA序列,其中信息仍歷歷可辨。相比硬盤等傳統存儲介質幾年到十幾年的使用壽命,DNA存儲優勢顯著。
超低能耗:傳統數據中心每存儲1PB數據,每年的耗電量大致在8萬-30萬度電;與之相比,DNA數據存儲僅在DNA合成、編碼過程中產生少量能耗,一旦數據寫入完成,僅需基礎的冷藏保存條件,后續能耗幾乎可忽略不計。
四、面臨的挑戰
存儲成本高。當下,主流DNA存儲多以化學合成堿基來寫入數據,過程復雜、耗時久且成本高。雖然以“畢昇一號”為代表的創新技術已將DNA活字存儲成本降至122美元/MB,但與傳統硬盤、閃存每MB不到0.01美元的成本相比,仍存在巨大差距。
讀寫速度慢。相較于硬盤、閃存等讀寫速度最快可達到數百/數千MB/S,DNA存儲寫入速度目前每天僅能達到MB量級,讀取速度同樣遲緩。傳統DNA存儲依賴逐條合成與測序,在DNA合成過程中,每添加一個堿基所需時間大約為0.1秒鐘,這使得整體寫入過程極為緩慢。
DNA合成出現錯誤。在DNA合成過程中易出現堿基缺失錯誤,每堿基發生率約0.2%~1%。這類缺失會導致序列閱讀框移位,進而使解碼時數據出現連貫性偏差,為準確還原存儲信息帶來巨大挑戰。此外,合成中還可能伴隨少量堿基插入或替換錯誤,進一步增加了數據解碼的復雜性。
技術標準不統一。目前DNA數據存儲技術尚未形成統一的行業執行標準,不同的實驗室科研人員和企業使用者在操作DNA存儲介質時,無法按照同樣的方式來進行DNA存儲和讀取,這阻礙了DNA信息存儲技術走向商業化應用的進程。
五、發展趨勢及對策建議
DNA存儲的獨特優勢正促使其應用領域不斷拓展。在長期冷數據(國家歷史檔案、珍貴文物資料等)存儲方面,其超長存儲時間和高存儲密度特性使其成為理想選擇。在航天領域,低能耗、高穩定性和高存儲密度讓它有望用于存儲航天器飛行數據、科學實驗數據等。在醫療健康領域,能用于長期保存患者個體基因數據。未來DNA存儲將走進千家萬戶,在數據存儲市場占據重要地位,與傳統存儲方式共同構建多元化存儲格局。
建議加快推動DNA數據存儲技術與人工智能、生物信息學等前沿技術的交叉融合,通過跨學科協同創新突破技術瓶頸;積極開展與大型數據中心、醫療機構等合作,以應用場景驅動技術迭代;同時,加強國際間技術交流與合作,共同推動DNA數據存儲技術標準制定與應用推廣,加速新技術的成熟與普及。期待DNA數據存儲技術在未來能夠徹底改變數據存儲格局,開啟一個全新的“碳基”存儲時代。
參考文獻
[1]董一名,孫法家,武瑞君,錢瓏.DNA數字信息存儲的研究進展[J].合成生物學,2021,2(3):323-334.
[2]DNA存儲技術及其在檔案信息存儲中應用的可能[EB/OL].https://mp.weixin.qq.com/s/-nDb4qK3wWQda0pk-oO2pg
[3]基因合成驅動DNA存儲:開啟萬億數據存儲的新時代[EB/OL].
https://mp.weixin.qq.com/s/0nP3E4_GVFCnUJY_5zEV8w
作者介紹
趙瑞鑫
中級經濟師
長期關注研究生物經濟、醫藥健康等領域,深度參與《北京合成生物發展現狀及未來發展路徑研究》《北京市“十五五”時期生物醫藥產業發展分析服務》《完善北京市支持創新藥械發展的監管和支付機制研究》等多項北京市相關產業研究、政策制定等咨詢服務,獲2025年北京市優秀咨詢成果獎一等獎1項。
嚴一凡
咨詢師
長期關注研究生物經濟領域,深度參與《國家生物制造產業創新中心創新能力建設項目》《北京合成生物發展現狀及未來發展路徑研究》等多項生物領域咨詢項目,在北京市生物產業戰略規劃、政策制定等方面擁有豐富實踐,獲2025年北京市優秀咨詢成果獎一等獎1項。
編輯:張 華
審核:蘭國威