明領基因大數據研究的問題主要包括兩個方面,一方面針對日益基因測試數據需求,基因測序總長度每7個月翻一番,有效存儲的需求爆炸膨脹,且目前尚無針對基因大數據的存儲系統;另一方面,針對基因數據分析的效率過低,對于一個30X的單樣本的全基因組測序數據,完全比對到參考基因組的時間大約需要2~3天,而進行數據預處理和變異檢測分析需要耗費的時間更長,一般約為3~5天。

    系統針對基因大數據進行專門的壓縮算法設計,相比通用型的壓縮算法,壓縮比由3:1提高到10:1。同時,進一步釋放存儲計算能力,在機器本地完成數據計算,大大加快系統分析的效率,提高5~10倍。

系統描述: 一個高并發、高吞吐量、高存儲容量、高可用性的基因大數據在線壓縮存儲系統。系統對高通量測序產生的fastQ文件進行壓縮,將數據壓縮和查重同時進行,數據塊經一致性哈希,實現條帶化,并可以通過哈希查重實現同一份數據只保留一份;在壓縮存儲的基礎上進一步實現基因數據的分析和注解,可以大幅度降低企業維護基因數據的成本,提高基因數據分析的效率。