基因組測(cè)序?
不少人對(duì)這個(gè)名字還有些陌生,但早在30多年前,人類基因組測(cè)序計(jì)劃就已經(jīng)成為破譯人類遺傳密碼的大科學(xué)工程,并與曼哈頓原子彈計(jì)劃、阿波羅登月計(jì)劃并稱為“20世紀(jì)人類三大科學(xué)計(jì)劃”。
所謂基因組測(cè)序,就是一種新型基因檢測(cè)技術(shù),能夠從血液或唾液中分析測(cè)定基因全序列,鎖定個(gè)人病變基因,提前預(yù)防和治療。多年前,蘋果公司創(chuàng)始人史蒂夫·喬布斯在確診胰腺癌后,曾花費(fèi)10萬美元進(jìn)行個(gè)人基因組測(cè)序,引發(fā)公眾關(guān)注。
如今科技發(fā)展日新月異,完成一個(gè)人的全基因組測(cè)序,已經(jīng)是普通實(shí)驗(yàn)室甚至家庭都可以負(fù)擔(dān)得起的“平常事”。以當(dāng)下火熱的第三代測(cè)序?yàn)槔?,完成個(gè)人全基因組測(cè)序僅需1天時(shí)間,有的費(fèi)用已經(jīng)低于5萬元。
不過,第三代測(cè)序技術(shù)也面臨著一個(gè)尷尬困境:要完成這樣數(shù)據(jù)規(guī)模的全基因組組裝分析,需要消耗50萬個(gè)CPU小時(shí),只能在超大計(jì)算機(jī)集群上進(jìn)行。這種情況下,同時(shí)對(duì)大量個(gè)體的全基因組進(jìn)行組裝分析,是難以想象的。
以全基因組組裝方式對(duì)群體進(jìn)行測(cè)序分析,成為生物和醫(yī)學(xué)研究的趨勢(shì)。生物信息學(xué)領(lǐng)域的科學(xué)家們,也致力于改變這種數(shù)據(jù)產(chǎn)出速度高于數(shù)據(jù)分析速度的尷尬狀況,不斷開發(fā)出更高效的組裝分析算法。
如今,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)基因組研究所博士阮玨與美國哈佛大學(xué)醫(yī)學(xué)院博士李恒合作,研發(fā)出第一個(gè)能夠跟上基因組測(cè)序產(chǎn)生速度的組裝算法——Wtdbg。
國際學(xué)術(shù)期刊《自然—方法學(xué)》(Nature Methods)近日刊發(fā)了這一成果的論文,其中提到,這一算法極大提高三代測(cè)序數(shù)據(jù)的分析效率,與今年4月科學(xué)家研發(fā)的Flye算法相比,分析速度提升了5倍,并首次將測(cè)序數(shù)據(jù)分析時(shí)間降低到少于測(cè)序數(shù)據(jù)產(chǎn)出時(shí)間。
據(jù)阮玨介紹,Wtdbg算法的開發(fā)得益于一個(gè)新的組裝圖理論的提出,將測(cè)序數(shù)據(jù)切分為固定長度的短串,再從短串構(gòu)建出的圖上恢復(fù)出全基因組序列。
“由于第二代測(cè)序錯(cuò)誤率低,大部分短串是正確的,相同的短串間可以利用德布魯因圖的原理合并起來構(gòu)成組裝圖?!比瞰k說,突破性的方法基于突破性的理論基礎(chǔ)。
從2013年開始,阮玨和李恒著手解決第三代測(cè)序組裝的問題,隨后在德布魯因圖基礎(chǔ)上,設(shè)計(jì)出一個(gè)新的組裝圖理論——模糊布魯因圖。
“我們重新定義了‘短串’,新設(shè)計(jì)的模糊布魯因圖能夠容忍高噪聲數(shù)據(jù),并隨后對(duì)生成組裝圖與恢復(fù)基因組序列做了大量相應(yīng)的重構(gòu),使其兼具高效率和高容錯(cuò)的優(yōu)點(diǎn)?!比瞰k說。
2016年,這一研究成果開始對(duì)所有人免費(fèi)開放使用,不僅被幾十篇學(xué)術(shù)論文引用,還被國內(nèi)多家基因測(cè)序分析公司作為主要組裝分析工具,并且在2019年世界大學(xué)生超算競賽中做為性能測(cè)試賽題。
阮玨說,這一研究成果表明我國在基因組算法領(lǐng)域具有了引領(lǐng)國際的實(shí)力,也代表了我國科技發(fā)展的軟實(shí)力。有了這個(gè)更快的全基因組組裝方式,也將有更多的人從中受益,比如,像史蒂夫·喬布斯那樣做一個(gè)基因組測(cè)序。(記者 邱晨輝)