谷歌推出開源工具DeepVariant，用深度學(xué)習(xí)識別基因變異

raledong 發(fā)布于2019-04-25 18:21 / 1303人閱讀

摘要：今天推出了一個名叫的開源工具，用深度神經(jīng)網(wǎng)絡(luò)來從測序數(shù)據(jù)中快速較精確識別堿基變異位點。今天，團(tuán)隊，聯(lián)合同屬于旗下的生命科學(xué)兄弟公司，用了兩年多時間，研發(fā)出了一個名叫的開源工具，專門用深度神經(jīng)網(wǎng)絡(luò)來識別結(jié)果中測序數(shù)據(jù)里這些堿基變異位點。

Google今天推出了一個名叫DeepVariant的開源工具，用深度神經(jīng)網(wǎng)絡(luò)來從DNA測序數(shù)據(jù)中快速較精確識別堿基變異位點。

學(xué)科研究的革命性進(jìn)展，特別是基因?qū)W上，需要依賴于新技術(shù)的出現(xiàn)。比如桑格發(fā)明了測序法之后，才實現(xiàn)了人類基因組的測序。

再比如DNA（微陣列）芯片技術(shù)的誕生，使得大規(guī)模的基因測序成為可能。這些技術(shù)讓我們能夠獲得大量遺傳信息，可以更廣泛地應(yīng)用于健康、農(nóng)業(yè)和生態(tài)上。

基因測序領(lǐng)域里，最革命性的技術(shù)當(dāng)屬2000年初首次商用的高通量測序（縮寫為HTS）了。HTS可以大規(guī)模、低成本、快速地獲得任何生物的基因序列。

不過，HTS有個致命的問題在于，測序出來的結(jié)果不是完整的，而是碎片化的片段信息。

比如測的是人的基因序列的話（也就是說，信息量級為23對染色體上的30億對堿基排序），那么得到的測序結(jié)果是不到10億個短序列片段，一般每個短序列片段我們稱為讀取單位（reads）。

每個讀取單位含有100個堿基對（不同讀取單位的信息需要重疊，才能最后拼全），而每個堿基的錯誤率范圍是0.1%到10%。所以，一直以來，對于HTS來說，較大的挑戰(zhàn)是把碎片化的結(jié)果信息拼成一整段完整的序列信息。

瓶中基因組聯(lián)盟Genome in a Bottle Consortium（GIAB），和精準(zhǔn)FDA平臺（美國藥監(jiān)局做的基因組信息學(xué)社區(qū)和共享數(shù)據(jù)平臺）一樣，致力于提高基于HTS基因測序結(jié)果。他們能提供高精度的人體基準(zhǔn)基因組序列信息。

把測序結(jié)果與基準(zhǔn)基因序列一比對，就可以得到很多個堿基變異位點（就是上圖打星的地方），這些位點，可能是SNP單核苷酸多態(tài)性導(dǎo)致的，也可能是測序過程中復(fù)制出錯造成的。

今天，Google Brain團(tuán)隊，聯(lián)合同屬于Alphabet旗下的生命科學(xué)兄弟公司Verily，用了兩年多時間，研發(fā)出了一個名叫DeepVariant的開源工具，專門用深度神經(jīng)網(wǎng)絡(luò)來識別HTS結(jié)果中DNA測序數(shù)據(jù)里這些堿基變異位點。這個工具在準(zhǔn)確率上和較精確度上，比傳統(tǒng)的比對拼接方法都高出一大截。

DeepVariant，把工作量巨大的拼接問題（HTS碎片化的結(jié)果拼接成完整的基因序列），轉(zhuǎn)變成了一個典型的圖像分類問題。而圖像分類正是谷歌擅長的技術(shù)。

2016年，DeepVarient還在PrecisionFDA Truth Challenge中贏得了較高SNP性能獎（Highest SNP Performance）。在那之后，Google Brain團(tuán)隊又將錯誤率降低了50%。

下面的四幅圖，分別代表實際測序的片段和基準(zhǔn)序列的比對結(jié)果。

?A:單核苷酸多態(tài)性造成的堿基變異位點；

B:一條染色體上少了一個堿基；

C:兩條染色體上都少了一個堿基；

D:復(fù)制錯了的堿基變異位點。

在比對過程中，要回答的一個關(guān)鍵的問題是，怎么判斷比對后得到的堿基變異位點，是存在于兩條染色體中，還是只在一條里，還是都沒有。造成堿基變異位點的原因不只一種，最常見的三種可能是單核苷酸多態(tài)性，或多插了一個堿基，或少復(fù)制了一個堿基。

這些變異位點如果用視覺識別的算法就能快速找出來。大大提高HTS后的比對拼接的效率。

因為瓶中基因組聯(lián)盟Genome in a Bottle Consortium（GIAB）提供的人體基準(zhǔn)基因組序列信息是高精度可信的，或者更嚴(yán)謹(jǐn)?shù)卣f，是最接近真實序列的信息。

通過這個基準(zhǔn)序列得到的復(fù)制數(shù)據(jù)，谷歌團(tuán)隊可以拿它們來訓(xùn)練基于Tensor Flow的圖像分類模型，所得到的DeepVariant，最后可以區(qū)別真實序列數(shù)據(jù)和復(fù)制數(shù)據(jù)。

盡管DeepVariant根本不懂什么是基因組序列，也不懂HTS，但是只用了一年，就已經(jīng)贏得了PrecisionFDA Truth Challenge中的較高SNP性能獎（Highest SNP Performance）。而且到目前為止，把已有最優(yōu)異的方法拼接錯誤率降低了50%多。

在發(fā)布開源代碼的同時，Google Brain還發(fā)布Google Cloud上的DeepVarient工作流，方便開發(fā)者用它來處理大型數(shù)據(jù)集。

最后，附上相關(guān)鏈接：

Google Research Blog介紹：

https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

開源代碼：

https://github.com/google/deepvariant

Google Cloud版：

https://cloud.google.com/genomics/deepvariant

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器谷歌圖像識別開源開源圖像識別工具深度學(xué)習(xí)圖像識別深度學(xué)習(xí)色情圖像識別

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4683.html

發(fā)表評論

登陸后可評論

0條評論

raledong

男|高級講師

我要關(guān)注我要私信

TA的文章

力扣-----python兩數(shù)之和問題（超詳細(xì)，適合初學(xué)者）

閱讀 1616·2021-11-22 09:34
html2canvas在vue下的巨坑

閱讀 1698·2019-08-29 16:36
CSS2:寬度與高度疑難點解析

閱讀 2681·2019-08-29 15:43
瀏覽器緩存機(jī)制

閱讀 3125·2019-08-29 13:57
未知寬度水平居中的幾種方法

閱讀 1307·2019-08-28 18:05
whislte抓包

閱讀 1890·2019-08-26 18:26
setTimeout方法注意事項

閱讀 3257·2019-08-26 10:39
vue項目發(fā)布

閱讀 3469·2019-08-23 18:40

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

谷歌推出開源工具DeepVariant，用深度學(xué)習(xí)識別基因變異

相關(guān)文章

**TensorFlow發(fā)布機(jī)器學(xué)習(xí)框架TensorFlow.js**

PB 級數(shù)據(jù)處理挑戰(zhàn)，Kubernetes如何助力基因分析？

**亞馬遜推出三大機(jī)器學(xué)習(xí)云服務(wù)，AI成為云計算之戰(zhàn)天王山**

發(fā)表評論

0條評論

raledong

男|高級講師

TA的文章

力扣-----python兩數(shù)之和問題（超詳細(xì)，適合初學(xué)者）

html2canvas在vue下的巨坑

CSS2:寬度與高度疑難點解析

瀏覽器緩存機(jī)制

未知寬度水平居中的幾種方法

whislte抓包

setTimeout方法注意事項

vue項目發(fā)布

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

谷歌推出開源工具DeepVariant，用深度學(xué)習(xí)識別基因變異

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

谷歌推出開源工具DeepVariant，用深度學(xué)習(xí)識別基因變異