leetcode187. Repeated DNA Sequences

Noodles 發(fā)布于2019-08-16 10:58 / 2595人閱讀

摘要：題目要求所有的都是有這四個字母組成的，比如。這個問題要求我們在一個序列中找到出現(xiàn)超過兩次的長度為的子序列。因為個字母意味著每個字母至少需要位才能表示出來。因為每個字符串對應(yīng)的二進制長度為，小于整數(shù)的，因此是可行的。

題目要求

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". 
When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

For example,
Given s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT",

Return:
["AAAAACCCCC", "CCCCCAAAAA"].

所有的DNA都是有A,C,G,T這四個字母組成的，比如“ACGAATTCCG”。在研究DNA的時候，從DNA序列中找到重復(fù)出現(xiàn)的模式是很有用的。這個問題要求我們在一個DNA序列中找到出現(xiàn)超過兩次的長度為10的子序列。

比如，假設(shè)DNA序列為AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT，那么找到的滿足條件的子序列為["AAAAACCCCC", "CCCCCAAAAA"]

思路一：直接比較String

其實，我們只需要找到所有的長度為10的子序列并且判斷這些子序列是否存在重復(fù)就可以了。如果不考慮生成子字符串的過程，那么這個算法只需要遍歷一次字符串就可以完成了。
代碼如下：

    public List findRepeatedDnaSequences(String s) {
        //記錄不是第一次遍歷到的結(jié)果
        Set result = new HashSet();
        //記錄第一次遍歷到的結(jié)果
        Set visited = new HashSet();
        for(int i = 0 ; i(result);
    }

思路二：將String轉(zhuǎn)化為Integer

上一題的思路其實基本沒有問題，唯一的缺點是，一個長度為n的字符串能夠產(chǎn)生n-9個長度為10的子字符串。這n-9個子字符串所占用的空間將會遠遠超過n-9個整數(shù)所占用的空間。如果之間存儲字符串，那么很可能會造成內(nèi)存溢出。因此我們需要考慮將字符串轉(zhuǎn)化為整數(shù)并存儲。

其實如果是將26個字母全部轉(zhuǎn)化為整數(shù)，并用整數(shù)表示任意10個字母所組成的字符串是不可能的。因為26個字母意味著每個字母至少需要5位才能表示出來。比如00000代表A， 00001代表B。而10個字母意味著需要5*10=50位，而一個整形是32位。

而本題中，只有四個字母A，C，G和T，只需要兩位就可以表示這四個字母，分別是:
A----00----0
C----01----1
G----10----2
T----11----3

那么ACGAATTCCG對應(yīng)的二進制碼就是00 01 10 00 00 11 11 01 01 10, 再將這個二進制數(shù)轉(zhuǎn)換成對應(yīng)的十進制數(shù)。因為每個字符串對應(yīng)的二進制長度為20，小于整數(shù)的32，因此是可行的。

代碼如下：

    public List findRepeatedDnaSequences2(String s){
        
        List result = new ArrayList();
        Set firstTime = new HashSet();
        Set secondTime = new HashSet();

        //也可以使用hashmap，但是用數(shù)組的話可以很好的提升性能
        char[] map = new char[26];
        map["A"-"A"] = 0;//00
        map["C"-"A"] = 1;//01
        map["G"-"A"] = 2;//10
        map["T"-"A"] = 3;//11

        char[] sArray = s.toCharArray();
        for(int i = 0 ; i

想要了解更多開發(fā)技術(shù)，面試教程以及互聯(lián)網(wǎng)公司內(nèi)推，歡迎關(guān)注我的微信公眾號！將會不定期的發(fā)放福利哦~

GPU云服務(wù)器云服務(wù)器 Sequences Repeated cdn187 ca187

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/70814.html

發(fā)表評論

登陸后可評論

0條評論

Noodles

男|高級講師

我要關(guān)注我要私信

TA的文章

SSL證書是什么？SSL證書一般要多少錢？

閱讀 1067·2021-11-22 15:35
Arasaka：圣何塞高防VPS月付100元起,AS9929線路

閱讀 1703·2021-10-26 09:49
強強聯(lián)手：Pyston團隊宣布加入Anaconda！

閱讀 3244·2021-09-02 15:11
2018面試題總結(jié)（一）

閱讀 2092·2019-08-30 15:53
成長小筆記

閱讀 2644·2019-08-30 15:53
（實戰(zhàn)）多邊形，梯形盒陰影css實現(xiàn)技巧

閱讀 2940·2019-08-30 14:11
關(guān)于浮動float

閱讀 3539·2019-08-30 12:59
深入學(xué)習(xí)CSS布局系列（一）布局常用屬性

閱讀 3252·2019-08-30 12:53

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

leetcode187. Repeated DNA Sequences

相關(guān)文章

***187. Repeated* DNA *Sequences***

**[Leetcode] Repeated DNA Sequences 重復(fù)DNA序列**

Leetcode PHP題解--D4 961. N-Repeated Element in Size

**[LeetCode] 686. Repeated String Match**

**3。leetcode在2N的數(shù)組中找出N的沖服元素**

發(fā)表評論

0條評論

Noodles

男|高級講師

TA的文章

SSL證書是什么？SSL證書一般要多少錢？

Arasaka：圣何塞高防VPS月付100元起,AS9929線路

強強聯(lián)手：Pyston團隊宣布加入Anaconda！

2018面試題總結(jié)（一）

成長小筆記

（實戰(zhàn)）多邊形，梯形盒陰影css實現(xiàn)技巧

關(guān)于浮動float

深入學(xué)習(xí)CSS布局系列（一）布局常用屬性

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

leetcode187. Repeated DNA Sequences

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！