摘要:前言的分詞給出第一個詞和第二個詞,考慮在某些文本中可能以形式出現(xiàn)的情況,其中緊隨出現(xiàn),緊隨出現(xiàn)。對于每種這樣的情況,將第三個詞添加到答案中,并返回答案。
前言
Weekly Contest 140的 Bigram 分詞:
解題思路給出第一個詞 first 和第二個詞 second,考慮在某些文本 text 中可能以 "first second third" 形式出現(xiàn)的情況,其中 second 緊隨 first 出現(xiàn),third 緊隨 second 出現(xiàn)。
對于每種這樣的情況,將第三個詞 "third" 添加到答案中,并返回答案。
示例1:
輸入:text = "alice is a good girl she is a good student", first = "a", second = "good" 輸出:["girl","student"]示例2:
輸入:text = "we will we will rock you", first = "we", second = "will" 輸出:["we","rock"]提示:
1 <= text.length <= 1000
text 由一些用空格分隔的單詞組成,每個單詞都由小寫英文字母組成
1 <= first.length, second.length <= 10
first 和 second 由小寫英文字母組成
本題需要注意以下兩點(diǎn):
first second third三個單詞是要連續(xù)出現(xiàn)的,例如
輸入:text = "alice is a good girl she is a really good student", first = "a", second = "good" 輸出:["girl"]
first second third三個單詞中的third可能是下一次循環(huán)的first,例如示例2
實(shí)現(xiàn)代碼/** * 5083. Bigram 分詞 * @param text * @param first * @param second * @return */ public String[] findOcurrences(String text, String first, String second) { // 按空格分割單詞 String[] words = text.split(" "); Listlist = new ArrayList<>(); // 匹配第一個單詞的索引 int firstIndex = -1; // 匹配第二個單詞的索引 int secondIndex = -1; for (int i = 0; i < words.length; i++) { String word = words[i]; if (firstIndex >= 0 && secondIndex > 0) { // 判斷前兩個單詞是否已經(jīng)匹配 firstIndex = -1; // 重置索引 secondIndex = -1; // 重置索引 list.add(word); } // 判斷是否為第二個單詞,判斷條件為 // 1. 當(dāng)前單詞與第二個單詞相同 // 2. 第一個單詞已經(jīng)匹配 // 3. 第二個單詞緊跟著第一個單詞之后出現(xiàn)(secondIndex = firstIndex+1) // 此處先判斷第二個單詞是為了處理第三個單詞為第一個單詞的情況 if (word.equals(second) && firstIndex >= 0 && firstIndex == i - 1) { secondIndex = i; continue; // 匹配則中斷當(dāng)前循環(huán) } else { // 第一個單詞已經(jīng)匹配,但是第二個單詞不匹配,重置第一個單詞的匹配結(jié)果 if (firstIndex >= 0) { firstIndex = -1; } } // 判斷是否為第一個單詞 // 1. 第一個單詞未匹配 // 2. 當(dāng)前單詞與第一個單詞相同 if (firstIndex < 0 && word.equals(first)) { firstIndex = i; continue; // 匹配則中斷當(dāng)前循環(huán) } } String[] result = new String[list.size()]; return list.toArray(result); }
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/74893.html
摘要:最初,它是以開源項(xiàng)目為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。填補(bǔ)了國內(nèi)中文分詞方面開源組件的空白,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。中文分詞追求分詞的高效率和用戶良好體驗(yàn)。 1:Elasticsearch的開源中文分詞器 IK Analysis(Star:2471) IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從文件系統(tǒng)中讀取...
摘要:分詞的算法中文分詞有難度,不過也有成熟的解決方案。例如通過人民日報(bào)訓(xùn)練的分詞系統(tǒng),在網(wǎng)絡(luò)玄幻小說上,分詞的效果就不會好。三的優(yōu)點(diǎn)是開源的,號稱是中,最好的中文分詞組件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 題圖:by Lucas Davies 一、前言 分詞,我想是大多數(shù)...
閱讀 2328·2021-11-24 10:33
閱讀 1392·2019-08-30 15:43
閱讀 3285·2019-08-29 17:24
閱讀 3495·2019-08-29 14:21
閱讀 2233·2019-08-29 13:59
閱讀 1746·2019-08-29 11:12
閱讀 2820·2019-08-28 18:00
閱讀 1859·2019-08-26 12:17