成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

如何快速實現(xiàn)高并發(fā)短文檢索

URLOS / 1499人閱讀

摘要:問龍哥,還有什么更好,更輕量級的方案么龍哥用樹,數(shù)據(jù)會膨脹文檔數(shù)標題長度這么多,標題越長,文檔數(shù)越多,內(nèi)存占用越大。

一、需求緣起
某并發(fā)量很大,數(shù)據(jù)量適中的業(yè)務(wù)線需要實現(xiàn)一個“標題檢索”的功能:
(1)并發(fā)量較大,每秒20w次
(2)數(shù)據(jù)量適中,大概200w數(shù)據(jù)
(3)是否需要分詞:是
(4)數(shù)據(jù)是否實時更新:否

二、常見潛在解決方案及優(yōu)劣
(1)數(shù)據(jù)庫搜索法
具體方法:將標題數(shù)據(jù)存放在數(shù)據(jù)庫中,使用like來檢索
優(yōu)點:方案簡單
缺點:不能實現(xiàn)分詞,并發(fā)量扛不住

(2)數(shù)據(jù)庫全文檢索法
具體方法:將標題數(shù)據(jù)存放在數(shù)據(jù)庫中,建立全文索引來檢索
優(yōu)點:方案簡單
缺點:并發(fā)量扛不住

(3)使用開源方案將索引外置
具體方法:搭建lucene,solr,ES等開源外置索引方案
優(yōu)點:性能比上面兩種好
缺點:并發(fā)量可能有風險,系統(tǒng)比較重,為一個簡單的業(yè)務(wù)搭建一套這樣的系統(tǒng)成本較高

三、58龍哥的建議
問1:龍哥,58同城第一屆編程大賽的題目好像是“黃反詞過濾”,你是冠軍,當時是用DAT來實現(xiàn)的么?
龍哥:是的
畫外音:什么是DAT?
普及:DAT是double array trie的縮寫,是trie樹的一個變體優(yōu)化數(shù)據(jù)結(jié)構(gòu),它在保證trie樹檢索效率的前提下,能大大減少內(nèi)存的使用,經(jīng)常用來解決檢索,信息過濾等問題。(具體大伙百度一下“DAT”)

問2:上面的業(yè)務(wù)場景可以使用DAT來實現(xiàn)么?
龍哥:DAT更新數(shù)據(jù)比較麻煩,不能增量

問3:那直接使用trie樹可以么?
龍哥:trie樹比較占內(nèi)存
畫外音:什么是trie樹?
普及:trie樹,又稱單詞查找樹,是一種樹形結(jié)構(gòu),是一種哈希樹的變種。典型應(yīng)用是用于統(tǒng)計,保存大量的字符串(但不僅限于字符串),所以經(jīng)常被搜索引擎系統(tǒng)用于文本詞頻統(tǒng)計。它的優(yōu)點是:利用字符串的公共前綴來減少查詢時間,最大限度地減少無謂的字符串比較,查詢效率比哈希樹高。(來源:百度百科)

例如:上面的trie樹就能夠表示{and, as, at, cn, com}這樣5個標題的集合。

問4:如果要支持分詞,多個分詞遍歷trie樹,還需要合并對吧?
龍哥:沒錯,每個分詞遍歷一次trie樹,可以得到doc_id的list,多個分詞得到的list合并,就是最終的結(jié)果。

問5:龍哥,還有什么更好,更輕量級的方案么?
龍哥:用trie樹,數(shù)據(jù)會膨脹文檔數(shù)*標題長度這么多,標題越長,文檔數(shù)越多,內(nèi)存占用越大。有個一個方案,內(nèi)存量很小,和標題長度無關(guān),非常帥氣。

問6:有相關(guān)文章么,推薦一篇?
龍哥:可能網(wǎng)上沒有,我簡單說一下吧,核心思想就是“內(nèi)存hash + ID list”
索引初始化步驟為:對所有標題進行分詞,以詞的hash為key,doc_id的集合為value
查詢的步驟為:對查詢詞進行分詞,對分詞進行hash,直接查詢hash表格,獲取doc_id的list,然后多個詞進行合并
=====例子=====
例如:
doc1 : 我愛北京
doc2 : 我愛到家
doc3 : 到家美好
先標題進行分詞:
doc1 : 我愛北京 -> 我,愛,北京
doc2 : 我愛到家 -> 我,愛,到家
doc3 : 到家美好 -> 到家,美好
對分詞進行hash,建立hash + ID list:
hash(我) -> {doc1, doc2}
hash(愛) -> {doc1, doc2}
hash(北京) -> {doc1}
hash(到家) -> {doc2, doc3}
hash(美好) -> {doc3}
這樣,所有標題的初始化就完畢了,你會發(fā)現(xiàn),數(shù)據(jù)量和標題的長度沒有關(guān)系。
用戶輸入“我愛”,分詞后變?yōu)閧我,愛},對各個分詞的hash進行內(nèi)存檢索
hash(我)->{doc1, doc2}
hash(愛)->{doc1, doc2}
然后進行合并,得到最后的查找結(jié)果是doc1+doc2。
=====例子END=====

問7:這個方法有什么優(yōu)點呢?
龍哥:存內(nèi)存操作,能滿足很大的并發(fā),時延也很低,占用內(nèi)存也不大,實現(xiàn)非常簡單快速

問8:有什么不足呢?和傳統(tǒng)搜索有什么區(qū)別咧?
龍哥:這是一個快速過度方案,因為索引本身沒有落地,還是需要在數(shù)據(jù)庫中存儲固化的標題數(shù)據(jù),如果不做高可用,數(shù)據(jù)恢復(fù)起來會比較慢。當然做高可用也是很容易的,建立兩份一樣的hash索引即可。另外,沒有做水平切分,但數(shù)據(jù)量非常非常非常大時,還是要做水平切分改進的。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/25917.html

相關(guān)文章

  • UCloud MongoDB 如何應(yīng)對考填志愿的上億流量

    摘要:優(yōu)志愿張海鵬宋體背景宋體每年月下旬到月下旬期間是高考填志愿的高峰期,也是優(yōu)志愿后端面臨大流量高并發(fā)請求的業(yè)務(wù)高峰期。對于優(yōu)志愿讀多寫少的場景及其業(yè)務(wù)高峰期,用戶可以按需增刪節(jié)點,更好地實現(xiàn)讀取性能的擴展。 隨著用戶規(guī)模的增長,數(shù)據(jù)庫的壓力也在成倍增加。面對大流量、高并發(fā),UCloud MongoDB 做到了高效,并展現(xiàn)出了更好的性能體驗。 —— 優(yōu)志愿 CTO 張海鵬 背景...

    cppprimer 評論0 收藏0
  • 人工智能幫助千萬用戶完成「隱形征信」計算

    摘要:量化派是一家數(shù)據(jù)驅(qū)動的科技金融公司,通過人工智能大數(shù)據(jù)機器學習等前沿技術(shù)提供消費信貸撮合及消費場景下的白條服務(wù),每年處理千萬級用戶信用及信用消費申請。 「小楊」最近裝修房子,準備去銀行貸款,但是聽說好多人會因為個人征信問題被銀行拒絕貸款!于是,他先查了一下自己的央行征信,發(fā)現(xiàn)竟然沒有自己的征信信息,「小楊」陷入了沉思,自己經(jīng)常在淘寶、jd 上買東西,也有淘寶花唄和京東白條,怎么會沒有征...

    Developer 評論0 收藏0
  • 服務(wù)端并發(fā)分布式架構(gòu)演進之路

    摘要:架構(gòu)演進單機架構(gòu)以淘寶作為例子。隨著用戶數(shù)的增長,并發(fā)讀寫數(shù)據(jù)庫成為瓶頸第二次演進引入本地緩存和分布式緩存在同服務(wù)器上或同中增加本地緩存,并在外部增加分布式緩存,緩存熱門商品信息或熱門商品的頁面等。 1. 概述 本文以淘寶作為例子,介紹從一百個并發(fā)到千萬級并發(fā)情況下服務(wù)端的架構(gòu)的演進過程,同時列舉出每個演進階段會遇到的相關(guān)技術(shù),讓大家對架構(gòu)的演進有一個整體的認知,文章最后匯總了一些架構(gòu)...

    FrancisSoung 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<