成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

三種技術(shù)的融合

ShevaKuilin / 2558人閱讀

摘要:搜索引擎技術(shù),分析數(shù)據(jù)庫技術(shù),分布式計算引擎技術(shù)這三股力量正在快速地彼此融合。目前從趨勢上來看風頭最火的是,最佳的組合是。

搜索引擎技術(shù),分析數(shù)據(jù)庫技術(shù),分布式計算引擎技術(shù)這三股力量正在快速地彼此融合。舉例證如下

Hive

Hive一開始只是用sql的方式描述map/reduce的邏輯,是一個典型的分布式計算引擎。這是分布式計算引擎向OLAP方向靠攏的第一步。

Hive+Index

Hive推出不久就被發(fā)現(xiàn),雖然用的SQL但是性能離數(shù)據(jù)庫還差很遠。很快就有人提出是不是要給Hive加上數(shù)據(jù)庫一樣的索引。這明顯就是分布式計算引擎向分析數(shù)據(jù)庫的方向靠攏。

Parquet

Parquet是一種列式文件,用于加速hive/impala這樣的分布式計算引擎的查詢速度。使用 parquet 加上了索引的 hive/impala/spark 這些已經(jīng)很難說與 OLAP 數(shù)據(jù)庫的差別是什么了。

Kylin/Presto

這些Hive的衍生物直接上來就是瞄著OLAP去的。各種sql on hadoop的方案。

Elasticsearch

另外一個方向的融合是搜索引擎技術(shù)快速地向OLAP融合。Elasticsearch公司更名為了Elastic,因為越來越多的人開始用Elasticsearch不是search,而是analytics,也就是跑SQL。
Elasticsearch底層的Lucene引入了DocValues之后,數(shù)據(jù)可以按列存儲(和parquet一樣),使得Elasticsearch幾乎可以當成一個列式數(shù)據(jù)庫來使用了。
另外Elasticsearch在Lucene的基礎(chǔ)上大幅加強了Aggregation的功能,利用其冗長但是強大的aggregation dsl可以表達出比SQL還要復雜的聚合邏輯。
騰訊的Hermes數(shù)據(jù)庫(http://data.qq.com/article?id=817)就是基于Lucene/Solr實現(xiàn)的分析型數(shù)據(jù)庫

Crate.io

因為Elasticsearch性能實在太出眾了,但是dsl接口不好使。有人拿Elasticsearch做為底層,上層封裝了一個SQL接口,從何正式變成了一種數(shù)據(jù)庫,叫 http://crate.io

Groonga

http://groonga.org/docs/characteristic.html
日本人寫了一個搜索引擎,而這個搜索引擎同時還可以作為mysql可插拔的存儲引擎使用,從而把mysql變成一種支持全文檢索的列式數(shù)據(jù)庫。

Spark on Elasticsearch/RDBMS

一個更加有趣的方向是Spark開始和OLAP數(shù)據(jù)庫和Elasticsearch勾搭在一起。利用把Elasticsearch查詢映射成Spark的RDD,可以把一條SQL的where部分放在Elasticsearch里分布式執(zhí)行(所謂filter push down優(yōu)化),然后把分布式的group by 和 projection 由Spark來完成。

融合

這三個技術(shù)各自有獨自看重的內(nèi)在實現(xiàn)方式
* 搜索引擎:重點是inverted index,索引的壓縮存儲和高效檢索
* 分析數(shù)據(jù)庫:重點是column oriented storage,利用列式存儲快速地在查詢時暴力掃描
* 分布式計算引擎:從一開始就是map reduce,關(guān)注的是分區(qū)和分布式執(zhí)行

實際上三家是從不同的角度切入了同一個問題。不過這已經(jīng)不是一招鮮的時代了。一個好的搜索引擎需要inverted index/column oriented storage/map reduce,三者都要。一個好的OLAP也是inverted index/column oriented storage/map reduce三個都要的。
目前從趨勢上來看風頭最火的是 Elasticsearch,最佳的組合是 Spark + Elasticsearch。
最科幻的未來組合是把Spark + Elasticsearch 做深度的整合,去掉 Elasticsearch 自己的分布式層,完全靠 Spark 做分布式計算。要是能再配備一個實時計算管道作為靈活的入庫渠道和物化視圖就更牛x了。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/17482.html

相關(guān)文章

  • 遲來但未遲到SD-WAN如何定義未來網(wǎng)絡

    摘要:兩個市場的領(lǐng)導者和大河云聯(lián)攜手共同推出全球首個混合云專線一體化產(chǎn)品,這也標志著由技術(shù)推動云網(wǎng)融合進入全新高度。此次發(fā)布的混合云專線一體化產(chǎn)品正是在混合云上的無縫融合,打通了混合云面向網(wǎng)絡的最后一公里。3月22日,對于快速增長的混合云市場和剛剛興起的SD-WAN市場來說,都是一個重要且具有紀念意義的日子。兩個市場的領(lǐng)導者ZStack和大河云聯(lián)攜手共同推出全球首個混合云+SDN專線一體化產(chǎn)品,這...

    hufeng 評論0 收藏0
  • 科普|物聯(lián)網(wǎng)和大數(shù)據(jù)、云計算之間關(guān)系

    摘要:在此文中,我們將討論物聯(lián)網(wǎng),大數(shù)據(jù)和云計算這三種技術(shù)之間的相互關(guān)系。其背后的原因是大量的物聯(lián)網(wǎng)數(shù)據(jù)生成將為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)。因此,對于上述兩點,我們明確認為需要為物聯(lián)網(wǎng)和大數(shù)據(jù)采用基于云的系統(tǒng)。我們現(xiàn)在的社會正在步入物聯(lián)網(wǎng)、大數(shù)據(jù)和云計算時代。這些技術(shù)中的每一個都會有瓶頸,例如可伸縮性差安全性問題以及傳統(tǒng)信息技術(shù)框架中的安裝困難,容錯、維護和性能低下。因此,我們需要利用這些技術(shù)中的每一種來...

    Tecode 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<