成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

6步搭建企業(yè)的數據倉庫

Gemini / 2927人閱讀

摘要:利益相關網易云打造的大數據平臺,能夠提供更好的建設方案,歡迎免費試用。網易有數則定位于敏捷數據可視化分析平臺,可便捷地嵌入企業(yè)經營的業(yè)務模塊,且面對不同客戶的需求提供定制化服務,數據分析效率最高提升。

歡迎訪問網易云社區(qū),了解更多網易技術產品運營經驗。

數據倉庫作為企業(yè)提供決策支持而構建的集成化數據環(huán)境,本身并不產生或者消費數據,基本架構包含的是數據流入流出的過程,首先放上一張數據倉庫的架構圖。數據倉庫作為中間集成化數據管理的一個平臺,底層有多種數據來源,流入數據倉庫之后對上層應用開放。

1、分析業(yè)務需求,確定數據倉庫主題

數據模型的創(chuàng)建依賴數據倉庫主題的確定,在搭建數據倉庫之前,首先就是要充分了解業(yè)務部門的問題需求,明確我們所要創(chuàng)建的數據倉庫真正可以解決的問題,在多次溝通的前提下,可以準確的確定系統(tǒng)能夠實現(xiàn)的功能。在這個過程中,基于雙方理解問題的不同,還需要我們對需求做出一些原型的演示,避免理解上的分歧。

需要做到包括:從業(yè)務方需求中提取出重要的業(yè)務數據主題,并對業(yè)務數據主題進行詳細的解釋;對提取出的業(yè)務數據主題進行主題域的劃分,并對主題域進行詳細的解釋;根據主題域的劃分,對內部的組織結構和業(yè)務關系細節(jié)化,構建出主題域的概念模型。

2、構建邏輯模型

在概念模型的基礎上,對其進行進一步的細化和分解,通過實體和實體之間的關系描述業(yè)務的需求和系統(tǒng)實現(xiàn)的技術領域。邏輯模型的構建在數據倉庫的實施中最為重要,是業(yè)務需求人員和技術人員進行溝通的橋梁和平臺,能夠直接反映業(yè)務部門實際的需求和對業(yè)務的規(guī)劃,同時對下面物理模型的構建也具有指導意義。邏輯模型通過實體與實體之間的關系勾勒出了整個業(yè)務部門的數據藍圖和規(guī)劃。

邏輯模型主要關注細節(jié)性的業(yè)務規(guī)則,同時也需要解決每個主題域包含的概念范疇和跨主題域的集成和共享問題,構建的步驟一般包括:分析需求,列出需要分析的主題,明確需求目標、維度指標、分析的指標、分析的方法、數據的來源以及需要關注的對象等;選擇用戶感興趣的數據,通過業(yè)務需求將需要分析的指標分離抽取出來,轉換為實體;在實體中增加時間戳屬性;考慮粒度層次的劃分,粒度決定了數據倉庫的實現(xiàn)方式、性能、靈活性以及數據倉庫的數據量;在粒度層次劃分的基礎上,進行關系模式的定義,關系模式一般采取第三范式的特點進行定義;同時在邏輯模型的基礎上對實體的屬性、屬性的值域等信息進行明確、完善和細化,保證真實的反映業(yè)務的邏輯關系和業(yè)務的規(guī)則。

3、邏輯模型轉換為物理模型

基于邏輯模型,接下來就是為應用環(huán)境選擇一個合適的物理結構,包括合適的存儲結構以及合適的存儲方法。將邏輯模型轉換為物理模型主要包括:實體名轉換為表名;屬性名轉換為列名,并且確定列的屬性;在物理模型的創(chuàng)建過程中,必須要對列的屬性進行明確,包括列名、數據類型、是否是空值以及長度等。確定物理模型之后,對于數據的存放位置和存儲空間的分配等也需要進行規(guī)劃。

4、數據源接入

在數據倉庫的建立之前,需采集底層多種數據源數據,明確數據源中的數據種類,采用合適的工具。比如,F(xiàn)lume NG作為實時日志收集系統(tǒng),支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據,同時,對數據進行簡單處理,并寫到各種數據接收方;NDC,Netease Data Canal,直譯為網易數據運河系統(tǒng),可以實現(xiàn)結構化數據庫的數據實時遷移;Sqoop可以將關系型數據庫中的數據導入到平臺中;Logstash作為開源的服務端數據處理管道,也可以輕松的將日志、WEB應用等數據采集到平臺中。

5、數據存儲清洗和轉換

對數據進行清洗和轉換,保證進入到數據倉庫中的數據的一致性。結合業(yè)務需求,采用合適的數據清洗轉換工具。

6、對接BI,數據展示

為業(yè)務部門選擇合適的工具實現(xiàn)對數據倉庫中的數據進行分析的目的,正確清晰的展現(xiàn)用戶的功能需求。

數據倉庫搭建成功之后,還需對其安全性、備份恢復等方面進行管理。

利益相關:網易云打造的大數據平臺,能夠提供更好的建設方案,歡迎免費試用。

網易猛犸是一個大數據應用開發(fā)與數據管理平臺,覆蓋了數據傳輸、計算及作業(yè)流調度等多個環(huán)節(jié),日處理數據量達到 PB 級。

網易有數則定位于敏捷數據可視化分析平臺,可便捷地嵌入企業(yè)經營的業(yè)務模塊,且面對不同客戶的需求提供定制化服務,數據分析效率最高提升80%。

文章來源: 網易云社區(qū)

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/25318.html

相關文章

  • 使用 Docker 搭建 GitLab

    摘要:作為互聯(lián)網工作者,相信對這個全球最大的同性交友網站一定不會陌生,使用的是目前如日中天的分布式版本控制系統(tǒng)。等這個狀態(tài)變成時則說明已經部署完成,可以訪問了。修改完成后,輸入命令使配置生效,然后重啟即可。 showImg(https://segmentfault.com/img/remote/1460000018991664); 作為互聯(lián)網工作者,相信對 GitHub 這個 全球最大的同性...

    JeOam 評論0 收藏0
  • centos7搭建docker私人倉庫(kubernetes)

    摘要:我們平時鏡像都是習慣于放在公共倉庫的,比如。但在企業(yè)里,我們經常會需要搭建公司自己的鏡像倉庫。這樣可以將數據持久化,當容器掛掉時鏡像不會丟失。下面會講解如何創(chuàng)建一個協(xié)議的高可用倉庫。于是我為集群添加了一個節(jié)點,來做集群的鏡像倉庫。 我們平時鏡像都是習慣于放在公共倉庫的,比如Dockerhub, Daocloud。但在企業(yè)里,我們經常會需要搭建公司自己的鏡像倉庫。 這篇文章講解如何用d...

    lovXin 評論0 收藏0

發(fā)表評論

0條評論

Gemini

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<