回答:這個(gè)太范化了吧。大數(shù)據(jù)架構(gòu)選擇的方案就有很多,海量數(shù)據(jù)的即席查詢本省就是業(yè)內(nèi)目前的痛點(diǎn),暫時(shí)沒有太好的解決方案,kylin等框架也只是一個(gè)折中方案,如果你不是要求海量數(shù)據(jù)分析的秒級響應(yīng)的話sparkSql、presto等都是不錯(cuò)的方案,分鐘級別可以返回。
回答:隨著大數(shù)據(jù)應(yīng)用的逐漸落地,很多人都想從事大數(shù)據(jù)方面的工作,這其中自然就有很多非大數(shù)據(jù)相關(guān)專業(yè)(數(shù)學(xué)、計(jì)算機(jī)、統(tǒng)計(jì)學(xué))的從業(yè)者,那么大數(shù)據(jù)到底能不能從零基礎(chǔ)開始學(xué)呢?答案是肯定的,但是也要根據(jù)自身的知識結(jié)構(gòu)來選擇大數(shù)據(jù)的學(xué)習(xí)方向。大數(shù)據(jù)技術(shù)體系在2016年的時(shí)候已經(jīng)趨于成熟,目前正處在落地應(yīng)用的階段,大數(shù)據(jù)的細(xì)分崗位比較多,自然也就需要具備不同的知識結(jié)構(gòu)。大數(shù)據(jù)的崗位集中在數(shù)據(jù)采集、整理、存儲、分析...
回答:數(shù)據(jù)庫開發(fā)工程和大數(shù)據(jù)開發(fā)嚴(yán)格意義上來說不算轉(zhuǎn)行,從技術(shù)層面來講大數(shù)據(jù)開發(fā)需要更深層的技術(shù)基礎(chǔ)和更廣的架構(gòu)思路,也其說轉(zhuǎn)行不如說是對自身職業(yè)的一個(gè)飛躍。數(shù)據(jù)庫開發(fā)工程對于基本的數(shù)據(jù)庫開發(fā)比如說SQL的熟練,表結(jié)構(gòu)的分析,數(shù)據(jù)庫編程的掌握,數(shù)據(jù)庫的運(yùn)維,這都是數(shù)據(jù)庫開發(fā)工程師的天然優(yōu)勢和技術(shù)積累,如果要上升到大數(shù)據(jù)開發(fā)顯示是比小白更具優(yōu)勢,向大數(shù)據(jù)庫開發(fā)提升,建議從以下幾方面著手:1.從技術(shù)上要學(xué)習(xí)...
回答:在大數(shù)據(jù)領(lǐng)域大概有四個(gè)大的工作方向,除了大數(shù)據(jù)平臺應(yīng)用及開發(fā)、大數(shù)據(jù)分析與應(yīng)用和大數(shù)據(jù)平臺集成與運(yùn)維之外,還有大數(shù)據(jù)平臺架構(gòu)與研發(fā),除了以上四個(gè)大的工作方向之外,還有一個(gè)工作方向是大數(shù)據(jù)技術(shù)推廣和培訓(xùn),這部分工作目前也有不少人在從事。大數(shù)據(jù)平臺架構(gòu)與研發(fā)主要的工作內(nèi)容是研發(fā)底層的大數(shù)據(jù)平臺,這部分工作的難度較高,從事這部分工作的研發(fā)級崗位也并不多。現(xiàn)在不少技術(shù)研發(fā)團(tuán)隊(duì)都以Hadoop、Spark平...
回答:是的。一方面,大數(shù)據(jù)計(jì)算通常不能在內(nèi)存中完成,需要多次讀寫硬盤數(shù)據(jù)。另一方面,數(shù)據(jù)分布在不同的機(jī)器上,需要對數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)傳輸。因此,大數(shù)據(jù)運(yùn)算更多的時(shí)間是在讀寫磁盤和網(wǎng)絡(luò)傳輸數(shù)據(jù)。因?yàn)閿?shù)據(jù)I/O的效率通常低于CPU運(yùn)算效率。因此,對讀寫同一張表的多個(gè)SQL進(jìn)行合并,可以減少本地磁盤讀寫次數(shù),以及網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù),從而提高程序運(yùn)行效率。
回答:誠邀回答,下面我來說說我的個(gè)人觀點(diǎn):隨著大數(shù)據(jù)的熱度不斷升溫、技術(shù)日趨成熟,應(yīng)用越來越廣泛,很多人都看好大數(shù)據(jù)未來的發(fā)展前景。這其中不乏大量Java開發(fā)崗位轉(zhuǎn)大數(shù)據(jù)方向的程序員。究竟是堅(jiān)守java崗還是去做大數(shù)據(jù)?我認(rèn)為最重要的還是要結(jié)合個(gè)人的職業(yè)發(fā)展來定位。并不是大數(shù)據(jù)火了,轉(zhuǎn)行做大數(shù)據(jù)就業(yè)前景就更可觀,個(gè)人能力、與企業(yè)技能要求的匹配度、市場競爭環(huán)境、行業(yè)人才需求及機(jī)遇等都會左右我們最終的職業(yè)走...
...統(tǒng),可以多達(dá)幾萬臺機(jī)器甚至更多。 Hadoop最初主要包含分布式文件系統(tǒng)HDFS和計(jì)算框架MapReduce兩部分,是從Nutch中獨(dú)立出來的項(xiàng)目。在2.0版本中,又把資源管理和任務(wù)調(diào)度功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce...
...實(shí)驗(yàn)架構(gòu)圖 搜索引擎架構(gòu)在OpenSearch之上,是一個(gè)典型的分布式在線實(shí)時(shí)交互查詢架構(gòu),無單點(diǎn)故障,高伸縮、高可用,免運(yùn)維,低成本。對大量信息的索引與搜索都可以在近乎實(shí)時(shí)的情況下完成,能夠快速實(shí)時(shí)搜索數(shù)十億的文...
...實(shí)驗(yàn)架構(gòu)圖 搜索引擎架構(gòu)在OpenSearch之上,是一個(gè)典型的分布式在線實(shí)時(shí)交互查詢架構(gòu),無單點(diǎn)故障,高伸縮、高可用,免運(yùn)維,低成本。對大量信息的索引與搜索都可以在近乎實(shí)時(shí)的情況下完成,能夠快速實(shí)時(shí)搜索數(shù)十億的文...
...10倍以上的開發(fā)效率的提升。? DKH的SQL版本,還提供了分布式MySQL的集成,傳統(tǒng)的信息系統(tǒng),可無縫的實(shí)現(xiàn)面向大數(shù)據(jù)和分布式的跨越。 DKH標(biāo)準(zhǔn)平臺技術(shù)構(gòu)架圖
...和數(shù)據(jù)處理與分析層,由此可概括的兩大核心技術(shù): ① 分布式存儲 解決海量數(shù)據(jù)的存儲問題 一臺機(jī)器無法存儲,我們就借助集群進(jìn)行分布式存儲 ② 分布式處理 解決海量數(shù)據(jù)的處理問題 一臺機(jī)器無法高效完成數(shù)據(jù)處理,...
...筆記》 《我要進(jìn)大廠系列之面試圣經(jīng)》 《億級流量下的分布式解決方案》 《深入淺出Java23種設(shè)計(jì)模式》 《Java8新特性教程》 《跟冰河學(xué)習(xí)分布式存儲技術(shù)》 《跟冰河學(xué)習(xí)Nginx技術(shù)》 《跟冰河學(xué)習(xí)互聯(lián)網(wǎng)工程技術(shù)》 架構(gòu)類 《...
...析這兩個(gè)層面。 1.4.2兩大核心技術(shù) 兩大核心技術(shù)指的是分布式存儲、分布式處理。 分布式存儲:解決海量數(shù)據(jù)的存儲問題。單機(jī)無法存儲海量數(shù)據(jù)時(shí),就借助集群進(jìn)行分布式存儲。 分布式處理:解決海量數(shù)據(jù)的處理問題。單...
...負(fù)責(zé)人,還是Spark的早期研究者和布道者,并且一直從事分布式計(jì)算和機(jī)器學(xué)習(xí)領(lǐng)域的開發(fā)工作。能否結(jié)合您的工作經(jīng)歷,為我們介紹一下通用大數(shù)據(jù)平臺到專用機(jī)器學(xué)習(xí)平臺的演進(jìn)歷程?是什么推動(dòng)了這一轉(zhuǎn)變?您認(rèn)為將來大...
ChatGPT和Sora等AI大模型應(yīng)用,將AI大模型和算力需求的熱度不斷帶上新的臺階。哪里可以獲得...
大模型的訓(xùn)練用4090是不合適的,但推理(inference/serving)用4090不能說合適,...
圖示為GPU性能排行榜,我們可以看到所有GPU的原始相關(guān)性能圖表。同時(shí)根據(jù)訓(xùn)練、推理能力由高到低做了...