摘要:今晚做完了網(wǎng)易互娛數(shù)據(jù)挖掘?qū)嵙?xí)生的筆試題,雖然大部分的題目都不太記得了。采樣分為上采樣和下采樣。上采樣是把小眾類(lèi)復(fù)制多份下采樣是從大眾類(lèi)中剔除一些樣本,或者說(shuō)只從大眾類(lèi)中選取部分樣本。
今晚做完了網(wǎng)易互娛數(shù)據(jù)挖掘?qū)嵙?xí)生的筆試題,雖然大部分的題目都不太記得了。但是還是有一些印象比較深的坑需要填一下。比起騰訊和字條跳動(dòng)難度適中,不算很大,字節(jié)的筆試掛了。其實(shí)這次感覺(jué)自己做的也不是挺好哈哈哈。
1、題型筆試分為三部分:20道單選題 + 10道不定項(xiàng)選擇 + 2道編程題2、題目 選擇題
1. one-vs-rest
題目是讓選擇對(duì)用one-vs-rest思想進(jìn)行n分類(lèi),需要幾個(gè)分類(lèi)器。
一開(kāi)始還不知道原來(lái)one-vs-rest就是one-vs-all,但是后來(lái)排除了就剩下n個(gè)分類(lèi)器這個(gè)答案了。
one-vs-all(one-vs-rest):利用n個(gè)二分類(lèi)器完成n分類(lèi)的任務(wù)。
2.sigmoid、TaNh、ReLU
題目是選擇哪個(gè)函數(shù)有可能是輸出為-0.01的神經(jīng)網(wǎng)絡(luò)的激勵(lì)函數(shù)。
其實(shí)題目很簡(jiǎn)單利用函數(shù)的值域就能解出來(lái),但是利用這個(gè)機(jī)會(huì)去理一理這三個(gè)函數(shù)的區(qū)別吧。
神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)
3、bootstrap原理
題目是選擇boostrap的原理。主要是要學(xué)會(huì)區(qū)別與其他集成學(xué)習(xí)算法的原理。
bootstrap: 集成學(xué)習(xí)中的一個(gè)算法,是一種估計(jì)統(tǒng)計(jì)量的重采樣方法,從大小為n的原始訓(xùn)練數(shù)據(jù)集D中隨機(jī)選擇n個(gè)樣本點(diǎn)組成一個(gè)新的訓(xùn)練集,這個(gè)選擇過(guò)程獨(dú)立重復(fù)B次,然后用這B個(gè)數(shù)據(jù)集對(duì)模型統(tǒng)計(jì)量進(jìn)行估計(jì)(如均值、方差等)。由于原始數(shù)據(jù)集的大小就是n,所以這B個(gè)新的訓(xùn)練集中不可避免的會(huì)存在重復(fù)的樣本。
4、正負(fù)樣本不均衡的解決辦法
題目是用采樣方法去緩解正負(fù)樣本不均衡的解決辦法。
采樣分為上采樣(Oversampling)和下采樣(Undersampling)。
上采樣是把小眾類(lèi)復(fù)制多份;下采樣是從大眾類(lèi)中剔除一些樣本,或者說(shuō)只從大眾類(lèi)中選取部分樣本。
上采樣會(huì)把小眾樣本復(fù)制多份,一個(gè)點(diǎn)會(huì)在高維空間中反復(fù)出現(xiàn),這會(huì)導(dǎo)致一個(gè)問(wèn)題,那就是運(yùn)氣好就能分對(duì)很多點(diǎn),否則分錯(cuò)很多點(diǎn)。為了解決這一問(wèn)題,可以在每次生成新數(shù)據(jù)點(diǎn)時(shí)加入輕微的隨機(jī)擾動(dòng),經(jīng)驗(yàn)表明這種做法非常有效。
因?yàn)橄虏蓸訒?huì)丟失信息,如何減少信息的損失呢?
第一種方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采樣(放回采樣,這樣產(chǎn)生的訓(xùn)練集才相互獨(dú)立)產(chǎn)生多個(gè)不同的訓(xùn)練集,進(jìn)而訓(xùn)練多個(gè)不同的分類(lèi)器,通過(guò)組合多個(gè)分類(lèi)器的結(jié)果得到最終的結(jié)果。
第二種方法叫做BalanceCascade,利用增量訓(xùn)練的思想(Boosting):先通過(guò)一次下采樣產(chǎn)生訓(xùn)練集,訓(xùn)練一個(gè)分類(lèi)器,對(duì)于那些分類(lèi)正確的大眾樣本不放回,然后對(duì)這個(gè)更小的大眾樣本下采樣產(chǎn)生訓(xùn)練集,訓(xùn)練第二個(gè)分類(lèi)器,以此類(lèi)推,最終組合所有分類(lèi)器的結(jié)果得到最終結(jié)果。
第三種方法是利用KNN試圖挑選那些最具代表性的大眾樣本,叫做NearMiss。
5、至于剩下的題目也不太記得了,主要是一些關(guān)于p值還有零假設(shè)檢驗(yàn)的合理性。看來(lái)還是需要補(bǔ)一補(bǔ)統(tǒng)計(jì)學(xué)的知識(shí)。編程題
數(shù)據(jù)挖掘考的大題是編程題,同學(xué)數(shù)據(jù)分析考的是sql題。還好看了點(diǎn)往年的題型最近練習(xí)的側(cè)重點(diǎn)是編程,雖然說(shuō)sql語(yǔ)句以后也會(huì)考到,找個(gè)時(shí)間猛補(bǔ)吧。
1、排序題
題目描述不大記得了,主要是:給出一組數(shù)字,讓你從這組數(shù)中找出最長(zhǎng)的遞增數(shù)列長(zhǎng)度。
比如:
輸入:
10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18
輸出:
6
提示:
1、該遞增數(shù)列是 2, 3, 6, 7, 9, 101
2、該遞增數(shù)列在原數(shù)列中不一定是連續(xù)的。
我的第一時(shí)間想法就是先去重排序(去重是因?yàn)橄嗤臄?shù)字不算遞增,所以重復(fù)的數(shù)字不影響),然后就得到了已經(jīng)排序號(hào)的數(shù)列,但是這些數(shù)列是在原數(shù)列有排序的,所以只要判斷去重排序中的元素在原數(shù)列中的索引是否遞增就能找出答案。但是在實(shí)際通過(guò)樣例只有83.3%,搞不懂是不是漏了一些條件,明天去班里問(wèn)問(wèn)ACM大神吧。
data = [10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18] sortData = sorted(list(set(data))) count = 0 for i in range(1, len(sortData)): if data.index(sortData[i]) > data.index(sortData[i-1]): count += 1 print(count)
上課的時(shí)候問(wèn)了一下學(xué)過(guò)算法的同學(xué),說(shuō)我寫(xiě)的代碼不對(duì),只是湊巧達(dá)到了一些案例的標(biāo)準(zhǔn)。
這題用的方法是靜態(tài)規(guī)劃,目的是用dp[n]:以第n個(gè)數(shù)字結(jié)尾的上升序列的長(zhǎng)度。
data = [10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18] dp = [1 for i in data] for i in range(1,len(data)): for j in range(i): if data[i] > data[j]: dp[i] = max(dp[i], dp[j]+1) dp[i] = max(dp[i], 1) print(max(dp))
第二題稍微忘了題目了,等拿到真題再完整的更新一次吧。
把每一次筆試都當(dāng)作查漏補(bǔ)缺,加油。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43526.html
摘要:春招結(jié)果五月份了,春招已經(jīng)接近尾聲,因?yàn)榈搅酥芪逋砩蟿偤糜锌眨院?jiǎn)單地記錄一下自己的春招過(guò)程。我的春招從二月初一直持續(xù)到四月底,截止今天,已經(jīng)斬獲唯品會(huì)電商前端研發(fā)部大數(shù)據(jù)與威脅分析事業(yè)部京東精銳暑假實(shí)習(xí)生的騰訊的是早上打過(guò)來(lái)的。 春招結(jié)果 五月份了,春招已經(jīng)接近尾聲,因?yàn)榈搅酥芪逋砩蟿偤糜锌眨院?jiǎn)單地記錄一下自己的春招過(guò)程。我的春招從二月初一直持續(xù)到四月底,截止今天,已經(jīng)斬獲唯品...
摘要:具體的時(shí)間線從月中旬,我開(kāi)始關(guān)注牛客網(wǎng)的秋招內(nèi)推信息。直至十月中下旬結(jié)束秋招。之前也寫(xiě)過(guò)自己在廣州找實(shí)習(xí)的經(jīng)歷,那次把面試的過(guò)程都具體貼出來(lái)了。我今年就完美錯(cuò)過(guò)了春招實(shí)習(xí)經(jīng)歷。 前言 只有光頭才能變強(qiáng) 離上次發(fā)文章已經(jīng)快兩個(gè)月時(shí)間了,最近一直忙著秋招的事。今天是2018年10月22日,對(duì)于互聯(lián)網(wǎng)行業(yè)來(lái)說(shuō),秋招就基本結(jié)束了。我這邊的流程也走完了(不再筆試/面試了),所以來(lái)寫(xiě)寫(xiě)我的秋招經(jīng)歷...
摘要:面經(jīng)因?yàn)槲彝耆珱](méi)有面試經(jīng)驗(yàn),從來(lái)沒(méi)有經(jīng)歷過(guò)面試,于是想著在去這類(lèi)大公司面試之前先找成都的小公司練練手,積累點(diǎn)面試經(jīng)驗(yàn)。于是三月份開(kāi)始就有成都的小公司開(kāi)始約我面試。 前序 從我高考成績(jī)出來(lái)那一刻開(kāi)始,從我在高考志愿上填上計(jì)算機(jī)科學(xué)與技術(shù)這幾個(gè)當(dāng)時(shí)在心中堪稱(chēng)神圣的幾個(gè)字開(kāi)始,我就已經(jīng)把進(jìn)入中國(guó)互聯(lián)網(wǎng)最高殿堂BAT作為我整個(gè)大學(xué)奮斗的目標(biāo),哪怕我就讀的是一所位于內(nèi)陸的雙非一本大學(xué)我也認(rèn)為我能...
摘要:網(wǎng)易跨境電商考拉海購(gòu)在線筆試現(xiàn)場(chǎng)技術(shù)面面。如何看待校招面試招聘,對(duì)公司而言,是尋找勞動(dòng)力對(duì)員工而言,是尋找未來(lái)的同事。 如何準(zhǔn)備校招技術(shù)面試 標(biāo)簽 : 面試 [TOC] 2017 年互聯(lián)網(wǎng)校招已近尾聲,作為一個(gè)非 CS 專(zhuān)業(yè)的應(yīng)屆生,零 ACM 經(jīng)驗(yàn)、零期刊論文發(fā)表,我通過(guò)自己的努力和準(zhǔn)備,從找實(shí)習(xí)到校招一路運(yùn)氣不錯(cuò),面試全部通過(guò),謹(jǐn)以此文記錄我的校招感悟。 寫(xiě)在前面 寫(xiě)作動(dòng)機(jī) ...
摘要:拿到秋招的同學(xué),如確定入職需與用人單位簽署三方協(xié)議,以保證雙方的利益不受損失。當(dāng)然每個(gè)崗位所要求的側(cè)重點(diǎn)不同,但卻百變不離其宗。方法論要想達(dá)成某個(gè)目標(biāo)都有其特定的方法論,學(xué)習(xí)技術(shù)也不例外,掌握適當(dāng)?shù)膶W(xué)習(xí)方法才能事半功倍。 寫(xiě)在前面的話 筆者從17年的2月份開(kāi)始準(zhǔn)備春招,其中遇到不少坑,也意識(shí)到自己走過(guò)的彎路。故寫(xiě)了這篇文章總結(jié)一番,本文適合主動(dòng)學(xué)習(xí)的,對(duì)自己要學(xué)的課程不明確的,對(duì)面試有...
閱讀 3116·2023-04-25 16:50
閱讀 921·2021-11-25 09:43
閱讀 3533·2021-09-26 10:11
閱讀 2529·2019-08-26 13:28
閱讀 2542·2019-08-26 13:23
閱讀 2433·2019-08-26 11:53
閱讀 3577·2019-08-23 18:19
閱讀 3000·2019-08-23 16:27