成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

產(chǎn)品與大數(shù)據(jù)中的“少即是多”

Tecode / 2011人閱讀

摘要:內(nèi)容中的少即是多除了設(shè)計,內(nèi)容上有時我們也追求少即是多。算法與數(shù)據(jù)中的少即是多我還是希望自己寫的東西有一點(diǎn)技術(shù)性,所以想在最后提提算法與數(shù)據(jù)中的少即是多概念。至此,我們得到一個更加干凈的小字典,但是少即是多,他的分詞效果非常好。

每天被形形色色的信息包圍著,看十幾條來自Facebook的消息,刷上百張Instagram的照片,快速跳過百來個Snapchat的故事,仔細(xì)閱讀一下Wechat的公眾號和朋友圈,睡前點(diǎn)開Zaker上有趣的新聞推薦讀一讀。接收到的信息越多,使用手機(jī)頻率越大,越明白“少即是多”這個話在設(shè)計,內(nèi)容以及算法數(shù)據(jù)上的重要。
其實(shí)這個文章我主要想記錄一個聽到的數(shù)據(jù)降噪的故事,想看的可以跳過前兩段。
設(shè)計中的少即是多
“少即是多”最早就在設(shè)計界被人提起,實(shí)體產(chǎn)品中有一個出名的例子就是無印良品。他們主打無標(biāo)示,少設(shè)計的家用產(chǎn)品,功能上全心解決生活痛點(diǎn)。正是他們對生活文化的理解,造就了市值7000億日元的品牌。
互聯(lián)網(wǎng)也充滿了“少即是多”的產(chǎn)品,Tinder有著像紙牌一樣的界面,每個界面上的功能都及其簡單,就像紙牌一樣一目了然。你可以把紙牌理解成一個個stories,在某些互聯(lián)網(wǎng)產(chǎn)品上進(jìn)化為newsfeed,但是傳統(tǒng)的紙牌模式比newsfeed更有助于你拋開干擾,快速的作出決定。
另一個最近常常談到的產(chǎn)品就是snapchat,每當(dāng)你看到視頻或圖片時都處于全屏狀態(tài),一方面可以說他們沒有Design,一方面也可以說他們有最簡單的Design。這種做法給他們帶來了極大的廣告完成率,因?yàn)橛脩艉茈y意識到的自己在看廣告。大屏幕的表現(xiàn)手法以及龐大的年輕人用戶群對電影,體育,游戲相關(guān)類的廣告有著很大的轉(zhuǎn)換率。

內(nèi)容中的少即是多
除了設(shè)計,內(nèi)容上有時我們也追求“少即是多”。多顯得雜,比如快手,內(nèi)容雖多但不值錢。少有時能體現(xiàn)品牌,比如米未,擁有《奇葩說》A輪融資20億。上億的節(jié)目點(diǎn)擊率和網(wǎng)絡(luò)口碑以外,還造就了240萬粉絲的馬薇薇,顏如晶等網(wǎng)絡(luò)名人。內(nèi)容營銷,有時在精不在多。

同時看看坐擁4.5億用戶的今日頭條,盡管活躍用戶不如某些門戶網(wǎng)站,但是用戶的流量消耗很大。他們所強(qiáng)調(diào)的精準(zhǔn)推送與無限刷新,讓你第一眼看到的內(nèi)容少而精。盡管因?yàn)樗麄兯惴ǖ牟蛔?,我已?jīng)把他們的app刪掉了,但還是不得不承認(rèn)他們獲得的成功。

算法與數(shù)據(jù)中的少即是多
我還是希望自己寫的東西有一點(diǎn)技術(shù)性,所以想在最后提提算法與數(shù)據(jù)中的“少即是多”概念。直白的說,算法上時間復(fù)雜度少,那么能處理的數(shù)據(jù)就多,數(shù)據(jù)中的噪音少,那么你從數(shù)據(jù)中提煉出來的規(guī)則就更加準(zhǔn)確。Quora上知名問題“你在工作中應(yīng)用機(jī)器學(xué)習(xí)學(xué)到的最重要的一課是什么”當(dāng)中提到重要一點(diǎn)就是確定你的數(shù)據(jù)是干凈并且高質(zhì)量的;大數(shù)據(jù)的性感充滿危險。
其實(shí)寫這個文章我主要是想記錄Google做CJK分詞的算法中降噪的例子。中文分詞最大的難處就是在于有歧義,就像Matrix67在他的“漫話中文分詞”文章中提到的“北京/大學(xué)生/前來/應(yīng)聘”有可能被理解為“北京大學(xué)/生前/來/應(yīng)聘”。目前CRF算法是公認(rèn)的最好算法,但實(shí)際效果也基于訓(xùn)練模型和數(shù)據(jù)。
通過最大化概率來分詞是最簡單的模型,假設(shè)我們知道每一個詞在網(wǎng)上的出現(xiàn)概率,P(北京)>P(北)*P(京),P(清華大學(xué))>P(清華)P(大學(xué)),那么我們可以通過最大化概率知道:
北京清華大學(xué)->北京/清華大學(xué)
可是簡單的最大化概率模型很難解決stopword對分詞產(chǎn)生的影響,比方說“的確定不下來”很容易被理解為“的/確定/不/下來”。所以Google采用了上下文關(guān)聯(lián)的統(tǒng)計模型,對于任意兩個詞語考慮他們一起出現(xiàn)的概率,比如比較P(確定|的)和P(定|的確)。
Google黑板報講了他們的算法,但是并沒有講他們?nèi)绾螌A繑?shù)據(jù)降噪。他們想到的方法非常簡單,那就是對原始數(shù)據(jù)分詞再分詞。
例如用戶輸入“王二小明白展堂”,這里我想表達(dá)“王二小明白展堂”。但因?yàn)椴⒉怀R姡悦總€詞語的上下關(guān)聯(lián)不大,很容易被拆分為“王二小明白展堂”。這是因?yàn)樵谖覀冇脕斫⒛P偷臄?shù)據(jù)當(dāng)中,每一次出現(xiàn)“王二小”都會使得“王二”的概率增大;每一次出現(xiàn)“小明”,“從小明白”都會使得“小明”的概率增大;而“白展堂”也是常見的詞語。
為了減小概率字典里的噪音,我們在生成第一個概率字典后,對原始數(shù)據(jù)進(jìn)行分詞并且計算新的概率字典。這時候“王二小”再也不是“王二”了,“從小明白”再也不是“從小”,“小明”和“明白”了。至此,我們得到一個更加干凈的小字典,但是“少即是多”,他的分詞效果非常好。
這個降噪的想法非常的簡單和直接,也許你不用拍腦袋都能想到,但是當(dāng)工作鉆入牛角尖時,你可能會忘了它。說了這么多“少即是多”,還是要提醒一下在使用時最好還是等有了大數(shù)據(jù)后再使用。當(dāng)你的數(shù)據(jù)量不夠大時,珍惜每一個數(shù)據(jù)點(diǎn)吧。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/125911.html

相關(guān)文章

  • 基于WEBGL架構(gòu)的3D可視化平臺—家居城3D展示

    摘要:本文將模擬一個歐派,讓大家足不出戶在家里就能更加直觀立體的挑選家具。創(chuàng)建廣告牌寬度高度深度寬度上的節(jié)數(shù)高度上的節(jié)數(shù)深度上的節(jié)數(shù)中心點(diǎn)家具展銷歐派這里給我們給整個場景用抽象物體圍起來了,以免第一人稱控件開啟時會造成無碰撞體系墜落出場景。 本文將模擬一個歐派,讓大家足不出戶在家里就能更加直觀立體的挑選家具。 第一步,利用CampusBuilder搭建模擬場景。CampusBuilder的模...

    libin19890520 評論0 收藏0
  • 干貨:構(gòu)建復(fù)雜的 Eloquent 搜索過濾

    摘要:最近,我需要在開發(fā)的事件管理系統(tǒng)中實(shí)現(xiàn)搜索功能。今天,我會介紹整個過程以及如何構(gòu)建靈活且可擴(kuò)展的搜索系統(tǒng)。這將是個挑戰(zhàn)前端的條件過濾的截圖。像剛剛的情況下搜索用戶時加上一個過濾器再返回搜索結(jié)果。 showImg(https://segmentfault.com/img/remote/1460000018654283?w=1680&h=494); 最近,我需要在開發(fā)的事件管理系統(tǒng)中實(shí)現(xiàn)搜...

    Shisui 評論0 收藏0
  • 《黑客與畫家》——設(shè)計者的品味

    摘要:設(shè)計者的品味現(xiàn)在流行相對主義,即認(rèn)為真理是相對的。優(yōu)秀設(shè)計的原則是許多學(xué)科的共同原則,一再反復(fù)地出現(xiàn)。好設(shè)計是永不過時的設(shè)計。好設(shè)計是解決主要問題的設(shè)計。好設(shè)計是模仿大自然的設(shè)計。好設(shè)計是成批出現(xiàn)的。好設(shè)計常常是大膽的設(shè)計。 9 設(shè)計者的品味 現(xiàn)在流行相對主義,即認(rèn)為真理是相對的。即使你已經(jīng)從小孩變成了成年人,這種觀點(diǎn)依然可能妨礙你思考品味。把品味說成個人的偏好可以有效地杜絕爭論,防止...

    邱勇 評論0 收藏0
  • 云計算技術(shù)給全球工業(yè)帶來深刻變革

    摘要:近日,在年云計算與大數(shù)據(jù)在智能工業(yè)中的發(fā)展及應(yīng)用高峰論壇上,與會專家認(rèn)為,信息技術(shù)和全球工業(yè)系統(tǒng)正在深入融合,給全球工業(yè)帶來深刻的變革,創(chuàng)新了工業(yè)企業(yè)的研發(fā)生產(chǎn)運(yùn)營營銷和管理方式?! 〗眨?016年云計算與大數(shù)據(jù)在智能工業(yè)中的發(fā)展及應(yīng)用高峰論壇上,與會專家認(rèn)為,信息技術(shù)和全球工業(yè)系統(tǒng)正在深入融合,給全球工業(yè)帶來深刻的變革,創(chuàng)新了工業(yè)企業(yè)的研發(fā)、生產(chǎn)、運(yùn)營、營銷和管理方式。  步入智能化綜...

    YJNldm 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<