摘要:過審是指最終審核通過的高質(zhì)量買家秀,加精是指商家認(rèn)可的買家秀,普通則是上述兩種情況以外的其他買家秀。
阿里妹導(dǎo)讀:提起買家秀和賣家秀,相信大家腦中會(huì)立刻浮現(xiàn)出諸多畫面。同一件衣服在不同人、光線、角度下,會(huì)呈現(xiàn)完全不同的狀態(tài)。運(yùn)營小二需從大量的買家秀中挑選出高質(zhì)量的圖片。如果單純靠人工來完成,工作量過于巨大。下面,我們看看如何使用算法,從海量圖片里找出高質(zhì)量內(nèi)容。
說到淘寶優(yōu)質(zhì)買家秀內(nèi)容挖掘,必須從買家秀和賣家秀說起。我們總是能在賣家秀和買家秀中找到強(qiáng)烈反差,比如這樣:
這樣:
又或者這樣:
買家秀和賣家秀對比這么一言難盡,那還怎么讓運(yùn)營小二們愉快地玩耍?出于運(yùn)營社區(qū)的需要,運(yùn)營的小二們得從當(dāng)前的買家秀中抽取出一批高質(zhì)量的內(nèi)容,作為社區(qū)的啟動(dòng)數(shù)據(jù)。
找到高質(zhì)量的買家秀有那么難嗎?就是這么難!這不,運(yùn)營的小二們碰到了以下幾個(gè)問題:
買家秀質(zhì)量良莠不齊
淘寶海量的買家秀無疑都很難入得了運(yùn)營小二們的法眼,以業(yè)務(wù)維度進(jìn)行篩選的買家秀,審核通過率普遍不足三成。這意味著,在海量的買家秀中,能被運(yùn)營小二們看對眼的,無疑是鳳毛麟角。
審核標(biāo)準(zhǔn)嚴(yán)苛
咨詢了運(yùn)營小二,他們要求圖片視頻必須要美觀,有調(diào)性,背景不凌亂,不得擋臉,光線充足,構(gòu)圖和諧,不得帶有明顯的廣告意圖,以及等等等等……
這么多要求,難怪挑不著!
審核工作量巨大
由于運(yùn)營小二們審核的買家秀中優(yōu)質(zhì)買家秀很少,不得不將大量的時(shí)間和精力花費(fèi)在了審核低質(zhì)量買家秀上。
有鑒于此,用機(jī)器幫助挖掘優(yōu)質(zhì)內(nèi)容刻不容緩。
優(yōu)質(zhì)內(nèi)容挖掘方案
優(yōu)質(zhì)內(nèi)容挖掘的整體方案如下:
全量UGC(User Generated Content)是指所有含圖或含視頻的買家秀。過審UGC是指最終審核通過的高質(zhì)量買家秀,加精UGC是指商家認(rèn)可的買家秀,普通UGC則是上述兩種情況以外的其他買家秀。
我們的核心目標(biāo)就是要挖掘出豐富而多樣的優(yōu)質(zhì)UGC。
UGC質(zhì)量評估模型
運(yùn)營人員在審核買家秀時(shí),通過綜合判斷買家秀的圖片質(zhì)量和文本內(nèi)容等方面的因素,來決定是否審核通過。這促使我們直觀地將將問題轉(zhuǎn)化為一個(gè)分類問題。
1、特征的選擇
我們首先采用了UGC的用戶特征、商品特征和反饋特征等統(tǒng)計(jì)特征(詳見下表),通過GBDT模型來預(yù)估UGC的內(nèi)容質(zhì)量,并初步驗(yàn)證了將UGC質(zhì)量評估任務(wù)轉(zhuǎn)化為分類問題是可行的。
2、分類問題的轉(zhuǎn)化
一個(gè)非常直觀地感受是,將審核通過的數(shù)據(jù)標(biāo)記為1,審核未通過的數(shù)據(jù)標(biāo)記為0,將問題轉(zhuǎn)化為二分類問題。但在實(shí)際訓(xùn)練中,我們發(fā)現(xiàn),將審核通過的數(shù)據(jù)標(biāo)記為2,將運(yùn)營審核未通過(商家已加精)的數(shù)據(jù)標(biāo)記為1,將商家未加精的數(shù)據(jù)標(biāo)記為0,把問題轉(zhuǎn)為三分類問題比把問題轉(zhuǎn)化為二分類問題得到了更好的效果。原因在于,審核人員在原來的鏈路中只審核了商家加精的數(shù)據(jù),在此基礎(chǔ)上審核通過與否;而為數(shù)眾多的商家未加精的數(shù)據(jù)沒有審核到,因此三分類更貼近于真實(shí)場景,因此表現(xiàn)更佳。
通過GBDT模型的訓(xùn)練,在全量UGC數(shù)據(jù)中進(jìn)行預(yù)測,挖掘出了約400萬優(yōu)質(zhì)UGC。自查后發(fā)現(xiàn),這一批數(shù)據(jù)能挖掘出部分優(yōu)質(zhì)UGC,準(zhǔn)確率在50%左右,缺點(diǎn)在于圖片質(zhì)量往往不夠美觀(即使較為貼近用戶的生活場景)。
3、圖片語義特征的引入
在與業(yè)務(wù)同學(xué)的交流過程中,我們發(fā)現(xiàn),業(yè)務(wù)同學(xué)需要極高質(zhì)量的UGC內(nèi)容,以便營造出良好的社區(qū)氛圍,讓用戶在洋蔥圈中找到對于美好生活的向往,其核心標(biāo)準(zhǔn)就是寧缺毋濫。在充分理解了業(yè)務(wù)同學(xué)的要求,拿到圖片數(shù)據(jù)后,對于圖片質(zhì)量的評估勢在必行。
一個(gè)較為直觀的方案就是,通過CNN模型訓(xùn)練,進(jìn)行圖片質(zhì)量的評估。
增加圖像特征后,通過對ImageNet預(yù)訓(xùn)練的ResNet50進(jìn)行fine-tuning,模型表現(xiàn)有了極大提升,與原有鏈路相比,審核通過率提升了100%以上。
其中含小姐姐的UGC業(yè)務(wù)同學(xué)的認(rèn)可程度較高(小姐姐們更樂意曬單,更樂意發(fā)買家秀,質(zhì)量也更高),而針對不含小姐姐的長尾類目,業(yè)務(wù)同學(xué)認(rèn)為主要存在圖片無美感和圖片不相關(guān)兩類問題。
圖片無美感的問題主要是由于,CNN更擅長捕捉圖片的語義信息,而對于美學(xué)信息不敏感。
4、美學(xué)特征的引入
在圖片美感方面,目前有一份較為優(yōu)秀的數(shù)據(jù)集——AVA Database(A Large-Scale Databasefor Aesthetic Visual Analysis, 參見 Perronnin F ,Marchesotti L , Murray N . AVA: A large-scale database for aesthetic visualanalysis[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society, 2012.)。
AVA Database是一個(gè)美學(xué)相關(guān)的數(shù)據(jù)庫,包含25萬余張圖片,每張圖片包含語義標(biāo)注(如自然風(fēng)光、天空等)、圖片風(fēng)格標(biāo)注(如互補(bǔ)色、雙色調(diào)等)和圖片美感評分(由數(shù)十到數(shù)百人評出1-10分)。
在 Zhangyang Wang, Shiyu Chang, Florin Dolcos, Diane Beck, DingLiu, and Thomas S. Huang. 2016. Brain-Inspired Deep Networks for ImageAesthetics Assessment. Michigan Law Review 52, 1 (2016) 一文中提出了Brain-inspired Deep Network,其網(wǎng)絡(luò)結(jié)構(gòu)如下:
其核心思想是,通過AVA數(shù)據(jù)集提供的圖片風(fēng)格標(biāo)簽,學(xué)習(xí)圖片風(fēng)格的隱藏層特征,將圖片風(fēng)格的隱藏層特征和圖片經(jīng)過HSV變換后的特征結(jié)合起來,以AVA數(shù)據(jù)集提供的圖片美感分為監(jiān)督,學(xué)習(xí)圖片的美感特征。
在此基礎(chǔ)上,最終在UGC質(zhì)量審核模型中采用下述結(jié)構(gòu)評判UGC的質(zhì)量:
以AVA數(shù)據(jù)集提供的圖片風(fēng)格標(biāo)簽和美感評分進(jìn)行預(yù)訓(xùn)練,通過Brain-inspiredDeep Network提取圖片的美感特征;通過ResNet提取圖片的語義特征;通過深度模型刻畫統(tǒng)計(jì)特征;最后將三種特征拼接起來綜合預(yù)測UGC的質(zhì)量。
引入美學(xué)特征后,驗(yàn)證集上模型的準(zhǔn)確率、召回率和F1值均得到了提升,ABTest顯示,與原有模型相比,審核通過率提升6%以上。
臟數(shù)據(jù)處理
除了業(yè)務(wù)同學(xué)提出的問題,在自查過程中,發(fā)現(xiàn)目前挖掘出來的UGC內(nèi)容中仍有以下臟數(shù)據(jù):
1、評論傾向判定
針對差評UGC,利用現(xiàn)有的組件進(jìn)行情感分析,發(fā)現(xiàn)并不能很好地挖掘出差評評論,容易誤傷。基于此,取過審UGC的評論和UGC中的差評進(jìn)行訓(xùn)練,在驗(yàn)證集上F1值高于0.9,但由于實(shí)際預(yù)測的數(shù)據(jù)不同(忽視了中評等),導(dǎo)致容易誤判(如將商品名稱等判斷為差評)。在此基礎(chǔ)上取過審UGC的評論、UGC好評、中評、差評分為四檔進(jìn)行訓(xùn)練,在驗(yàn)證集上F1值稍低,但由于訓(xùn)練數(shù)據(jù)更貼近于真實(shí)場景,在實(shí)際預(yù)測中效果更好;目前基本解決了差評UGC的問題,實(shí)際自查過程中,沒有再看見差評UGC。
在實(shí)際的模型選擇上,Attn-BiLSTM(帶attention的雙向LSTM)效果好于TextCNN(F1score約相差3%),分析原因在于:TextCNN的優(yōu)勢主要在于捕捉局部特征,而很多文本雖然含有吐槽性段落(如批評物流慢等),但整體仍然是對賣家商品的肯定。
2、N-Gram過濾
針對套路評價(jià)UGC,通過全局比較UGC的文本內(nèi)容,將被多名用戶重復(fù)使用的模板UGC過濾掉。
針對重復(fù)評價(jià)UGC,通過判斷UGC文本內(nèi)容中重復(fù)的2-gram、3-gram、4-gram,結(jié)合文本長度和文本信息熵進(jìn)行過濾。
3、OCR及圖像Hash過濾
針對牛皮蘚圖片,一部分采用了OCR識(shí)別和牛皮蘚識(shí)別進(jìn)行過濾。
針對盜圖、網(wǎng)圖UGC,將圖片表示為哈希值,通過全局判斷哈希值在不同買家、不同賣家間的重復(fù)次數(shù),進(jìn)行過濾。在過濾此項(xiàng)的過程中,我們也發(fā)現(xiàn),買家秀中盜圖、網(wǎng)絡(luò)圖的現(xiàn)象較為普遍,很多肉眼看似原創(chuàng)的內(nèi)容也涉及盜圖和網(wǎng)圖;此項(xiàng)過濾掉了大多數(shù)的UGC。
無關(guān)圖識(shí)別
解決了上述問題后,仍然較為顯著的問題是無關(guān)圖的問題。
無關(guān)圖的出現(xiàn)原因較為復(fù)雜,表現(xiàn)類型也非常多樣;既有上述提到的盜圖和網(wǎng)絡(luò)圖,也有用戶隨手拍的風(fēng)景圖,還包括動(dòng)漫截圖等各式各樣和商品無關(guān)的圖片。
一方面,無關(guān)圖以盜圖、表情包、網(wǎng)絡(luò)圖等為主,通過哈希值過濾,能夠過濾掉一批無關(guān)圖;另一方面,即使過濾以后,預(yù)估仍然存在10%-15%左右的無關(guān)圖。這部分無關(guān)圖的解決較為復(fù)雜。
目前所采用的方案是,將盜圖、表情包、網(wǎng)絡(luò)圖等重復(fù)圖片作為負(fù)樣本,將過審UGC圖片作為正樣本,通過ResNet提取圖片特征,將類目通過embedding作為類目特征,將用戶行為(發(fā)表重復(fù)圖的數(shù)量和比例)作為用戶特征,判斷該UGC的圖片是否是無關(guān)圖。
就這樣,大家終于又能愉快地欣賞美美的買家秀了~~
劃重點(diǎn)
在此分享一些心得體會(huì),希望能對大家有幫助:
數(shù)據(jù)強(qiáng)于特征,特征強(qiáng)于模型;貼近真實(shí)場景的數(shù)據(jù)對提升任務(wù)表現(xiàn)貢獻(xiàn)巨大;
如果確實(shí)缺乏數(shù)據(jù),不妨嘗試快速標(biāo)注數(shù)千條數(shù)據(jù),可能取得超出預(yù)期的效果;
對ImageNet等數(shù)據(jù)集預(yù)訓(xùn)練的模型進(jìn)行fine-tuning可以在小數(shù)據(jù)集往往能取得更好的問題;
通過圖像翻轉(zhuǎn)、旋轉(zhuǎn)、隨機(jī)裁剪等方法進(jìn)行數(shù)據(jù)增強(qiáng),可以提升模型泛化能力。
閱讀原文
本文來自云棲社區(qū)合作伙伴“?阿里技術(shù)”,如需轉(zhuǎn)載請聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19950.html
摘要:為啥你天天刷抖音一點(diǎn)都不煩,因?yàn)槟阌X得視頻好看你有興趣啊。比如我們說你玩是不是要開始搭建一個(gè)自己的網(wǎng)站,是不是可以自己寫一個(gè)小的腳本來自動(dòng)發(fā)消息給你的女朋友等等,通過這樣的小例子來慢慢的培養(yǎng)自己的學(xué)習(xí)的興趣。學(xué)習(xí),切勿貪快貪多。 大家好,我是菜鳥哥! 周末啦,跟大家聊一下我們粉絲團(tuán)的情況...
摘要:好快好便宜,在月日舉辦的英偉達(dá)技術(shù)大會(huì)上,英偉達(dá)創(chuàng)始人黃仁勛,用中文一個(gè)勁重復(fù)夸贊搭載了的百度云。目前,百度云已深入鋼鐵安防金融媒體等領(lǐng)域,助力百度在國民經(jīng)濟(jì)三大產(chǎn)業(yè)大行業(yè)推進(jìn)落地應(yīng)用。 好快、好便宜,在11月21日舉辦的英偉達(dá)GPU技術(shù)大會(huì)(GTC China 2018)上,英偉達(dá)創(chuàng)始人黃仁勛,用中文一個(gè)勁重復(fù)夸贊搭載了T4 GPU的百度云。showImg(https://segme...
摘要:月日,阿里巴巴集團(tuán)宣布全資收購中國大陸唯一的自主嵌入式公司中天微系統(tǒng)有限公司,月日,在云棲大會(huì)南京峰會(huì)上阿里云就自信的展示了自主研發(fā)的核心技術(shù)。大會(huì)上,阿里云副總裁李津就表示中國只有兩種云,一種是拿來主義的云,一種是自主可控的飛天云。中興制裁事件后,國產(chǎn)芯片就成為最近高熱詞匯,半導(dǎo)體行業(yè)也取代共享經(jīng)濟(jì),成為今年民間投資的風(fēng)口。4月20日,阿里巴巴集團(tuán)宣布全資收購中國大陸唯一的自主嵌入式CPU...
OpenAI昨日發(fā)布了全新的小型AI模型GPT-4o mini,這一模型在性能和成本效益方面都取得了重大突破,Sam Altman驚呼:通往智能的成本,已變得如此低廉。性能與成本的完美平衡GPT-4o mini在性能上顯著超越了其前身GPT-3.5 Turbo,同時(shí)將成本降低了60%以上。每百萬個(gè)輸入token的價(jià)格僅為15美分,輸出token為60美分。對比Claude 3和Gemini 成本明...
閱讀 1466·2021-09-02 13:57
閱讀 1881·2019-08-30 15:55
閱讀 2419·2019-08-30 15:54
閱讀 2259·2019-08-30 15:44
閱讀 2741·2019-08-30 13:18
閱讀 491·2019-08-30 13:02
閱讀 660·2019-08-29 18:46
閱讀 1673·2019-08-29 11:25