成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Mongdb中常用的數(shù)據(jù)清洗

lbool / 2470人閱讀

摘要:解決方案查詢重復(fù)數(shù)據(jù)刪除重復(fù)數(shù)據(jù)去除重復(fù)組的第一個(gè)元數(shù)據(jù),得到除第一個(gè)之外的其他元組刪除這些重復(fù)的數(shù)據(jù)刪除重復(fù)數(shù)據(jù)版本復(fù)制里的數(shù)據(jù)到另一個(gè)中過(guò)濾重復(fù)字段并統(tǒng)計(jì)總記錄數(shù)添加過(guò)濾條件

前言

分享一些Mongdb常用的數(shù)據(jù)清洗方式

注:"Exceeded memory limit for $group, but didn"t allow external sort. Pass allowDiskUse:true to opt in." 原因與解決:

原因

  大數(shù)據(jù)計(jì)算、數(shù)據(jù)統(tǒng)計(jì)時(shí),每個(gè)計(jì)算任務(wù)(job或task)都會(huì)使用獨(dú)立有限的內(nèi)存空間,mongodb沒(méi)有提供復(fù)雜的內(nèi)存分配模型(任務(wù)調(diào)度算法),僅限定每個(gè)stage最多使用100M內(nèi)存,如果超過(guò)此值將終止計(jì)算并返回error;為了支持較大數(shù)據(jù)集合的處理,我們可以指定“allowDiskUse”參數(shù)將“溢出”的數(shù)據(jù)寫入本地的臨時(shí)文件中(臨時(shí)的collection),這個(gè)參數(shù)我們通常需要設(shè)定為true。

解決方案:

{allowDiskUse:true}
查詢重復(fù)數(shù)據(jù)
db.feedImg_all.aggregate([
    {
        $group: { _id: {"mvid": "$mvid","feed_id":"$feed_id"},count: {$sum: 1},dups: {$addToSet: "$_id"}}
    },
    {
        $match: {count: {$gt: 1}}
    }
],{allowDiskUse:true})
刪除重復(fù)數(shù)據(jù)
db.xiuxiu_all.aggregate([
    {
        $group: { _id: {"mvid": "$mvid","feed_id":"$feed_id"},count: {$sum: 1},dups: {$addToSet: "$_id"}}
    },
    {
        $match: {count: {$gt: 1}}
    }
],{allowDiskUse:true}).forEach(function(doc){
    doc.dups.shift();                       // 去除重復(fù)組的第一個(gè)元數(shù)據(jù)_id,得到除第一個(gè)之外的其他元組
    db.xiuxiu_all.remove({_id: {$in: doc.dups}}); // remove()刪除這些重復(fù)的數(shù)據(jù)
})
刪除重復(fù)數(shù)據(jù)(python版本)
# -*- coding:utf-8 -*-
import pymongo
from pymongo import DeleteOne
"""
@author: lcx
@time: 2018/11/15
@desc:

"""

pipeline = [
    {
        "$group": {
            "_id": {"mvid": "$mvid", "feed_id": "$feed_id"},
            "count": {"$sum": 1},
            "dups": {
                "$addToSet": "$_id"
            }
        },
    },
    {
        "$match": {
            "count": {
                "$gt": 1
            }
        }
    }
]

myclient = pymongo.MongoClient(host="m3005.test.com",port=3005,connect=False)
db = myclient.deepnet_test

if __name__ == "__main__":
    map_id = map(lambda doc: doc["dups"][1:], db["xiuxiu_all"].aggregate(pipeline=pipeline,allowDiskUse=True))
    list_id = [item for sublist in map_id for item in sublist]
    print(db["xiuxiu_all"]
          .bulk_write(list(map(lambda _id: DeleteOne({"_id": _id}), list_id)))
          .bulk_api_result)
復(fù)制collection里的數(shù)據(jù)到另一個(gè)collection中
db.xiuxiu_all.find().forEach(function(x){
    db.xiuxiu_all_bak.insert(x);
})
過(guò)濾重復(fù)字段并統(tǒng)計(jì)總記錄數(shù)
db.feedImg_all.aggregate(
  [
     {$match:{"createTime": {"$gte":  1541606400, "$lt": 1541692800}}}, // 添加過(guò)濾條件
     {$project:{"feedId": true}},  
     {$group:{_id: "$feedId"}}, 
     {$group:{_id: null, count: {$sum:1}}}
 ], {allowDiskUse: true})

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19411.html

相關(guān)文章

  • Mongdb常用數(shù)據(jù)清洗

    摘要:解決方案查詢重復(fù)數(shù)據(jù)刪除重復(fù)數(shù)據(jù)去除重復(fù)組的第一個(gè)元數(shù)據(jù),得到除第一個(gè)之外的其他元組刪除這些重復(fù)的數(shù)據(jù)刪除重復(fù)數(shù)據(jù)版本復(fù)制里的數(shù)據(jù)到另一個(gè)中過(guò)濾重復(fù)字段并統(tǒng)計(jì)總記錄數(shù)添加過(guò)濾條件 前言 分享一些Mongdb常用的數(shù)據(jù)清洗方式 注:Exceeded memory limit for $group, but didnt allow external sort. Pass allowDisk...

    KaltZK 評(píng)論0 收藏0
  • MongDB 數(shù)據(jù)庫(kù)副本集配置

    摘要:登陸叢機(jī)此時(shí),叢機(jī)已經(jīng)在副本集群中了,進(jìn)行最后一個(gè)操作這樣在主機(jī)上的操作就會(huì)同步到從機(jī)上了。 本文目的 為了在各個(gè)MongDB之間實(shí)現(xiàn)多節(jié)點(diǎn)之間的數(shù)據(jù)自動(dòng)備份,提高容災(zāi)性能。MongoDB復(fù)制是將數(shù)據(jù)同步在多個(gè)服務(wù)器的過(guò)程。復(fù)制提供了數(shù)據(jù)的冗余備份,并在多個(gè)服務(wù)器上存儲(chǔ)數(shù)據(jù)副本,提高了數(shù)據(jù)的可用性,并可以保證數(shù)據(jù)的安全性。mongodb的復(fù)制至少需要兩個(gè)節(jié)點(diǎn)。其中一個(gè)是主節(jié)點(diǎn),負(fù)責(zé)處理...

    jubincn 評(píng)論0 收藏0
  • 用node.js和mongDB建立網(wǎng)站

    摘要:設(shè)計(jì)數(shù)據(jù)庫(kù)模型數(shù)據(jù)庫(kù)字段定義傳入模式編譯,生成構(gòu)造函數(shù)文檔實(shí)例化,調(diào)用模型批量查詢單條數(shù)據(jù)的查詢單條數(shù)據(jù)的刪除數(shù)據(jù)庫(kù)的正刪改查,及后臺(tái)開(kāi)發(fā)邏輯文件目錄 用node.js和mongDB建立網(wǎng)站 參考資料:1.jade學(xué)習(xí)https://www.jianshu.com/p/e2a...http://www.nooong.com/docs/ja...2.app.js的結(jié)構(gòu)設(shè)計(jì)(作用)http...

    Little_XM 評(píng)論0 收藏0
  • 用node.js和mongDB建立網(wǎng)站

    摘要:設(shè)計(jì)數(shù)據(jù)庫(kù)模型數(shù)據(jù)庫(kù)字段定義傳入模式編譯,生成構(gòu)造函數(shù)文檔實(shí)例化,調(diào)用模型批量查詢單條數(shù)據(jù)的查詢單條數(shù)據(jù)的刪除數(shù)據(jù)庫(kù)的正刪改查,及后臺(tái)開(kāi)發(fā)邏輯文件目錄 用node.js和mongDB建立網(wǎng)站 參考資料:1.jade學(xué)習(xí)https://www.jianshu.com/p/e2a...http://www.nooong.com/docs/ja...2.app.js的結(jié)構(gòu)設(shè)計(jì)(作用)http...

    Bmob 評(píng)論0 收藏0
  • 使用Pandas&NumPy進(jìn)行數(shù)據(jù)清洗6大常用方法

    摘要:在這個(gè)教程中,我們將利用的和包來(lái)進(jìn)行數(shù)據(jù)清洗。在很多情況下,使用唯一的值作為索引值識(shí)別數(shù)據(jù)字段是非常有幫助的。清洗數(shù)據(jù)字段到現(xiàn)在為止,我們移除了不必要的列并改變了我們的索引變得更有意義。 作者:xiaoyu微信公眾號(hào):Python數(shù)據(jù)科學(xué)知乎:Python數(shù)據(jù)分析師 數(shù)據(jù)科學(xué)家花了大量的時(shí)間清洗數(shù)據(jù)集,并將這些數(shù)據(jù)轉(zhuǎn)換為他們可以處理的格式。事實(shí)上,很多數(shù)據(jù)科學(xué)家聲稱開(kāi)始獲取和清洗數(shù)據(jù)...

    siberiawolf 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<