摘要:?jiǎn)栴}中有這么一個(gè)問題,給定一個(gè)序列,找出該序列出現(xiàn)次數(shù)最多的元素。例如統(tǒng)計(jì)出中出現(xiàn)次數(shù)最多的元素初步探討模塊的類首先想到的是模塊的類,具體用法看這里具體用法看這里具體用法看這里,重要的事情強(qiáng)調(diào)三遍。
問題
《Python Cookbook》中有這么一個(gè)問題,給定一個(gè)序列,找出該序列出現(xiàn)次數(shù)最多的元素。
例如:
words = [ "look", "into", "my", "eyes", "look", "into", "my", "eyes", "the", "eyes", "the", "eyes", "the", "eyes", "not", "around", "the", "eyes", "don"t", "look", "around", "the", "eyes", "look", "into", "my", "eyes", "you"re", "under" ]
統(tǒng)計(jì)出words中出現(xiàn)次數(shù)最多的元素?
初步探討1、collections模塊的Counter類
首先想到的是collections模塊的Counter類,具體用法看這里!具體用法看這里!具體用法看這里!https://docs.python.org/3.6/l...,重要的事情強(qiáng)調(diào)三遍。
from collections import Counter words = [ "look", "into", "my", "eyes", "look", "into", "my", "eyes", "the", "eyes", "the", "eyes", "the", "eyes", "not", "around", "the", "eyes", "don"t", "look", "around", "the", "eyes", "look", "into", "my", "eyes", "you"re", "under" ] counter_words = Counter(words) print(counter_words) most_counter = counter_words.most_common(1) print(most_counter)
關(guān)于most_common([n]):
2、根據(jù)dict鍵值唯一性和sorted()函數(shù)
import operator words = [ "look", "into", "my", "eyes", "look", "into", "my", "eyes", "the", "eyes", "the", "eyes", "the", "eyes", "not", "around", "the", "eyes", "don"t", "look", "around", "the", "eyes", "look", "into", "my", "eyes", "you"re", "under" ] dict_num = {} for item in words: if item not in dict_num.keys(): dict_num[item] = words.count(item) # print(dict_num) most_counter = sorted(dict_num.items(),key=lambda x: x[1],reverse=True)[0] print(most_counter)
sorted函數(shù):
傳送門:https://docs.python.org/3.6/l...
iterable:可迭代類型;
key:用列表元素的某個(gè)屬性或函數(shù)進(jìn)行作為關(guān)鍵字,有默認(rèn)值,迭代集合中的一項(xiàng);
reverse:排序規(guī)則. reverse = True 降序 或者 reverse = False 升序,有默認(rèn)值。
返回值:是一個(gè)經(jīng)過排序的可迭代類型,與iterable一樣。
這里,我們使用匿名函數(shù)key=lambda x: x[1]
等同于:
def key(x): return x[1]
這里,我們利用每個(gè)元素出現(xiàn)的次數(shù)進(jìn)行降序排序,得到的結(jié)果的第一項(xiàng)就是出現(xiàn)元素最多的項(xiàng)。
更進(jìn)一步這里給出的序列很簡(jiǎn)單,元素的數(shù)目很少,但是有時(shí)候,我們的列表中可能存在上百萬上千萬個(gè)元素,那么在這種情況下,不同的解決方案是不是效率就會(huì)有很大差別了呢?
為了驗(yàn)證這個(gè)問題,我們來生成一個(gè)隨機(jī)數(shù)列表,元素個(gè)數(shù)為一百萬個(gè)。
這里使用numpy Package,使用前,我們需要安裝該包,numpy包下載地址:https://pypi.python.org/pypi/...。這里我們環(huán)境是centos7,選擇numpy-1.14.2.zip (md5, pgp)進(jìn)行下載安裝,解壓后python setup.py install
def generate_data(num=1000000): return np.random.randint(num / 10, size=num)
np.random.randint(low[, high, size]) 返回隨機(jī)的整數(shù),位于半開區(qū)間 [low, high)
具體用法參考https://pypi.python.org/pypi
OK,數(shù)據(jù)生成了,讓我們來測(cè)試一下兩個(gè)方法所消耗的時(shí)間,統(tǒng)計(jì)時(shí)間,我們用time函數(shù)就可以。
#!/usr/bin/python # coding=utf-8 # # File: most_elements.py # Author: ralap # Data: 2018-4-5 # Description: find most elements in list # from collections import Counter import operator import numpy as np import random import time def generate_data(num=1000000): return np.random.randint(num / 10, size=num) def collect(test_list): counter_words = Counter(test_list) print(counter_words) most_counter = counter_words.most_common(1) print(most_counter) def list_to_dict(test_list): dict_num = {} for item in test_list: if item not in dict_num.keys(): dict_num[item] = test_list.count(item) most_counter = sorted(dict_num.items(), key=lambda x: x[1], reverse=True)[0] print(most_counter) if __name__ == "__main__": list_value = list(generate_data()) t1 = time.time() collect(list_value) t2 = time.time() print("collect took: %sms" % (t2 - t1)) t1 = t2 list_to_dict(list_value) t2 = time.time() print("list_to_dict took: %sms" % (t2 - t1))
以下結(jié)果是我在自己本地電腦運(yùn)行結(jié)果,主要是對(duì)比兩個(gè)方法相對(duì)消耗時(shí)間。
當(dāng)數(shù)據(jù)比較大時(shí),消耗時(shí)間差異竟然如此之大!下一步會(huì)進(jìn)一步研究Counter的實(shí)現(xiàn)方式,看看究竟是什么魔法讓他性能如此好。
參考資料https://blog.csdn.net/xie_072...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/41511.html
摘要:以下測(cè)試代碼全部基于查找最大或最小的個(gè)元素工作中有時(shí)會(huì)遇到這樣的需求,取出數(shù)據(jù)中前面的值,或者最后的值。大家如果對(duì)堆數(shù)據(jù)結(jié)構(gòu)感興趣的話,可以繼續(xù)進(jìn)行深入研究,由于我了解的并不深,也沒辦法再展開了。 文章首發(fā)于知乎專欄,歡迎關(guān)注。https://zhuanlan.zhihu.com/py... 以下測(cè)試代碼全部基于 Python3 1、查找最大或最小的 N 個(gè)元素 工作中有時(shí)會(huì)遇到這樣的...
摘要:?jiǎn)栴}怎樣找出一個(gè)序列中出現(xiàn)次數(shù)最多的元素解決方案使用庫(kù)中的對(duì)象可以方便的求出現(xiàn)次數(shù)最多的前個(gè)元素直接使用成員函數(shù)就好了,例如輸出討論對(duì)象是的子類,事實(shí)上內(nèi)部存儲(chǔ)也是按照字典存儲(chǔ)的,這里的就是次數(shù),所以對(duì)象支持對(duì)象的所有操作每一個(gè)對(duì)象初始化 問題 怎樣找出一個(gè)序列中出現(xiàn)次數(shù)最多的元素? 解決方案 使用collections庫(kù)中的Counter對(duì)象可以方便的求出現(xiàn)次數(shù)最多的前N個(gè)元素 直接...
摘要:上一篇文章實(shí)用技法第篇對(duì)切片命名下一篇文章實(shí)用技法第篇通過公共鍵對(duì)字典列表排序需求 上一篇文章:Python實(shí)用技法第10篇:對(duì)切片命名下一篇文章:Python實(shí)用技法第12篇:通過公共鍵對(duì)字典列表排序:itemgetter 1、需求
摘要:算法描述向數(shù)組中輸入元素定義一個(gè)新數(shù)組將數(shù)組中的元素倒序存放將數(shù)組正序輸出,注意結(jié)尾無空格的格式問題。最后打印出來數(shù)組中的元素,也就是非共有值,此處注意格式問題。 問題1:將數(shù)組中的數(shù)逆序存放 本題要求編寫程序,將給定的n個(gè)整數(shù)存入數(shù)組中,將數(shù)組中的這n個(gè)數(shù)逆序存放, 再按順序輸出數(shù)組中的元...
摘要:上一篇文章實(shí)用技法第篇從序列中移除重復(fù)項(xiàng)且保持元素間順序不變下一篇文章實(shí)用技法第篇找出序列中出現(xiàn)次數(shù)最多的元素需求 上一篇文章:Python實(shí)用技法第9篇:從序列中移除重復(fù)項(xiàng)且保持元素間順序不變下一篇文章:Python實(shí)用技法第11篇:找出序列中出現(xiàn)次數(shù)最多的元素 1、需求
閱讀 3292·2021-11-18 10:02
閱讀 3454·2021-10-11 10:58
閱讀 3385·2021-09-24 09:47
閱讀 1132·2021-09-22 15:21
閱讀 3963·2021-09-10 11:10
閱讀 3286·2021-09-03 10:28
閱讀 1756·2019-08-30 15:45
閱讀 2150·2019-08-30 14:22