【万字长文详解】Python库collections,让你击败99%的Pythoner Python的集合(collections)模块,为很多用其他方法很难实现的场景提供了解决方案。本文我们将会学习该模块的抽象概念是如何产生的,日后处理不同问题的过程中迟早会用得到这些知识。 免责声明:这篇文章是关于Python的一个相当高级的特性,如果你刚入门,建议先收藏,请等一等再学! 没想到这篇文章这么受欢迎, 修改优化下。 一、模块概述 1、模块作用 官方说法:collections模块实现了特定目标的容器,以提供Python标准内建容器dict ,list , set , 和tuple的替代选择。 通俗说法:Python内置的数据类型和方法,collections模块在这些内置类型的基础提供了额外的高性能数据类型,比如基础的字典是不支持顺序的,collections模块的OrderedDict类构建的字典可以支持顺序,collections模块的这些扩展的类用处非常大,熟练掌握该模块,可以大大简化Python代码,提高Python代码逼格和效率,高手入门必备。 2、模块资料 关于该模块,官方的参考资料写的非常详细,也很有价值,大家可以参考 中文文档:https://docs.python.org/zh-cn/3/library/collections.html#module-collections 英文文档:https://docs.python.org/3/library/collections.html#module-collections 3、模块子类 用collections.__all__查看所有的子类,一共包含9个 这个模块实现了特定目标的容器,以提供Python标准内建容器dict , list , set , 和tuple 的替代选择。namedtuple()创建命名组子类的工厂函数,生成可以使用名字来访问素内容的tuple子类deque类似列表(list)的容器,实现了在两端快速添加(append)和弹出(pop)ChainMap类似字典(dict)的容器类,将多个映射集合到一个视图里面Counter字典的子类,提供了可哈希对象的计数功能OrderedDict字典的子类,保存了他们被添加的顺序,有序字典defaultdict字典的子类,提供了一个工厂函数,为字典查询提供一个默认值UserDict封装了字典对象,简化了字典子类化UserList封装了列表对象,简化了列表子类化UserString封装了字符串对象,简化了字符串子类化(中文版翻译有误) 二、计数器-Counter 1、基础介绍 一个计数器工具提供快速和方便的计数,Counter是一个dict的子类,用于计数可哈希对象。它是一个集合,素像字典键(key)一样存储,它们的计数存储为值。计数可以是任何整数值,包括0和负数,Counter类有点像其他语言中的bags或multisets。简单说,就是可以统计计数,来几个例子看看就清楚了,比如 素从一个iterable 被计数或从其他的mapping (or counter)初始化: 计数器对象除了字典方法以外,还提供了三个其他的方法: 1、elements() 描述:返回一个迭代器,其中每个素将重复出现计数值所指定次。 素会按首次出现的顺序返回。 如果一个素的计数值小于1,elements() 将会忽略它。 语法:elements( ) 参数:无 2、most_common() 返回一个列表,其中包含n个最常见的素及出现次数,按常见程度由高到低排序。 如果 n 被省略或为None,most_common() 将返回计数器中的所有素,计数值相等的素按首次出现的顺序排序,经常用来计算top词频的词语。 3、subtract() 从迭代对象或映射对象减去素。像dict.update() 但是是减去,而不是替换。输入和输出都可以是0或者负数。 4、字典方法 通常字典方法都可用于Counter对象,除了有两个方法工作方式与字典并不相同。 fromkeys(iterable) 这个类方法没有在Counter中实现。 update([iterable-or-mapping]) 从迭代对象计数素或者从另一个映射对象 (或计数器) 添加。 像 dict.update() 但是是加上,而不是替换。另外,迭代对象应该是序列素,而不是一个 (key, value) 对。 5、数学操作 这个功能非常强大,提供了几个数学操作,可以结合 Counter 对象,以生产 multisets (计数器中大于0的素)。 加和减,结合计数器,通过加上或者减去素的相应计数。交集和并集返回相应计数的最小或最大值。每种操作都可以接受带符号的计数,但是输出会忽略掉结果为零或者小于零的计数。 单目加和减(一操作符)意思是从空计数器加或者减去。 写一个计算文本相似的算法,加权相似 二、双向队列-deque 双端队列,可以快速的从另外一侧追加和推出对象,deque是一个双向链表,针对list连续的数据结构插入和删除进行优化。它提供了两端都可以操作的序列,这表示在序列的前后你都可以执行添加或删除操作。双向队列(deque)对象支持以下方法: 1、append() 添加 x 到右端。 2、appendleft() 添加 x 到左端。 3、clear() 移除所有素,使其长度为0. 4、copy() 创建一份浅拷贝。 5、count() 计算 deque 中素等于 x 的个数。 6、extend() 扩展deque的右侧,通过添加iterable参数中的素。 7、extendleft() 扩展deque的左侧,通过添加iterable参数中的素。注意,左添加时,在结果中iterable参数中的顺序将被反过来添加。 8、index() 返回 x 在 deque 中的位置(在索引 start 之后,索引 stop 之前)。 返回第一个匹配项,如果未找到则引发 ValueError。 9、insert() 在位置 i 插入 x 。 如果插入会导致一个限长 deque 超出长度 maxlen 的话,就引发一个 IndexError。 10、pop() 移去并且返回一个素,deque 最右侧的那一个。 如果没有素的话,就引发一个 IndexError。 11、popleft() 移去并且返回一个素,deque 最左侧的那一个。 如果没有素的话,就引发 IndexError。 12、remove(value) 移除找到的第一个 value。 如果没有的话就引发 ValueError。 13、reverse() 将deque逆序排列。返回 None 。 14、rotate(n=1) 向右循环移动 n 步。 如果 n 是负数,就向左循环。 如果deque不是空的,向右循环移动一步就等价于 d.appendleft(d.pop()) , 向左循环一步就等价于 d.append(d.popleft()) 。 15、maxlen Deque的最大尺寸,如果没有限定的话就是 None 。 除了以上操作,deque还支持迭代、封存、len(d)、reversed(d)、copy.deepcopy(d)、copy.copy(d)、成员检测运算符 in 以及下标引用例如通过 d[0] 访问首个素等。 索引访问在两端的复杂度均为 O(1) 但在中间则会低至 O(n)。 如需快速随机访问,请改用列表。 Deque从版本3.5开始支持 __add__(), __mul__(), 和 __imul__() 。 三、有序字典-OrderedDict 有序词典就像常规词典一样,但有一些与排序操作相关的额外功能,popitem() 方法有不同的签名。它接受一个可选参数来指定弹出哪个素。move_to_end() 方法,可以有效地将素移动到任一端。 有序词典就像常规词典一样,但有一些与排序操作相关的额外功能。由于内置的 dict 类获得了记住插入顺序的能力(在 Python 3.7 中保证了这种新行为),它们变得不那么重要了。 一些与 dict 的不同仍然存在:常规的 dict 被设计为非常擅长映射操作。 跟踪插入顺序是次要的。OrderedDict 旨在擅长重新排序操作。 空间效率、迭代速度和更新操作的性能是次要的。算法上, OrderedDict 可以比 dict 更好地处理频繁的重新排序操作。 这使其适用于跟踪最近的访问(例如在 LRU cache 中)。对于 OrderedDict ,相等操作检查匹配顺序。OrderedDict 类的 popitem() 方法有不同的签名。它接受一个可选参数来指定弹出哪个素。OrderedDict 类有一个 move_to_end() 方法,可以有效地将素移动到任一端。Python 3.8之前, dict 缺少 __reversed__() 方法。传统字典方法OrderedDict方法差异clearclearcopycopyfromkeysfromkeysgetgetitemsitemskeyskeyspoppoppopitempopitemOrderedDict 类的 popitem() 方法有不同的签名。它接受一个可选参数来指定弹出哪个素。setdefaultsetdefaultupdateupdatevaluesvaluesmove_to_end可以有效地将素移动到任一端。 1、popitem 语法:popitem(last=True) 功能:有序字典的 popitem() 方法移除并返回一个 (key, value) 键值对。 如果 last 值为真,则按 LIFO 后进先出的顺序返回键值对,否则就按 FIFO 先进先出的顺序返回键值对。 2、move_to_end 3、reversed() 相对于通常的映射方法,有序字典还另外提供了逆序迭代的支持,通过reversed() 。 四、可命名组-namedtuple 生成可以使用名字来访问素内容的tuple子类,命名组赋予每个位置一个含义,提供可读性和自文档性。它们可以用于任何普通组,并添加了通过名字值的能力,通过索引值也是可以的。 1、参数介绍 namedtuple(typename,field_names,*,verbose=False, rename=False, module=None) 1)typename:该参数指定所创建的tuple子类的类名,相当于用户定义了一个新类。 2)field_names:该参数是一个字符串序列,如 [‘x’,’y’]。此外,field_names 也可直接使用单个字符串代表所有字段名,多个字段名用空格、逗号隔开,如 ‘x y’ 或 ‘x,y’。任何有效的 Python 标识符都可作为字段名(不能以下画线开头)。有效的标识符可由字母、数字、下画线组成,但不能以数字、下面线开头,也不能是关键字(如 return、global、pass、raise 等)。 3)rename:如果将该参数设为 True,那么无效的字段名将会被自动替换为位置名。例如指定 [‘abc’,’def’,’ghi’,’abc’],它将会被替换为 [‘abc’, ‘_1′,’ghi’,’_3′],这是因为 def 字段名是关键字,而 abc 字段名重复了。 4)verbose:如果该参数被设为 True,那么当该子类被创建后,该类定义就被立即打印出来。 5)module:如果设置了该参数,那么该类将位于该模块下,因此该自定义类的 __module__ 属性将被设为该参数值。 2、应用案例 1)水族箱案例 Python组是一个不可变的,或不可改变的,有序的素序列。组经常用来表示纵列数据;例如,一个CSV文件中的行数或一个SQL数据库中的行数。一个水族箱可以用一系列组来记录它的鱼类的库存。 一个单独的鱼类组:
这个组由三个字符串素组成。 虽然在某些方面很有用,但是这个组并没有清楚地指明它的每个字段代表什么。实际上,素0是一个名称,素1是一个物种,素2是一个饲养箱。 鱼类组字段说明:
这个表清楚地表明,该组的三个素都有明确的含义。 来自collections模块的namedtuple允许你向一个组的每个素添加显式名称,以便在你的Python程序中明确这些素的含义。 让我们使用namedtuple来生成一个类,从而明确地命名鱼类组的每个素:
可以让你的Python程序访问namedtuple工厂函数。namedtuple()函数调用会返回一个绑定到名称Fish的类。namedtuple()函数有两个参数:我们的新类“Fish”的期望名称和命名素[“name”、”species”、“tank”]的一个列表。 我们可以使用Fish类来表示前面的鱼类组:
如果我们运行这段代码,我们将看到以下输出:
sammy是使用Fish类进行实例化的。sammy是一个具有三个明确命名素的组。 sammy的字段可以通过它们的名称或者一个传统的组索引来访问:
如果我们运行这两个print调用,我们将看到以下输出:
访问.species会返回与使用[1]访问sammy的第二个素相同的值。 使用collections模块中的namedtuple可以在维护组(即它们是不可变的、有序的)的重要属性的同时使你的程序更具可读性。 此外,namedtuple工厂函数还会向Fish实例添加几个额外的方法。 使用._asdict()将一个实例转换为字典:
如果我们运行print,你会看到如下输出:
在sammy上调用.asdict()将返回一个字典,该字典会将三个字段名称分别映射到它们对应的值。 大于3.8的Python版本输出这一行的方式可能略有不同。例如,你可能会看到一个OrderedDict,而不是这里显示的普通字典。 2)加法器案例 3、三个方法 备注: 在Python中,带有前导下划线的方法通常被认为是“私有的”。但是,namedtuple提供的其他方法(如._asdict()、._make()、._replace()等)是公开的。 除了继承组的方法,命名组还支持三个额外的方法和两个属性。为了防止字段名冲突,方法和属性以下划线开始。 _make(iterable) 类方法从存在的序列或迭代实例创建一个新实例。 _asdict() 返回一个新的 dict ,它将字段名称映射到它们对应的值: _replace(kwargs) 返回一个新的命名组实例,并将指定域替换为新的值 4、两个属性 _fields 字符串组列出了字段名。用于提醒和从现有组创建一个新的命名组类型。 _field_defaults 字典将字段名称映射到默认值。 5、其他函数 getattr() 要这个名字域的值,使用 getattr() 函数 : 转换一个字典到命名组,使用 两星操作符 因为一个命名组是一个正常的Python类,它可以很容易的通过子类更改功能。这里是如何添加一个计算域和定宽输出打印格式: 五、默认字典-defaultdict 在Python字典中收集数据通常是很有用的。 在字典中一个 key 有两种方法, 第一种 get , 第二种 通过 [] . 使用dict时,如果引用的Key不存在,就会抛出KeyError。如果希望key不存在时,返回一个默认值,就可以用defaultdict。 当我使用普通的字典时,用法一般是dict={},添加素的只需要dict[element] =value即,调用的时候也是如此,dict[element] = xxx,但前提是element字典里,如果不在字典里就会报错 这时defaultdict就能排上用场了,defaultdict的作用是在于,当字典里的key不存在但被查找时,返回的不是keyError而是一个默认值,这个默认值是什么呢,下面会说 1、基础介绍 defaultdict([default_factory[, …]]) 返回一个新的类似字典的对象。 defaultdict是内置dict类的子类。它重载了一个方法并添加了一个可写的实例变量。其余的功能与dict类相同,此处不再重复说明。 本对象包含一个名为default_factory的属性,构造时,第一个参数用于为该属性提供初始值,默认为 None。所有其他参数(包括关键字参数)都相当于传递给 dict 的构造函数。 defaultdict 对象除了支持标准 dict 的操作,还支持以下方法作为扩展: __missing__(key) 如果 default_factory 属性为 None,则调用本方法会抛出 KeyError 异常,附带参数 key。 如果 default_factory 不为 None,则它会被(不带参数地)调用来为 key 提供一个默认值,这个值和 key 作为一对键值对被插入到字典中,并作为本方法的返回值返回。 如果调用 default_factory 时抛出了异常,这个异常会原封不动地向外层传递。 在无法找到所需键值时,本方法会被 dict 中的 __getitem__() 方法调用。无论本方法返回了值还是抛出了异常,都会被 __getitem__() 传递。 注意,__missing__() 不会 被 __getitem__() 以外的其他方法调用。意味着 get() 会像正常的 dict 那样返回 None,而不是使用 default_factory。 2、示例介绍 使用 list 作为 default_factory,很轻松地将(键-值对组成的)序列转换为(键-列表组成的)字典 当每个键第一次遇见时,它还没有在字典里面,所以自动创建该条目,即调用default_factory方法,返回一个空的 list。 list.append() 操作添加值到这个新的列表里。当再次存取该键时,就正常操作,list.append() 添加另一个值到列表中。这个计数比它的等价方法dict.setdefault()要快速和简单: 设置 default_factory为int,使defaultdict用于计数(类似其他语言中的 bag或multiset): 设置 default_factory 为 set 使 defaultdict 用于构建 set 集合: defaultdict绝不会引发一个KeyError。如果一个键不存在,defaultdict会插入并返回一个占位符值来代替:
如果我们运行这段代码,我们将看到如下输出:
defaultdict会插入并返回一个占位符值,而不是引发一个KeyError。在本例中,我们将占位符值指定为一个列表。 相比之下,常规字典会在缺失的键上引发一个KeyError:
如果我们运行这段代码,我们将看到如下输出:
当我们试图访问一个不存在的键时,常规字典my_regular_dict会引发一个KeyError。 defaultdict的行为与常规字典不同。defaultdict会不带任何参数调用占位符值来创建一个新对象,而不是在缺失的键上引发一个KeyError。在本例中,是调用list()创建一个空列表。 继续我们虚构的水族箱示例,假设我们有一个表示水族箱清单的鱼类组列表:
水族箱中有三种鱼——它们的名字、种类和饲养箱在这三个组中都有指出。 我们的目标是按饲养箱组织我们的清单—我们想知道每个饲养箱中存在的鱼的列表。换句话说,我们需要一个能将“tank-a”映射到[“Jamie”, “Mary”] ,并且将“tank-b”映射到[“Jamie”]的字典。 我们可以使用defaultdict来按饲养箱对鱼进行分组:
运行这段代码,我们将看到以下输出:
fish_names_by_tank被声明为一个defaultdict,它默认会插入list()而不是引发一个KeyError。由于这保证了fish_names_by_tank中的每个键都将指向一个list,所以我们可以自由地调用.append()来将名称添加到每个饲养箱的列表中。 这里,defaultdict帮助你减少了出现未预期的KeyErrors的机会。减少未预期的KeyErrors意味着你可以用更少的行更清晰地编写你的程序。更具体地说,defaultdict习惯用法让你避免了手动地为每个饲养箱实例化一个空列表。 如果没有 defaultdict, for循环体可能看起来更像这样:
使用常规字典(而不是defaultdict)意味着for循环体总是必须检查fish_names_by_tank中给定的tank是否存在。只有在验证了fish_names_by_tank中已经存在tank,或者已经使用一个[]初始化了tank之后,我们才可以添加鱼类名称。 在填充字典时,defaultdict可以帮助我们减少样板代码,因为它从不引发KeyError。 六、映射链-ChainMap 1、ChainMap是什么 ChainMap最基本的使用,可以用来合并两个或者更多个字典,当查询的时候,从前往后依次查询。 ChainMap:将多个字典视为一个,解锁Python超能力。 ChainMap是由Python标准库提供的一种数据结构,允许你将多个字典视为一个。换句话说:ChainMap是一个基于多dict的可更新的视图,它的行为就像一个普通的dict。 ChainMap类用于快速链接多个映射,以便将它们视为一个单。它通常比创建新字典和多次调用update()快得多。 你以前可能从来没有听说过ChainMap,你可能会认为ChainMap的使用情况是非常特定的。坦率地说,你是对的。 我知道的用例包括:通过多个字典搜索提供链缺省值经常计算字典子集的性能关键的应用程序 2、特性 1)找到一个就不找了:这个列表是按照第一次搜索到最后一次搜索的顺序组织的,搜索查询底层映射,直到一个键被找到。 2)更新原始映射:不同的是,写,更新和删除只操作第一个映射。 3)支持所有常用字典方法。 简而言之ChainMap:将多个字典视为一个,解锁Python超能力。 Python标准库中的集合模块包含许多为性能而设计的实用的数据结构。著名的包括命名组或计数器。 今天,通过实例,我们来看看鲜为人知的ChainMap。通过浏览具体的示例,我希望给你一个提示,关于在更高级的Python工作中使用ChainMap将如何从中受益。 3、应用案例-基础案例 new_child()方法 用法:new_child(m=None) 返回一个新的ChainMap类,包含了一个新映射(map),后面跟随当前实例的全部映射map。如果m被指定,它就成为不同新的实例,就是在所有映射前加上 m,如果没有指定,就加上一个空字典,这样的话一个 d.new_child() 调用等价于ChainMap({}, *d.maps) 。这个方法用于创建子上下文,不改变任何父映射的值。 parents属性 属性返回一个新的ChainMap包含所有的当前实例的映射,除了第一个。这样可以在搜索的时候跳过第一个映射。使用的场景类似在 nested scopes 嵌套作用域中使用nonlocal关键词。用例也可以类比内建函数super() 。一个d.parents 的引用等价于ChainMap(*d.maps[1:]) 。 4、应用案例-购物清单 作为使用ChainMap的第一个例子,让我们考虑一张购物清单。我们的清单可能包含玩具,电脑,甚至衣服。所有这些条目都有价格,所以我们将把我们的条目存储在名称价格映射中。 现在我们可以使用ChainMap在这些不同的集合上建立一个单一的视图: 这使得我们可以查询清单,就像它是一个单一的字典: 正如官方文档所述,ChainMap支持所有常用的字典方法。我们可以使用.get()来搜索可能不存在的条目,或者使用 .pop()删除条目。 如果我们现在把玩具添加到toys字典里,它也将在清单中可用。这是ChainMap的可更新的方面。 Oh和ChainMap有一个恰当的字符串表示形式: 一个很好的特点是,在我们的例子中,toys, computers和clothing都是在相同的上下文中(解释器),它们可以来自完全不同的模块或包。这是因为ChainMap通过引用存储底层字典。 第一个例子是使用ChainMap一次搜索多个字典。 事实上,当构建ChainMap时,我们所做的就是有效地构建一系列字典。当查找清单中的一个项时,toys首先被查找,然后是computers,最后是clothing。
ChainMap真的只是一个映射链! 实际上,ChainMap的另一个任务是维护链的默认值。 我们将以一个命令行应用程序的例子来说明这是什么意思。 5、应用案例-CLI配置 让我们面对现实,管理命令行应用程序的配置可能是困难的。配置来自多个源:命令行参数、环境变量、本地文件等。 我们通常实施优先级的概念:如果A和B都定义参数P,A的P值将被使用,因为它的优先级高于B。 例如,如果传递了命令行参数,我们可能希望在环境变量上使用命令行参数。如何轻松地管理配置源的优先级? 一个答案是将所有配置源存储在ChainMap中。 因为ChainMap中的查找是按顺序连续地对每个底层映射执行的(按照他们传给构造函数的顺序),所以我们可以很容易地实现我们寻找的优先级。 下面是一个简单的命令行应用程序。调试参数从命令行参数、环境变量或硬编码默认值中提取:
在执行脚本时,我们可以检查是否首先在命令行参数中查找debug,然后是环境变量,最后是默认值:
这样看上去就非常整洁,对吧? 6、我为什么关心? 坦率地说,ChainMap是那些你可以忽略的Python特性之一。 还有其他ChainMap的替代方案。例如,使用更新循环—例如创建一个dict并用字典update()它—可能奏效。但是,这只有在您不需要跟踪项目的起源时才有效,就像我们的多源CLI配置示例中的情况一样。但是,当你知道ChainMap存在的时候,ChainMap可以让你更轻松,你的代码更优雅。 7、总结 总而言之,我们一起看了ChainMap是什么,一些具体的使用示例,以及如何在现实生活中,性能关键的应用程序中使用ChainMap。如果您想了解更多关于Python的高性能数据容器的信息,请务必从Python的标准库中collections模块中查看其他出色类和函数。 七、UserDict UserDict类是用作字典对象的外包装。对这个类的需求已部分由直接创建dict的子类的功能所替代;不过这个类处理起来更容易,因为底层的字典可以作为属性来访问。 模拟一个字典类。这个实例的内容保存为一个正常字典,可以通过UserDict实例的data属性存取。如果提供了initialdata 值, data 就被初始化为它的内容,注意一个 initialdata 的引用不会被保留作为其他用途。 UserDict 实例提供了以下属性作为扩展方法和操作的支持:data一个真实的字典,用于保存 UserDict 类的内容。 八、UserList 这个类封装了列表对象。它是一个有用的基础类,对于你想自定义的类似列表的类,可以继承和覆盖现有的方法,也可以添加新的方法。这样我们可以对列表添加新的行为。 对这个类的需求已部分由直接创建 list 的子类的功能所替代;不过,这个类处理起来更容易,因为底层的列表可以作为属性来访问。 模拟一个列表。这个实例的内容被保存为一个正常列表,通过 UserList 的 data 属性存取。实例内容被初始化为一个 list 的copy,默认为 [] 空列表。 list可以是迭代对象,比如一个Python列表,或者一个UserList 对象。 UserList 提供了以下属性作为可变序列的方法和操作的扩展:data 一个 list 对象用于存储 UserList 的内容。 子类化的要求: UserList 的子类需要提供一个构造器,可以无参数调用,或者一个参数调用。返回一个新序列的列表操作需要创建一个实现类的实例。它假定了构造器可以以一个参数进行调用,这个参数是一个序列对象,作为数据源。 如果一个分离的类不希望依照这个需求,所有的特殊方法就必须重写;请参照源代码进行修改。 九、UserString UserString类是用作字符串对象的外包装。对这个类的需求已部分由直接创建str的子类的功能所替代,不过这个类处理起来更容易,因为底层的字符串可以作为属性来访问。 模拟一个字符串对象。这个实例对象的内容保存为一个正常字符串,通过UserString的data属性存取。实例内容初始化设置为seq的copy。seq 参数可以是任何可通过内建str()函数转换为字符串的对象。 UserString 提供了以下属性作为字符串方法和操作的额外支持:data一个真正的str对象用来存放 UserString 类的内容。
2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/71062.html