众所周知,set() 是 Python 中的"天然去重因子"。对一串数据如: lyst = [1, 1, 2, 4, 4] ,我们常常 set 一下,也就是: set(lyst) ,达到去重目的。
set(lyst)
那么,set() 是如何去重的呢?
为了贴合实际的开发需求,我们常需要自定义数据结构。拿通用示例 Student 来说。
class Student(object): def __init__(self, name, age, sid): self.name = name self.age = age self.sid = sid
现在,我们实例两个 Student 对象,分别是 stu1 和 stu2,其名字 name,年龄 age,学号 sid 相同。现实生活中,可以认为这两个学生是同一人。
stu1 = Student("zhong", 15, 11198) stu2 = Student("zhong", 15, 11198) print(set([stu1, stu2])) # 输出:{<__main__.Student object at 0x0030FE10>, <__main__.Student object at 0x0030FAD0>}
然而 set() 并不这样认为,因此没有实现去重效果。
事实上,我们用比较操作符 == 会发现,Python 解释器认为 stu1 并不等于 stu2。
==
print(stu1 == stu2) # 输出:False
会有上述现象,是因为程序没有按照现实需求运行。现实需求是:如果名字、年龄、学号都相同,那一定就是同一个人,因而我们需要重写魔法方法 __eq__() 。代码如下所示:
__eq__()
class Student(object): def __init__(self, name, age, sid): self.name = name self.age = age self.sid = sid def __eq__(self, other): return self.name == other.name and \ self.age == other.age and \ self.sid == other.sid stu1 = Student("zhong", 15, 11198) stu2 = Student("zhong", 15, 11198) print(stu1 == stu2) # 输出:True
现在我们是不是可以用 set 去重了呢?
print(set([stu1, stu2])) --------------------------------- Traceback (most recent call last): File "xxxxxxxxx", line 18, in <module> print(set([stu1, stu2])) TypeError: unhashable type: 'Student'
很遗憾,解释器报错了。它说 Student 类型的对象不能哈希。
当我们没有为 Student 添加 __eq__() 函数时,set() 还不会报错,现在却说不能哈希?好在,我们可以重写 __hash__() 方法,改变原来的默认的哈希处理逻辑。
__hash__()
class Student(object): def __init__(self, name, age, sid): self.name = name self.age = age self.sid = sid def __eq__(self, other): return self.name == other.name and \ self.age == other.age and \ self.sid == other.sid def __hash__(self): return hash((self.name, self.age, self.sid)) stu1 = Student("zhong", 15, 11198) stu2 = Student("zhong", 15, 11198) print(set([stu1, stu2])) # 输出:{<__main__.Student object at 0x0030FE10>}
为方便起见,这里借助了 tuple 的不可变特性,使其能够正确通过哈希处理。此时我们再用 set() 去重,发现成功了!
倘若在上述代码的基础上,试图把 eq 函数去掉,你会发现 set() 去重失效了。尽管它们的哈希结果相同。
class Student(object): def __init__(self, name, age, sid): self.name = name self.age = age self.sid = sid def __hash__(self): return hash((self.name, self.age, self.sid)) stu1 = Student("zhong", 15, 11198) stu2 = Student("zhong", 15, 11198) print(set([stu1, stu2])) # 输出:{<__main__.Student object at 0x00A9FAD0>, <__main__.Student object at 0x00A9FE10>} print(hash(stu1) == hash(stu2)) # 输出: True
经过前面一步步推导,我们也得出了 set() 去重原理: