pandas 重复值 | pandas 教程

link管理
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
重复值的识别

df.duplicated(subset=None, keep='first') 可以返回表示重复行的布尔系列，可以指定列。keep参数确定要标记的重复项（如果有），选项有：
first：将除第一次出现的重复值标记为True，默认。
last：将除最后一次出现的重复值标记为True。
False：将所有重复值标记为True。
来实际操作一下：
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
默认情况下，对于每组重复的值，第一次出现都设置为False，所有其他值设置为True。
df.duplicated()
0    False
1     True
2    False
3    False
4    False
dtype: bool
通过使用“ last”，将每组重复值的最后一次出现设置为False，将所有其他重复值设置为True。
df.duplicated(keep='last')
0     True
1    False
2    False
3    False
4    False
dtype: bool
通过将keep设置为False，所有重复项都为True。
df.duplicated(keep=False)
0     True
1     True
2    False
3    False
4    False
dtype: bool
要在特定列上查找重复项，请使用子集。
df.duplicated(subset=['brand'])
0    False
1     True
2    False
3     True
4     True
dtype: bool
删除重复值
删除重复值的语法为：
df.drop_duplicates(subset=None, 
                   keep='first', 
                   inplace=False, 
                   ignore_index=False)
subset指定的标签或标签序列可选，仅删除某些列重复项，默认情况为使用所有列，其他有：
keep：确定要保留的重复项（如果有）
first : 保留第一次出现的重复项，默认
last : 保留最后一次出现的重复项。
False : 删除所有重复项
inplac：False，是将副本放置在适当位置还是返回副本
ignore_inde：如果为True, 则重新分配自然索引（0, 1, …, n - 1）
操作一下：
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
默认情况下，它将基于所有列删除重复的行。
df.drop_duplicates()
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0
要删除特定列上的重复项，请使用子集。
df.drop_duplicates(subset=['brand'])
    brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
要删除重复项并保留最后一次出现，请使用keep。
df.drop_duplicates(subset=['brand', 'style'], keep='last')
    brand style  rating
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
4  Indomie  pack     5.0
                        入门 pandas  
                    pandas 中文简介
安装及环境搭建
安装 pandas
快速入门
数据结构
NumPy 基础用法
生成数据对象
序列 Series 有更新
数据框 DataFrame
数据类型 dtypes

                    
pandas 功能介绍
文件读取和导出
索引 Indexing
数据的信息
数学统计
求值计算
查询筛选数据
数据类型转换
数据排序
数据添加修改
删除数据
数据迭代
函数应用

                        多层索引 MultiIndex  
                    
多层次索引 MultiIndex
创建分层索引对象
多层索引对象的操作
多层索引数据查询
多层索引的分组

                    
数据合并场景和操作
数据连接 concat
多文件数据合并
数据追加 df.append
连接数据 pd.merge
时序数据合并
逐元素合并
数据对比

                    
数据清洗操作
缺失值的判定
缺失值参与计算
缺失值填充
缺失值删除
插值填充
数据替换
缺失值 NA 标量
重复值 ● 

                    
pandas 的聚合分组
Group By 基础使用
分组对象及创建
分组聚合统计
分组应用函数
分组对象的操作
分组器 Grouper
数据分箱

                        数据重塑透视  
                    
pandas 重塑透视
数据透视 Pivot Table
数据堆叠 Stack
交叉表 Crosstab
数据融合 Melt
虚拟变量/哑变量
数据转置 df.T
因子化（枚举化）值
爆炸序列
转为 NumPy ndarray

                    
pandas 时间日期
时间基本概念
时间序列数据类型
固定时间
时间的属性操作
时间类型转换
时间范围
时间序列索引
时序数据方法
时间偏移
时间偏移对象
序列、索引和时间偏移
自定义工作日
时间偏移量别名
锚定偏移
假期日历
时间增量/时长
时长频率单位转换
时长的属性
时长索引
时间跨度
周期的操作
周期类型及转换
周期索引
超出时间戳范围时间
时间重采样
时间类型之间的转换
时区
区间间隔 Interval

                    
pandas 文本处理
文本数据类型
字符的操作方法
文本分割
文本替换
文本连接
文本查询匹配
文本常用方法

                    
pandas 样式
内置样式
显示格式
样式配置操作
样式应用函数
带样式文件的导出

                    
pandas 可视化
Plot 绘图
Plotting 绘图模块
使用 Bokeh 可视化
matplotlib pyplot 绘图功能
使用 Plotly 可视化
Pyecharts 可视化绘图库

                    
pandas 分类数据
分类数据创建
分类数据的使用
分类数据的顺序
分类数据的操作
分类数据处理
类别数据的读取

                    
pandas 窗口计算
移动窗口函数 rolling
时间类型移动窗口
扩展窗口函数 expanding

                        函数 api  
                    
pandas.read_csv
pandas.read_excel
方法函数详细介绍
相关配置
异常和警告
函数 api 大全
生成测试数据

                    
超大数据处理
链式方法
pandas 实战案例集
pandas 练习题
pandas 速查手册
pandas 简明课程
教程更新日志