pandas删除重复数据简单方法

2023-07-07 12:00:20 作者：**星光*

这篇文章主要给大家介绍了关于pandas删除重复数据的简单方法,在数据处理过程中常常会遇到重复的问题,文中通过实例代码介绍的非常详细,需要的朋友可以参考下

1、pandas中重复索引问题

df = df[~df.index.duplicated()]

2、pandas删除重复数据行

# 首先导入常用的两个包 import pandas as pd import numpy as np # 1.删除完全重复的行 df.drop_duplicates() 2.按k列进行去重，对于重复项，保留第一次出现的值 df.drop_duplicates('k',keep='first') 3、k2和k1两列进行去重 df.drop_duplicates(['k2','k1'], keep='first') keep：{‘first', ‘last', False}, 默认值 ‘first' first：保留第一次出现的重复行，删除后面的重复行。 last：删除前面的重复项，保留最后一次出现的重复行。 False：删除所有重复项

3、drop_duplicates()函数的语法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：

subset：表示要进去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

附：pandas数据处理——取出重复数据

平常我们用pandas做重复数据处理时，常常调用到drop_duplicates方法来去除重。

现在我不想完全去除重复，而是把重复数据输出，现有数据如下所示：

重复数据保留一个，duplicate_bool输出的是bool类型值，通过判断bool==True，取出重复行。

duplicate_bool = df.duplicated(subset=['id'], keep='first')
repeat=df.loc[duplicate_bool == True]
repeat复制

到此这篇关于pandas删除重复数据的文章就介绍到这了,更多相关pandas删除重复数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python pandas找出、删除重复的数据实例

python Xarray处理设置二维数组作为coordinates方式 — python Xarray处理设置二维数组作为coordinate

工信部称网盘企业免费用户最低速率应满足基本下载需求，天翼云盘回应：坚决支持，始终

电脑版 - 返回首页

2006-2023 脚本之家 JB51.Net , All Rights Reserved.
苏ICP备14036222号

推荐文章

威武的单杠 · Pandas中日期由“YYYYMMDD”改为“YYYY-MM-DD“_pandas datetime转化成yyyy.mm.dd

1 周前

有胆有识的椰子 · Pandas dataframe数据处理方法速度比较_pandas千万行数据筛选要多久

6 天前

奔跑的风衣 · pandas高效读取大文件的探索之路 - wang_yb

6 天前

坏坏的羽毛球 · 数据分析利器 pandas 系列教程（六）：合并上百万个 csv 文件，如何提速上百倍开发者社区

6 天前

打篮球的荒野 · 循环遍历dataframe列以形成嵌套dataframe - Spark -

21 小时前

豪气的双杠 · 限制和警告

2 周前

风流的春卷 · 许志安出席车行活动强忍丧父悲痛照开工(组图)_手机新浪网

1 年前

大方的炒饭 · 胖宅神帶領全明星陣容踏進惡夢後巷！《玉面情魔》原著小說黑暗到不忍卒睹！ – 電影神搜

1 年前

拉风的绿豆 · Migration Guide: SQL, Datasets and DataFrame - Spark 3.4.1 Documentation

1 年前

听话的黄豆 · R语言初级教程: NA、Inf、NaN、NULL 特殊值_函数参数

1 年前