基于百分位极差和1.5IQR原则利用python快速直观地筛选异常值_使用iqr原则检测excel中的异常值

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

多情的匕首 · 有序多分类Logistic回归（图文+数据集 ...· 2 周前 ·

个性的灯泡 · 数据清理 – 星火· 2 月前 ·

不敢表白的豆浆 · python如何去除异常值 | ...· 2 月前 ·

道上混的火龙果 · 分位数类型2的问题_为什么较低的分位数大于较 ...· 2 月前 ·

好帅的大熊猫 · 异常值的检测与处理（附python代码及实例 ...· 2 月前 ·

唠叨的豆芽 · 联系我们· 1 周前 ·

大方的柠檬 · scrollIntoView滚动不生效_sc ...· 2 周前 ·

微醺的红茶 · 小黄油lost攻略 - 百度· 1 月前 ·

气宇轩昂的钥匙 · UG 自动省料排版技巧及应用 - 豆包 - ...· 6 月前 ·

难过的领结 · 【经验分享】哈尔滨工程大学船舶专业考研801 ...· 6 月前 ·

本文介绍如何使用pandas和openpyxl库在数据预处理时，通过箱线图检测并直观地标记出数据中的异常值。方法包括计算四分位数和IQR，然后根据这些统计信息为数据添加红色背景以标识异常。作者建议根据样本量和模型泛化考虑保留部分异常值。摘要由CSDN通过智能技术生成

甚至有些极端异常值直接影响后续计算：

当我们面临数据量很大，而且需要加入人的主观意愿对数据异常进行删除或保留的时候，下面代码提供了一种简便直观的操作，可以直接在原始数据表中把异常值标记出来：

import pandas as pd
import openpyxl
from openpyxl.styles import PatternFill
# 读取CSV文件
file_path = r'输入你的工作路径\输入你的数据.csv'
df = pd.read_csv(file_path)
def highlight_outliers(val):
        if float(val) < lower_bound or float(val) > upper_bound:
            return 'background-color: red'
    except:
    return ''
# 定义函数来标记异常值
def highlight_outliers(s):
    Q1 = s.quantile(0.25)
    Q3 = s.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return ['background-color: red' if x < lower_bound or x > upper_bound else '' for x in s]
df_styled = df.style.apply(highlight_outliers, axis=0)
                    然后有“异常”的数据就直观地标在下面，可以根据自己的需求酌情筛选。但是，不是太离谱的数据可以酌情保留，一方面根据自己的样本量大小斟酌，另一方面可以提升模型的泛化能力。© 著作权归作者所有,转载或内容合作请联系作者。
				异常值分析是检验数据是否有录入错误数据和不合常理的数据。不加剔除的把异常值代入数据分析过程中，会对结果产生不良影响，而对异常值的分析其原因，常常成为为发现问题的而改进决策的契机。
异常值是指样本中的个别值，其数值明显偏离其余的数据。异常值通常也称为离群点，所以异常值分析也叫做离群点分析。
异常值分析通常有以下几种：
（1）简单统计量分析
最常用的统计量是最大值和最小值，用来判断这个变量的取值是否超...
                    CSDN-Ada助手: 
                    恭喜您开始博客创作！标题听起来非常有趣而又实用。使用百分位极差和1.5IQR原则来筛选异常值确实是一个非常实用的技巧，尤其是在处理数据时。您在文章中提到使用Python来实现这一过程，这对读者来说必定非常有帮助。
在下一步的创作中，我建议您可以进一步探索如何使用这些技巧应用于实际问题，并提供更多的示例和案例。此外，您可以考虑添加一些其他常用的异常值检测方法，以便读者可以全面理解和比较不同的方法。
再次恭喜您的博客创作，并期待您更多优质内容的分享！
推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

推荐文章

多情的匕首 · 有序多分类Logistic回归（图文+数据集）【SPSS 079期】_logistic列联表数据集-CSDN博客

2 周前

个性的灯泡 · 数据清理 – 星火

2 月前

不敢表白的豆浆 · python如何去除异常值 | PingCode智库

2 月前

道上混的火龙果 · 分位数类型2的问题_为什么较低的分位数大于较高的分位数？_Grafana Promql直方图分位数查询问题 - 腾讯云开发者社区 - 腾讯云

2 月前

好帅的大熊猫 · 异常值的检测与处理（附python代码及实例）_python_CRLBJ-GitCode 开源社区

2 月前

唠叨的豆芽 · 联系我们

1 周前

大方的柠檬 · scrollIntoView滚动不生效_scrollintoview不生效-CSDN博客

2 周前

微醺的红茶 · 小黄油lost攻略 - 百度

1 月前

气宇轩昂的钥匙 · UG 自动省料排版技巧及应用 - 豆包 - AI 智能助手

6 月前

难过的领结 · 【经验分享】哈尔滨工程大学船舶专业考研801船舶力学专业课120+高分上岸学姐考研经验分享 - 知乎

6 月前