Pandas dataframe数据处理方法速度比较_pandas千万行数据筛选要多久

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

没有腹肌的蚂蚁 · Reading an excel file ...· 1 月前 ·

唠叨的豆芽 · Pandas中multiindex转换成列_ ...· 1 月前 ·

爱吹牛的瀑布 · PySpark 读写 JSON 文件到 ...· 2 周前 ·

含蓄的酸菜鱼 · Python每日一记178>>>当group ...· 3 天前 ·

曾经爱过的猴子 · Provision both wifi6 ...· 7 月前 ·

想旅行的热水瓶 · 编译器错误消息: CS0433: ...· 10 月前 ·

有胆有识的投影仪 · git教程-高级 · 我的blog· 11 月前 ·

力能扛鼎的伤疤 · How to Replace ...· 1 年前 ·

大力的电梯 · Python 3 多进程-腾讯云开发者社区-腾讯云· 1 年前 ·

iloc是一种速度极其慢的写法。这里我们对每个csv文件中的每一行循环再用iloc处理，示例代码如下：

for index in range(len(df)):

df.iloc['attr'][index] = xxx

使用这种方法对五百万行的数据进行处理大概需要5个小时，实在是很慢。

at相比于iloc有了很大的性能提升，也是for循环处理，示例代码如下：

for i in range(len(df)):
    if df.at[i,'attr'] > 0:
       sum_positive += df.at[i,'attr']
    else:
        sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的，用at，程序的速度会有大幅提高，大概10分钟，但是还不够。

3.apply(lambda x:...)

想说apply是因为我觉得for循环速度太慢，想在循环上对程序进行优化。然后网上有人说apply可以大幅度提升速度，然而经过测试发现在我的程序里，使用apply和for差不多吧，性能也一般。

4.直接用series处理

这才是真正优化for循环的方法，以上面at的程序为例，可以改写为：

如果你使用过 Python 及 Pandas ，那么你很有可能已经使用了for循环去进行某些数据分析操作。不幸的是，绝大部分 Python 新手使用的下标循环语句实际上是非常之慢的，即便在小数据集上也会消耗大量的运行时间。本专栏之前的一些文章已经涉及了这方面的讨论，在这篇文章中文兄进一步特意对五种不同的For Loop 方法进行横向对比，使大家更加明晰自己平时写的各种For循环到底效率几何。 Python 资源... import numpy as np from sklearn.datasets import load_boston import matplotlib.pyplot as plt dataset = load_boston(... Segment元数据信息存储到mysql等关系型数据库时，针对每个SegmentID增加是否是热数据的字段。此外，设热数据判定规则，如近一天的数据，指定时间戳范围的数据，近几条数据或近几个segment等。 Coordinator轮询zookeeper，获取新发布的segment，通过元数据存储的是否是热数据的segment信息，向不同的Historcial进行发布数据加载指令。如果为热数据，将segment一个副本加载到具备SSD的Historcial节点上，其他副本放到具备HHD的His. 作为数据分析工作者,我们每天都要处理大量数据 ,这时 Pandas 等工具的读取性能也就备受关注。因此,如果是读取整个表的数据 ,建议使用此方法。可以通过SQL先过滤和筛选出需要的字段和数据 ,然后再读取到 Pandas 。这可以最大限度减少读取的数据量,加快读取速度。在读取数据时指定chunksize参数,这会将数据分块读取到 Pandas ,而不是将整个数据集载入内存。在SQL查询中仅选择需要的列,避免读取无关列的数据。指定index_col参数可以跳过某一列的数据读取,这能减少读取的数据量,提高速度。 1. 背景－为啥要用 pandas 公司的日常运营数据通过大数据平台（HIVE SQL）通过汇总后，推送给业务部门进行日常分析的数据仍然非常大。从数据量从PB&TB级降到了GB级，一般主要通过Mysql进行存储&聚合分析。日或周的数据，mysql处理还是可以的。到月数据，超过10GB（1亿行），处理起来就开始吃力，数据吞现有一个数据量很大的 dataframe （本文中的示例数据为100万行，9列）需要做一些筛选操作。考虑到数据量特别大，不同的方法在性能方面会造成巨大的差异。此次的数据比较特殊，有一个TradingDay字段，标准格式应该是nchar(8)，也可以当做8位的数值使用。筛选差异也由他们的数据类型产生。筛选数据由两部分组成，筛选条件与取值方法。本文使用到的筛选条件有两种：字符串比较数值比较取值方法有三种： loc取值索引取值['column_name'] 属性取值.column_n 来源：Deephub Imba编辑： Python 数据科学在 Pandas 中有很多种方法可以进行 DF的合并。本文将研究这些不同的方法，以及如何将它们执行速度的对比。合并DF Pandas 使用 .merge() 方法来执行合并。import pandas aspd #adictionarytoconverttoa dataframe data1={'identific... 怎样解决 python dataframe loc，iloc循环处理速度很慢的问题1.问题说明最近用 DataFrame 做大数据处理，发现处理速度特别慢，追究原因，发现是循环处理时，loc，iloc 速度都特别慢，当数据量特别大得时候真的是超级慢。查很多资料，发现没有详细说明，以下为解决办法2.问题解决使用 Pandas .Series.apply 方法，可以对一列数据快速进行处理Series.appl... 作者：Benedikt Droste编译：1+1=6前言如果你使用 Python 和 Pandas 进行数据分析，循环是不可避免要使用的。然而，即使对于较小的DataFame来说，使用标准循环也是非常耗时的，对于较大的 DataFrame 来说，你懂的。今天，公众号为大家分享一个关于 Pandas 提速的小攻略，助你一臂之力！相关文章1、30倍！使用Cython加速 Python 代码2、CuPy：将Numpy提速7...