加快python算法的四个方法：Numba篇-CDA数据分析师官网

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

卖萌的黄豆 · 学习向导-AscendCL应用开发（Pyth ...· 5 小时前 ·

霸气的书签 · 学习加油站系列活动之Python学习分享会顺 ...· 5 小时前 ·

酷酷的煎鸡蛋 · “学习加油站”系列活动之python期末考前 ...· 5 小时前 ·

一身肌肉的伤疤 · Krita Python 插件编写教程 — ...· 3 小时前 ·

绅士的剪刀 · Python 加载项基本概念—ArcMap ...· 3 小时前 ·

深情的羽毛球 · Results - OpenURL ...· 6 月前 ·

健壮的山寨机 · “三全育人”工作研讨 | ...· 9 月前 ·

高大的圣诞树 · 关于爱，写给爱--法国电影《蝴蝶》影评 - 知乎· 1 年前 ·

傻傻的大蒜 · 《无与伦比的美丽》（2023）.电视剧.百度 ...· 1 年前 ·

不要命的茶叶 · 法国电影大师展：遇见特吕弗｜厦门_腾讯新闻· 1 年前 ·

相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不已，接下来我们围绕四个方法来帮助大家加快一下Python的计算时间，减少大家在算法上的等待时间。今天给大家介绍Numba这一块的内容。所以什么是Numba呢？Numba是Python的即时编译器，也就是说当你调用Python 函数时，你的全部或部分代码都会被计时转换成为机器码进行执行，然后它就会以你的本机机器码速度运行，Numba由Anaconda公司赞助，并得到了许多组织的支持。使用Numba，你可以加速所有以集中计算的、计算量大的 python 函数（例如循环）的速度。它还支持 numpy 库！因此，你也可以在计算中使用 numpy ，并加快整体计算的速度，因为 python 中的循环非常慢。你还可以使用 python 标准库中的数学库的许多功能，例如sqrt等。 2.为什么选择Numba？所以，为什么要选择Numba？特别是当存在有许多其他编译器，例如cython或任何其他类似的编译器，或类似pypy的东西时。选择Numba的理由很简单，那就是因为你不需要离开使用Python编写代码的舒适区。是的，你没看错，你不需要为了加速数据的运行速度而改变你的代码，这与从具有类型定义的相似cython代码获得的加速相当。那不是更好么？你只需要在函数周围添加一个熟悉的Python功能，也就是装饰器（包装器）。目前类的装饰器也在开发之中。所以，你只需要添加一个装饰器就可以了。例如： from numba import jit@jitdef function(x): # 循环或数值密集型的计算 return x 它看起来仍然像是纯 python 代码，不是吗？ 3. Numba如何工作？ Numb使用LLVM编译器基础结构，从纯Python代码生成优化的机器码。使用Numba的代码运行速度与C，C ++或Fortran中的类似代码相媲美。这是代码的编译方式：首先，获取，优化Python函数并将其转换为Numba的中间表示形式，然后类似于Numpy的类型推断一样进行类型判断（因此 python float为float64），然后将其转换为LLVM可解释的代码。然后，该代码被馈送到LLVM的即时编译器以发出机器代码。你可以根据需要在运行时生成代码或在CPU（默认）或GPU上导入代码。 4.使用基本的Numba功能（只需要@jit！）小菜一碟！为了获得最佳的性能，numba建议在你的jit包装器中使用参数no python = True，但它根本不会使用Python解释器。或者你也可以使用@njit。如果你使用no python = True的包装器失败并出现错误，则可以使用简单的@jit包装器，该包装器将编译部分代码，对其进行循环，然后将其转换为函数，再编译为机器码，然后将其余部分交给 python 解释器。因此，你只需要执行以下操作： from numba import njit, jit@njit # 或者@jit(no python =True)def function(a, b): # 循环或数值密集型计算 return result 使用@jit时，请确保你的代码具有Numba可以编译的内容，例如计算密集型循环，使用它支持的库（Numpy）及其支持的函数。否则，它将无法编译任何内容。首先，numba在首次用作机器代码后还会缓存这些函数。因此，在第一次使用之后，它会变得更快，因为你无需再次编译该代码，因为你使用的参数类型和你之前使用的相同。而且，如果你的代码是可以并行化运行的，那么也可以将parallel = True作为参数传递，但是必须跟参数no python = True结合使用。目前，它仅可以在CPU上工作。你也可以指定你想要的函数签名，但是它不会编译你给他的任何其他类型的参数，比如：你还可以指定你希望函数具有的函数签名，但是对于提供给它的任何其他类型的参数，它将不会编译。例如： from numba import jit, int32@jit(int32(int32, int32))def function(a, b): #循环或数值型密集型计算 return result#或者你还没有导入类型的名称#你可以将他们作为字符串传递@jit('int32(int32, int32)')def function(a, b): #循环或数值型密集型计算 return result 现在，你的函数将只接受两个int32并返回一个int32。这样，你可以更好地控制自己的函数。你甚至可以根据需要传递多个)函数签名。通过使用@vectorize包装器，你可以将对标量进行操作的函数转换为数组，例如，如果你正在使用math仅在标量上运行的 python 库，则可以对数组使用。这提供了类似于 numpy 数组操作（ufuncs）的速度。例如： @vectorizedef func(a, b): # 对标量进行运算 return result 你还可以将target参数传递给此包装器，该包装器的值可以等于parallel用于并行化代码，cuda用于在cuda / GPU上运行代码的值。 @vectorize(target="parallel")def func(a, b): # 对标量进行运算 return result 假设你的代码具有足够的计算密集性或数组足够大，则使用 numpy 进行矢量化target = "parallel"或"cuda"通常比 numpy 实现运行得更快。如果不是这样的话，这将花费大量时间来制作线程和为不同的线程拆分元素，这可能会超过整个过程的实际计算时间。因此，工作应该足够繁重才能加快速度。你也可以像包装器一样传递@jit来在cuda / GPU上运行函数。为此，你将必须numba库中导入cuda。但是在GPU上运行代码不会像以前那样容易。为了在GPU上的数百个甚至数千个线程上运行函数，它需要完成一些初始计算。你必须声明和管理网格，块和线程的层次结构。但是这并不难。要在GPU上执行一个函数，你必须定义一个 kernel function（内核函数）或一个device function(设备函数)。首先，让我们看一下kernel function（核函数)。关于内核函数需要记住的几点： a）内核在被调用时显式声明其线程层次结构，即块数和每个块的线程数。你可以编译一次内核，然后使用不同的块和网格大小多次调用它。 b）内核无法返回值。因此，你将不得不在原始数组上进行更改，或者传递另一个数组来存储结果。对于计算标量，你将必须传递一个一元数组。 # 定义一个内核函数from numba import cuda@cuda.jitdef func(a, result): # 然后是一些CUDA相关的计算 # 你的计算密集的代码 # 你的答案储存在'result'中因此，要启动内核，你将必须传递两个东西： 1. 每个块的线程数， 1. 块的数量。 threadsperblock = 32blockspergrid = (array.size + (threadsperblock - 1)) // threadsperblockfunc[blockspergrid, threadsperblock](array) 每个线程中的内核函数必须知道它在哪个线程中，知道它负责数组的哪个元素。通过Numba，只需一次调用即可轻松获得元素的这些位置。 @cuda.jitdef func(a, result): pos = cuda.grid(1) # 对一维数组 # x, y = cuda.grid(2) # 对二维数组 if pos < a.shape[0]: result[pos] = a[pos] * (some computation) 为了节省将 numpy 数组复制到特定设备并再次将结果存储在 numpy 数组中的时间，Numba提供了一些函数来声明和发送数组到特定的设备，如：numba.cuda.device_array，numba.cuda.device_array_like，numba.cuda.to_device，等等，以节省不必要的时间复制到cpu（除非必要）。另一方面，device function只能从设备内部（通过内核或其他设备函数）好处是，你可以从device function返回一个值。因此，你可以使用此函数的返回值来计算kernel function或device function的一些内容。 from numba import cuda@cuda.jit(device=True)def device_function(a, b): return a + b Numba 在其cuda库中还具有原子操作，随机数生成器，共享内存实现（以加快数据访问速度）等。 ctypes / cffi / cython互操作性： · cffi- 在no python 模式下支持CFFI函数的调用。 · ctypes — 在no python 模式下支持ctypes包装器函数的调用… · Cython导出的函数是可调用的。下一期我们来看加快Python算法的另一种方法——数据并行化！ python numpy

数据分析师必备技能：2024年职业发展指南 ...

作为一名长期从事数据分析的专业人士，我深感这个领域的快速发展和不断变化。在2024年，数据分析师的角色变得更加重要，企业对数 ...

2024-08-26