Python王牌加速库：奇异期权定价的利器_模拟

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

打盹的黑框眼镜 · 菏泽市政府工作报告（2024年1月11日 ...· 8 月前 ·

眉毛粗的西红柿 · 主题调研｜传播研究院赴中国国家版本馆中央总馆调研· 9 月前 ·

骑白马的灭火器 · 【日式RPG/汉化/换装】TSRPG-附身少 ...· 10 月前 ·

爱喝酒的毛衣 · 16类型都喜欢什么娱乐活动？· 11 月前 ·

任性的西红柿 · 《摩尔庄园》手游蓝色公主裙怎么获得_摩尔庄园 ...· 1 年前 ·

在金融领域，计算效率有时可以直接转化为交易利润。 量化分析师面临着在研究效率和计算效率之间进行权衡的挑战 。使用Python可以生成简洁的研究代码，从而提高了研究效率。但是，一般的Python代码速度很慢，不适合用于生产环境。在这篇文章中，我们将探索如何使用 Python的GPU库来高性能实现奇异期权定价领域遇到的问题 。

定价计算概述

Black-Scholes模型可以有效地用欧洲行权规则为plain vanilla定价。像障碍（Barrier）期权和篮子（Basket ）期权这样的期权具有复杂的结构。蒙特卡罗模拟是一种有效的定价方法。为了得到一个精确的价格和一个小的变动，你需要许多模拟路径，计算十分密集。

幸运的是，每个模拟路径都是独立的， 大家可以利用多核NVIDIA GPU在一个节点内加速计算，甚至在必要时将其扩展到多个服务器 。由于独立路径的并行化，使用GPU可以将计算速度提高几个数量级。

传统上，对GPU的蒙特卡罗仿真是在CUDA C/ C++代码中实现的。大家必须明确地管理内存并编写大量样板代码，这对代码维护和生产效率提出了挑战。

最近，Deep Learning Derivatives（Ryan et al，2018）的论文被引入到使用深度神经网络来近似期权定价模型。该方法利用计算时间与推理时间进行定价训练，与GPU上的蒙特卡罗模拟相比，它实现了额外的数量级加速，这使得在生产环境中的实时奇异期权定价成为一个现实目标。

在这篇文章中介绍的方法对奇异期权类型没有任何限制。它适用于任何可以用蒙特卡罗方法模拟的期权定价模型。

在不失一般性的情况下，大家可以使用 亚式障碍期权 作为一个示例。亚式障碍期权是亚式期权和障碍期权的混合。衍生品价格取决于标的资产价格S、执行价格K和障碍价格B的平均值。以上下看涨期权离散化亚洲障碍期权为例。

如果标的资产的平均价格低于这一水平，则该期权无效。

资产现货价格S通常在建模中被认为是属于几何布朗运动，它有三个参数：现货价格、波动率和漂移率。

期权的价格是到期时的预期利润相对于当前价值的折现。

期权的路径依赖性使得对期权价格的解析解成为不可能。

这是使用蒙特卡罗模拟定价的一个很好的示例。你需要一个至少16GB的GPU来复现这个结果。

第1部分：使用GPU Python库进行蒙特卡洛定价

NVIDIA GPU被设计用来使用大量线程进行并行计算。蒙特卡罗仿真是在GPU中可以很好加速的算法之一。在下面的小节中，大家将看到在传统的CUDA代码中使用蒙特卡罗模拟，然后在Python中使用不同的库实现相同的算法。

CUDA方法

传统上，蒙特卡罗期权定价是在CUDA C/ C++中实现的。下面的CUDA C/ C++代码示例使用蒙特卡罗方法计算期权价格：

# include <vector>

# include <stdio.h>

# include <iostream>

# include <chrono>

# include <cuda_runtime.h>

# include <helper_cuda.h>

# include <curand.h>

# define CHECKCURAND(expression)

curandStatus_t status = (expression);

if (status != CURAND_STATUS_SUCCESS) {

std::cerr << "Curand Error on line " << __LINE__<< std::endl;

std::exit(EXIT_FAILURE);

// atomicAdd is introduced for compute capability >=6.0

# if !defined(__CUDA_ARCH__) || __CUDA_ARCH__ >= 600

# else

__ device__ double atomicAdd ( double * address, double val)

printf ( "device arch <=600n" );

unsigned long long int * address_as_ull = ( unsigned long long int *)address;

unsigned long long int old = *address_as_ull, assumed;

assumed = old;

old = atomicCAS(address_as_ull, assumed,

__double_as_longlong(val + __longlong_as_double(assumed)));

} while (assumed != old);

return __longlong_as_double(old);

# endif

__ global__ void sumPayoffKernel ( float *d_s, const unsigned N_PATHS, double *mysum)

unsigned idx = threadIdx.x + blockIdx.x * blockDim.x;

unsigned stride = blockDim.x * gridDim.x;

unsigned tid = threadIdx.x;

extern __shared__ double smdata[];

smdata[tid] = 0.0 ;

for ( unsigned i = idx; i<N_PATHS; i+=stride)

smdata[tid] += ( double ) d_s[i];

for ( unsigned s=blockDim.x/ 2 ; s> 0 ; s>>= 1 )

__syncthreads;

if (tid < s) smdata[tid] += smdata[tid + s];

if (tid == 0 )

atomicAdd(mysum, smdata[ 0 ]);

__ global__ void barrier_option (

float *d_s,

const float T,

const float K,

const float B,

const float S0,

const float sigma,

const float mu,

const float r,

const float * d_normals,

const long N_STEPS,

const long N_PATHS)

unsigned idx = threadIdx.x + blockIdx.x * blockDim.x;

unsigned stride = blockDim.x * gridDim.x;

const float tmp1 = mu*T/N_STEPS;

const float tmp2 = exp (-r*T);

const float tmp3 = sqrt (T/N_STEPS);

double running_average = 0.0 ;

for ( unsigned i = idx; i<N_PATHS; i+=stride)

float s_curr = S0;

for ( unsigned n = 0 ; n < N_STEPS; n++){

s_curr += tmp1 * s_curr + sigma*s_curr*tmp3*d_normals[i + n * N_PATHS];

running_average += (s_curr - running_average) / (n + 1.0 ) ;

if (running_average <= B){

break ;

float payoff = (running_average>K ? running_average-K : 0.f );

d_s[i] = tmp2 * payoff;

int main ( int argc, char *argv[]) {

try {

// declare variables and constants

size_t N_PATHS = 8192000 ;

size_t N_STEPS = 365 ;

if (argc >= 2 ) N_PATHS = atoi(argv[ 1 ]);

if (argc >= 3 ) N_STEPS = atoi(argv[ 2 ]);

const float T = 1.0f ;

const float K = 110.0f ;

const float B = 100.0f ;

const float S0 = 120.0f ;

const float sigma = 0.35f ;

const float mu = 0.1f ;

const float r = 0.05f ;

double gpu_sum{ 0.0 };

int devID{ 0 };

cudaDeviceProp deviceProps;

checkCudaErrors(cudaGetDeviceProperties(&deviceProps, devID));

printf ( "CUDA device [%s]n" , deviceProps.name);

printf ( "GPU Device %d: "%s" with compute capability %d.%dnn" , devID, deviceProps.name, deviceProps.major, deviceProps.minor);

// Generate random numbers on the device

curandGenerator_t curandGenerator;

CHECKCURAND(curandCreateGenerator(&curandGenerator, CURAND_RNG_PSEUDO_MTGP32));

CHECKCURAND(curandSetPseudoRandomGeneratorSeed(curandGenerator, 1234U LL)) ;

const size_t N_NORMALS = ( size_t )N_STEPS * N_PATHS;

float *d_normals;

checkCudaErrors(cudaMalloc(&d_normals, N_NORMALS * sizeof ( float )));

CHECKCURAND(curandGenerateNormal(curandGenerator, d_normals, N_NORMALS, 0.0f , 1.0f ));

cudaDeviceSynchronize;

// before kernel launch, check the max potential blockSize

int BLOCK_SIZE, GRID_SIZE;

checkCudaErrors(cudaOccupancyMaxPotentialBlockSize(&GRID_SIZE,

&BLOCK_SIZE,

barrier_option,

0 , N_PATHS));

std :: cout << "suggested block size " << BLOCK_SIZE

<< " nsuggested grid size " << GRID_SIZE

<< std :: endl ;

std :: cout << "Used grid size " << GRID_SIZE << std :: endl ;

// Kernel launch

auto t1= std ::chrono::high_resolution_clock::now;

float *d_s;

checkCudaErrors(cudaMalloc(&d_s, N_PATHS* sizeof ( float )));

auto t3= std ::chrono::high_resolution_clock::now;

barrier_option<<<GRID_SIZE, BLOCK_SIZE>>>(d_s, T, K, B, S0, sigma, mu, r, d_normals, N_STEPS, N_PATHS);

cudaDeviceSynchronize;

auto t4= std ::chrono::high_resolution_clock::now;

double * mySum;

checkCudaErrors(cudaMallocManaged(&mySum, sizeof ( double )));

sumPayoffKernel<<<GRID_SIZE, BLOCK_SIZE, BLOCK_SIZE* sizeof ( double ) >>> (d_s, N_PATHS, mySum) ;

cudaDeviceSynchronize;

auto t5= std ::chrono::high_resolution_clock::now;

std :: cout << "sumPayoffKernel takes "

<< std ::chrono::duration_cast< std ::chrono::microseconds>(t5-t4).count / 1000.f

<< " msn" ;

gpu_sum = mySum[ 0 ] / N_PATHS;

auto t2= std ::chrono::high_resolution_clock::now;

// clean up

CHECKCURAND(curandDestroyGenerator( curandGenerator )) ;

checkCudaErrors(cudaFree(d_s));

checkCudaErrors(cudaFree(d_normals));

checkCudaErrors(cudaFree(mySum));

std :: cout << "price "

<< gpu_sum

<< " time "

<< std ::chrono::duration_cast< std ::chrono::microseconds>(t5-t1).count / 1000.f

<< " msn" ;

catch ( std ::

exception& e)

std :: cout << "exception: " << e.what << "n" ;

这段CUDA代码很长。一般来说，它主要执行以下一系列任务：

1、分配GPU内存来存储随机数和模拟路径结果。

2、调用cuRand库生成随机数。

3、启动障碍期权内核来执行并行模拟。

4、启动sum内核来聚合最终基础资产价格。

5、释放内存。

大家必须显式地执行每个步骤。在这个代码示例中，它计算下表中指定的亚式障碍期权的价格。

亚式障碍期权的参数。K是执行价格，B是障碍价格，S0是现货价格，sigma是波动率百分比，mu是漂移百分比，r是利率。

可以使用许多技巧来减少模拟所需的路径数，例如 重要性采样方法。

在这五个步骤中，关键的部分是步骤3，大家需要在其中描述详细的蒙特卡罗模拟。理想情况下，大家的努力应该集中在这一步上。幸运的是，在迁移到Python GPU库之后，其他步骤可以自动处理，而不会牺牲其性能。例如：

步骤1：可以通过CuPy数组自动分配和初始化GPU内存。路径结果数组可以通过以下代码示例定义：

output = cupy.zeros(N_PATHS, dtype=cupy.float32)

步骤2：CuPy随机函数引擎下的cuRAND库。分配和随机数生成可以通过以下代码示例定义:

randoms_gpu = cupy.random.normal( 0 , 1 , N_PATHS * N_STEPS, dtype=cupy.float32)

步骤4：GPU的平均值计算是CuPy库中的一个内置函数。

v = output.mean

步骤5：通过 Python 内存管理自动释放 GPU 内存。

在这篇文章的其余部分，我们会将重点介绍第3步，使用Python对亚式障碍期权进行蒙特卡罗模拟。

Numba库方法-单核CPU

下面的代码示例是一个实现蒙特卡罗模拟优化运行在一个单核CPU：

@njit(fastmath=True)

def cpu_barrier_option (d_s, T, K, B, S0, sigma, mu, r, d_normals, N_STEPS, N_PATHS) :

tmp1 = mu*T/N_STEPS

tmp2 = math.exp(-r*T)

tmp3 = math.sqrt(T/N_STEPS)

running_average = 0.0

for i in range(N_PATHS):

s_curr = S0

for n in range(N_STEPS):

s_curr += tmp1 * s_curr + sigma*s_curr*tmp3*d_normals[i + n * N_PATHS]

running_average = running_average + 1.0 /(n + 1.0 ) * (s_curr - running_average)

if running_average <= B:

break

payoff = running_average - K if running_average>K else 0

d_s[i] = tmp2 * payoff

蒙特卡罗仿真有两个嵌套的for-loop。外部循环遍历独立路径。在内部循环中，标的资产价格逐步更新，最终价格设置为结果数组。

我们启用了 fastmath 编译器优化来加快计算速度。对于相同数量的仿真路径和步骤，需要 41.6s 才能产生相同的定价数。

Numba库方法-多核CPU

为了实现跨多个CPU核的计算，你可以通过 将range改为prange来并行化外层for循环：

@njit(fastmath=True, parallel=True)

def cpu_multiplecore_barrier_option (d_s, T, K, B, S0, sigma, mu, r, d_normals, N_STEPS, N_PATHS) :

tmp1 = mu*T/N_STEPS

tmp2 = math.exp(-r*T)

tmp3 = math.sqrt(T/N_STEPS)

for i in prange(N_PATHS):

s_curr = S0

running_average = 0.0

for n in range(N_STEPS):

s_curr += tmp1 * s_curr + sigma*s_curr*tmp3*d_normals[i + n * N_PATHS]

running_average = running_average + 1.0 /(n + 1.0 ) * (s_curr - running_average)

if running_average <= B:

break

payoff = running_average - K if running_average>K else 0

d_s[i] = tmp2 * payoff

这段代码产生了相同的定价结果，现在需要 2.34s 才能在32核、超线程化DGX-1 Intel CPU中计算出来。

Numba库方法-单核GPU

使用Numba可以很容易地从CPU代码转移到GPU代码。在函数装饰中将 njit 改为 cuda.jit 。并使用 GPU 线程并行进行外部for-loop计算。

@cuda.jit

def numba_gpu_barrier_option (d_s, T, K, B, S0, sigma, mu, r, d_normals, N_STEPS, N_PATHS) :

# ii - overall thread index

ii = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x

stride = cuda.gridDim.x * cuda.blockDim.x

tmp1 = mu*T/N_STEPS

tmp2 = math.exp(-r*T)

tmp3 = math.sqrt(T/N_STEPS)

running_average = 0.0

for i in range(ii, N_PATHS, stride):

s_curr = S0

for n in range(N_STEPS):

s_curr += tmp1 * s_curr + sigma*s_curr*tmp3*d_normals[i + n * N_PATHS]

running_average += (s_curr - running_average) / (n + 1.0 )

if running_average <= B:

break

payoff = running_average - K if running_average>K else 0

d_s[i] = tmp2 * payoff

通过在 V100 GPU 上加速这种运算，计算时间可以减少到 65ms ，并产生相同的结果。

CuPy库方法-单核GPU

CuPy提供了一种从原始CUDA源定义GPU内核的简单方法。 RawKernel 对象允许大家使用CUDA的 cuLaunchKernel 接口调用内核。下面的代码示例将障碍期权的计算代码封装在 RawKernel 对象中：

cupy_barrier_option = cupy.RawKernel( r'''

extern "C" __global__ void barrier_option(

float *d_s,

const float T,

const float K,

const float B,

const float S0,

const float sigma,

const float mu,

const float r,

const float * d_normals,

const long N_STEPS,

const long N_PATHS)

unsigned idx = threadIdx.x + blockIdx.x * blockDim.x;

unsigned stride = blockDim.x * gridDim.x;

unsigned tid = threadIdx.x;

const float tmp1 = mu*T/N_STEPS;

const float tmp2 = exp(-r*T);

const float tmp3 = sqrt(T/N_STEPS);

double running_average = 0.0;

for (unsigned i = idx; i<N_PATHS; i+=stride)

float s_curr = S0;

unsigned n=0;

for(unsigned n = 0; n < N_STEPS; n++){

s_curr += tmp1 * s_curr + sigma*s_curr*tmp3*d_normals[i + n * N_PATHS];

running_average += (s_curr - running_average) / (n + 1.0) ;

if (running_average <= B){

break;

float payoff = (running_average>K ? running_average-K : 0.f);

d_s[i] = tmp2 * payoff;

''' , 'barrier_option' )

在Python中启动这个GPU内核并运行蒙特卡罗模拟需要 29ms ，这与本地CUDA代码的基准测试（26ms）非常接近。

Dask-多核GPU

为了获得更准确的期权价格估计，需要更多的蒙特卡罗模拟路径。之前使用的NVIDIA V100 GPU只有16GB的内存，几乎达到了运行8M模拟的内存极限。

DASK是RAPIDS在GPU上进行分布式计算的集成组件。大家可以利用它将蒙特卡罗模拟计算分布到跨多个节点的多个GPU。

https://dask.org/

首先，将所有计算封装在一个函数中，以允许在函数调用结束时释放分配给GPU的内存。该函数为随机数种子值添加一个额外的参数，这样每个函数调用都有一个独立的随机数序列。

def get_option_price (T, K, B, S0, sigma, mu, r, N_PATHS = 8192000 , N_STEPS = 365 , seed= 3 ) :

number_of_threads = 256

number_of_blocks = (N_PATHS -1 ) // number_of_threads + 1

cupy.random.seed(seed)

randoms_gpu = cupy.random.normal( 0 , 1 , N_PATHS * N_STEPS, dtype=cupy.float32)

output = cupy.zeros(N_PATHS, dtype=cupy.float32)

cupy_barrier_option((number_of_blocks,), (number_of_threads,),

(output, np.float32(T), np.float32(K),

np.float32(B), np.float32(S0),

np.float32(sigma), np.float32(mu),

np.float32(r), randoms_gpu, N_STEPS, N_PATHS))

v = output.mean

out_df = cudf.DataFrame

out_df[ 'p' ] = cudf.Series([v.item])

return out_df

x = dask_cudf.from_delayed([delayed(get_option_price)(T= 1.0 , K= 110.0 , B= 100.0 , S0= 120.0 , sigma= 0.35 , mu= 0.1 , r= 0.05 , seed= 3000 +i) for i in range( 1600 )])

x.mean.compute

x.std.compute

这种额外的计算能力产生了一个更精确的定价结果18.71。调用std函数计算有800万条路径的定价的标准偏差为0.0073。

第2部分：基于深度衍生工具的期权定价

在这篇文章的第1部分中，Python被用来实现蒙特卡罗模拟，从而在GPU中有效地为奇异的期权定价。 在量化金融中，低延迟期权定价在生产环境中对管理投资组合风险非常重要。蒙特卡罗模拟，即使在GPU中加速，有时也不够有效。

本文提出了一种利用深度神经网络逼近期权定价的模型，并利用蒙特卡罗模拟生成的数据对其进行训练。结果表明，深度神经网络能够生成准确的定价数据，推理时间数量级更快。

https://arxiv.org/pdf/1809.02233.pdf

受这篇文章的启发，我们在今天的推文中使用了类似的方法来建立一个近似的定价模型，并加快了推理延迟。利用一个高阶可微激活函数，证明了该模型可以有效地通过网络反向传递计算期权Greeks。通过使用TensorRT（https://github.com/NVIDIA/TensorRT）对模型进行转换，以提供最快的奇异期权定价速度，进一步提高了推理时间。

神经网络逼近

深度神经网络是一种很好的函数逼近器，在图像处理和自然语言处理中取得了很大的成功。深度神经网络通常具有良好的泛化能力，当神经网络训练了大量的数据时，泛化能力对不可见的数据集非常有效。由于蒙特卡罗模拟可以用来发现期权的准确价格，因此你可以使用它来生成尽可能多的数据点，给定计算预值。

一个有趣的发现来自《Noise2Noise: Learning Image Restoration without Clean Data》这篇论文。其实，讲到因为蒙特卡罗模拟中的噪声是无偏的，在随机梯度训练中可以消除。

https://arxiv.org/pdf/1803.04189.pdf

这一点在《Deeply Learning Derivatives》这篇论文中也得到了证明： 在相同路径数的情况下，模型的预测结果要优于蒙特卡罗模拟的结果。

预测模型体系结构图

上图解释：你生成随机期权参数（X个自变量），将它们输入到GPU的蒙特卡罗模拟中，然后计算出ground truth期权价格（Y个因变量）。然后使用这个生成的大数据集来训练一个深度神经网络，将期权定价作为一个非线性回归问题来学习。

在第1部分中我们使用Dask可以轻松地进行分布式计算。在这里，你可以使用Dask以分布式的方式生成一个大数据集：

futures = []

for i in range( 0 , 100 ):

future = client.submit(gen_data, 5 , 16 , i)

futures.append(future)

results = client.gather(futures)

gen_data 函数在单个GPU中运行，生成一组数据点并将它们保存在本地存储中。你可以使用第1部分中描述的任何Python GPU蒙特卡罗模拟方法。此示例代码使用不同的种子数运行 gen_data 100次，并将计算分配到多GPU环境中。

将6个期权参数统一采样到下表中指定的范围内：

总的来说，1000万个训练数据点和500万个验证数据点是通过在分布中运行蒙特卡罗模拟产生的。对于每个蒙特卡罗模拟，大家使用819.2万条路径来计算期权价格。如第1部分所示，819.2万条路径在该特定期权参数设置的价格中的标准差为0.0073。

神经网络模型

由于我们没有关于这六个期权参数的结构信息，请选择通用的多层感知器神经网络作为定价模型。如下图：

与《Deeply Learning Derivatives》论文的不同之处在于使用 Elu 作为激活函数，计算参数的高阶微分。如果你在原始的论文中使用ReLu，二阶微分总是0。

https://ml-cheatsheet.readthedocs.io/en/latest/activation_functions.html#elu

生成的随机期权参数的范围，输入参数首先通过除以[200.0,198.0,200.0,0.4,0.2,0.2]缩小到(0-1)范围。然后它们被投射到1024的隐藏维度上5次。最后一层是线性层，它将隐藏维度映射到预测的期权价格。下面的代码示例是 PyTorch 中详细的模型实现：

import torch.nn as nn

import torch.nn.functional as F

import torch

class Net (nn.Module) :

def __init__ (self, hidden= 1024 ) :

super(Net, self).__init__

self.fc1 = nn.Linear( 6 , hidden)

self.fc2 = nn.Linear(hidden, hidden)

self.fc3 = nn.Linear(hidden, hidden)

self.fc4 = nn.Linear(hidden, hidden)

self.fc5 = nn.Linear(hidden, hidden)

self.fc6 = nn.Linear(hidden, 1 )

self.register_buffer( 'norm' ,

torch.tensor([ 200.0 ,

198.0 ,

200.0 ,

0.4 ,

0.2 ,

0.2 ]))

def forward (self, x) :

# normalize the parameter to range [0-1]

x = x / self.norm

x = F.elu(self.fc1(x))

x = F.elu(self.fc2(x))

x = F.elu(self.fc3(x))

x = F.elu(self.fc4(x))

x = F.elu(self.fc5(x))

return self.fc6(x)

神经网络训练

我们提供了两种方法来训练神经网络，一种是使用Ignite，另一种是使用神经模块（NeMo）。这两个都是高级DL库，可以简化训练模型。实验结果表明，采用混合精度训练和多GPU训练可以有效地提高训练速度。使用 MSELoss 作为损失函数， Adam 作为优化器， CosineAnnealingScheduler 作为学习率调度器。

Greeks和隐含波动率计算

训练收敛后，性能最好的模型保存在本地存储器中。现在你可以加载模型参数，并使用它来运行推断：

checkpoint = torch.load( 'check_points/512/model_best.pth.tar' )

model = Net.cuda

model.load_state_dict(checkpoint[ 'state_dict' ])

inputs = torch.tensor([[ 110.0 , 100.0 , 120.0 , 0.35 , 0.1 , 0.05 ]])

start = time.time

inputs = inputs.cuda

result = model(inputs)

end = time.time

print( 'result %.4f inference time %.6f' % (result,end- start))

近似的期权定价模型是完全可微的，这意味着你可以根据输入参数计算任意阶的微分。在金融领域，这被用来计算期权中的 Greeks 。

由于价格评估中存在噪声，用蒙特卡罗模拟法计算Greeks是一项具有挑战性的工作。数值差分法可能存在噪声。然而，在你有了神经网络近似模型之后，利用PyTorch中的自动梯度特性来计算微分。 由于梯度是通过网络的后向传递计算出来的，因此该算法具有较高的计算效率。

下面的代码示例展示了一个计算参数K、B、S0、sigma、mu、r’的一阶微分的示例：

inputs = torch.tensor([[ 110.0 , 100.0 , 120.0 , 0.35 , 0.1 , 0.05 ]]).cuda

inputs.requires_grad = True

x = model(inputs)

x.backward

first_order_gradient = inputs.grad

对于高阶微分，多次使用PyTorch autograd.grad 方法：

from torch import Tensor

from torch.autograd import Variable

from torch.autograd import grad

from torch import nn

inputs = torch.tensor([[ 110.0 , 100.0 , 120.0 , 0.35 , 0.1 , 0.05 ]]).cuda

inputs.requires_grad = True

x = model(inputs)

loss_grads = grad(x, inputs, create_graph= True )

drv = grad(loss_grads[ 0 ][ 0 ][ 2 ], inputs)

你可以生成的 delta 和 gamma 的Greek图形作为一个函数的基础价格：

隐含波动率是基于期权报价对标的资产的预测波动率。模型给出的是价格与期权参数的反向映射，用蒙特卡罗模拟法很难做到这一点。但如果你有一个深度学习定价模型，这是一个简单的任务。给定价格P，隐含波动率是函数 compute_price 的根，如下面的代码所示：

def compute_price (sigma) :

inputs = torch.tensor([[ 110.0 , 100.0 , 120.0 , sigma, 0.1 , 0.05 ]]).cuda

x = model(inputs)

return x.item

任何数值求根的方法都可以使用，例如 Brent 算法是计算根的有效方法。

TensorRT推理加速

在对深度学习网络进行训练之后，下一步通常是将模型部署到生产环境中。最直接的方法是将PyTorch模型置于推理模式。推理从输入到输出运行一个正向传递。如前所述，它运行得很快，可以在0.8 ms内获得准确的结果。然而，你可以做得更好。

NVIDIA提供了一个强大的推理模型优化工具TensorRT，其中包括一个深度学习推理优化器和runtime，它为深度学习推理应用程序提供低延迟和高吞吐量。

在这篇文章中，TensorRT帮助在T4 GPU上将BERT自然语言理解推理加速到2.2 ms。受此启发，大家可以将训练有素的亚式障碍期权模型转换为TensorRT推理引擎，以获得显著的加速。

准备好TensorRT引擎文件后，可以使用它进行推理工作。

1、加载序列化的引擎文件。

2、分配CUDA设备阵列。

3、异步地将输入从主机复制到设备。

4、启动TensorRT引擎来计算结果。

5、异步地将输出从设备复制到主机。

下面的代码示例使用TensorRT引擎运行推理：

import tensorrt as trt

import time

import numpy as np

import pycuda

import pycuda.driver as cuda

import pycuda.autoinit

TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

with open( "opt.engine" , "rb" ) as f, trt.Runtime(TRT_LOGGER) as runtime:

engine = runtime.deserialize_cuda_engine(f.read)

h_input = cuda.pagelocked_empty(( 1 , 6 , 1 , 1 ), dtype=np.float32)

h_input[ 0 , 0 , 0 , 0 ] = 110.0

h_input[ 0 , 1 , 0 , 0 ] = 100.0

h_input[ 0 , 2 , 0 , 0 ] = 120.0

h_input[ 0 , 3 , 0 , 0 ] = 0.35

h_input[ 0 , 4 , 0 , 0 ] = 0.1

h_input[ 0 , 5 , 0 , 0 ] = 0.05

h_output = cuda.pagelocked_empty(( 1 , 1 , 1 , 1 ), dtype=np.float32)

d_input = cuda.mem_alloc(h_input.nbytes)

d_output = cuda.mem_alloc(h_output.nbytes)

stream = cuda.Stream

with engine.create_execution_context as context:

start = time.time

cuda.memcpy_htod_async(d_input, h_input, stream)

input_shape = ( 1 , 6 , 1 , 1 )

context.set_binding_shape( 0 , input_shape)

context.execute_async(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)

cuda.memcpy_dtoh_async(h_output, d_output, stream)

stream.synchronize

end = time.time

print( 'result %.4f inference time %.6f' % (h_output,end- start))

与non-TensorRT方法相比，它可以在四分之一（ 0.2 ms ）的推断时间内生成准确的结果。

在第1部分中，我们向大家展示了在CUDA C/ C++中实现蒙特卡罗期权定价的传统方法，但有点复杂，但它具有最佳的绝对性能。使用Python的GPU库，可以用简洁的Python代码行实现完全相同的蒙特卡罗模拟，而不会带来显著的性能损失。

此外，在将模拟代码迁移到Python之后，大家可以使用其他有用的Python库来改进结果。通过使用RAPIDS/Dask，大规模的蒙特卡罗仿真可以很容易地分布在多个节点和多个GPU上，从而获得更高的精度。

在第2部分中，我们再现了论文的结果。展示了使用神经网络逼近奇异期权价格模型的几个好处。它可以将期权价格的计算速度提高35倍，且结果准确。可微神经网络使得期权Greeks的计算变得容易。大家还可以使用TensorRT进一步改进网络推断时间，并实现最优的性能。

2020年第 81 篇文章 返回搜狐，查看更多

责任编辑：

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。