适用于非定常流模拟的分布式并行GMRES方法

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

踢足球的草稿本 · 椰壳花盆椰子纤维植物种植生态花盆花瓶热压土花 ...· 3 周前 ·

刚分手的毛衣 · Moviepy视频处理示例:抖音美女的舞蹈| ...· 11 月前 ·

发呆的白开水 · 纠正：飞书文档有独立视图 - 哔哩哔哩· 1 年前 ·

要出家的泡面 · Search Results· 1 年前 ·

卖萌的酱牛肉 · 关于网络舆论舆情的电影/电视剧推荐(公关人必 ...· 1 年前 ·

摘要：为提高计算流体力学方法的收敛性和对高性能并行计算机的适应性，发展了适用于非定常流模拟的GMRES并行全隐式方法，并开展了相应的收敛和并行特性研究。采用变子空间数GMRES方法，减小重启过程计算时间；通过分区并行和Hybrid LU-SGS预处理算子实现方法的分布式并行化；采用鲁棒的Negative-SA湍流模型获得更大CFL数，采取计算和存储雅可比矩阵、网格重排序方法提高计算效率。利用这套方法完成了平面流、NACA0012翼型扰流、翼身组合体扰流、F-16战斗机非定常气动弹性和旋翼前飞流场的数值模拟。结果表明其计算效率较LU-SGS方法提高20%~200%；适用于当代高性能计算机分布式并行结构，并行效率非常高，在240个计算核心上出现了加速比的超线性。

关键词：计算流体力学全隐式方法 GMRES 并行非定常流

A GMRES method on distributed parallel computers for unsteady flow simulation

CHEN Long XIA Jian TIAN Shuling Abstract : To improve the computational efficiency and applicability for high performance parallel computing of CFD, a parallel full-implicit method based on GMRES+LU-SGS is developed for unsteady flow simulation. The convergence and parallel property of the method have been studied. The restartable GMRES method is improved to save computing time in the process of GMRES restart. The domain decomposition and Hybrid LU-SGS preconditioner have been studied for parallel implementation. A robust Negative-SA turbulence model for large CFL number, computing and storing the Jacobian matrix and grid reorder methods have been studied to improve the computational efficiency. The methods have been used to compute the plane flow, the flow around NACA0012 airfoil, wing-body configuration, F-16 fighter aeroelastics, and rotor unsteady flow simulation. The numerical results indicate that these methods on distributed parallel computers lead to 20%~200% increase in performance over LU-SGS method. Moreover, remarkable super-linear speedup is achieved on 240 processors.

Keywords : CFD full-implicit method GMRES parallel unsteady flow

随着计算流体力学(CFD)的高速发展，其在航空航天工程中的应用越来越广泛。为了适应航空航天工程对于精细模拟的更高要求，目前CFD已经发展到千万量级的计算网格阶段。非常密的网格给数值计算方法的收敛性带来巨大的挑战，尤其是高雷诺数湍流问题和非定常问题。同时，高性能计算机硬件水平也不断提高，使上万CPU核心的并行计算成为可能。这就需要CFD高效且鲁棒地处理航空航天工程中的复杂外形、适用于最新的高性能计算机及未来的发展 ^{[

1

-

2

]} 。综上所述，提高CFD收敛性和并行计算效率的研究有着重要理论研究意义和工程应用价值。

全隐式方法是CFD提高收敛性和计算效率的重要途径，全隐式方法的并行化是CFD研究难点之一。Luo等 ^{[

3

]} 最早将无矩阵LU-SGS方法作为GMRES的预处理算子，在共享内存系统中采用OpenMP实现了算法的并行化。国内阎超等 ^{[

4

]} 在混合网格上采用OpenMP实现了GMRES+LU-SGS的并行化。上述的算法均有非常高的收敛效率，但由于共享内存系统的限制，并行效率并不高。Zingg等 ^{[

5

-

6

]} 采用近似Schur并行预处理算子实现了块结构网格上GMRES的分布式并行化，采用无矩阵方法处理矩阵向量积，取得了非常好的收敛效果和并行效果，在一定条件下出现了加速比的超线性，NASA CRM模型千万量级网格湍流模拟仅需3000步收敛。同一算例半隐式的LU-SGS方法需要数万步的迭代才能收敛 ^{[

7

]} 。燕振国等 ^{[

8

]} 将GMRES应用于高阶耗散紧致格式，张健等 ^{[

9

]} 基于PETsc科学计算工具包建立三维混合网格分布式并行GMRES算法，龚小权等 ^{[

10

]} 将GMRES应用于间断Galerkin有限元, 均取得了不错的效果。综合分析国内外研究的前沿，在混合网格上GMRES的分布式并行化是隐式方法研究的难点。需要恰当的处理矩阵运算并行化、预处理算子并行化、通讯模型、网格重排序和负载均衡，才能提高GMRES方法并行效率。近年来，计算机硬件高速发展，可用内存越来越大，大规模问题中存储雅可比矩阵成为可能。全隐式方法中计算和存储雅可比矩阵，并采用并行GMRES方法求解线性方程组是提高CFD收敛性的主要途径。

本文采用变子空间数GMRES算法，结合Hybrid LU-SGS方法作为并行预处理算子，引入更鲁棒的湍流模型，结合不同网格排序方法，在MPI并行环境中，发展出一套计算和存储雅可比矩阵的分布式并行全隐式计算方法。在南京航空航天大学自主开发的OVERU软件 ^{[

11

]} 中应用该方法，经验证具有非常高的收敛性和并行效率，适用于定常和非定常流问题的数值模拟。

1 控制方程与离散方法

控制方程为任意拉格朗日欧拉(ALE)形式的三维雷诺平均N-S方程(RANS)，湍流模型为一方程SA模型，本文采用的是一种新型的Negative-SA模型 ^{[

12

]} ，该模型中 ${\mathit{\tilde v}}$ 允许为负值，以抑制网格质量较差时的非物理解，可以改善整体隐式方法的鲁棒性，提高迭代中CFL数的取值，从而间接达到提高全隐式方法收敛性的目的。Negative-SA模型方程为：

当 ${\mathit{\tilde v}}$ ≥0时

\begin{aligned} \frac{\partial \widetilde{\nu}}{\partial t}+u_{j} \frac{\partial \widetilde{\nu}}{\partial x_{j}}=c_{b 1}\left(1-f_{t 2}\right) \widetilde{S} \widetilde{\nu}-\\ \\\left[c_{w 1} f_{w}-\frac{c_{b 1}}{\kappa^{2}} f_{t 2}\right]\left(\frac{\widetilde{v}}{d}\right)^{2}+\\ \frac{1}{\sigma}\left[\frac{\partial}{\partial x_{j}}\left((\nu+\widetilde{\nu}) \frac{\partial \widetilde{v}}{\partial x_{j}}\right)+c_{b 2} \frac{\partial \widetilde{\nu}}{\partial x_{i}} \frac{\partial \widetilde{\nu}}{\partial x_{i}}\right] \end{aligned}

当 ${\mathit{\tilde v}}$ ＜0时

\begin{aligned} \frac{\partial \widetilde{\nu}}{\partial t} &+u_{j} \frac{\partial \widetilde{\nu}}{\partial x_{j}}=c_{b 1}\left(1-f_{t 2}\right) \mathit{\Omega} \widetilde{\nu}+c_{w 1}\left(\frac{\widetilde{\nu}}{d}\right)^{2}+\\ & \frac{1}{\sigma}\left[\frac{\partial}{\partial x_{j}}\left(\left(\nu+\widetilde{\nu} f_{n}\right) \frac{\partial \widetilde{\nu}}{\partial x_{j}}\right)+c_{b 2} \frac{\partial \widetilde{\nu}}{\partial x_{i}} \frac{\partial \widetilde{\nu}}{\partial x_{i}}\right] \end{aligned}

式中各符号与原始SA模型一致。其思想是当 ${\mathit{\tilde v}}$ ≥0求解原始SA模型，当出现非物理解 ${\mathit{\tilde v}}$ ＜0时求解式(2)，式(2)源项中破坏项 c _{w

1} ( ${\mathit{\tilde v}}$ / d ) ² 与原SA模型符号相反，通过迭代求解使得 ${\mathit{\tilde v}}$ 重新更新为正值。

OVERU软件采用非结构混合网格有限体积方法求解控制方程。空间离散采用格点格式，可处理多种单元类型的混合网格。基于多种常用的通量差分格式HLLC、ROE、HLLEM和通量分裂格式AUSMPW+等，通过U-MUSCL方法进行高阶重构，限制器采用Venkatakrishna限制器。非定常计算采用双时间步长方法进行二阶精度的时间离散，内迭代采用本文所发展的全隐式方法。

2 并行全隐式方法 2.1 GMRES方法

全隐式方法是定常、非定常CFD计算中提高收敛性和计算效率有效途径之一。其中的Krylov子空间迭代法中的GMRES方法 ^{[

13

]} 是一种高效的解线性方程组方法，结合不同预处理算子在CFD数值计算领域广泛使用。本文的分布式并行GMRES方法的架构如图 1 所示，含全隐式方法的并行化实现及优化。

\begin{array}{*{20}{l}} {01:}&{{\rm{ for }}\;j = 1, m}\\ {02:}&{\;\;\;\;\;{\mathit{\boldsymbol{w}}_j} = {\mathit{\boldsymbol{P}}^{ - 1}}\mathit{\boldsymbol{A}}\Delta \mathit{\boldsymbol{W}}}\\ {03:}&{{\rm{ for }}\;i = 1, j}\\ {04:}&{\;\;\;\;\;{h_{ij}} = \left( {{\mathit{\boldsymbol{w}}_j}, {\mathit{\boldsymbol{v}}_i}} \right)} \end{array}\\ \begin{array}{*{20}{l}} {05:}&{{\mathit{\boldsymbol{w}}_j} = {\mathit{\boldsymbol{w}}_j} - {h_{ij}}{\mathit{\boldsymbol{v}}_i}}\\ {06:}&{{\rm{ end }}}\\ {07:}&{{h_{j + 1, j}} = {{\left\| {{W_j}} \right\|}_2}}\\ {08:}&{\;\;\;{v_{j + 1}} = {\mathit{\boldsymbol{w}}_j}/{h_{j + 1, j}}}\\ {{{09}_:}}&{\;\;\;{z_{1:j}}: = {{\min }_z}{{\left\| {\beta e - {H_{1:i}}{z_{1:j}}} \right\|}_2}}\\ {10:}&{{\rm{ if }}\quad {{\left\| {\beta e - {\mathit{\boldsymbol{H}}_{1:j}}{\mathit{\boldsymbol{z}}_{1:j}}} \right\|}_2} < \varepsilon {\rm{ }}\;{\rm{exit }}\;{\rm{restart }}}\\ {11:}&{{\rm{ end }}}\\ {12:}&{\Delta \mathit{\boldsymbol{W}} = \Delta {\mathit{\boldsymbol{W}}_0} + {\mathit{\boldsymbol{v}}_m}{\mathit{\boldsymbol{z}}_m}}\\ {13:}&{\Delta {\mathit{\boldsymbol{W}}_0} = \Delta \mathit{\boldsymbol{W}}}\\ {14:}&{{\rm{ restart}}\;\;\;{\rm{ GMRES}}\;\;\;\left( {{\rm{goto}}\;\;\;{\rm{01}}} \right){\rm{ }}} \end{array} \end{array}

重启型GMRES中通过残差收敛判据确定是否需要GMRES重启，每个重启过程的子空间数不变均为 m 。通过增加残差极小值问题的求解次数(式(3)中增加第10步)，提前判断是否满足残差收敛判据。当满足收敛判据时，即使子空间数小于 m 也退出GMRES内循环，从而减少子空间迭代数，提高计算效率。存储空间方面，GMRES方法需要( m +2)× n _nodes × n _eqn ×8字节内存空间。其中 m 为Krylov子空间数， n _nodes 为网格点数， n _eqn 为方程数，如三维Euler方程为5。

变子空间数GMRES算法，可以在基本不影响收敛性的前提下，减小了每次迭代计算时间，从而提高整体计算效率。变子空间数GMRES算法相比于原重启型GMRES算法在迭代启动若干步的鲁棒性上有一定程度的提高，改善了全隐式方法的启动问题。

2.2 雅可比矩阵计算方法

隐式方法在处理雅可比矩阵时可分为无矩阵方法和计算矩阵方法。其中无矩阵方法一般采用数值差分方法方法直接得到矩阵向量积，不需要计算和存储雅可比矩阵，节约内存空间。有矩阵方法中雅可比矩阵需要提前计算并存储，虽然增加了内存需求和计算量，但是矩阵方法比无矩阵方法具有更好的收敛性。

全隐式方法中雅可比矩阵以双精度实数存储需要( n _nodes +2 n _edges )× n _eqn ² ×8字节内存空间，处理大规模问题时受到内存的限制往往采用无矩阵方法。近几年计算机硬件的发展，内存空间不断增大，价格也不断降低。内存空间已经逐渐不再制约有矩阵方法的应用。雅可比矩阵的计算方法可通过人工编程或自动微分来实现。本文采用人工编程方法实现雅可比矩阵的计算，人工编程方法可以带来较优化的代码和较高的效率。雅可比矩阵由无黏项和黏性项组成，无黏项采用Van-Leer通量分裂雅可比矩阵，黏性项则基于薄层N-S假设。为提高计算效率，实际计算中雅可比矩阵每隔若干次迭代重新计算一次，在这几次迭代中冻结。采用这个策略在不影响收敛性前提下，减少整体计算时间。

无矩阵方法中的矩阵向量积本文采用Luo等 ^{[

3

]} 的近似方法，如式(4)所示，简化通量雅可比计算，可节约差分近似中两次残差的计算量:

\boldsymbol{A} \Delta \boldsymbol{W} \approx \Delta F=F(\boldsymbol{W}+\Delta \boldsymbol{W})-F(\boldsymbol{W}) 2.3 GMRES并行化

基于MPI非阻塞通讯模型，采用分区并行策略实现GMRES的分布式并行化。雅可比矩阵的对角项按点存储，非对角项按边存储，均存储在局部内存中。通过分区边界上的虚拟点进行数据通信，GMRES中矩阵向量积(式(3)中第2步)仅需相邻分区之间的通信，减小通信时间。GMRES中向量内积(式(3)中第4、7步)在各分区计算完成后进行全局归约操作，得到全局Hessenberg矩阵，通信量极小。采用Metis库进行分区实现并行负载均衡，分区后可以保证各分区的网格点数基本一样，同时分区交界面分割的边数尽量少。可扩展性是并行计算方法的重要指标 ^{[

14

]} ，非结构网格分区并行实现方法的可扩展性与分区方法的选取有直接关系，问题规模和分区数等比例增大后，如果分区交界面分割的边数基本不变，则并行方法的可扩展性会很好。

Wissink等 ^{[

15

]} 在DP-LUR基础上进行改进，发展出并行化的Hybrid LU-SGS方法。该方法的本质是在各处理器的网格分区内部使用LU-SGS方法，进行Gauss-Seidel迭代；在网格分区的边界上，需要数据通信的网格点上使用DP-LUR方法，进行Jacobi迭代。Hybrid LU-SGS方法具有较高的并行效率，且计算时间比DP-LUR方法的计算时间减少约45%。相比其它预处理算子Hybrid LU-SGS效率更高，因此本文选择Hybrid LU-SGS作为GMRES方法中的预处理算子P(式(3)中第2步)，计算流程如下：

交换分区边界数据，然后边界点上有:

\boldsymbol{w}_{j}=\boldsymbol{P}^{-1} \boldsymbol{A} \Delta \boldsymbol{W}=\boldsymbol{D}^{-1} \boldsymbol{A} \Delta \boldsymbol{W}

分区内部进行LU-SGS向前扫和向后扫:

{(\mathit{\boldsymbol{D}} + \mathit{\boldsymbol{L}})\Delta {\mathit{\boldsymbol{W}}^*} = \mathit{\boldsymbol{A}}\Delta \mathit{\boldsymbol{W}}} {(\mathit{\boldsymbol{D}} + \mathit{\boldsymbol{U}}){\mathit{\boldsymbol{w}}_j} = \mathit{\boldsymbol{D}}\Delta {\mathit{\boldsymbol{W}}^*}}

(1) 非结构网格LU-SGS算法中的网格重排序 ^{[

3

-

4

]} 。经过分层和染色两个步骤将网格重排之后，保证每一层中的点与本层其它点不相连、与任一点相连的上下对角点的个数相当，目的是改善上三角矩阵 U 和下三角矩阵 L 的平衡性，构造非结构网格超平面，提高LU-SGS方法的效率。本文采用全局排序方法将分层信息发送到各计算分区。

(2) 网格节点序号的重排序 ^{[

16

]} 。对网格节点序号进行重排序，其目的是减小稀疏矩阵的带宽，使矩阵中非零项靠近主对角项，减小矩阵存储空间，提高解线性方程组的效率。CFD计算中网格节点序号的重排序还可以减小计算过程中缓存未命中几率，提高计算效率。本文采用RCM(Reverse-Cuthill-McKee)方法进行网格节点序号的重排序。数值试验表明经过RCM排序后可提高约10%的计算效率。

3 收敛特性验证 3.1 二维定常流动

本节将对比不同时间离散方法在二维平面无黏流和NACA0012翼型黏性绕扰流算例中的收敛性。二维平面无黏流计算网格为三角形网格，如图 2 ，共1426个网格点。图 3 给出了残差收敛到机器精度时显式方法(RK)、LU-SGS方法、无矩阵GMRES方法和矩阵GMRES方法(MGMRES)的对比。算例中最大子空间数 m =10，GMRES重启次数为2，GMRES内残差收敛判据 ε ＜0.1，本文后续算例均采用此设置。三种隐式方法均在1000步内收敛到机器精度，收敛性大大优于显示方法，收敛性最好的是MGMRES方法。

NACA0012翼型黏性扰流计算网格采用四边形单元，共23万网格点，如图 4 。计算条件为：来流马赫数 Ma _∞ =0.15，迎角 α =10°，雷诺数为 Re =6×10 ⁶ 。该算例中数值方法的收敛性受到密网格和高雷数严苛的考验。LU-SGS方法CFL数取1×10 ⁶ ，GMRES和MGMRES方法均没有启动问题，CFL数可直接取300。图 5 分别给出迭代收敛曲线和CPU时间收敛曲线。可见残差收敛6个量级，LU-SGS方法需要约80 000步，GMRES方法约10 000步，MGMRES方法仅需2500步。计算时间上由于MGMRES每迭代步的计算时间较长，迭代初期其计算效率接近或低于GMRES方法。迭代后期MGMRES的收敛速度优势明显，仅需GMRES方法不到二分之一的计算时间。无矩阵GMRES方法在计算效率较LU-SGS方法提高约20%。需要特别说明的是收敛6个量级主要是为了对比不同方法的收敛性，实际计算中并不需要如此大量的迭代。表 1 给出了本文计算得到的升阻力系数与文献[ 17 ]中不同程序计算结果的对比，符合得很好。

\mathrm{CFL}=\left\{\begin{array}{ll}{10} & {, \quad n=1} \\ {10 \times 1.2 n-1} & {, \quad 1<n<19} \\ {300} & {, \quad n \geqslant 19}\end{array}\right.

首先进行网格节点序号重排序方法的验证，图 7 给出了采用网格节点序号的重排序方法(RCM)和不采用网格节点序号的重排序方法(NO-RCM)的对比，其中TET表示无黏扰流算例，HEX为黏性扰流算例。可见RCM方法减小了计算过程中缓存未命中几率，经过RCM排序后可提高约10%的计算效率。

双时间步长方法中内迭代残差下降4个量级为判断其收敛的依据。在内迭代中MGMRES方法遇到了鲁棒性问题，非定常CFL最大仅可取到80，而LU-SGS方法可取1×10 ⁶ 。图 17 给出了采用MGMRES方法计算得到的 Q 等值面，其中桨涡干扰现象明显。图 18 给出了两组内迭代残差曲线，MGMRES方法仅需约35步迭代残差下降4个量级，LU-SGS方法则需要约107步。收敛性仍然是MGMRES方法最优。计算时间上MGMRES方法LU-SGS方法减少约40%。但是，内迭代残差下降3个量级可满足一般的非定常计算需要，此时LU-SGS方法在计算时间上还要少于MGMRES方法。主要原因是此算例中MGMRES方法的CFL数较小，当达到GMRES内残差收敛判据ε＜0.1时，子空间数仅有1~3个，降低了GMRES方法的收敛速度。因此提高GMRES方法的鲁棒性的研究在未来仍然是很有必要的。

图 21 给出了Hybrid LU-SGS方法和LU-SGS方法残差收敛曲线。Hybrid LU-SGS方法在分区边界网格点上使用DP-LUR方法而LU-SGS方法对分区边界不做处理(图中w/o表示)。可见在分区较少时两种方法残差收敛曲线非常接近。当240个分区时，分区边界网格点不做处理的并行方法在4000步左右计算发散。因此，在进行较多分区并行计算时，采用Hybrid LU-SGS方法是必要的。图 22 给出了Hybrid LU-SGS预处理算子和MGMRES方法并行加速比。两种方法的加速比非常接近理想值，加速效率非常高，MGMRES方法的加速比略低于Hybrid LU-SGS方法。特别的，在240个计算核心的并行计算中均出现了加速比超线性(并行效率超过100%)。一般认为，在负载均衡和极端通信时间条件下，加速比超线性主要是因为计算机CPU缓存在更多分区时利用率更高。

本文基于变子空间数GMRES算法，结合Hybrid LU-SGS方法作为并行预处理算子，引入更鲁棒的湍流模型，结合不同网格排序方法，发展出一套计算和存储雅可比矩阵的分布式并行全隐式计算方法。利用南京航空航天大学自主开发的OVERU软件，在天河1A高性能计算机上对若干二维和三维扰流问题进行了数值模拟，经验证具有非常高的收敛性和并行效率，结论如下：

(1) 变子空间GMRES方法与重启GMRES方法具有相同的收敛特性，计算时间可较原方法减少约15%。计算和存储雅可比矩阵的全隐式方法收敛性优于无矩阵方法，较LU-SGS方法提高20%~200%计算效率。采用RCM网格重排序方法优化缓存命中可将计算效率再提高10%。

(2) 矩阵GMRES方法每千万网格约需要22GB的内存空间，当前硬件水平下可以满足大规模网格计算的内存需求。

(3) 分布式并行GMRES方法结合Hybrid LU-SGS预处理算子，所发展的全隐式方法并行效率非常高。特别的，在240个计算核心出现了加速比的超线性。

本文研究仅限于CPU并行计算，后续研究应面向未来E级超算的CPU+GPU(或加速卡)的异构架构，开展异构架构下全隐式并行算法研究。

张来平, 邓小刚, 何磊, 等. E级计算给CFD带来的机遇与挑战[J]. 空气动力学学报, 2016, 34(4): 405-417.
ZHANG L P, DENG X G, HE L, et al. The opportunity and grand challenges in computational fluid dynamics by exascale computing[J]. Acta Aerodynamica Sinica, 2016, 34(4): 405-417. DOI:10.7638/kqdlxxb-2014.0118 (in Chinese) SHAROV D, LUO H, BAUM J. Implementation of unstructured grid GMRES+LU-SGS method on shared-memory, cache-based parallel computers: AIAA-2000-0927[R]. Reno: AIAA, 2000. 康忠良, 阎超. 适用于混合网格的并行GMRES+LU-SGS方法[J]. 空气动力学学报, 2013, 31(2): 225-230.
KANG Z L, YAN C. Parallel GMRES+LU-SGS method for mixed grids[J]. Acta Aerodynamica Sinica, 2013, 31(2): 225-230. (in Chinese) BROWN D A, ZINGG D W. Performance of a Newton-Krylov-Schur algorithm for solving steady turbulent flows[J]. AIAA Journal, 2016, 54(9): 2645-2658. DOI:10.2514/1.J054513 OSUSKY L, BUCKLEY H, REIST T, et al. Drag minimization based on the Navier-Stokes equations using a Newton-Krylov approach[J]. AIAA Journal, 2015, 53(6): 1555-1577. DOI:10.2514/1.J053457 ITO Y, MURAYAMA M, HASHIMOTO A, et al. TAS Code, FaSTAR and Cflow results for the sixth drag prediction workshop[C]. 55th AIAA Aerospace Sciences Meeting. 2017. 燕振国, 刘化勇, 毛枚良, 等. 基于高阶耗散紧致的GMRES方法收敛特性研究[J]. 航空学报, 2014, 35(2): 1181-1192.
YAN Z G, LIU H Y, MAO M L, et al. Convergence property investigation of GMRES method based on high-order dissipative compact scheme[J]. Acta Aeronoutica et Astronautica Sinica, 2014, 35(2): 1181-1192. (in Chinese) 张健, 邓有奇, 李彬, 等. 一种适用于三维混合网格的GMRES加速收敛新方法[J]. 航空学报, 2016, 37(11): 3226-3235.
ZHANG J, DENG Y Q, LI B, et al. A new method to accelerate GMRES's convergence applying to three-dimensional hybrid grid[J]. Acta Aeronoutica et Astronautica Sinica, 2016, 37(11): 3226-3235. (in Chinese) 龚小权, 贾洪印, 陈江涛, 等. 基于雅可比矩阵精确计算的GMRES隐式方法在间断Galerkin有限元中的应用[J]. 空气动力学学报, 2019, 37(1): 121-132.
GONG X Q, JIA H Y, CHEN J T, et al. Applications of GMRES based on exact calculations of Jacobian matrix in discontinuous Galerkin methods[J]. Acta Aerodynamica Sinica, 2019, 37(1): 121-132. DOI:10.7638/kqdlxxb-2018.0189 (in Chinese) 夏健, 田书玲, 王江峰, 等. 三维动态非结构重叠网格Navier-Stokes方程并行算法[J]. 航空学报, 2008, 29(5): 1118-1124.
XIA J, TIAN S L, WANG J F, et al. Parallel computing strategy for 3d dynamic overset unstructured Navier-Stokes solver[J]. Acta Aeronoutica et Astronautica Sinica, 2008, 29(5): 1118-1124. DOI:10.3321/j.issn:1000-6893.2008.05.005 (in Chinese) ALLMARAS S R, JOHNSON F T, SPALART P R. Modifications and clarifications for the implementation of the Spalart-Allmaras turbulence model: ICCFD7-1902[C]//Big Island: ICCFD, 2012. Saad Y. GMRES:Iterative methods for sparse linear systems[M]. 2nd ed. Philadelphia: SIAM, 2003. 陈军, 王正华. CFD并行应用程序的可扩展性分析[J]. 空气动力学学报, 2002, 20(3): 22-26.
CHEN J, WANG Z H. Scalability analysis of CFD parallel applications[J]. Acta Aerodynamica Sinica, 2002, 20(3): 22-26. (in Chinese) WISSINK A M. Parallelization of a three-dimensional flow solver for Euler rotorcraft aerodynamics predictions[J]. AIAA Journal, 1996, 34(11): 2276-2282. DOI:10.2514/3.13391 GIBBS N E, POOLE W G, STOCKMEYER P K. An algorithm for reducing the bandwidth and profile of a sparse matrix[J]. SIAM J Numer Anal, 1976, 13: 236-250. DOI:10.1137/0713023 DAVID H, FORSYTHE J, HALLISSY B P, el al. Fundamental physics validation using CREATE-AV kestrel part I: AIAA 2014-0920[R]. Maryland: AIAA, 2014. MURAYAMA M, YAMAMOTO K. Comparison study of drag prediction by structured and unstructured mesh method[J]. Journal of Aircraft, 2008, 45(3): 799-822. DOI:10.2514/1.31072 RUMSEY C L, RIVERS S M, MORRISON J H. Study of CFD variation on transport configurations from the second drag-prediction workshop[J]. Computers & Fluids, 2004, 34(7): 785-816. ABDOL-HAMID K S, CARLSON J, RUMSEY C L, el al. DPW-VI results using FUN3D with focus on k-kL-MEAH 2015 turbulence mode: NF1676L-25300l[R]. Hampton: NASA, 2017. PARKER G. Dynamic aeroelastic analysis of wing/store configurations: AD-445218[R]. Ohio: AFIT, 2005.