宏基因组分析（物种注释和功能注释）

生信小盆

生信科研的小盆地

一、含有reads的进行宏基因组分析

1.原始的reads数据，进行质控去宿主

一般选择质控的软件是trim软件（去除接头）

ILLUMINACLIP:adapters_path:2:30:10 SLIDINGWINDOW:4:20 MINLEN:50

去宿主（是为了去除宿主污染情况）

Bowtie2参数：--very-sensitive

2.使用humann2软件对宏基因组进行有参数的功能分析（计算各个数据库的丰度表）

KEGG EGGNOG GO EC CAZY注释数据库分析

我们将上步的得到的干净的序列与unipref90进行比对，查看他的比对结果进行分析（diamond方法）

过滤掉比对失败的序列reads

HUMAnN2默认比对参数：translated_query_coverage_threshold = 90.0, prescreen_threshold = 0.01, evalue_threshold = 1.0, translated_subject_coverage_threshold = 50.0

统计各个uniref90各个蛋白的相对丰度（RPKM这个参数，一般看这个参数进行分析）

功能注释之前，我们需要拿到相关的翻译之后的蛋白进行功能注释（所以需要先进行蛋白质注释，然后再进行功能注释）

之后我们将根据相关的蛋白质与功能数据库进行比对，查看相关的功能相对丰度

AMR抗性基因的注释

将序列与CARD数据库进行比对，

-e 0.001 （e-value < 1e-3） -i 80 (percent identity > 80 %)

根据比对的结果，统计出每个样本比对到各个ARO参考序列的reads数，从而计算相对丰度

KEGG功能分类数据库

总共分为六个部分，生物代谢通路

metaCyc数据库

得到关键的代谢通路

EGGNOG数据库

COG功能分类

GO功能数据库

CAZy数据库

提供各种酶分子的序列的家族信息，物种来源和基因序列和EC分类等等

这些数据库都是常用和常见的数据库，我们都可以拿来进行分析，常用的比对的软件是diamond软件

3.基础统计

在这里的基础统计，我们可以根据分组信息进行一些统计分析，比如聚类等等，基因来源的物种分层

4.物种注释

研究物种的组成和多样性的信息

我们对kraken2对所有的样本的序列进行注释分类，查看每个样本在7个分类水平上的序列的数目占所有总序列的比例统计，可以

有效的评估样本的物种注释分辨表

发布于 2021-11-30 16:18

生物信息学

生物学

基因组