宏基因组分析(物种注释和功能注释)
一、含有reads的进行宏基因组分析
1.原始的reads数据,进行质控去宿主
一般选择质控的软件是trim软件(去除接头)
ILLUMINACLIP:adapters_path:2:30:10 SLIDINGWINDOW:4:20 MINLEN:50
去宿主(是为了去除宿主污染情况)
Bowtie2参数:--very-sensitive
2.使用humann2软件对宏基因组进行有参数的功能分析(计算各个数据库的丰度表)
KEGG EGGNOG GO EC CAZY注释数据库分析
我们将上步的得到的干净的序列与unipref90进行比对,查看他的比对结果进行分析(diamond方法)
过滤掉比对失败的序列reads
HUMAnN2默认比对参数:translated_query_coverage_threshold = 90.0, prescreen_threshold = 0.01, evalue_threshold = 1.0, translated_subject_coverage_threshold = 50.0
统计各个uniref90各个蛋白的相对丰度(RPKM这个参数,一般看这个参数进行分析)
功能注释之前,我们需要拿到相关的翻译之后的蛋白进行功能注释(所以需要先进行蛋白质注释,然后再进行功能注释)
之后我们将根据相关的蛋白质与功能数据库进行比对,查看相关的功能相对丰度
AMR抗性基因的注释
将序列与CARD数据库进行比对,
-e 0.001 (e-value < 1e-3) -i 80 (percent identity > 80 %)
根据比对的结果,统计出每个样本比对到各个ARO参考序列的reads数,从而计算相对丰度
KEGG功能分类数据库
总共分为六个部分,生物代谢通路
metaCyc数据库
得到关键的代谢通路
EGGNOG数据库
COG功能分类
GO功能数据库
CAZy数据库
提供各种酶分子的序列的家族信息,物种来源和基因序列和EC分类等等
这些数据库都是常用和常见的数据库,我们都可以拿来进行分析,常用的比对的软件是diamond软件
3.基础统计
在这里的基础统计,我们可以根据分组信息进行一些统计分析,比如聚类等等,基因来源的物种分层
4.物种注释
研究物种的组成和多样性的信息
我们对kraken2对所有的样本的序列进行注释分类,查看每个样本在7个分类水平上的序列的数目占所有总序列的比例统计,可以
有效的评估样本的物种注释分辨表