撰写:米妮 来源:小张聊科研平台的“i生信”公众号,微信公众号搜索“i生信”即可关注见文末
T 和 B 细胞都可以通过体细胞 V(D)J 重组产生不同的受体(分别为 TCR 和 BCR)库,以识别各种外部抗原或肿瘤新抗原。抗原识别后,BCR 还会发生体细胞超突变 (SHM),以进一步提高抗原结合亲和力。
免疫组库测序可对
机体免疫组库多样性及每种 T、B细胞克隆的独特性序列组成/变化进行分析,从而全面评估机体的免疫状态,明确疾病与T、B细胞克隆组成及变化之间的关系。随着免疫组库高通量测序技术的不断发展和成熟,基于免疫组库多样性变化特点的生物标志物发现、肿瘤等疾病疗效预测、疾病的易感性和抵抗性、感染性疾病及疫苗研究等方面都取得了重要进展。
但是当你的组织样本或课题经费有限时,你如何不花钱来获取免疫组库呢?
教你一个可靠的算法,利用TRUST4开源算法,直接从组织或血液RNA-seq数据从头组装获得免疫组库。虽然不如
免疫组库测序敏感,但TRUST比现有的其他重构算法(V'DJer 、MiXCR 、CATT 和 ImRep )能够在更完整测序全长上推断受体-抗体作用模式。
TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data
(https://pubmed.ncbi.nlm.nih.gov/33986545/)
那它真的可靠可行吗?现在我们了解下这个TRUST4算法
RNA-seq 数据包含组织或外周血单核细胞 (PBMC) 中表达的 TCR 和 BCR 序列,由于来自 V(D)J 重组和 SHM 的库序列与种系不同,它们通常在读取映射步骤中被消除。所以可用RNA-seq 来重构免疫组库数据。如图1 a, 首先TRUST4 支持从 FASTQ 或 BAM 文件中快速提取 TCR/BCR 候选reads; 然后TRUST4 按丰度对候选reads组装并进行优先级排序,并将候选reads组装为contigs,从而提高算法速度;TRUST4能明确contigs中高度相似的reads,从而识别体细胞超突变并提高记忆效率;并且TRUST4 可以在 TCR 和 BCR 上组装全长 V(D)J 序列。最后,TRUST4 支持从 scRNA-seq 平台重建库,而无需额外的 10x V(D)J 扩增。
利用TRUST4 从Bulk RNA-seq 重构 TCR/BCR的性能评估
对于 TCR 评估:使用已知 TRB 序列的 silico RNA-seq 数据集进行测试,如图1b, TRUST4 重构的 CDR3 比 MiXCR 多 281%,比 CATT 多 22.9%,比 TRUST3 多 57.8%,并且在不同的读取长度上保持零假阳性率。
对于 BCR 评估:使用了六个肿瘤 RNA-seq 样本约 1 亿对 150 个碱基对 (bp) 读数,并使用相应的免疫球蛋白重链 (IGH) BCR-seq 作为金标准,在六个样本中的五个样本中,TRUST4 显示出比 MiXCR 更好的精度(>18%)和灵敏度(>74%)(图1c)。
对于基础水平的全长组装评估:从 137 个 SMART-seq B 细胞中随机选择 2,500 万个reads对作为测试用例来创建伪批量 RNA-seq 数据。为了建立 BCR 调用的黄金标准,使用了 BALDR 和 BASIC 在单细胞水平上一致调用的 128 个 IGH 组件。TRUST4 和 MiXCR 正确识别了所有 128 个 CDR3,TRUST4 重构了93 个全长 IGH 序列,而 MiXCR 仅发现了 39 个(图1d)。
利用TRUST4 从sc RNA-seq 重构 TCR/BCR的性能评估
利用PBMC 上 5' 10x Genomics scRNA-seq 数据来进行性能评估(图2a),TRUST4 对5,091 个 T 细胞和 1,318 个 B 细胞进行免疫组库的重构,把对应的T 细胞和 B 细胞 10x V(D)J 库作为黄金标准。在免疫组库的全长重构的分析中,体细胞超突变率由重构的 V 基因和germline序列之间碱基匹配比例(相似性)表示(图2c)。在 10x V(D)J 报告的 CDR3 中,TRUST4 恢复了 48.1% (6,035/12,558) 的 TCR CDR3 和 78.0% (1,946/2,494) 的 BCR CDR3。TRUST4 对 BCR 的较高敏感性是由于 B 细胞中 BCR 的表达水平较高。在精度上, TRUST4 的 94.6% 的 TCR CDR3 和 98.2% 的 BCR CDR3 与 10x V(D)J 相同(图3b)。
利用10x Genomics 非小细胞肺癌 (NSCLC) 数据集进行评估:TRUST4 从 144 个 Seurat 注释的血浆 B 细胞中重构了 142 个 IGH CDR3,而 10x V(D)J 只发现了 131 个,TRUST4 还重构了 104 个细胞的全长配对 BCR,观察到了IGHs 和 IGK/IGLs 之间的 SHM 率的高度相关性(图3b右)。
这样的性能比拼下来,在资金调度紧缺和样本难获取情况下,利用TRUST4来免费获取免疫组库不失为一个好办法,TRUST4 可以直接从 5' 10x Genomics scRNA-seq 数据重构单细胞水平的免疫受体库,包括 γδT 细胞,而无需特定的 10x V(D)J 富集文库。赶快试试用起来~
TRUST4 可在https://github.com/liulab-dfci/TRUST4获取。
下载:git clone https://github.com/liulab-dfci/TRUST4.git
安装进入下载地址:run ‘make’ 进行编译安装
查看安装是否成功:
输入/输出
TURST4 的主要输入
:BAM 格式的 RNA-seq 读数的比对文件(-b),基因组序列和 V、J、C 基因坐标的文件(-f),以及参考数据库序列包含的注释信息,例如 IMGT 数据库(--ref)。
TRUST4 的另一个输入
:fasta/fastq 格式的RNA-seq原始 文件(-1/-2 表示测序方式;-u 表示单端)。仍然需要上面的 -f、--ref 之类的文件。这种情况下,可以直接使用IMGT的seuqence文件进行-f。
TRUST4 输出结果文件
:trust_raw.out, trust_final.out 为contigs和相应的核苷酸权重。trust_annot.fa 为 fasta 格式,用于重构的注释。trust_cdr3.out 报告每个重构CDR1、2、3 和基因信息。trust_report.tsv是一个专注于CDR3的报告文件,和其他分析工具 如VDJTools等兼容。
trust_annot.fa的结果表头为:
consensus_id consensus_length average_coverage annotations
对于基因的注释采用以下模式:
gene_name(reference_gene_length):(consensus_start-consensus_end):(reference_start-reference_length):similarity
对于CDR的注释,它为以下模式:
CDRx(consensus_start-consensus_end):score=sequence
对于 CDR1,2,score是相似性。对于 CDR3,score 0.00 表示部分 CDR3,得分 1.00 表示带有估算核苷酸的 CDR3,其他数字表示motif信号强度,100.00 表示最强。
trust_cdr3.out的输出为tsv文件,tsv的列名为:
consensus_id index_within_consensus V_gene D_gene J_gene C_gene CDR1 CDR2 CDR3 CDR3_score read_fragment_count CDR3_germline_similarity full_length_assembly
trust_report.tsv的输出也为tsv文件, 报告列名为:
read_count frequency(proportion of read_count) CDR3_dna CDR3_amino_acids V D J C consensus_id consensus_id_full_length
自定义构建V、J、C基因数据库(用于-f和-ref 的文件)
要生成“-f”指定的文件,可感兴的物种的参考基因组和基因组注释GTF文件生成,使用如下命令:
perl BuildDatabaseFa.pl reference.fa annotation.gtf human_vdjc.list > bcrtcr.fa
“--ref”指定的文件是从IMGT网站(http://www.imgt.org//download/V-QUEST/IMGT_V-QUEST_reference_directory/)下载的,例如人类,可以使用命令:
perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa
10X数据
对于 10X Genomics 数据,通常输入的是来自 cell-ranger 的 BAM 文件,可以使用“--barcode”指定 BAM 文件中的字段来指定条形码:例如“--barcode CB”。
如果输入的是原始 FASTQ 文件,可以使用“--barcode”指定条码文件,并使用“--barcodeRange”告诉 TRUST4 如何提取条码信息。如果条码或UMI序列在read序列中,可以使用“--read1Range”、“--read2Range”告诉TRUST4如何提取reads中的序列信息。TRUST4 支持在 -1 -2/-u 选项中使用通配符,因此运行 10X Genomics 单端数据的典型方法是:
run-trust4 -f hg38_bcrtcr.fa --ref human_IMGT+C.fa -u path_to_10X_fastqs/*_R2_*.fastq.gz --barcode path_to_10X_fastqs/*_R1_*.fastq.gz --barcodeRange 0 15 + --barcodeWhiteList cellranger_folder/cellranger-cs/VERSION/lib/python/cellranger/barcodes/737K-august-2016.txt [other options]
选项取决于10X Genomics 试剂盒类型
SMART-Seq 数据
使用“trust-smartseq.pl”来处理来自 SMART-seq 等平台的文件,示例:
perl trust-smartseq.pl -1 read1_list.txt -2 read2_list.txt -t 8 -f hg38_bctcr.fa --ref human_IMGT+C.fa -o TRUST
生成简单的报告
可利用“trust-simplerep.pl”对TRUST4的输出结果进行简化,得到更简单的输出报告
perl trust-simplerep.pl trust_cdr3.out > trust_report.out
BAM 文件输入:
./run-trust4 -b example/example.bam -f hg38_bcrtcr.fa --ref human_IMGT+C.fa
fastq 文件输入:
./run-trust4 -f human_IMGT+C.fa --ref human_IMGT+C.fa -1 example/example_1.fq -2 example/example_2.fq -o TRUST_example
TRUST4开源免费使用,更多的使用方法从一下网站获取~https : //github.com/liulabdfci/TRUST4_manuscript_evaluation
查看原文:
https://mp.weixin.qq.com/s/_gDd5x_vJ0UmUCJeqnnDLQ
注:本推文未经许可禁止转载。
阅读推荐:
工具篇丨学会这个基因分析工具,你离CNS不远了!
工具篇 | 这个R包,让你迅速提升SCI文章的逼格!
工具篇 | 五一长假这就结束了,你不会连这个数据库都还不会用吧?
工具篇 | OncoVar:研究癌症突变,这个数据库太太太太太太有用了!
工具篇丨不想用R语言也想做通路分析?建议收藏这个万能网站!
返回搜狐,查看更多
责任编辑:
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。