工具篇丨不用测序！直接从Bulk或单细胞RNA数据得到免疫组库数据_RNA-seq

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

快乐的马克杯 · 谷建芬被泼脏水忍无可忍，她愤怒的对《罗刹海市 ...· 1 月前 ·

踢足球的南瓜 · qt状态栏居中对齐？_居中对齐.html_c ...· 5 月前 ·

鬼畜的椰子 · 团体保险-PICC中国人民保险集团官网· 6 月前 ·

爱搭讪的木瓜 · 学习党史促业务财政金融再发力_图片新闻_新 ...· 7 月前 ·

坚强的碗 · CSS阴影效果 - CSS教程 - C语言网· 11 月前 ·

撰写：米妮来源：小张聊科研平台的“i生信”公众号，微信公众号搜索“i生信”即可关注见文末

T 和 B 细胞都可以通过体细胞 V(D)J 重组产生不同的受体（分别为 TCR 和 BCR）库，以识别各种外部抗原或肿瘤新抗原。抗原识别后，BCR 还会发生体细胞超突变 (SHM)，以进一步提高抗原结合亲和力。

免疫组库测序可对 机体免疫组库多样性及每种 T、B细胞克隆的独特性序列组成/变化进行分析，从而全面评估机体的免疫状态，明确疾病与T、B细胞克隆组成及变化之间的关系。随着免疫组库高通量测序技术的不断发展和成熟，基于免疫组库多样性变化特点的生物标志物发现、肿瘤等疾病疗效预测、疾病的易感性和抵抗性、感染性疾病及疫苗研究等方面都取得了重要进展。

但是当你的组织样本或课题经费有限时，你如何不花钱来获取免疫组库呢？ 教你一个可靠的算法，利用TRUST4开源算法，直接从组织或血液RNA-seq数据从头组装获得免疫组库。虽然不如 免疫组库测序敏感，但TRUST比现有的其他重构算法（V'DJer 、MiXCR 、CATT 和 ImRep ）能够在更完整测序全长上推断受体-抗体作用模式。

TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data

（https://pubmed.ncbi.nlm.nih.gov/33986545/）

那它真的可靠可行吗？现在我们了解下这个TRUST4算法

RNA-seq 数据包含组织或外周血单核细胞 (PBMC) 中表达的 TCR 和 BCR 序列，由于来自 V(D)J 重组和 SHM 的库序列与种系不同，它们通常在读取映射步骤中被消除。所以可用RNA-seq 来重构免疫组库数据。如图1 a, 首先TRUST4 支持从 FASTQ 或 BAM 文件中快速提取 TCR/BCR 候选reads; 然后TRUST4 按丰度对候选reads组装并进行优先级排序，并将候选reads组装为contigs，从而提高算法速度；TRUST4能明确contigs中高度相似的reads，从而识别体细胞超突变并提高记忆效率；并且TRUST4 可以在 TCR 和 BCR 上组装全长 V(D)J 序列。最后，TRUST4 支持从 scRNA-seq 平台重建库，而无需额外的 10x V(D)J 扩增。

利用TRUST4 从Bulk RNA-seq 重构 TCR/BCR的性能评估

对于 TCR 评估：使用已知 TRB 序列的 silico RNA-seq 数据集进行测试，如图1b, TRUST4 重构的 CDR3 比 MiXCR 多 281%，比 CATT 多 22.9%，比 TRUST3 多 57.8%，并且在不同的读取长度上保持零假阳性率。

对于 BCR 评估：使用了六个肿瘤 RNA-seq 样本约 1 亿对 150 个碱基对 (bp) 读数，并使用相应的免疫球蛋白重链 (IGH) BCR-seq 作为金标准，在六个样本中的五个样本中，TRUST4 显示出比 MiXCR 更好的精度（>18%）和灵敏度（>74%）（图1c）。

对于基础水平的全长组装评估：从 137 个 SMART-seq B 细胞中随机选择 2,500 万个reads对作为测试用例来创建伪批量 RNA-seq 数据。为了建立 BCR 调用的黄金标准，使用了 BALDR 和 BASIC 在单细胞水平上一致调用的 128 个 IGH 组件。TRUST4 和 MiXCR 正确识别了所有 128 个 CDR3，TRUST4 重构了93 个全长 IGH 序列，而 MiXCR 仅发现了 39 个（图1d）。

利用TRUST4 从sc RNA-seq 重构 TCR/BCR的性能评估

利用PBMC 上 5' 10x Genomics scRNA-seq 数据来进行性能评估(图2a)，TRUST4 对5,091 个 T 细胞和 1,318 个 B 细胞进行免疫组库的重构,把对应的T 细胞和 B 细胞 10x V(D)J 库作为黄金标准。在免疫组库的全长重构的分析中，体细胞超突变率由重构的 V 基因和germline序列之间碱基匹配比例（相似性）表示（图2c）。在 10x V(D)J 报告的 CDR3 中，TRUST4 恢复了 48.1% (6,035/12,558) 的 TCR CDR3 和 78.0% (1,946/2,494) 的 BCR CDR3。TRUST4 对 BCR 的较高敏感性是由于 B 细胞中 BCR 的表达水平较高。在精度上， TRUST4 的 94.6% 的 TCR CDR3 和 98.2% 的 BCR CDR3 与 10x V(D)J 相同（图3b）。

利用10x Genomics 非小细胞肺癌 (NSCLC) 数据集进行评估：TRUST4 从 144 个 Seurat 注释的血浆 B 细胞中重构了 142 个 IGH CDR3，而 10x V(D)J 只发现了 131 个，TRUST4 还重构了 104 个细胞的全长配对 BCR，观察到了IGHs 和 IGK/IGLs 之间的 SHM 率的高度相关性（图3b右）。

这样的性能比拼下来，在资金调度紧缺和样本难获取情况下，利用TRUST4来免费获取免疫组库不失为一个好办法，TRUST4 可以直接从 5' 10x Genomics scRNA-seq 数据重构单细胞水平的免疫受体库，包括 γδT 细胞，而无需特定的 10x V(D)J 富集文库。赶快试试用起来~

TRUST4 可在https://github.com/liulab-dfci/TRUST4获取。

下载：git clone https://github.com/liulab-dfci/TRUST4.git

安装进入下载地址：run ‘make’ 进行编译安装

查看安装是否成功：

输入/输出

TURST4 的主要输入 ：BAM 格式的 RNA-seq 读数的比对文件（-b），基因组序列和 V、J、C 基因坐标的文件（-f），以及参考数据库序列包含的注释信息，例如 IMGT 数据库(--ref)。

TRUST4 的另一个输入 ：fasta/fastq 格式的RNA-seq原始文件（-1/-2 表示测序方式；-u 表示单端）。仍然需要上面的 -f、--ref 之类的文件。这种情况下，可以直接使用IMGT的seuqence文件进行-f。

TRUST4 输出结果文件 ：trust_raw.out, trust_final.out 为contigs和相应的核苷酸权重。trust_annot.fa 为 fasta 格式，用于重构的注释。trust_cdr3.out 报告每个重构CDR1、2、3 和基因信息。trust_report.tsv是一个专注于CDR3的报告文件，和其他分析工具如VDJTools等兼容。

trust_annot.fa的结果表头为：

consensus_id consensus_length average_coverage annotations

对于基因的注释采用以下模式：

gene_name(reference_gene_length):(consensus_start-consensus_end):(reference_start-reference_length):similarity

对于CDR的注释，它为以下模式：

CDRx(consensus_start-consensus_end):score=sequence

对于 CDR1,2，score是相似性。对于 CDR3，score 0.00 表示部分 CDR3，得分 1.00 表示带有估算核苷酸的 CDR3，其他数字表示motif信号强度，100.00 表示最强。

trust_cdr3.out的输出为tsv文件，tsv的列名为：

consensus_id index_within_consensus V_gene D_gene J_gene C_gene CDR1 CDR2 CDR3 CDR3_score read_fragment_count CDR3_germline_similarity full_length_assembly

trust_report.tsv的输出也为tsv文件，报告列名为：

read_count frequency(proportion of read_count) CDR3_dna CDR3_amino_acids V D J C consensus_id consensus_id_full_length

自定义构建V、J、C基因数据库（用于-f和-ref 的文件）

要生成“-f”指定的文件，可感兴的物种的参考基因组和基因组注释GTF文件生成，使用如下命令：

perl BuildDatabaseFa.pl reference.fa annotation.gtf human_vdjc.list > bcrtcr.fa

“--ref”指定的文件是从IMGT网站（http://www.imgt.org//download/V-QUEST/IMGT_V-QUEST_reference_directory/）下载的，例如人类，可以使用命令：

perl BuildImgtAnnot.pl Homo_sapien > IMGT+C.fa

10X数据

对于 10X Genomics 数据，通常输入的是来自 cell-ranger 的 BAM 文件，可以使用“--barcode”指定 BAM 文件中的字段来指定条形码：例如“--barcode CB”。

如果输入的是原始 FASTQ 文件，可以使用“--barcode”指定条码文件，并使用“--barcodeRange”告诉 TRUST4 如何提取条码信息。如果条码或UMI序列在read序列中，可以使用“--read1Range”、“--read2Range”告诉TRUST4如何提取reads中的序列信息。TRUST4 支持在 -1 -2/-u 选项中使用通配符，因此运行 10X Genomics 单端数据的典型方法是：

run-trust4 -f hg38_bcrtcr.fa --ref human_IMGT+C.fa -u path_to_10X_fastqs/*_R2_*.fastq.gz --barcode path_to_10X_fastqs/*_R1_*.fastq.gz --barcodeRange 0 15 + --barcodeWhiteList cellranger_folder/cellranger-cs/VERSION/lib/python/cellranger/barcodes/737K-august-2016.txt [other options]

选项取决于10X Genomics 试剂盒类型

SMART-Seq 数据

使用“trust-smartseq.pl”来处理来自 SMART-seq 等平台的文件，示例：

perl trust-smartseq.pl -1 read1_list.txt -2 read2_list.txt -t 8 -f hg38_bctcr.fa --ref human_IMGT+C.fa -o TRUST

生成简单的报告

可利用“trust-simplerep.pl”对TRUST4的输出结果进行简化，得到更简单的输出报告

perl trust-simplerep.pl trust_cdr3.out > trust_report.out

BAM 文件输入：

./run-trust4 -b example/example.bam -f hg38_bcrtcr.fa --ref human_IMGT+C.fa

fastq 文件输入：

./run-trust4 -f human_IMGT+C.fa --ref human_IMGT+C.fa -1 example/example_1.fq -2 example/example_2.fq -o TRUST_example

TRUST4开源免费使用，更多的使用方法从一下网站获取～https : //github.com/liulabdfci/TRUST4_manuscript_evaluation

查看原文： https://mp.weixin.qq.com/s/_gDd5x_vJ0UmUCJeqnnDLQ

注：本推文未经许可禁止转载。

阅读推荐：

工具篇丨学会这个基因分析工具，你离CNS不远了！

工具篇 | 这个R包，让你迅速提升SCI文章的逼格！

工具篇 | 五一长假这就结束了，你不会连这个数据库都还不会用吧？

工具篇 | OncoVar：研究癌症突变，这个数据库太太太太太太有用了！

工具篇丨不想用R语言也想做通路分析？建议收藏这个万能网站！

返回搜狐，查看更多

责任编辑：

平台声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。