Cell Ranger
Cell Ranger
是一组分析管道,用于处理 Chromium 单细胞数据以对齐 reads,生成特征条形码矩阵,执行聚类和其他二次分析等等。 它帮助我们生成 RNA reads 计数矩阵,我们将在学习中使用。
一些概念:
GEM 孔(以前称为 GEM 组):来自单个 10x Chromium™ 芯片通道的分隔单元(凝胶颗粒悬浮液)集合。可以从一个 GEM 孔中获得一个或多个测序文库。
文库(或测序文库):从单个 GEM 孔中制备的带有 10x 条形码的测序文库。借助特征条形码或 V(D)J 分析,可以从同一个 GEM 孔中创建多个文库。文库类型可能包括基因表达、抗体捕获、CRISPR 引导捕获、TCR 富集等。
测序 Run(或 Flowcell): A flowcell containing data from one sequencing instrument run.(这个从英文直译上很难理解,通俗的说就是一次上机测序得到的数据流)
从 Chromium 10X 管道获得的单细胞数据可以使用 cellranger 通过以下工作流程进行处理。
Cellranger Workflow (taken from the cellranger website)
下面是我们将从 cellranger 获得的输出文件夹。outs 文件夹包含最终的管道输出文件,其中包括我们需要用于下游分析的内容。
Overview of the folder generate from cellranger
Overview of the outs folder
以上是我们可以在outs文件夹中找到的内容。它包含了一些测序数据的总结信息,注释的读取序列,以及我们通常工作的基因表达矩阵。下面是我们想看的一些重要的输出文件。
Matrices
Web Summary .html
Secondary Analysis CSV
Molecule Info (h5)
Loupe File (.cloupe)
测序时,Chromium 10X 不仅对转录组进行测序,还对任何可能的分子进行测序。这就导致了背景条形码的存在。细胞相关条形码是cellranger 认为标记来自真实细胞的转录组而不是背景的条形码。
对于不同版本的cellranger,使用不同的算法来检测细胞相关条形码。一般的想法是,细胞的条形码应该比背景条形码有更多的转录本计数。更多信息请访问:https://kb.10xgenomics.com/hc/en-us/articles/115003480523-How-are-barcodes-classified-as-cell-associated-。
cellranger管道输出两种类型的特征条形码矩阵:
未经过滤的特征条形码矩阵存储在raw_feature_bc_matrix(1-1)文件夹下。它包含了来自已知良好条形码序列固定列表的每个条形码,其中至少有一个读取,这意味着它包括背景和与细胞相关的条形码。
经过过滤的特征条形码矩阵存储在filtered_feature_bc_matrix(1-2)文件夹下。它只包括已检测到的与细胞相关的条形码。
raw_feature_bc_matrix和filtered_feature_bc_matrix文件夹中都包含三个文件。
matrix.mtx.gz文件以稀疏矩阵的形式存储 reads 计数,其中每一行表示scRNA-seq数据中的一个基因,每一列表示一个细胞。行索引的信息存储在features.tsv.gz文件中,而列索引的信息存储在barcodes.tsv.gz文件中。
features.tsv.gz文件对应于行索引。在scRNA-seq数据中,“features”实际上指的是基因。features.tsv.gz文件包含三列:feature ID:参考GTF文件的注释字段中的gene_id,表示特征的ID。 name:参考GTF文件的注释字段中的gene_name,如果参考GTF中没有gene_name字段,则基因名称等同于基因ID。 type of feature:描述特征类型,可以是Gene Expression、Antibody Capture、CRISPR或CUSTOM之一。对于scRNA-seq数据,它将是Gene Expression(基因表达)。
barcodes.tsv.gz对应于列索引,它包含了每个列的条形码。有关条形码序列格式的更多详细信息,请参考
条形码BAM部分
。
Web Summary .html
一个概要的HTML文件包含了摘要指标和自动化二次分析结果。如果在流程运行期间检测到问题,将在此页面上显示警报。
该HTML文件包括两个部分,SUMMARY(摘要)和ANALYSIS(分析)。您还可以点击每个仪表板顶部的“?”以获取有关每个指标的更多信息。
SUMMARY(摘要)指标描述了测序质量和检测到的细胞的各种特征。在页面顶部附近醒目地显示了检测到的细胞数量、每个细胞的平均reads数以及每个细胞检测到的基因的中位数。
Cells dashboard (modified from the cellranger website)
在“Cells”仪表板下的“Barcode Rank Plot”显示了条形码计数的分布以及被推断与细胞相关的条形码。y轴表示每个条形码映射到的UMI计数,x轴表示低于该值的条形码数量。陡峭的下降表示细胞关联的条形码与与空分区相关的条形码之间有良好的分离。条形码可以通过其UMI计数或其RNA配置文件确定为与细胞相关,因此图表的某些区域可能同时包含细胞关联和背景关联的条形码。图表的颜色表示与细胞关联的条形码的局部密度。
Sequencing and Mapping dashboards (modified from the cellranger website)
其他用于评估的指标:
Estimated Number of Cells
: 500-10,000
Mean Reads per Cell
: 20,000 reads/cell minimum recommended reads per cell around 10,000
Valid barcodes
: greater than 75%
Q30 bases in RNA read
: ideally greater than 65%
Reads mapped confidently to transcriptome
: ideally greater than 30%
Reads mapped antisense to gene
: ideally smaller than 10%
分析(ANALYSIS)指标包括以下自动化的二次分析:
降维分析:将细胞投影到二维空间(t-SNE),以展示它们之间的关系。
自动聚类分析:将具有相似表达特征的细胞分组在一起,形成聚类。
差异表达基因列表:列出在所选聚类之间表达差异显著的基因。
显示测序深度降低对观察到的文库复杂性的影响的图表。
显示测序深度降低对每个细胞检测到的平均基因数的影响的图表。
BAM文件以二进制压缩格式保存了关于 mapping reads 的信息。它由可选的头部部分和对齐部分组成。如果存在头部部分,它将通过第一列中的
@
与对齐部分区分,并位于对齐部分之前。
当解压缩成SAM文件时,信息以制表符分隔的表格形式存储,其中包含一些标准列和由 Cell Ranger 软件生成的特定列。Cell Ranger特定的列包含与 BAM 条形码、BAM 对齐和特征条形码相关的信息。标准列对应以下内容:
QNAME : read name (generally will include UMI barcode if applicable)
FLAG : number tag indicating the “type” of alignment, link to explanation of all possible “types”
RNAME : reference sequence name (i.e. chromosome read is mapped to).
POS : leftmost mapping position
MAPQ : Mapping quality
CIGAR : string indicating the matching/mismatching parts of the read (may include soft-clipping).
RNEXT : reference name of the mate/next read
PNEXT : POS for mate/next read
TLEN : Template length (length of reference region the read is mapped to)
SEQ : read sequence
QUAL : read quality
可以使用 SAMtools 查看 BAM 文件:
samtools view output.bam
为了进行基于 RNA 速率的轨迹分析,需要 bam 文件。
分子信息(h5)
它是一个 HDF5 文件,包含有效条形码和有效 UMI 的所有分子的每分子信息,并以高置信度分配给基因或特征条形码。该 HDF5 文件包含与观察到的分子相对应的数据,以及有关所使用的库和特征集的数据。这个文件的结构是:
HDF5 File Hierarchy(taken from the cellranger website)
二级分析 CSV 文件
包含自动辅助分析结果的几个 CSV 文件。它包含有关降维、t-SNE、UMAP、聚类和差分表达的信息。它也通过
Web Summary.html
文件在ANALYSIS度量中可视化。
Loupe 文件 (.cloupe)
Loupe Browser 是一款桌面应用程序,提供与10x Genomics解决方案的数据进行交互式可视化分析的功能。它可以帮助寻找感兴趣的细胞、发现重要基因、识别细胞类型、探索细胞亚结构、研究细胞亚型、集成基因表达和V(D)J分析,并共享结果。
通过 Loupe Browser 可以查看 Loupe 文件,该文件包含以下信息:
样本中细胞的基因表达信息。
细胞的各种基于基因表达的聚类信息,包括t-SNE和UMAP投影以及差异基因表达情况。
来自转录组参考的基因注释信息。