呐,等你关注都等出蜘蛛网了~
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过 文献速递 这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
文献速递 栏目通过简短介绍,扩充知识面,每天关注,希望你也能有所收获!
文章信息
单细胞技术在过去的几年间发展迅猛,但是由于得到的单细胞样品是某一时刻的静态,2018年,单细胞大牛组Sten Linnarsson和Peter V. Kharchenko在Nature上发文报道了RNA velocity of singlecells, 提出通过分析不同类群(Cluster)中RNA合成的速度(基因表达的时间导数),来深化理解单细胞RNA的动态变化过程。
大牛文章中提出的idea看起来总是棒棒的,如何应用到自己的数据分析中才是最关键的一步(当然,这里往往是n步……)
小老板很早就和我说,嗯,我们也用这个来分析下我们的数据。在拖延症大法已经拖无可拖以后,我终于开始研究如何对10x genomics的数据进行分析。
查资料
先去Velocyto官网(http://velocyto.org/),发现可以使用velocyto的python和R版本进行分析。在后续深入的阅读发现,一般是使用velocyto的python版本得到.loom文件,再使用velocyto的R版本导入.loom文件结合pagoda2进行分析。
官网给出的对10x的数据分析比较重要的两个网站为:
- https://velocyto.org/velocyto.py/,这个网站是Python的教程,给出了非常详细的步骤和例子
- http://pklab.med.harvard.edu/velocyto/notebooks/R/SCG71.nb.html 这个网站是得到了loom文件以后,如何使用RNA velocyto.R和pagoda2 (https://github.com/hms-dbmi/pagoda2 给出了如何安装pagoda2)进行分析,得到最后的分析结果
获得 loom文件
那么如何从跑完10x的CellRanger得到loom文件呢?
其实,很简单,只需要1行命令:
velocyto run10x -mrepeat_msk.gtf mypath/sample01somepath/refdata-cellranger-mm10-1.2.0/genes/genes.gtf
但是,里面有一些坑,
- Repeat_msk.gft 需要从UCSA网站下载得到:hg38_rmsk.gtf;
- mypath/sample01 ,习惯了使用Seurat分析,我下意识的使用了filtered_gene_bc_matrices中的文件夹(只包含barcodes.tsv.gz, features.tsv.gz, matrix.mtx.gz),但是仔细阅读以后发现,此处的文件夹是cell ranger运行以后的得到的样本文件夹; velocyto includes a shortcut to run the counting directlyon one or more cellranger output folders (e.g. this is the folder containing thesubfolder: outs, outs/analys and outs/filtered_gene_bc_matrices)
- 在你的outs文件夹,有一个文件名是possorted_genome_bam.bam,这是进行分析的基础,包含了splicing 相关的信息。我一直很好奇,10x的数据的矩阵如何进行RNA velocity分析,看到这个文件后我就明白了。这里需要注意的是,有的时候,这个文件会被重命名为样本名_possorted_genome_bam.bam,这里需要使用mv进行改名possorted_genome_bam.bam
- 另一个可能会发生错误的是你的cellranger的gtf文件,一定要和你的cellranger的结果的版本相匹配;
- 还需要注意的是,这个分析是依赖于samtools 1.6版本以上,由于我是在实验室的服务器上,我需要load: