使用基于python的velocyto软件做RNA速率分析

link管理
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
安装自己的conda，每个用户独立操作

安装方法代码如下：
# 首先下载文件，20M/S的话需要几秒钟即可
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 接下来使用bash命令来运行我们下载的文件，记得是一路yes下去
bash Miniconda3-latest-Linux-x86_64.sh 
# 安装成功后需要更新系统环境变量文件
source ~/.bashrc
安装好conda后需要设置镜像。
conda config --add channels r 
conda config --add channels conda-forge 
conda config --add channels bioconda
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
使用conda安装velocyto的一些依赖
暂不支持conda直接安装 velocyto，将会在1.0版本使用 。
#需要一些依赖
conda create -n velocyto 
conda activate velocyto 
conda install samtools
conda install numpy scipy cython numba matplotlib scikit-learn h5py click
pip install pysam
 # `PyPI`安装
pip install velocyto
# Successfully installed loompy-3.0.6 numpy-groupies-0.9.13 pandas-1.2.5 pytz-2021.1 velocyto-0.17.17
下载特定物种的特殊gtf文件
基因组注释文件主要是： GENCODE 或者Ensembl ; 不过， 我们这个单细胞转录组使用cellranger流程的话，需要重复数据的gtf文件，rmsk
我们这里是 hg38_repeat_rmsk.gtf 文件，需要自己制作并且下载到指定工作目录！
从cellranger得到loom文件
这里需要 使用基于python的velocyto软件，它需要3个参数，其中两个是gtf文件，一个是前面cellranger命令的outputs目录哦，完整的命令如下：
rmsk_gtf=$HOME/pipeline/velocyto/hg38_repeat_rmsk.gtf # 从genome.ucsc.edu下载 
cellranger_outDir=HSY-fushui # 前面cellranger命令的outputs目录 
cellranger_gtf=$HOME/pipeline/refdata-gex-GRCh38-2020-A/genes/genes.gtf # 这个是cellranger官网提供的
ls -lh $rmsk_gtf $cellranger_outDir $cellranger_gtf
nohup velocyto run10x -m $rmsk_gtf $cellranger_outDir $cellranger_gtf & 
# 如果是其它单细胞数据，可以换参数，比如run_smartseq2
理论上，这个一句话命令，就可以完成了python的velocyto软件并且拿到loom文件，但是，因为 samtools问题，上面的流程可能是会失败。
这个时候可以自行先运行 samtools sort 命令处理得到 cellsorted_possorted_genome_bam.bam 文件，如下所示的命令：
cd $cellranger_outDir/out 
nohup samtools sort -@ 10 -t CB -O BAM -o cellsorted_possorted_genome_bam.bam possorted_genome_bam.bam &
# 这个 samtools sort 的 速度很快
# 下次就可以把前面的 velocyto run10x 重新跑一次，因为 samtools sort 命令已经是成功了。
# The file /home/---/outs/cellsorted_possorted_genome_bam.bam already exists. 
# The sorting step w ill be skipped and the existing file will be used.
在同样的前面cellranger命令的outputs 文件夹目录下面，会输出一个 velocyto 文件夹，如下所示：
$ ls -lh velocyto/ 
158M 7月 3 22:38 HSY-fushui.loom
有了这个loom文件，后续就是回到R语言里面的统计可视化啦！
如果是多个10x样品都需要运行velocyto
首先，把全部的bam文件循环进行sort，代码如下：
 ls */outs/possorted_genome_bam.bam|while read id;do new=${id/possorted_genome_bam.bam/cellsorted_possorted_genome_bam.bam}
echo $new 
nohup samtools sort -@ 4 -t CB -O BAM -o $new $id & 
这个代码难度有点高哦，需要精通Linux才能理解它。
同样的，然后可以批量走python的velocyto软件，代码如下所示：
rmsk_gtf=$HOME/pipeline/velocyto/hg38_repeat_rmsk.gtf # 从genome.ucsc.edu下载 
#cellranger_outDir=HSY-fushui # 前面cellranger命令的outputs目录 
cellranger_gtf=$HOME/pipeline/refdata-gex-GRCh38-2020-A/genes/genes.gtf # 这个是cellranger官网提供的
#ls -lh $rmsk_gtf $cellranger_outDir $cellranger_gtf
# 同样的一个简单的 循环即可
ls -d *-*|while read cellranger_outDir;do 
nohup velocyto run10x -m $rmsk_gtf $cellranger_outDir $cellranger_gtf & 
每个样品都会输出如下所示的loom文件：
158M 7月 19 17:39 HSY-fushui.loom
 79M 7月 19 17:39 HSY-PBMC.loom
132M 7月 19 17:39 HSY-yi.loom
163M 7月 19 17:39 HSY-yuan.loom
246M 7月 19 17:39 LS-Endo-Pro.loom
139M 7月 19 17:39 LS-PBMC-Pro.loom
211M 7月 19 17:39 RDX-PBMC.loom
205M 7月 19 17:39 RDX-yuan.loom
123M 7月 19 17:39 WY-PBMC.loom
 91M 7月 19 17:39 WY-yi.loom
136M 7月 19 17:39 WY-yuan.loom
253M 7月 19 17:39 YF-fushui.loom
188M 7月 19 17:39 YF-PBMC.loom
135M 7月 19 17:39 YF-yi.loom
148M 7月 19 17:39 YF-yuan.loom
243M 7月 19 17:39 YX-Endo-Decidu.loom
128M 7月 19 17:39 YX-PBMC-Decidu.loom
 95M 7月 19 17:39 ZZX-PBMC.loom
123M 7月 19 17:39 ZZX-yuan-2.loom
拿到了这么多 loom文件，就可以进行下游 velocyto.R 这个R包进行后续统计可视化啦！明天我们就讲解velocyto.R 这个R包用法！
关于RNA velocity (gene expression trajectory)
RNA velocity是基于真实的转录动力学，可用于细胞基因表达的动态分化的研究。
如上左图，刚转录出的mRNA包含外显子和内含子，经过splicing切除内含子后，得到用于编码 蛋白的spliced mRNA。spliced mRNA的丰度由未成熟mRNA的splicing速度和降解速率共同决 定。如上中图：每个点代表一个细胞，在拟时间轴上，未经过剪切的mRNA的出现始终早于经 过剪切的mRNA。如上右图：红色代表未经过剪切的mRNA，蓝色代表经过剪切的mRNA，可以 看出，这些细胞的应该是从左往右分化的，因此Velocity可以用于定义轨迹的起点分支和终点。 也就是说，Velocity可以在不知发育过程的前提下，预测谱系的方向（如下图）。
Velocity可以用于周期的轨迹
号外: 我们提供单细胞数据分析服务哦
明码标价之10X技术单细胞（2.5万每个）（标准100G测序数据）
明码标价之10X转录组原始测序数据的cellranger流程
明码标价之单细胞转录组的质控降维聚类分群和生物学注释
近期评论
GJ发表在《关于我》
大熊发表在《关于我》
ulwvfje发表在《关于我》
来巡山发表在《关于我》
来巡山发表在《关于我》
基因组学
转录组软件
全外显子组软件
	2024年7月