生信干货~从SRA下载到分析~
SRA能用来干嘛
我们以往的挖数据都是吃别人嚼过的。
比如:你可能用人家文章中FPKM的值然后去R分析之后得到了一堆图,结果发现好的基因都被人家做过了。这是下策,创新性极弱。
再比如,你可能得到的是BAM文件,或者得到的是Count文件,这个算是半成品,当然可以去再加工,做几个好看的图。这是中下策,创新性弱。
什么是上策呢?当然是自己收样本自己去测序分析,这个绝对原创。
我们可以去搞原料自给做饭吃。
那么在上述几种情况中,你还可以找到一个中上策,有可能达到与原创几乎一样的效果,就是去下载原始数据。
一些期刊比如CNS是要求将测序原始数据上传到NCBI以共享,这些原始数据再加工的潜力会很大。
比如,文章只做了编码基因,你可以研究非编码基因
再比如,测序深度很深,你可以研究反式剪切,有可能挖出某个明星的环状RNA。
再再比如,你可以做从头分析,找到新的基因。
以上都能作为文章的亮点或者创新,虽然你没功夫收样本,虽然你没花钱做实验,但同样你可以做到接近原创。这才是挖数据的最高境界,用别人的钱养自己。
下面就是重要的干货
SRA获取方式
你上面说的那么重要,怎么获取呢?
SRA数据你可以理解为测序fastq文件的压缩
测序fastq文件很大,至少也有5G左右,双端测序,加起来一个样本也要8G左右,SRA就是压缩这么大的文件至2~3G。下载速度越快获得数据越完整,心情越舒畅。("别废话,赶紧说下载!"~"好的“)
下载的东西哪里去找呢
🌰 https://www. ncbi.nlm.nih.gov/sra? term=SRP074349
你在GEO上面找到了你想要的高通量数据,按照下面的步骤你会得到你要的文件名称是啥~~~~
下载方式一:FTP下载
https://
ftp-trace.ncbi.nlm.nih.gov
/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/
用任意浏览器,推荐火狐,打开这个网址,如图点击就自动下载了。
如果网速足够快,比如平时下个小电影速度是50~100Mbp/s,用这种方法就可以了,但记住得一个一个下。
上面的那种下载速度在国内不是普遍的,我们一般都是1~5Mbp/s这个级别的,
下载方式二:神器~Aspera Connect 浏览器插件
这个神器是IBM公司出品的一个免费的,不知道什么原理的神器,他能让下载速度保持在50~100Mbp/s。也就是说打破了带宽和地域的限制。
这里要说明一下,以前你可以下载Aspera connect软件。它能嵌入到浏览器中,当浏览带有高速下载内容网址直接点击就好了。
例如NCBI的
https://www.
ncbi.nlm.nih.gov/projec
ts/faspftp/1000genomes/
以前SRA还是能够从这里下载的,现在不知道为什么这个口被关了,可能是跟政府没钱了有关系吧。
下载方式三:神器Too~Aspera Connect
对的还是这个东西,只不过是在linux的系统中采用命令行的方法去下载。
所以, 首先你得有个带有Linux的电脑或者服务器
电脑么,去搞个虚拟机,装个linux
服务器么,去搞个云服务器,怎么搞看下面的教程
然后,安装与配置环境
下载:
wget
http://
download.asperasoft.com
/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解压:
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
安装
bash aspera-connect-3.7.4.147727-linux-64.sh
查看是否有.aspera文件夹
去根目录
ls -a
#如果看到.aspera文件夹,代表安装成功
永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
查看帮助文档,验证是否可以调用
ascp --help
这样你的电脑或者服务器就可以开启神器了
下面是开启命令
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads
上面命令中SRR后面的数字就是下载文件的代号,大家应该能看懂规律吧。按照👆🌰中的Access list就能够一个一个的下载到你要的文件。
你可以看一下速度,
根据那个ascp帮助文档,你可以去调整速度,也不能太快了,四不四。
这样我们就打开了一扇通往美好生活的大门,但是下载的文件是SRR,我们要的是fastq,又该怎么办呢。关注我们,慢慢告诉你
欢迎加入Chris初级生信教程