添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
怕老婆的卤蛋  ·  C# 基本语法 | ·  6 天前    · 
光明磊落的铁链  ·  03. Entrez 工具 - ...·  4 小时前    · 
激动的抽屉  ·  杨步亭_百度百科·  3 月前    · 
爱听歌的机器人  ·  注意了!MySQL ...·  3 月前    · 
想旅行的椰子  ·  sora-cpp-sdk/CMakeList ...·  6 月前    · 

NCBI Entrez 工具功能非常强大,既可以从 web 页面访问 NCBI 来查询,也可以利用 Entrez 提供的 Web Services 来实现诸多功能(编写第三方程序等)。此外 NCBI 还提供了 Entrez 的命令行工具 edirect 1 。edirect 全名为 Entrez Direct ,里面包含了一组各司其职的工具和脚本,通过 Linux 系统下的管道pipeline 2 功能联合使用这些命令行工具,在服务器上实现高效的进行 Entrez 的检索,抓取,过滤,排序等操作。

1. 安装

1.1 下载安装

edirect 直接下载预编译包,添加到系统路径中即可。

# 下载 edirect 安装包
$ wget ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.tar.gz
# 将 edirect 安装在用户 app 目录下,可以根据需求自行选择安装路径
$ tar zxvf edirect.tar.gz -C ~/apps
# 运行安装脚本
$ cd ~/apps/edirect
$ bash ./setup.sh
# 添加软件安装目录到系统环境变量中
$ echo "export PATH='\$PATH:\$HOME/apps/edirect/'" >> ~/.bashrc
$ source ~/.bashrc

耐心等待一会,当看到下面字符时,表示安装成功。

ENTREZ DIRECT HAS BEEN SUCCESSFULLY INSTALLED AND CONFIGURED

也可以不运行 setup.sh 直接使用 edirect 的一些工具,不过如果要使用全部功能,有些perl模块需要安装,运行 setup.sh 来自动完成 CPAN 的 modual 安装以及 go 版本的 xtract 的编译(不运行安装脚本会调用 perl 版本的 xtract,数据量大时速度略慢)。

对于部分操作系统如 ubuntu 等,uname 位于 /bin,而 xtract 接口调用脚本使用 /usr/bin/uname 来判断使用那个版本的 xtract,如果要在这些操作系统下正常使用 xtract,需要让程序在正确路径可识别,这里通过添加系统 link 到 /usr/bin/unname。

# 查看 uname 路径。
$ which uname
# 如果是位于 /bin/ 下,将其链接到 /usr/bin/ 下即可。
$ sudo ln -s /bin/uname /usr/bin/uname

1.2 conda 中安装

如果系统通过 conda 进行软件管理,可以通过如下方式安装。

$ conda install entrez-direct

不过 conda 安装的还是 perl 版本的 xtract,而不是 go 版本的,需要到 conda/pkgs 包根目录中的 edirect 相应目录,用 setup.sh 自行编译后生成 xtract.Linux(Linux 操作系统),将其复制到 conda 的 bin 路径即可。go 版本的 xtract 可以用 -help 参数查看帮助。

2. 基本用法

表. 最常用的工具参见下表

2.1 esearch

esearch 负责检索并返回 xml 格式的命中情况。使用 esearch 命令,相当于平时你通过浏览器访问 NCBI,在 GQuerynucletide 数据库搜索见面搜素关键字 salmonella,返回命中结果。

$ esearch -db nuccore -query "salmonella"

终端里会返回命中结果:

<ENTREZ_DIRECT>
  <Db>nuccore</Db>
  <WebEnv>NCID_1_153624467_130.14.18.34_9001_1490828308_1411373464_0MetA0_S_MegaStore_F_1</WebEnv>
  <QueryKey>1</QueryKey>
  <Count>2093561</Count>
  <Step>1</Step>
</ENTREZ_DIRECT>

esearch 需要设置的参数有 -db(所要搜索的目标数据库)和 -query(所要搜索的关键词)。

结果默认返回 xml 格式的数据(参见 <ENTREZ_DIRECT>...</ENTREZ_DIRECT>),其中 中的数值表示检索命中的记录数,这与 NCBIEntrez 网页界面里进行检索操作的结果是一致的。

esearch 还有一个参数 -sort 可以根据数据库类型返回不同的排序方式。默认的排序方式是按照时间逆序排列的。想要得到准确的查询结果,优化 query 很重,可以参见 Filter 相关内容。

2.2 efetch

efetch 可以用来下载各个数据库的各种格式数据。你可以通过2种方式下载:

  • 用 esearch 获得命中记录后再下载。下面这个命令,就会下载所有结果并保存到 result.fasta 文件中。
  • $ esearch -db nuccore -query "salmonella" -days 10 | \
    > efetch -format fasta -db nuccore > result.fasta
    

    Warning

    一定要注意搜索命中值的数量,关键词命中太多,数据量会太大,全部下载可能直接进入假死状态。应该通过设置参数来限定搜索结果。当不确定时,先用esearch工具看返回的命中值有多少再决定是否进一步限定。

  • 直接指定 id 下载
  • $ efetch -db pubmed -id 2142131 -format txt
    

    efetch 设置的参数是 -db,将搜索命中的记录从该数据库进行。如果 esearch 检索的结果和需要下载的结果来自同一数据库,可以不添加 -db 参数,系统会默认使用esearch的数据库。

    efetch 还要设置的参数是 -format,即下载数据的格式。常用的有 xml 格式,后续可以通过 xtractlinux 一些命令行工具来做处理。你也可以直接添加 -id 参数直接进行下载而不通过 esearch 检索后下载。如下面例子中将 pubmed id 2137412 的文献输出,格式为 Medline3

    # 搜索 pubmed 数据库编号 2137412 的文献,以 medline 格式输出
    $ efetch -db pubmed -id 2137412 -format medline
    

    对于 efetch 可以下载那些数据库,对于各个数据库名称和数据格式,可以用-h来查看

    $ efetch -h
    

    2.3 xtract

    edirect 的核心命令,由于 esearch 查询和下载的数据常常是 xml 格式的,对于 XML4 格式的数据,可以用 xtract 工具将其转换成纯文本格式的内容。xtract 不仅可以转换 NCBI 的 XML 格式文件,对于任何通用的 XML 格式文件都可以进行转换。

    xtract 基本用法:

    # 读取 XML 文件方式
    $ xtract -input XML-file.xml
    

    一般我们都是通过管道工具 Pipeline 组合 esearch 和 efetch 等工具获得 XML 格式的 NCBI 数据库命中记录后,再用 xtract 进行处理。

    $ esearch -db pubmed -query 'E. coli AND (2016/12/30[pdat]:2016/12/31[pdat])' | \
    > efetch -format xml | xtract -pattern PubmedArticle -element \
    > MedlineCitation/PMID Journal/ISOAbbreviation ArticleTitle
    

    这条命令将检索到的文献记录转换成行,再以 PMID,杂志名缩写和文章题目为列展开。命令打印的结果如下:

    28239441J Public Health AfrQuality and labeling information of Mo       ringa oleifera products marketed for HIV-infected people in Zimbabwe.
    28115890Korean J Food Sci Anim ResourAntimicrobial Activity of Kefir against Variou     s Food Pathogens and Spoilage Bacteria.
    28110668Enzyme Microb. Technol  .A novel thermophilic and halophilic esterase from Janibacter sp. R02,   the first member of a new lipase family (Family XVII).
    27030192J.   Vet. Sci.Development and evaluation of an immunochromatographic assay   using a gp51 monoclonal antibody for the detection of antibodies against the bovine leukemia virus.
    

    当我们不清楚XML元素结构时,可以用以下命令打印出树形结构。

    $ xtract -input my.xml -outline
    

    xtract 可以灵活的改变数据的格式,所以涉及的参数也比较多。要想获得自己需要的数据格式,要想用好 edirect,掌握好 xtract 的用法是必不可少的。

    -pattern 参数: 将 xml 格式数据,将转换成行格式数据。每一个element包含的数据做为一行。

    xtract 命令首先要通过 -pattern 定义所要分析的数据级别。比如对于 pubmed 数据库,efetch 输出 -format 格式为 docsum,那么我们一般要抓取的是每一个命中的文献记录,-pattern 就可以用 DocumentSummary 元素。如果你只想知道所有命中文献的作者(比如按照次数排序),那么就可以直接将 -pattern 定义为 Author。

    -element 参数: 将 -pattern 定义的行中以每个element形成一列。每个element以tab键分隔。

    每个 -pattern 定义后,要多 -pattern 定义的元素的子元素进行输出,就要用到 -element 参数了。-element 可以跟多个子元素,默认以tab键分割。但是要注意的是子元素必须是唯一子元素,比如 -pattern 如果定义为 DocumentSummary,那么每个 DocumentSummary 元素有一个 Authors 子元素,而每个 Authors 有多个 Author 子元素(因为一篇文献有多个作者),如果直接将 -element Author,是无法返回作者信息的。需要用 -block 参数把 Authors 列转换成行再进行分割。

    -block 参数: 可以将某个XML标签下的多个相同标签转换成一行的多个元素,最常见的用法是在 pubmed 数据库检索文献时下多个标签打印出来。

    $ esearch -db pubmed -query "Salmonella[ORGN]" -days 5 | efetch -format xml | \
    > xtract -pattern PubmedArticle -block Author -sep " " -element LastName,Initials
    

    -tab、-sep 参数: 将多条 element 记录分割。

    /: 主要用在定义连续多层标签的定义上。比如PMID标签即可以在 MedlineCitation 标签下,有时也会在 RefSource 标签下。所以要明确检索文献的 PMID,就应该用 MedlineCitation/PMID

    @: 指定 XML 元素 element 的 attribute 值

    -if、-if/-equals、-if/-contains 参数: 条件运算符

    -and、-or、-position、-def 参数: 关系运算符

    当我们要检索一个数据库数据所关联到其他数据库时,就要用到elink工具了。比如我们先在SRA数据库中搜索到所有鼠伤寒沙门菌的SRA实验数据,然后链接到biosample数据库,获得这些菌株的生物样本信息。

    $ esearch -db sra -query "salmonella typhimurium" | elink -target biosample | efetch -format docsum > result.xml
    

    2.4 einfo

    对于 NCBI 数据库的各项复杂参数,字段等要完全了解和掌握比较困难。edirect 里提供了 einfo 工具,这样其他工具所能访问的具体数据库、字段和可链接数据库等信息都可以用 einfo 了解。

    # 查询 `esearch -db` 参数所能访问的所有数据库名称
    $ einfo -dbs | sort
    # 查询某个数据库字段情况,如 sra 数据库所有对应的字段名称
    $ einfo -db sra -fields
    # 查询数据库所有可链接的其他数据库
    $ einfo -db sra -links
    

    3. 高级检索

    工具 esearch 和 efilter 在做检索时如果做好筛选,能有助于获得准确的结果。筛选有2种方式,一种是通过添加参数来筛选。另一种是对 query 参数添加字段定义来筛选。

    参数过滤

    常用的参数为日期参数

  • -days 100:100天内的检索条件命中
  • -maxdate:时间段最大日期,格式可以是 2001,2001/01/01
  • -mindate:时间段最小日期,格式可以是 2001,2001/01/01
  • -datetype: PDAT 发布时间;MDAT 修改时间
  • 字段定义

    -query参数: esearch 和 efilter 通过添加该参数进行检索或过滤相应的关键词,query参数可以添加 filter,不同数据库可选择的filter可以用下面命令来查看。

    # 查看sra数据库的filter
    $ einfo -db sra -fields
    # 查看sra数据库field,用xtract格式化输出
    $ einfo -db sra | xtract -pattern Field -element Name Description
    

    -query 检索词可以用逻辑关键词构建逻辑关系:

  • AND:和
  • NOT:非
  • ():共同定义
  • -query 检索词还可以使用正则表达式:

  • "*"星号表示任意个匹配的字符
  • -query 字符串定义

    建议用 '...' 定义 -query 值,里面的各个关键词用 AND/OR 等建立逻辑关系。关键词组添加 filter 时用 "..." 定义。如:

    -query '"salmonella paratyphi A"[ORGN] AND latest[filter] AND "complete genome[filter]"'

    4. 具体示例

    下面我们就用几个简单的例子来尝试 edirect 的功能。结合 Linux 其他命令行工具,可以极大的提升我们在命令行界面下检索和抓取 NCBI 数据库的效率。

    查看2014~2016年发表的霍乱弧菌CTX相关文献的摘要

    用关键词 vibrio cholerae CTX 检索 pubmed 数据库,将搜索到的文献的摘要保存到文件中,方便查看。由于是文本格式的内容,方便后期进一步处理,比如提取单词进行词频计算,用翻译API将摘要进行自动翻译等等。

    # 示例为了减少命中数据,设置了发布日期的 -mindate 和 maxdata
    $ esearch -db pubmed -mindate 2014 -maxdate 2016 -datetype PDAT \
    > -query "vibrio cholerae CTX" | efetch -format abstract > abstract.txt
    # 日期设置的另一种写法
    $ esearch -db pubmed -query "vibrio cholerae CTX AND \
    > (2014[pdat]:2016[pdat])" | efetch -format abstract > abstract.txt
    

    查看文章作者

    常常会对某一类文章,或者某一个期刊的文章作者进行关注,这里根据检索关键词,格式化输出文章的ID和作者列表。这也是 xtract 最常见的应用之一。

    # 检索关键词,以最近300天为范围
    $ esearch -db pubmed -query "listeria monocytogenes AND prfA" -days 300 | \
    > efetch -format xml | xtract -pattern PubmedArticle \
    > -element MedlineCitation/PMID -block Author -sep " " \
    > -element LastName,Initials
    

    查看近300天以来发表的文章中,作者中有叫Jim的所有文章题目

    利用 pubmed 数据库的 filter [FULL], 查询所有作者列表里有叫Jim的文章标题,这里采用 medline 格式输出,如果要进一步做格式化可以用xml格式再用xtract重新排版打印。

    $ esearch -db pubmed -days 300 -query "Jim[FULL]" | efetch -format medline | \
    > grep TI | awk -F'- ' '{print $2}'
    

    查看2016年CDC发布的所有用miseq测序的沙门菌文库制备方法

    想要了解 CDC 开展的 miseq 沙门菌测序时采用的文库构建方法,可以利用 sra 数据库的 runinfo信息输出获得。

    $ esearch -db sra -query "salmonella[OGRN] miseq[PLAT] EDBL-CDC" \
    > -mindate 2016/01/01 -maxdate 2016/12/31 -datetype PDAT | \
    > efetch -format runinfo | cut -d ',' -f 12 > library.txt
    

    绘制单增李斯特菌hlyA蛋白质进化树图

    $ esearch -db protein -query "listeriolysin hlyA NOT partial" |
    > efetch -format fasta > hlyA.fasta
    $ mafft hlyA.fasta > hlyA.mafft.fasta
    $ raxml -m GTRGAMMA -p 12345 -s hlyA.mafft.fasta -f a -x 12345 -N 100 -T 40 -n hlyA
    

    对10年内发表的检索文献的作者排序

    $ esearch -db pubmed -days 3650 -datetype PDAT -query "hlyA" | \
    > efetch -format xml | \
    > xtract -pattern Author -element LastName | \
    > sort-uniq-count-rank
    

    查看 taxonomy

    taxonomy 数据库的 filter [NXLV] 可以直接输出species级别

    # 获得 taxonomy 数据库里 lis 或 sal 开头的分类名
    $ esearch -db taxonomy -query "lis* OR sal*" | efetch -db taxonomy -format txt
    # 获得 species 级的所有沙门菌
    $ esearch -db taxonomy -query "Salmonella[NXLV]" | efetch -db taxonomy -format txt
    

    下载所有甲型副伤寒沙门菌基因组序列

    $ esearch -db nuccore -query "Salmonella[porgn:__txid54388] complete genome" | \
    > efetch -db nuccore -format fasta > SPA.fasta
    

    获取SRA数据库中目的数据的测序样本地理信息

    $ esearch -db sra -query "China" -days 1 | elink -target biosample | \
    > efetch -format docsum | xtract -pattern DocumentSummary -element Accession \
    > -block Attribute -if Attribute@attribute_nam \
    > -equals lat_lon -element Attribute
    

    获得某个bioproject下的所有sra run的信息

    $ eserach -db bioproject -query "PRJNA209644" | elink -target sra | \
    > efetch -format docsum | xtract -pattern DocumentSummary -ACC @acc \
    > -block DocumentSummary -element "&ACC"
    

    下载assembly数据库的refseq序列

    $ esearch -db assembly -query "Salmonella enterica[ORGN] AND 2010[GRLS]" | \
    > efetch -format docsum | xtract -pattern DocumentSummary \
    > -element FtpPath_RefSeq | awk -F"/" '{print $0"/"$NF"_genomic.fna.gz"}' | \
    > xargs wget
    

    查看assembly meta信息

    NCBI 的 Assembly 数据库包含了 RefSeq 数据库的基因组数据,选择相应的物种可以获得该物种的基因组拼接序列,有完成图也有非完成图。

    $ esearch -db assembly -query '"salmonella paratyphi A"[ORGN] AND latest[FILT]' | \
    > efetch -format docsum | xtract -pattern Meta -block Stats \
    > -tab '\n' -sep '\t' -element Stat@category Stat | sort -ur > meta.txt
    
    import pandas as pd
    import seaborn as sns
    df = pd.read_table("meta.txt")
    sns.jointplot(x="contig_count", y="scaffold_n50", data=df)
    

    获取SRA菌株信息

    对某个物种开展进化研究时,我们往往会竟可能收集公共数据库中的菌株背景信息。下面这个例子搜索某个 bioproject,然后获得该研究的所有测序数据的 sra 背景信息。通过 \<SAMPLE_ATTRIBUTE> 元素下的各个 TAG 和 VALUE 来提取所需信息。