颖 崔
黑龙江大学 电子工程学院(哈尔滨 150080),
Electronic Engineering College, Heilongjiang University, Harbin 150080, P.R.China
哈尔滨医科大学 生物信息科学与技术学院(哈尔滨 150081),
School of Bioinformatics Sciences and Technology, Harbin Medical University, Harbin 150081, P.R.China
泽龙 徐
黑龙江大学 电子工程学院(哈尔滨 150080),
Electronic Engineering College, Heilongjiang University, Harbin 150080, P.R.China
建中 李
黑龙江大学 电子工程学院(哈尔滨 150080),
Electronic Engineering College, Heilongjiang University, Harbin 150080, P.R.China
哈尔滨医科大学 生物信息科学与技术学院(哈尔滨 150081),
School of Bioinformatics Sciences and Technology, Harbin Medical University, Harbin 150081, P.R.China
黑龙江大学 电子工程学院(哈尔滨 150080),
Electronic Engineering College, Heilongjiang University, Harbin 150080, P.R.China
哈尔滨医科大学 生物信息科学与技术学院(哈尔滨 150081),
School of Bioinformatics Sciences and Technology, Harbin Medical University, Harbin 150081, P.R.China
哈尔滨工业大学 计算机科学与技术学院(哈尔滨 150001),
School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, P.R.China
Keywords:
sequence feature, support vector machine, nucleosome, z-curve, position weight matrix, euclidean distance
引言
核小体是真核生物染色质的基本结构单元,每个核小体由核心 DNA 序列和连接区 DNA 序列组成,核心 DNA 序列由 147 bp 的 DNA 缠绕组蛋白八聚体近两圈形成,也称为核小体 DNA,而相邻两个核小体 DNA 之间的序列称为连接区 DNA
[
1
-
3
]
。核小体定位是指 DNA 双螺旋相对于组蛋白八聚体的位置,DNA 序列特征一直被认为是影响核小体定位的重要因素之一。核小体参与很多重要的生物学过程,如染色质形成
[
4
]
、拮抗转录因子
[
5
]
以及抑制基因表达
[
6
]
等,核小体 DNA 序列的精确定位影响着基因表达调控
[
7
]
、DNA 复制
[
8
]
、DNA 修复
[
9
]
和重组
[
10
]
等。随着高通量测序技术的快速发展,目前已经获得了多种真核生物高分辨率的核小体定位实验图谱,如酵母、果蝇、人等,但现阶段完全依靠实验方法检测核小体定位还面临很多问题,例如耗费大量时间和经费,难以满足部分研究人员希望即时获得研究数据的现实需要等,因此,通过计算模型进行核小体识别和预测已经成为生物实验研究的有力补充。
目前核小体定位识别算法的研究已经成为表观遗传学研究的重要领域,国内外有很多研究人员通过信息熵
[
11
]
、碱基对偏转角度
[
12
]
等方法来表示核小体 DNA 序列特征
[
13
]
,进而使用模式识别或深度学习方法进行核小体定位识别,但目前识别方法的精度有待提高,其应用范围也有待进一步推广。支持向量机(support vector machine,SVM)作为一种监督学习方法
[
14
]
,在解决小样本、非线性及高维模式识别中表现出许多特有的优势,已经在许多领域取得了成功的应用。本文基于 Z 曲线理论和位置权重矩阵(position weight matrix,PWM),提出一种综合序列特征模型,以计算样本与该模型间的欧氏距离作为特征,投入到 SVM 中进行训练和模型检验,用于酵母核小体的定位识别,并将该方法推广到其他物种中,包括线虫、人类和果蝇等。
2. 实验结果与讨论
2.1. 酵母实验
应用 CSeqFM 使用 SVM 方法识别
S. cerevisiae
核小体定位的实验结果如
和
所示。在
S. cerevisiae
数据集 S1 结果中,敏感性
Sn
、特异性
Sp
、准确率
Acc
和 MCC 值分别为 97.1%、96.9%、94.2% 和 0.89,表明该方法性能稳定且效果较好;与基于 Z 曲线理论的 Wu’s 模型
[
24
]
结果进行比较,CSeqFM 识别结果的四项评估指标均高于 Wu’s 的结果;同时 AUC 分布箱式图显示 CSeqFM 的 AUC 整体分布远高于 Wu’s 的整体分布,曲线图显示 CSeqFM 的 AUC 值为 0.980 1,高于 Wu’s 的 0.938 2,说明 CSeqFM 模型识别性能更好。
表 1
Results of identifying nucleosome by two datasets for
S. cerevisiae
两套酵母数据集的核小体定位识别结果
数据集
|
模型
|
Sn
|
MCC
|
S1
|
CSeqFM
|
97.1%
|
96.9%
|
94.2%
|
0.89
|
Wu’s 模型
|
88.2%
|
88.2%
|
88.3%
|
0.77
|
S2
|
CSeqFM
|
92.4%
|
93.9%
|
93.1%
|
0.86
|
Wu’s 模型
|
88.7%
|
89.1%
|
88.9%
|
0.77
|
为进一步检验性能,用 CSeqFM 识别
S. cerevisiae
数据集 S2,实验结果如
所示,敏感性
Sn
、特异性
Sp
、准确率
Acc
和 MCC 值分别为 92.4%、93.9%、93.1% 和 0.86,均高于 Wu’s 模型结果,再次说明 CSeqFM 具有较好的识别效果。
2.2. 线虫、人类和果蝇实验
将 CSeqFM 模型推广到其他物种,包括
C. elegans
、
H. sapiens
和
D. melanogaster
的核小体定位识别,实验结果与 iNuc-STNC
[
16
]
和 iNuc-PseKNC
[
19
]
方法比较,如
和
所示。
表 2
Comparison of experimental results between CSeFM and other methods
CSeFM 方法与其他方法的实验结果比较
物种
|
方法
|
Sn
|
MCC
|
AUC
|
C. elegans
|
iNuc-STNC
|
91.6%
|
86.7%
|
88.6%
|
0.77
|
−
|
iNuc-PseKNC
|
90.3%
|
83.6%
|
86.9%
|
0.74
|
0.935 0
|
CSeqFM
|
81.4%
|
86.8%
|
83.9%
|
0.68
|
0.905 2
|
H. sapiens
|
iNuc-STNC
|
89.3%
|
85.9%
|
87.6%
|
0.75
|
−
|
iNuc-PseKNC
|
87.9%
|
84.7%
|
86.3%
|
0.73
|
0.925 0
|
CSeqFM
|
90.1%
|
80.5%
|
84.6%
|
0.70
|
0.908 7
|
D. melanogaster
|
iNuc-STNC
|
79.8%
|
83.6%
|
81.7%
|
0.63
|
−
|
iNuc-PseKNC
|
78.3%
|
81.7%
|
80.0%
|
0.60
|
0.874 0
|
CSeqFM
|
79.9%
|
92.3%
|
84.8%
|
0.71
|
0.901 9
|
首先,与 iNuc-STNC 方法比较,在
Sn
方面,CSeqFM 在
H. sapiens
和
D. melanogaster
中均高于 iNuc-STNC 方法;在
Sp
、
Acc
和 MCC 方面,CSeqFM 方法在
D. melanogaster
中高于 iNuc-STNC 方法;在 AUC 方面,iNuc-STNC 方法没有给出 AUC 值,而 CSeqFM 在三个物种中的 AUC 值均高于 0.90。如
所示,总体比较,CSeqFM 与 iNuc-STNC 方法在三个物种中各有优势,整体性能基本一致。
其次,与 iNuc-PseKNC 方法比较,在
Sn
方面,CSeqFM 在
H. sapiens
和
D. melanogaster
中均高于 iNuc-PseKNC;在
Sp
方面,CSeqFM 在
C. elegans
和
D. melanogaster
中均高于 iNuc-PseKNC 方法;在
Acc
、MCC 和 AUC 方面,CSeqFM 在
D. melanogaste
中均高于 iNuc-PseKNC 方法。CSeqFM 与 iNuc-PseKNC 方法在
C. elegans
和
H. sapiens
中各有优势,但 CSeqFM 在
D. melanogaster
中的五项性能指标均高于 iNuc-PseKNC 方法,识别效果更好。
另外,iNuc-STNC 和 iNuc-PseKNC 方法都没有
S. cerevisiae
实验结果,而 CSeqFM 在两套
S. cerevisiae
数据集中都取得较好的识别效果(如
和
所示)。
综上所述,与 iNuc-STNC 和 iNuc-PseKNC 相比,CSeqFM 在
C. elegans
、
H. sapiens
和
D. melanogaster
的各项性能指标较好,识别效果稳定,说明 CSeqFM 方法具有可靠的物种推广性和有效性,进一步验证了 CSeqFM 方法具有好的识别效果。
3. 结论
本文提出一种基于综合序列特征的核小体定位模型 CSeqFM,通过 SVM 进行训练和检验,实验结果表明,CSeqFM 在
S. cerevisiae
中的
Sn
、
Sp
、
Acc
和 MCC 性能指标较好,且 AUC 值达到 0.980 1,各项性能均优于 Wu’s 模型的结果,表明该方法在
S. cerevisiae
中识别性能较好。将 CSeqFM 推广到
C. elegans
、
H. sapiens
和
D. melanogaster
物种中,结果显示 CSeqFM 的各项性能指标较好,三个物种的 AUC 值均高于 0.90,与 iNuc-STNC 和 iNuc-PseKNC 方法比较,CSeqFM 在
D. melanogaster
尤其表现出优势,进一步验证了 CSeqFM 方法具有较好的可靠性和有效性。分析原因,可能是由于 CSeqFM 模型是一种综合序列特征模型,整合了 Z 曲线模型在水平方向上的序列特征和 PWM 在垂直方向上的序列特征,更全面地表示了核小体的序列特征。另外,CSeqFM 也可以用于生物数据有关 DNA 序列或功能元件的分类与识别。总之,CSeqFM 具有较好的识别效果和推广性,有利于促进核小体定位 DNA 序列特征和功能的研究。
利益冲突声明:本文全体作者均声明不存在利益冲突。