基于深度神经网络和Bottleneck特征的说话人识别系统

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

英勇无比的爆米花 · 深度神经网络公理归因 | BriefGPT ...· 1 周前 ·

谦逊的帽子 · 神经网络与深度学习（邱锡鹏）编程练习 3 ...· 2 周前 ·

粗眉毛的沙滩裤 · 如何用Python和深度神经网络发现即将流失 ...· 4 月前 ·

安静的领结 · 基于深度神经网络和Bottleneck特征的 ...· 6 月前 ·

天涯 · 深度神经网络中的持续学习[ICML2021 ...· 7 月前 ·

想出家的毛豆 · 最新评测揭秘投影机极米play x ...· 2 天前 ·

谦虚好学的茶叶 · OpenWrt Forum Archive· 1 周前 ·

耍酷的鸡蛋面 · CSS 中如何将 Button 按钮居中对齐？· 4 周前 ·

温暖的枕头 · 福昕高级PDF编辑器 Foxit PDF ...· 3 月前 ·

淡定的地瓜 · 《崩坏星穹铁道》AKT大佬资源入口推荐_崩坏 ...· 8 月前 ·

摘要近来，一种结合语音识别中深度神经网络（deep neural network，DNN）模型和说话人识别中身份认证矢量（identity vector，i-vector）模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能，该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量，从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征，基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。 Abstract ：A hybrid model combining the deep neural network (DNN) for speech recognition and the i-vector model for speaker recognition has been shown effective for speaker recognition. The system performance is further improved by using the DNN with speaker labels to extract bottleneck features to replace the original short-term spectral features for statistics extractions to make the statistics contain more speaker-specific information to improve the speaker recognition. Tests on the NIST SRE 2008 female telephone-telephone-English task demonstrate the effectiveness of this method. The relative improvements of the bottleneck features are 7.65% for the equal error rate(EER) and 5.71% for the minium detection function(minDCF) compared with the short-term spectral features. Key words ： speaker recognition deep neural network Bottleneck features 田垚, 蔡猛, 何亮, 刘加. 基于深度神经网络和Bottleneck特征的说话人识别系统[J]. 清华大学学报（自然科学版）, 2016, 56(11): 1143-1148.
TIAN Yao, CAI Meng, HE Liang, LIU Jia. Speaker recognition system based on deep neural networks and bottleneck features. Journal of Tsinghua University(Science and Technology), 2016, 56(11): 1143-1148. 王文广, 陈运文, 蔡华, 曾彦能, 杨慧宇. 基于混合深度神经网络模型的司法文书智能化处理 [J]. 清华大学学报（自然科学版）, 2019, 59(7): 505-511. 王晓明, 赵歆波. 基于深度神经网络的个体阅读眼动预测 [J]. 清华大学学报（自然科学版）, 2019, 59(6): 468-475. 张雪英, 牛溥华, 高帆. 基于DNN-LSTM的VAD算法 [J]. 清华大学学报（自然科学版）, 2018, 58(5): 509-515. 艾斯卡尔·肉孜, 王东, 李蓝天, 郑方, 张晓东, 金磐石. 说话人识别中的分数域语速归一化 [J]. 清华大学学报（自然科学版）, 2018, 58(4): 337-341. 艾斯卡尔·肉孜, 殷实, 张之勇, 王东, 艾斯卡尔·艾木都拉, 郑方. THUYG-20:免费的维吾尔语语音数据库 [J]. 清华大学学报（自然科学版）, 2017, 57(2): 182-187. 杨莹春, 邓立才. 基于GMM托肯配比相似度校正得分的说话人识别 [J]. 清华大学学报（自然科学版）, 2017, 57(1): 28-32. 郭武, 马啸空. 复杂噪声场景下的活动语音检测方法 [J]. 清华大学学报（自然科学版）, 2016, 56(11): 1190-1195. 张劲松, 高迎明, 解焱陆. 基于DNN的发音偏误趋势检测 [J]. 清华大学学报（自然科学版）, 2016, 56(11): 1220-1225.