细致的耳语:利用自动语音识别的进展进行稳健和可解释的失语症亚型分类
本篇论文使用最先进的语音识别技术基于 AphsiaBank 数据集,提出了一个新的 Aphasia 语音识别基准,并引入了基于 CTC/Attention 架构的两种多任务学习方法以同时执行两个任务。研究者的系统实现了 97.3% 的说话人级别的检测精度和中度 Aphasia 患者的 11% 的相对 WER 降低率。此外,作者还将这种方法应用到另一个失序语音数据库,即 DementiaBank Pitt 语料库。研究者提供了标准化的数据预处理流程和开源配方,使研究者可以直接比较结果,促进失序语音处理的进步。
May, 2023
幼儿在嘈杂的幼儿园教室中度过相当一部分清醒时间。本研究提出了一种使用开源软件的自动框架,通过儿童和教师佩戴的录音设备来分类说话者并进行转录,结果显示进行自动化的识别和转录教师和儿童言语的准确性较高,并对课堂言语进行分析可能有助于儿童语言发展。未来计划使用自然语言处理改进说话者分类,并分析应用自动化框架到大型数据集中的结果。
Jan, 2024
研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难,并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明,相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。
Nov, 2022
通过使用语言无关的语言特征,我们尝试利用英语中可用的数据,并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线,使用预训练的自动语音识别(ASR)模型,共享跨语言语音表示,并进行微调,以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能,我们还将其与语言模型结合在一起。我们证明,我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。
Apr, 2022
利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示,结合人类记忆的示例驱动型心理模型,预测助听器用户的人类可懂度评级,并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。
Jan, 2024
提出了一种利用 Bypass Temporal Classification (BTC) 方法来扩大微调自动语音识别模型 (CNN) 准确性的算法,并且该算法构建了一个基于加权有限状态转换器 (WFST) 的可变性训练图来明确地编码训练期间的不确定性,从而改善了处理精度不高的语音资源库时 ASR 系统的健壮性和准确性。
Jun, 2023
本文提出一种基于预训练手部和唇部跟踪器和基于多流递归神经网络的语音解码器的方法,用于自动识别 Cued Speech(一种视觉交流工具),该工具可通过手势和唇读辅助理解口语。该系统在法国 CSF18 数据集上评估,准确率为 70.88%,表现优于 CNN-HMM 译码器并与更复杂的基线方法竞争。
Apr, 2022
近年来,在语音处理领域的进展已经引发出具有巨大潜力的尖端深度学习算法,而自动识别口吃症言语是这些研究者采用深度学习技术所致力解决的应用之一。本研究通过旨在聚焦于高效解决方案的重要贡献,解开了 Whisper 在口吃症言语类型分类上的能力,并对较深层编码器的重要性进行了探究。
Nov, 2023
基于连接主义时间分类(CTC)的新型仅编码器语音模型(OWSM-CTC)在多语言自动语音识别(ASR),语音翻译(ST)和语言识别(LID)任务上取得了有竞争力的结果,并在 ST 上提高了 25%的相对改进,在推断中更为稳健且速度更快,同时也对长形式 ASR 结果有 20 倍的加速。
Feb, 2024
该研究提出了一种隐私保护的工作流程,通过集成语音活动检测(VAD)、自动语音识别(ASR)等技术,提高对受保护语言音频数据的注释效率。该流程旨在为那些使用英语等共同语言进行元语言评论和提问的语音录音解决元语言转录上的问题。研究结果表明匹配得当的这种方法可以在保持数据私密原则的前提下加速记录的元语言转录,并有效减少了数据浏览和筛选的时间。
Apr, 2022