作业帮技术团队分享中英文混合语音识别实践

混合语言现象常常出现在能够流利使用多种语言的群体中。英文作为全球的通用语言，时常以各种形式与其他语言混合在一起。然而现有的大多数最先进的语音识别系统都专注于单语种语音识别，即它们一次只能处理一种语言，这样的系统无法识别中英混合语言的语音。随着语音技术开始渗透到人类生活的方方面面，混合语言的现象受到越来越多的关注。因此，开发用于中英文混合语言的自动语音识别(CSSR)系统尤为重要。近日，作业帮语音技术团队分享了他们的中英文混合语音识别实践。

中英文混合语音识别算法属于多语言语音识别领域。但与常规多语言语音识别不同，常规多语言语音识别仅针对一句话中出现一种语言，而混合语言语音识别则是指同一句话中说话人会在两种语言间切换使用。尽管语言学家对混合语言现象已经研究了长达半个多世纪，随着近年来语音技术的不断突破，对混合语言语音识别的研究近二十年才被人们重视。针对中英文混合语音识别也是近十多年来才开始研究。

其技术难点主要表现为：嵌入语受主体语影响形成的非母语口音现象严重、不同语言音素构成之间的差异给混合声学建模带来巨大困难、带标注的混合语音训练数据极其稀缺。传统语音框架基于单一语种基础建模单元，如汉语是基于拼音的声母韵母、英语则是英文的音素，这种技术架构对指定语种的语言学知识依赖较大，难以扩展到多语种识别。

由于不同语言之间的声学单元相互独立，且声学属性不同，常规基于声学单元建模的 DNN-HMM 语音识别模型无法很好的建模不同语言之间声学属性的联系。而端到端模型无需对于声学单元建模，转而采用字符建模，模糊了建模单元与声学属性之间的关联。并且由于端到端模型能够考虑帧的上下文信息，可以有效建模语言转换点的声学属性。因此最近几年的研究偏向于采用端到端方式搭建混合语言语音识别系统。

基于深度学习的端到端模型灵活且复杂，相较于传统语音识别，融合多任务学习也能够提升模型性能。考虑到混合语言语音识别系统的特有属性，有学者提出可以鉴于 LID 模型能够判别语言之间的差异性，以进行分类。中英文混杂识别联合语种识别受到越来越多的关注，在识别文本内容的同时进行语言分类，以增强对不同语言的分辨能力。作业帮语音技术团队在端到端网络模型基础之上添加语种信息进行联合训练，期望增强模型对不同语言的识别以及判别能力。

在优化中英文混合语言识中，作业帮语音技术团队通过三个方面来提升中英文混合的识别效果。第一是模型训练层面，在Wenet的基础之上，我们对比了不同语种信息加入方式的优劣性，并从中选出最适合匹配基线模型的方式，测试集效果提升相对约1.76%；第二是数据方面，为了更贴合实际业务场景，很多未在模型训练词典中的词可以识别出来，因此我们加入了部分数据，进一步提升识别系统的可用性，相对提升约3.1%；第三是考虑到中英文语言文本的连贯性，进一步通过语言模型来增强混合语言语音识别模型，构建TLG，进一步相对提升约2.5% 。最终相对基线模型提升约7.8%。

最终在实际应用方面，去除了感叹词和将<他她它>进行统一后，对比测试基线模型效果，从整体对比，混合错误率相对降低约6.96%，中文错误率相对降低约6.41%，英文错误率相对降低约8.24%。

作业帮语音技术团队负责人表示，目前，实验也还有很多不足之处，后续会考虑从不同训练方式层面来提升中英文混合语言语音识别模型的识别效果。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：