ASR项目实战-语音识别

时间：2023-12-08

导读：本文深入探讨语音识别处理环节。.本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。.语音识别.业界流派众多，比如Kaldi、端到端等，具体选择哪一种，需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等，作出相对合理的交付规划。.基于Kaldi的方

本文深入探讨语音识别处理环节。

本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。

语音识别

业界流派众多，比如Kaldi、端到端等，具体选择哪一种，需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等，作出相对合理的交付规划。
基于Kaldi的方案，优点在于其发挥稳定，缺点是使用难度比较高，学习曲线比较陡峭，具备使用经验的算法工程师相对比较稀缺。
端到端方案，业界主要基于Google在17年左右发布的文章作为研究、试验的输入，使用Tensorflow或者Pytorch作为训练、工程化的平台，算法工程师的可获得性比较好，但想要获取比较好的效果，仍需要付出相当的努力。

VAD

通常情况下，可以假定人在讲话时，已经结束的句子对于后续语音数据的识别，影响相对比较小。

依据前述假定，可以通过使用VAD有效划分语音识别会话，避免在识别过程中缓存过多的数据，改善语音识别的效率，降低实现的难度，降低对硬件资源的占用情况。
另外可以基于VAD实现断句，即依据前述假定：

对于10秒以内的语音数据，语音识别过程中的断句可以忽略不考虑，此时可以完全不实现断句。
对于超出10秒的语音数据，需要考虑实现断句。

热词

顾名思义，热词的作用在于提示语音识别系统，帮助语音识别系统输出相对靠谱的识别结果。
比如台州和泰州，在标准普通话中，二者发音接近，仅音调存在差异，考虑到口音和发音习惯的影响，假如听众不结合对话的上下文，可能无法正确有效的识别出具体的结果。
对于语音识别系统而言，假如事先给定台州作为热词，则在遇到类似发音时，在输出结果中使用台州，则可以有效改善识别结果的准确性。
实现热词时，可以有不同的选择。

从产品的角度，可以热词作为系统级和会话级。

系统级热词，语音识别系统在启动时加载相关数据。
会话级热词，用户在调用接口时，传入本次会话中可能使用到的热词。

从加载数据的时机，语音识别系统可以考虑提供静态或者动态的支持。

静态，即将热词作为语言模型的一部分，在语音识别过程中固定增加一个环节，用于使用相关数据来校正语音识别的结果。
动态，与静态类似，同样需要在语音识别过程中增加固定环节，用于使用这部分数据来校正语音识别的结果。

对前述方案进行组合，对比各实现：

系统级热词和静态加载
优点是实现比较简单，缺点是更新热词的模型时，需要重启语音识别系统，在重启过程中将无法对外部提供服务。
系统级热词和动态加载
实现复杂度有所上升。在更新热词的模型时，考虑到为了保障业务不中断，可能需要保留两个模型的数据，并且隔离相关请求的处理，这增加了实现的复杂度，同时增加了对硬件资源的消耗。
会话级热词和静态加载
假如用户请求中包含热词，则使用热词对应的模型来改善识别结果；假如用户提供的热词超出了系统已加载模型可支持的范围，则无法支持。
会话级热词和动态加载
优点是功能最灵活。缺点是实现复杂度最高，增加了对硬件资源的占用，并且增加了处理时延。

不过目前没有看到比较优雅、高效的实现，比较遗憾。

文本的时间偏移

本特性作为语音识别环节的副产品输出，但重要性非常高，可以有效支撑标点符号、大小写等特性的实现，满足字幕相关业务的交付。

基于Kaldi实现的语音识别引擎，声学模型+发音词典+语言模型，实现思路如下：
将语音数据送入识别引擎，引擎除输出识别得到的文本，同时可以得到音素的列表，以及各音素在音频数据中出现的时间偏移量，此时结合文字或者单词和音素之间的映射关系，即可推算出文字或者单词出现在语音数据中的时间偏移量。
本方案比较简单，实现的难度不大，同时对性能、硬件资源的消耗比较小。
不过对于发音词典有要求，一要数据全面，二要标记准确。
不过考虑到人在讲话时，某些字或者单词的发音中可能出现无意义的重复音，这可能导致从音素序列还原为文字或者单词时出现匹配失败的现象，进而导致文本时间偏移的输出的结果不准确，或者完全失败。

讲话人的识别

一般情况下，一段语音数据中存在多人讲话的场景还是比较多的，比如会话录音、公开课、电话录音等。
在语音识别领域，本特性是一个比较复杂的话题。实际应用时，本特性并不是一个必需的特性。比如可以通过人工处理语音识别的结果，结合录音数据，将不同的人的文本区分开。但假如语音识别结果可以提供必要的辅助信息，无疑将改善后期人工投入的工作量。

从人的发音特征上来说，不同人讲话的声音具备一定的唯一性，业界称之为声纹，业界已经有产品利用这一特点，交付比如考勤系统、门禁系统等应用，支撑特定行业的应用。
基于前述理论基础，在语音识别过程中，可以基于时间，将输入的语音数据切割为等分的时间段，使用机器学习的方式，为每个时间段打上标签，结合语音识别结果中的时间偏移的信息，将不同的文本打上各自讲话人的标签。

由于本特性当前没有实际商用的场景，因此暂未在项目中实践前述想法。

上一篇：软件工程快速入门(下）

下一篇：质量保障体系建设演进案例

阅读

内容

【Oculus Interact
2023-12-10

前言.前段时间 Oculus 的 SDK.频繁更新，很多已有的教程都不再适用于现在的版本了。本系列文章的主要目的是记录现
Unity 文字转语音 Micr
2023-12-02

需要提前做以下设置：.Unity中需要设置：.Editor -> Project Settings -> Player
园林绿化养护服务
2024-01-10

园林绿化养护服务.产品功能.园林绿化养护服务是一项专业的服务，旨在为客户提供全方位的园林绿化管理和养护服务。我们团队的专
园林景观设计
2023-12-11

园林景观设计产品介绍.产品功能.园林景观设计是一项专业的设计服务，主要用于规划和设计公共和私人的园林空间。其功能包括根据
绿化工程材料供应
2023-12-16

绿化工程材料供应.产品功能.我们的绿化工程材料供应主要用于城市绿化、园林景观建设、庭院绿化等相关项目。产品种类丰富，覆盖
城市绿化规划设计
2024-01-15

城市绿化规划设计.随着城市化进程的不断加快，城市绿化规划设计成为了一个备受关注的问题。如何在城市中保护和增加绿地，促进城
喷泉景观设计
2024-01-05

喷泉景观设计.喷泉是一种极具观赏性和装饰性的景观设计元素，它不仅可以为周围的环境增添一份生气与动感，更可以为人们带来一份
公园景观规划设计
2024-01-10

公园景观规划设计.产品功能.我们的公园景观规划设计产品旨在为城市和乡村地区提供高质量的公共休闲空间。我们致力于通过规划和
园林休闲座椅制作
2024-01-20

园林休闲座椅制作.产品功能.园林休闲座椅是专门为户外休闲空间设计制作的座椅产品。产品具有耐候性强、外观美观、舒适度高等特
喷泉设计与安装
2023-12-21

喷泉设计与安装.喷泉是园林景观中不可或缺的元素之一，无论是在公园、**还是私人花园中，喷泉都能为环境增添灵动的气息，成为
室外园林景观配套设施制作
2024-01-15

室外园林景观配套设施制作.产品功能.我们的室外园林景观配套设施制作主要提供定制化的户外景观配套设施，包括花池、凉亭、栏杆
景观照明工程
2023-12-16

景观照明工程.产品功能.景观照明工程是一种专门为户外景观设计的照明方案。它既可以美化城市风景，提升城市形象，也可以为人们