一种语音端点检测方法及系统与流程-凯发k8娱乐

文档序号：37689976发布日期：2024-04-18 21:07阅读：22来源：国知局

导航：凯发k8娱乐-凯发k8网页登录> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音处理，特别涉及一种语音端点检测方法及系统。

背景技术：

1、语音端点检测是智能语音领域的一项基础任务，其主要功能是识别一段音频中语音的始末位置，进而可提取出音频中的语音片段。语音端点检测可应用于智能语音系统的预处理环节，对语音端点的准确定位可明显提升语音识别、语种识别等多种语音系统的效果。

2、然而，现有的语音端点检测方法大都基于时域检测，主要的分析指标为短时能量和过零率。虽然该方法实现简单，但对于人声与环境噪音难以区分，在信噪比较低的情况下端点识别的准确率较差。

技术实现思路

1、本发明的目的在于提供一种语音端点检测方法及系统，以解决现有语音端点检测方法在信噪比较低的情况下无法准确识别语音端点的问题。

2、为解决上述技术问题，本发明提供一种语音端点检测方法，包括：

3、基于神经网络构建端点检测模型，所述端点检测模型包括预处理器、时域编码器、频域编码器和解码器；

4、利用预处理器对音频信号进行预处理，以得到音频时域向量和音频频域向量；

5、利用时域编码器对音频时域向量进行编码处理，以提取到时域特征向量；

6、利用频域编码器对音频频域向量进行编码处理，以提取到频域特征向量；

7、利用解码器对时域特征向量和频域特征向量进行解码处理，以得到语音端点。

8、可选的，在所述的语音端点检测方法中，所述利用预处理器对音频信号进行预处理，以得到音频时域向量和音频频域向量的方法包括：

9、利用高通滤波器对音频信号进行预加重，以得到音频信号值；

10、按照预设的帧长度和帧移量，对音频信号进行分帧，以得到音频帧信号；

11、对每一个音频帧信号进行加窗处理，以得到音频时域向量；

12、计算音频帧信号的频谱、功率谱和频带；

13、利用梅尔滤波器对音频帧信号进行处理，以得到音频频域向量。

14、可选的，在所述的语音端点检测方法中，所述利用高通滤波器对音频信号进行预加重，以得到音频信号值的方法包括：

15、利用高通滤波器将音频信号由模拟信号转换为数字信号，以得到音频数字信号；

16、计算音频数字信号中每个采样点的音频信号值，其中，音频信号值的计算公式为：

17、y(t)＝x(t)-αx(t-1)

18、其中，y(t)表示t时刻采样点的音频信号值，x(t)表示t时刻输入的音频数字信号，α为经验系数。

19、可选的，在所述的语音端点检测方法中，所述计算音频帧信号的频谱、功率谱和频带的方法包括：

20、对每一个音频帧信号做短时傅里叶变换，以得到音频帧信号的频谱；

21、对每一个音频帧信号的频谱取模平方，以得到音频帧信号的功率谱；

22、对每一个音频帧信号通过梅尔滤波器的梅尔刻度得到梅尔频率尺度，并通过三角滤波器从梅尔频率尺度中提取音频帧信号的频带。

23、可选的，在所述的语音端点检测方法中，所述利用时域编码器对音频时域向量进行处理，以提取到时域特征向量的方法包括：

24、构建时域编码器，所述时域编码器包括依次设置的位置嵌入模块、多头注意力模块、第一层归一化模块、全连接层模块、第二层归一化模块和非线性变换模块；

25、利用位置嵌入模块对音频时域向量进行位置嵌入处理；

26、利用多头注意力模块对位置嵌入后的音频时域向量进行多头自注意力计算，以得到时域结果向量；

27、利用第一层归一化模块对时域结果向量进行层归一化处理，并利用全连接层模块做前向传播，以得到初始时域特征向量；

28、利用第二层归一化模块对初始时域特征向量进行层归一化处理，并利用非线性变换模块做softmax非线性变换，以得到时域特征向量。

29、可选的，在所述的语音端点检测方法中，所述利用多头注意力模块对位置嵌入后的音频时域向量进行多头自注意力计算，以得到时域结果向量的方法包括：

30、利用多头自注意力公式对位置嵌入后的音频时域向量进行计算，以得到时域注意力向量，其中，所述多头自注意力公式为：

31、

32、k1＝wk1ep

33、v1＝wv1ep

34、q1＝wq1ep

35、其中，a为时域注意力向量，ep为位置嵌入后的音频时域向量，d为k1的维度，wk1、wv1和wq1为时域编码器需训练的参数；

36、对多次计算得到的时域注意力向量进行拼接，以得到时域结果向量。

37、可选的，在所述的语音端点检测方法中，所述利用频域编码器对音频频域向量进行处理，以提取到频域特征向量的方法包括：

38、构建频域编码器，所述频域编码器包括依次设置的位置嵌入模块、多头注意力模块、第一层归一化模块、全连接层模块、第二层归一化模块和非线性变换模块；

39、利用位置嵌入模块对音频频域向量进行位置嵌入处理；

40、利用多头注意力模块对位置嵌入后的音频频域向量进行多头自注意力计算，以得到频域结果向量；

41、利用第一层归一化模块对频域结果向量进行层归一化处理，并利用全连接层模块做前向传播，以得到初始频域特征向量；

42、利用第二层归一化模块对初始频域特征向量进行层归一化处理，并利用非线性变换模块做softmax非线性变换，以得到频域特征向量。

43、可选的，在所述的语音端点检测方法中，所述利用解码器对时域特征向量和频域特征向量进行解码处理，以得到语音端点的方法包括：

44、构建解码器，所述解码器包括依次设置的加权融合模块、循环神经网络模块和非线性变换模块；

45、利用加权融合模块将时域特征向量和频域特征向量进行加权融合，以得到音频特征，其中，加权的计算公式为：

46、ea＝wt·ef

47、其中，ea表示音频特征，wt表示时域特征向量，ef表示频域特征向量；

48、利用循环神经网络模块对音频特征进行解码，以得到神经网络向量及其中每个位置的特征值；

49、利用非线性变换模块对神经网络向量做非线性变换，以得到音频特征序列的每个帧对应的类别，所述类别包括静音帧、初始语音帧、结束语音帧和中间语音帧；

50、提取初始语音帧和结束语音帧作为语音端点。

51、可选的，在所述的语音端点检测方法中，所述神经网络向量中每个位置的特征值的计算公式为：

52、h(t)＝f(uxt wh(t-1) b)

53、其中，xt为音频特征ea在位置t的值，u、w、b和h(0)为循环神经网络需要训练的参数。

54、为解决上述技术问题，本发明还提供一种语音端点检测系统，用于实现如上任一项所述的语音端点检测方法，所述语音端点检测系统包括：音频输入单元，用于获取音频信号；端点检测单元，包括端点检测模型，用于对音频信号进行处理以得到语音端点；结果输出单元，用于输出语音端点。

55、本发明提供的语音端点检测方法及系统，包括：基于神经网络构建端点检测模型，所述端点检测模型包括预处理器、时域编码器、频域编码器和解码器；利用预处理器对音频信号进行预处理，以得到音频时域向量和音频频域向量；利用时域编码器对音频时域向量进行编码处理，以提取到时域特征向量；利用频域编码器对音频频域向量进行编码处理，以提取到频域特征向量；利用解码器对时域特征向量和频域特征向量进行解码处理，以得到语音端点。通过利用音频信号的时域特征和频域特征识别语音端点，具有较强的鲁棒性，能够在低信噪比的场景下精准区分人声和环境噪音，从而有效提高语音端点识别的准确性，解决了现有语音端点检测方法在信噪比较低的情况下无法准确识别语音端点的问题。

当前第1页1