一种语音波形的扩展方法、装置、设备及存储介质-凯发k8娱乐

文档序号：37690284发布日期：2024-04-18 21:07阅读：22来源：国知局

导航：凯发k8娱乐-凯发k8网页登录> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及语音信号处理，具体涉及一种语音波形的扩展方法、装置、设备及存储介质。

背景技术：

1、在语音信号传输过程中，由于设备或信道的限制，高频部分的信号往往会丢失，导致听起来模糊、低沉。为了提高语音质量和可懂度，需要对语音进行频带扩展。对语音进行频带扩展常用的方法之一是使用神经网络对于高频幅度进行直接预测，而对相位进行复制或者镜像反转。然而，这种方法并不精确，可能导致重构语音质量的下降。另一种方法是使用声码器从预测的宽带滤波器参数或梅尔谱中恢复出高频相位的语音波形。尽管这种方法可以提供更准确的相位预测，但它需要进行两个阶段的扩展，会使得生成效率明显下降。

2、因此，如何提高扩展语音波形的生成效率，同时提高扩展语音波形的生成质量，是本领域技术人员急需解决的技术问题。

技术实现思路

1、基于上述问题，本申请提供了一种语音波形的扩展方法、装置、设备及存储介质，可以提高扩展语音波形的生成效率，同时提高扩展语音波形的生成质量。

2、本申请实施例公开了如下技术方案：

3、一种语音波形的扩展方法，所述方法包括：

4、获取待扩展语音波形，将所述待扩展语音波形进行香农插值；

5、将插值后的所述待扩展语音波形进行初步变换得到第一短时复数谱，对所述第一短时复数谱进行幅度计算得到第一初步对数幅度谱，对所述第一短时复数谱进行相位计算得到第一初步相位谱；

6、将所述第一初步对数幅度谱输入到幅度流扩展器得到扩展对数幅度谱，将所述第一初步相位谱输入到相位流扩展器得到扩展相位谱；

7、将所述扩展对数幅度谱和所述扩展相位谱组合成扩展复数谱；

8、将所述扩展复数谱进行逆向变换得到扩展语音波形。

9、在一种可能的实现方式中，所述幅度流扩展器从输入端到输出端由一维卷积层、层归一化层、加法器、n个卷积网络、层归一化层、一维卷积层以及加法器依次连接组成；所述n个卷积网络之间通过所述加法器连接。

10、在一种可能的实现方式中，所述相位流扩展器从输入端到输出端由一维卷积层、层归一化层、加法器、n个卷积网络、层归一化层、两个平行的一维卷积层以及反正切函数模块依次连接组成；所述n个卷积网络之间通过所述加法器连接。

11、在一种可能的实现方式中，所述幅度流扩展器和所述相位流扩展器之间通过加法器进行信息交互。

12、在一种可能的实现方式中，所述方法还包括：

13、将所述扩展语音波形进行所述初步变换得到第二短时复数谱，将所述扩展语音波形进行二维重塑得到重塑语音；

14、对所述第二短时复数谱进行幅度计算得到第二初步对数幅度谱，对所述第二短时复数谱进行相位计算得到第二初步相位谱；

15、将所述第二初步对数幅度谱、所述第二初步相位谱以及所述重塑语音输入到语音判别器中进行真假判断得到判断结果。

16、在一种可能的实现方式中，所述语音判别器由多分辨率幅度语音判别器、多周期语音判别器以及多分辨率相位语音判别器组成。

17、在一种可能的实现方式中，所述方法还包括：

18、基于所述判断结果计算损失函数；

19、基于所述损失函数对所述幅度流扩展器和所述相位流扩展器进行修正。

20、一种语音波形的扩展装置，所述装置包括：

21、语音插值单元，用于获取待扩展语音波形，将所述待扩展语音波形进行香农插值；

22、变换计算单元，用于将插值后的所述待扩展语音波形进行初步变换得到第一短时复数谱，对所述第一短时复数谱进行幅度计算得到第一初步对数幅度谱，对所述第一短时复数谱进行相位计算得到第一初步相位谱；

23、第一输入单元，用于将所述第一初步对数幅度谱输入到幅度流扩展器得到扩展对数幅度谱，将所述第一初步相位谱输入到相位流扩展器得到扩展相位谱；

24、组合单元，用于将所述扩展对数幅度谱和所述扩展相位谱组合成扩展复数谱；

25、逆向变换单元，用于将所述扩展复数谱进行逆向变换得到扩展语音波形。

26、一种语音波形的扩展设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的语音波形的扩展方法。

27、一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上所述的语音波形的扩展方法。

28、相较于现有技术，本申请具有以下有益效果：

29、本申请实施例获取待扩展语音波形，首先将待扩展语音波形进行香农插值，并将插值后的待扩展语音波形进行初步变换得到第一短时复数谱。对第一短时复数谱分别进行幅度计算和相位计算得到第一初步对数幅度谱和第一初步相位谱。接着，将第一初步对数幅度谱输入到幅度流扩展器得到扩展对数幅度谱，将第一初步相位谱输入到相位流扩展器得到扩展相位谱。将扩展对数幅度谱和扩展相位谱组合成扩展复数谱。再将扩展复数谱进行逆向变换得到扩展语音波形。本申请通过香农插值对待扩展语音波形进行处理，可以得到更多的样本点，从而增加了语音的分辨率和细节信息。这有助于提高重构语音的质量。同时将语音信号转换为复数谱域进行处理，可以将幅度和相位信息分离开来。这样的分离使得可以分别处理幅度和相位信息，从而更加精确地恢复语音信号的高频分量。此外，幅度流扩展器和相位流扩展器分别对幅度谱和相位谱进行扩展，以增强高频信息。这种分别处理的方式使得可以有针对性地增强语音信号的高频分量，从而提高了重构语音波形的质量。另外，将扩展的幅度谱和相位谱重新组合成扩展复数谱，并进行逆向变换得到扩展语音波形。这个过程保证了幅度和相位信息的一致性，从而提供了更准确、更自然的语音重构结果。

技术特征：

1.一种语音波形的扩展方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述幅度流扩展器从输入端到输出端由一维卷积层、层归一化层、加法器、n个卷积网络、层归一化层、一维卷积层以及加法器依次连接组成；所述n个卷积网络之间通过所述加法器连接。

3.根据权利要求1所述的方法，其特征在于，所述相位流扩展器从输入端到输出端由一维卷积层、层归一化层、加法器、n个卷积网络、层归一化层、两个平行的一维卷积层以及反正切函数模块依次连接组成；所述n个卷积网络之间通过所述加法器连接。

4.根据权利要求1所述的方法，其特征在于，所述幅度流扩展器和所述相位流扩展器之间通过加法器进行信息交互。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述语音判别器由多分辨率幅度语音判别器、多周期语音判别器以及多分辨率相位语音判别器组成。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.一种语音波形的扩展装置，其特征在于，所述装置包括：

9.一种语音波形的扩展设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述的语音波形的扩展方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-7任一项所述的语音波形的扩展方法。

技术总结
本申请公开了一种语音波形的扩展方法、装置、设备及存储介质。获取待扩展语音波形，先将待扩展语音波形进行香农插值，并将插值后的待扩展语音波形进行初步变换得到第一短时复数谱。对第一短时复数谱分别进行幅度计算和相位计算得到第一初步对数幅度谱和第一初步相位谱。再将第一初步对数幅度谱输入到幅度流扩展器得到扩展对数幅度谱，将第一初步相位谱输入到相位流扩展器得到扩展相位谱。然后将扩展对数幅度谱和扩展相位谱组合成扩展复数谱。将扩展复数谱进行逆向变换得到扩展语音波形。本申请通过分别处理幅度和相位信息，并利用幅度流扩展器和相位流扩展器增强高频信息，提高了恢复语音信号高频分量的效率，同时也提高了重构语音波形的质量。

技术研发人员：鲁叶欣,艾杨,杜荟鹏,凌震华
受保护的技术使用者：中国科学技术大学
技术研发日：
技术公布日：2024/4/17