一种带声纹识别的自适应拾音方法与流程-凯发k8娱乐

文档序号:37686995发布日期:2024-04-18 21:01阅读:22来源:国知局
一种带声纹识别的自适应拾音方法与流程

本发明涉及声音处理领域,具体是一种带声纹识别的自适应拾音方法。


背景技术:

1、声纹识别技术利用语音信号中的声音信息和发音特征,通过提取、分析和比对声纹模型,来实现对个体的认证。自适应拾音技术调整麦克风阵列或采集设备的参数获得更好的声音拾取效果的技术。

2、声纹技术对环境的要求较高,声源在不同时间、不同状态下可能存在较大的变化。实施自适应拾音技术通常需要使用高质量的麦克风阵列或传感器,增加硬件成本和系统复杂性。自适应拾音技术进行算法调优时,需要大量的测试和精细调整,耗时且具有挑战性。

3、现有技术对声纹识别和自适应拾音技术进行了改进,但仍然存在识别不准确和自适应调节不高效的问题,声纹识别模型训练效率低下,没有充分发挥两者结合的高效性,没有关注全局和局部综合问题,从而使得声纹处理效果达不到预期。


技术实现思路

1、针对以上问题,本发明提出了一种带声纹识别的自适应拾音方法,该方法能够实现声纹的准确识别,将声纹识别技术和自适应拾音技术结合,设计出高效的自适应模型电路,实现了对声源的高效拾音。

2、为实现上述目的,本发明提供如下技术方案:

3、一种带声纹识别的自适应拾音方法,包括如下步骤:

4、步骤一,声音数据预采集:使用麦克风阵列来接收声音信号,获得多个声源的时差、幅度差和相位差信息;

5、步骤二,声源信息清洗与预处理:采用频谱减法和声学分析处理去除噪声、数据增强和修复;

6、步骤三,声纹识别:采用声纹识别算法对接收到的声音进行声纹特征提取和比对识别说话者的身份;

7、步骤四,声源定位:通过分析声源之间的时差、幅度差和相位差信息,使用声源定位算法估计说话者的位置和方向;

8、步骤五,自适应信号处理:根据声源的身份和位置信息,对声音进行自适应的信号处理,用自适应模型电路调整麦克风阵列的权重和增益,自适应调整电路根据输入信号和环境条件的变化,自动调整电路参数以实现优化性能,增强目标声音并抑制干扰;

9、步骤六,移动设备应用:将带声纹识别的自适应拾音方法应用到移动设备上。

10、作为本发明再进一步的方案,在步骤一中,声音数据预采集,使用麦克风阵列来接收声音信号,获得多个声源之间的时差、幅度差和相位差信息,采集后进行模数转换,具体包括以下步骤:

11、步骤s11,采样:连续的模拟信号在时间上进行离散采样,选取一系列离散时间点上的信号值,记录采样时间、幅度差和相位差;

12、步骤s12,增益调整:采样得到的模拟信号经过增益调整适应转换器的输入范围;

13、步骤s13,量化:将每个采样点的信号幅度映射到离散数值,通过将连续的信号值近似为有限数量的离散级别,将模拟信号转换为离散的数字值;

14、步骤s14,编码:将量化后的离散数值转换为二进制形式,表示数字信号的值;

15、步骤s15,数字输出:将编码后的数字信号输出作为离散样本序列,供后续处理和存储。

16、作为本发明再进一步的方案,在步骤二中,数据清洗与预处理:对采集到的数据进行清洗和预处理,去除噪声、标准化格式、处理缺失值,具体包括以下步骤:

17、步骤s21,声源信息清洗用于处理和修复原始数据中的错误、重复和不一致的部分,声源信息清洗的步骤如下:

18、步骤s211,数据审查:首先,仔细审查数据的结构和字段含义;

19、步骤s212,异常值处理:检测并处理异常值,采用统计方法来识别和处理异常值;

20、步骤s213,去重处理:检测并处理重复的数据记录,避免重复数据对结果产生误差;

21、步骤s214,数据整合:将多个数据源的数据进行整合,统一存储和处理;

22、步骤s215,文本清洗:对于包含文本数据的字段,进行文本清洗操作,去除特殊字符、停用词、拼写错误;

23、步骤s22,去噪,减少和消除原始数据噪声,提高数据的质量和可靠性,具体包括以下步骤:

24、步骤s221,频谱减法解决环境固定噪声问题,相对谱滤波法解决信道缓慢变化噪声问题,模型补偿算法解决测试和训练之间的噪声失配程度问题;

25、步骤s222,语音拼接:将多段语音片段有机地连接起来形成连贯的语音输出,根据语音的时间轴信息,对各个语音片段进行切割、对齐和拼接,使得语音转换和组合更加流畅自然;

26、步骤s223,同时有人说话问题:声纹分割技术通过对混合语音进行分割和聚类处理,分别捕获各时段不同说话人的语音信息,使用基于e-hmm 的同步语音分割算法方法和基于hdp-hmm 的分割聚类算法;

27、步骤s23,去除受年龄影响导致识别结果不准确的情况,声纹是指个体独特的语音特征,包括共振特点、音调、语速和音色,去除上述影响的具体实现步骤如下:

28、步骤s231,采集声纹数据:使用麦克风采集声源的声音,获取声纹信号的原始数据,采集时保证声音质量和环境条件;

29、步骤s232,声学分析:使用声纹分析软件对录音进行声学分析,提取和比对声音的频谱、共振特点和基频,还原声纹信息;

30、步骤s233,语音合成技术:根据已知的声纹特征生成与目标声纹相似的声音;

31、步骤s234,话语模仿:通过模仿目标声音的语调、音色和语音特点来还原其声纹。

32、作为本发明再进一步的方案,在步骤三中,声纹识别,采用声纹识别算法对接收到的声音进行声纹特征提取和比对,识别说话者的身份,具体包括以下步骤:

33、步骤s31,特征提取:从声音信号中提取出具有区分性的特征,用于声纹比对和识别,声纹特征提取包括以下步骤:

34、步骤s311,选择窗函数用于帧分割,确定帧移和帧长,将声音信号按照帧移和帧长进行切分,并依次得到一系列的重叠帧,每个帧表示为时间域上的一个向量;

35、步骤s312,对每个帧应用线性预测编码的特征提取算法来捕捉与声纹相关的信息;

36、步骤s313,特征表示:从每个帧中提取的特征进行表示,使用向量形式存储,采用均值和方差统计量;

37、步骤s314,特征归一化:对提取的特征进行白化变换处理,减少源数据之间的差异;

38、步骤s32,特征选择:对特征进行选择和降维处理,减少计算负担和优化性能,在已有的特征集合中选择出最佳的子集,具体包括以下步骤:

39、步骤s321,选择语种、方言和口音信息;

40、步骤s322,选择词法特征:n-gram和n-gram;

41、步骤s323,选择韵律特征,利用n-gram 描述的能量姿势和基音;

42、步骤s324,选择通道信息;

43、步骤s33,特征编码,减少混合模型训练的计算量和提高效率,通过散列函数,对数据进行编码和加密,具体包括以下步骤:

44、步骤s331,根据具体需求选择散列函数:本发明采用md5散列函数;

45、步骤s332,输入数据:准备要进行编码的数据;

46、步骤s333,运行散列函数:将输入数据作为散列函数的输入,运行散列函数算法;

47、步骤s334,获取输出哈希值:散列函数运行完毕后,会生成一个固定长度的哈希值作为输出,将输出的值保存下来;

48、步骤s335,使用哈希值:将输出的哈希值作为数据的编码,用作训练模型的数据输入;

49、步骤s34,模型混合建模与训练,通过对不同分量的组合来拟合数据,采用生成式和对比式模型混合来对编码后的数据进行训练,具体包括以下步骤:

50、步骤s341,构建损失函数,具体公式如下:

51、;

52、其中,a,b和c都是超参数,lce是对比式建模的对比损失,lce采用交叉熵损失计算方法,lcon是说话人一致性约束,lrecon是生成式建模的重建损失;

53、步骤s342,引入随机遮挡策略,用于增加数据多样性、提高模型鲁棒性和泛化能力的作用,对于处理物体遮挡和位置变化实际应用场景具有重要意义;

54、步骤s343,使用编码器和解码器,编码器负责提取输入数据的高层抽象特征,解码器负责从特征向量中恢复原始数据和生成目标序列的结果;

55、步骤s344,目标与损失调整,将不同特征的取值范围统一,确保它们具有相似的尺度,这有助于优化机器学习算法的性能,并避免某些特征对模型训练的影响过大,本发明使用的是标准化特征归一法,具体公式如下:

56、;

57、其中,xstd是标准化后的特征值,a是调整系数,x是原始特征值,mean是原始特征的均值,std是原始特征的标准差。

58、作为本发明再进一步的方案,在步骤四中,声源定位:通过分析声源之间的时差、幅度差和相位差信息,使用声源定位算法估计说话者的位置和方向;

59、步骤s41,选择声源定位算法,根据实际需求和数据特点使用交叉相关法的声源定位算法;

60、步骤s42,根据所选的声源定位算法,建立相应的声源模型,基于声源到麦克风的时延差和相位差模型;

61、步骤s43,参数估计:使用声源模型和特征提取得到的特征,对声源位置进行参数估计,计算声源到各个麦克风之间的时延差、相位差信息;

62、步骤s44,定位结果计算:根据参数估计的结果,使用三角定位法计算声源的空间位置;

63、步骤s45,定位结果优化:滤除异常值和消除误差;

64、步骤s46,算法评估与验证:使用已知的声源位置数据和地面真值数据,对声源定位算法的性能和准确度进行评估和验证;

65、步骤s47,集成与部署:将实现的声源定位算法集成到目标系统和平台中,并进行部署和配置工作。

66、作为本发明再进一步的方案,在步骤五中,自适应信号处理:根据说话者的身份和位置信息,对声音进行自适应的信号处理,调整麦克风阵列的权重和增益,增强目标声音并抑制干扰,适应不断变化的信号环境和系统要求,具体包括以下步骤:

67、步骤s51,参数初始化:使用随机初始化的初始化方法对自适应滤波器和自适应模型的参数进行初始化;

68、步骤s52,误差计算:将输入信号经过自适应模型电路进行处理,得到输出信号,然后将输出信号与期望输出信号进行比较,计算误差,自适应模型电路由电阻r1、r2、r3、r4、r5、r6、r7、r8、r9、r10、r11、r12、r13,电容c1、c2、c3、c4、c5、c6、c7、c8、c9、c10、c11、c12、c13,ad603aq放大器u1、u2,2sc1815-npn晶体管q1,3288rt运算放大器u3,1dh62二极管d1,d2组成;

69、步骤s53,参数调整:根据误差信息,使用最小均方算法更新规则调整模型中的参数;

70、步骤s54,自适应模型更新:根据参数调整的结果,更新自适应模型中的系数和权重;

71、步骤s55,收敛检测:根据阈值来进行检测自适应处理是否收敛;

72、步骤s56,循环迭代:如果系统未收敛,将结果反馈给数据采集模块,继续执行步骤s52至步骤s55,持续优化参数;

73、步骤s57,输出结果:当系统收敛后,将输入信号通过已经优化的自适应模型处理,得到输出信号,并输出给信号处理和应用系统。

74、作为本发明再进一步的方案,在步骤六中,移动设备应用:将带声纹识别的自适应拾音方法应用到移动设备上,使其能够进行个性化的声音捕获和处理,用实时性技术优化适应资源受限和实时性要求较高的移动环境,提供更友好、便捷的用户体验,让用户更加轻松地使用和享受该方法带来的功能和效益,移动设备具备本地数据存储和加密功能,帮助保护用户数据的私密性和安全性。

75、在声纹识别模块引入了混合模型处理技术,不仅能够考虑到在识别过程中的全局问题,也引入了局部细节的处理,引入数字化技术对声源信号进行编码,将传统的混合训练模型的波形图片输入,改进为编码后的信号输入,将模型训练的复杂度大大降低,优化自适应模型电路,提高整体技术的效率。

当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图