工商银行于2022年11月29日发布了一项名为“声纹识别方法及设备、电子设备、存储介质”的专利公告。
摘要显示,收集用户对象的声音,获得待识别的声音;(步骤D,下面详细说明)将待识别的声音输入到目标声纹识别模型中,输出声纹识别结果。其中,目标声纹识别模型的训练集包括多语种训练样本;根据声纹识别结果,分析待识别语音的语音特征,其中语音特征至少包括:声纹所属的语言与语音匹配程度,语音匹配程度用于指示语音特征对应的待识别语音是否属于指定声纹库;当待识别语音属于指定声纹库时,确定用户对象属于目标机构的员工。
更具体地说,收集N个多语种初始训练样本,其中N是大于或等于2的正整数,每个初始训练样本都有相应的样本权重,初始训练样本中包含的样本数量不同;(步骤A,下面详细说明)根据样本权重,对N个初始训练样本进行重新采样,获得训练样本集;(步骤B,下面详细说明)目标声纹识别模型是通过训练样本集分别训练获得的。其中,目标声纹识别模型的类型包括:文本相关声纹识别模型和文本无关声纹识别模型。
(步骤A)具体包括:累计N个初始训练样本的样本权重,获得目标数组;采用二分搜索策略,划分目标数组,调整指定语言的初始训练样本分布,获得训练样本集。
(步骤B)具体包括:在对训练样本集中的音频数据进行预处理后,提取音频数据的梅尔滤波器组能量特征(步骤C,下面详细说明);将梅尔滤波器组的能量特征输入第一类神经网络模型,获得与文本相关的声纹识别模型;将梅尔滤波器组的能量特征输入第二类神经网络模型,获得与文本无关的声纹识别模型。
(步骤C)具体包括:使用预设高通滤波器对训练样本集中的音频数据进行预加重处理;基于预设的帧长和预设的帧长,对预加重处理后的音频数据进行分帧处理和窗口处理;傅里叶改变分帧处理和窗口处理后的每一帧音频数据,得到对应于每一帧音频数据的频谱;将频谱输入M个梅尔尺度的三角形滤波器,得到梅尔滤波器组的能量特征,其中M大于或等于2的正整数。
上述第一类神经网络模型和第二类神经网络模型至少包括:多个长短期记忆网络层和线性变换层,每个长短期记忆网络层至少包括:记忆单元和投影层,其中第一类神经网络模型的记忆单元和线性变换层的数量少于第二类神经网络。
(步骤D)具体包括:分析待识别语音对应的音频数据是否为与文本相关的音频数据;当待识别语音对应的音频数据是与文本相关的音频数据时,分析文本相关的声纹识别模型作为目标声纹识别模型的可信度;在可信度大于预设可信度阈值的情况下,使用文本相关的声纹识别模型识别待识别语音,输出声纹识别结果;在可信度小于或等于预设可信度阈值的情况下,使用与文本无关的声纹识别模型识别待识别语音,输出声纹识别结果。
此外,当待识别语音对应的音频数据是与文本无关的音频数据时,还使用与文本无关的声纹识别模型来识别待识别语音,输出声纹识别结果。
该发明的背景是,声纹识别广泛应用于证券、金融等领域,其独特性和稳定性。近年来,随着人工智能和大数据的快速发展,声纹识别系统主要利用深度学习算法进行特征提取和特征比较。
但是,声纹识别系统在相关技术中仍然存在一些弊端:
首先,只使用单一的语言训练模型。对于很多跨国企业来说,很多技术和产品的开发都需要考虑国际应用。比如世界上很多大型金融机构都有分支机构,在应用声纹识别技术的时候,需要为当地语言甚至方言开发专门的声纹识别模型。但是,如果每种语言单独训练一个模型,会消耗大量的人力物力,包括R&D人员的精力,以及模型训练所需的硬件计算设备和电力消耗。
第二,数据集的大小也是影响模型性能的重要因素。对于一些小语种的语言来说,数据很难获取,声纹识别模型/系统的性能很差,因为训练数据很少。
至少在相关技术中,声纹识别系统只使用单一的语言训练模型来识别声纹,而不能有效识别多种语言的技术问题。