当前位置:智城范文网>范文大全 > 征文 > 一种新的对数能量谱熵语音端点检测方法

一种新的对数能量谱熵语音端点检测方法

时间:2022-03-17 10:03:44 来源:网友投稿

摘要:将一种新的对数能量(LE)特征和谱熵(SE)特征相结合,提出一种新的对数能量谱熵(LESE)特征,采用模糊C均值聚类算法和贝叶斯信息准则算法进行LESE特征门限估计,并使用双门限法进行语音端点检测.在TIMIT连续语音库上的实验结果表明,相比于能量谱熵(EE)法和对数能量(LE)法,在噪声环境下LESE法具有更好的检测性能,表现出更好的稳健性.当信噪比为-5dB时,LESE法的检测错误率仅为18.02%,在信噪比为0~10dB时,其检测错误率要明显低于EE法和LE法.

关键词:语音端点检测;对数能量谱熵;能量谱熵;对数能量

A Novel Voice Activity Detection Using Logarithmic Energy Spectral Entropy

ZHAO Huan+, WANG Gang-jin, ZHAO Li-xia

(School of Computer and Communication, Hunan Univ, Changsha, Hunan 410082, China)

Abstract: In this paper, we integrate Logarithmic Energy (LE) and Spectral Entropy (SE), to form a new characteristic that is Logarithmic Energy Spectral Entropy (LESE), using Fuzzy C Means Clustering algorithm and Bayesian Information Criterion algorithm to estimate the thresholds of the LESE characteristic, and using dual threshold method for voice activity detection. Experiments on the TIMIT continuous speech database show that, compared to the Energy spectral Entropy (EE) and LE, in the noisy environments the LESE has better performance not only in the detection aspect but also in the aspect of robustness. When the SNR is -5dB, the detection error rate of the LESE is only 18.02%, and while the SNR is 0~10dB, its detection error rate is significantly lower than the EE and LE.

Key words: voice activity detection; log energy spectral entropy; energy spectral entropy; logarithmic energy

语音端点检测是语音分析、语音合成和语音识别中的一个重要环节,直接影响到后续工作的准确性.有效的检测语音信号的端点,不仅可以减少语音信号处理的运算量,而且可以有效的提高系统的性能.

目前语音端点检测的常规方法分为两类:一类是基于语音信号的时域处理,如短时能量、短时平均过零率和短时相关分析等[1].这些方法在高信噪比下,能够得到准确的检测结果,但在低信噪比下,其准确率非常低.另外一类是基于语音信号的频域处理,如倒谱特征法[2]、谱熵法[3,4]和频带方差[5]等.这些方法具有好的特征,在一定条件下可以取得好的检测结果,但在恶劣的环境下,这些方法的端点检测性能仍然很差.

基于上面的原因,结合时域和频域端点检测方法各自的优点,文献[6]提出了一种基于时频特征相结合的能量与谱熵(Energy spectral Entropy, EE)的语音端点检测算法,(1)由于能量在非稳定的噪声环境下,很难区分想要得到的语音和不可预测的背景噪声,而谱熵却能够克服上面能量的缺点,(2)谱熵在嘈杂噪声和音乐噪声下却变得非常不稳定,而能量却能够克服这一缺点,因为能量有一个很好的加性性质,即语音加噪声的能量要大于噪声的能量.

文献[7]提出了一种新的对数能量(Logarithmic Energy, LE)特征,与短时线性能量特征相比,不会造成幅度较小的辅音和静音的混淆,同时也不会出现短时对数能量特征中的噪声段的特征值过大的问题,较好地反映了语音信号中不同部分(语音,噪声和静音)的区别,具有良好的区分性能.

本文基于文献[7]的新对数能量特征的优点,将其与谱熵(Spectral Entropy, SE)相结合,提出一种新的对数能量谱熵(LESE)特征的端点检测算法,其门限估计采用模糊C均值聚类算法与贝叶斯信息准则算法,该方法具有好的鲁棒性,其门限值能动态的跟踪背景噪声的变化,从而得到准确的语音端点.实验结果表明,在低信噪比下,LESE法相比于EE法与LE法,具有更好的检测效果.

1 对数能量谱熵(LESE)特征

图1给出了计算对数能量谱熵(LESE)特征的算法框图.首先对于给定的语音进行分帧、加窗处理,然后分别计算对数能量和谱熵特征,并且各自进行平移调整,最后相乘得到LESE特征.

图1 计算LESE特征的算法框图

Fig1 Algorithm diagram of computing LESE feature

1.1 对数能量(LE)特征的计算

对于语音信号 的第i帧,由文献[7]提出的一种新的对数能量特征 ,其计算的表达式为:

(1)

(2)

其中 为第i帧信号的短时线性能量, 为某一个固定的常数,文献[7]的实验表明, 时取得更好的效果.

图2给出了能量特征和对数能量特征在SNR=5dB下的比较图,很明显,对数能量特征能够更好的表征语音,更好的将噪声区分开来.

图2能量特征与对数能量特征的比较

Fig.2 Comparison of Energy feature and Logarithmic Energy feature

1.2 谱熵(SE)特征的计算

对带噪语音信号 经分帧、加窗之后,按帧间50%的重叠率求解FFT变换,得其在频率分量 的能量谱为 ,则每个频率分量的归一化概率密度函数(pdf)定义为[3]:

(3)

其中 为第 帧第 频率点的概率密度,N为FFT变换长度.由于语音的能量主要集中在250Hz~4500Hz,为了增强区分语音和非语音段的能力和消除功率恒定的噪声,对式(3)分别引入如下约束条件:

(4)(5)

基于上述约束条件,每个分析语音帧的短时谱熵定义为:

(6)

1.3 对数能量谱熵(LESE)特征的计算

首先,对得到的对数能量和谱熵分别进行平移调整,并且相乘,其结果记为 ,计算公式为:

(7)

其中 和 分别为前10帧的对数能量和谱熵特征的平均值.

然后,可得LESE特征的计算公式为:

(8)

其中 的经验常数.

图3 EE特征与LESE特征的比较

Fig.3 Comparison of EE feature and LESE feature

如图3所示,给出了当SNR=-5dB时,能量谱熵特征与对数能量谱熵特征的比较图,可以发现能量谱熵特征不能准确的将语音和噪声相区分开来,特别是在语音样本的开始段,噪声也被表征出语音特征.而对数能量谱熵却具有很好的平滑性和区分性.

2 门限估计与端点检测

2.1 模糊C均值聚类(FCMC)

模糊C均值聚类(Fuzzy C Means Clustering, FCMC)算法是模糊聚类算法中比较经典和代表性的算法,其算法描述如下[8,9]:

假定 是N个样本组成的样本集合,C为预定的类别数目, 为每个聚类的中心, 是第i个样本对于第j类的隶属度函数.用隶属度函数定义的聚类损失函数为:

(9)

其中, 是一个可以控制聚类结果的模糊程度的常数.

模糊C均值聚类算法要求一个样本对于各个聚类的隶属度之和为1,即

(10)

在条件式(10)下求式(9)的极小值,令J对 和 的偏导数为0,可得必要条件:

(11)

(12)

用迭代方法求解式(11)和(12),就是模糊C均值聚类算法,算法步骤如下:

① 设定聚类数目C和参数b;

② 初始化各个聚类中心 ,

;

③ 重复下面的运算,直到各个样本的隶属度值稳定:

用当前聚类中心根据式(11)计算隶属度函数;

用当前的隶属度函数按式(12)更新计算各类聚类中心.

2.2 贝叶斯信息准则(BIC)

贝叶斯信息准则(Bayesian Information Criterion, BIC)用来决定最优的聚类数目,因此可以用来决定语音端点检测中的门限值[8,10].BIC模型的定义如下:

(13)

其中, 为数据特征集, 是模型参数, 是数据X和模型 的似然函数, 是模型 的参数个数,N是数据个数, 是惩罚因子.

根据BIC可知,最优模型个数为最大化BIC值.假定语音和噪声都服从高斯分布 模型,其中 为均值向量, 为协方差矩阵,则可以通过下式得到聚类数为C时的BIC值:

(14)

其中N为总的数据个数, 为第i个聚类的数据个数.d是特征空间的维数.

对于语音端点检测VAD,设定初始聚类个数C=2,最优聚类数 可以通过如下判决:

(15)

2.3 门限估计算法与端点检测

本文利用FCMC和BIC算法来估计LESE特征的门限值,并进行语音端点检测,其算法步骤如下:

Step1:通过式(8)计算出每一帧的LESE特征.

Step2:通过FCMC算法对LESE特征进行聚类数目分别为C=1和C=2时的模糊聚类.

Step3:通过BIC算法中式(15)决定最优聚类数 .

Step4:

IF=1

通过Step2得其聚类中心为 ,则LESE特征门限的计算公式为:

(16)

(17)

其中, 为经验常数.

ELSE

通过Step2得其聚类中心为 , ,估计的语音和背景噪声的LESE特征为:

(18)

此时,LESE特征门限的计算公式为:

(19)

(20)

其中 为经验常数.

Step5:由上面步骤得到LESE特征双门限值进行语音端点检测.双门限语音端点检测法见文献[1].

3 实验与分析

实验语音采用TIMIT语音库中450条连续英文语音,16KHz采样频率,16bit量化,单声道wav语音格式.样本加噪数据采用NOISEX 92标准噪声库,在white噪声下,分别生成-5dB、0 dB、5 dB和10 dB的带噪语音(共1800条).

基于上面的实验语音环境,文中各个参数的取值分别如下:

由于语音信号在10~30ms时间内具有短时平稳性,不失一般性,本文取语音帧长为 16ms(每帧包含256个采样点),帧移为8ms(每帧包含128个采样点),FFT点数为256,门限估计参数为:

实验比较对象为:文献[6]提出的能量谱熵法(EE法)和文献[7]提出的对数能量特征法(LE法),分别在不同信噪比的语音环境下进行端点检测的比较.其实验结果如表1所示,由于在连续语音下,不能完全准确地的检测出语音的起止点,比如辅音的漏检以及噪声的误检,从而不能依据一个错误而判定整个检测失效,因此给出如下评价标准:

漏检率 (21)

虚检率(22)

总误检率 = +(23)

其中 , 和 分别表示语音被误检为噪声的帧数,噪声被误检为语音的帧数和总的语音帧数.另外,图4~图6分别给出了EE法、LE法和LESE法在SNR=-5dB时的端点检测图,其语音取自于TIMIT语音库中的一条连续语音.

从图4~图6可以看出,EE法和LE法在SNR=-5dB时,虽然能够检测出语音的位置,但是不能够准确的检测出语音起止端点,其漏检率要比LESE法明显要高,从而说明LESE法具有更好的语音特征,能够更好的区分语音和噪声.同时从表1可知,LESE法在不同信噪比下,其漏检率、虚检率和总误检率均低于EE法和LE法.特别是当SNR=-5dB时,LESE法检测错误率仅为18.02%,在信噪比为0~10dB时,其检测错误率要明显低于EE法和LE法.从而可以得出结论,在低信噪比环境下,LESE法具有更好的检测性能和稳健性.

图4EE法的端点检测结果

Fig.4 VAD results by EE

图5LE法的端点检测结果

Fig.5 VAD results by LE

图6LESE法的端点检测结果

Fig.6 VAD results by LESE

4 结论

本文将一种新的对数能量特征和谱熵特征相结合,提出一种新的对数能量谱熵特征,并采用模糊C均值聚类算法和贝叶斯信息判决算法进行门限估计,并采用双门限法进行语音端点检测.实验结果表明,相对于EE法和LE法,在连续语音下,其检测错误率明显低于前两者,而且能够准确的检测出语音的起始端点,在噪声环境中表现出了很好的稳健性,特别在低信噪比环境下,具有更好的检测性能,这主要是对数能量谱熵结合了对数能量和谱熵各自的优点,同时克服了各自的缺点,从而具有更优的检测性能,这说明多特征相结合的端点检测方法是以后重要的研究方向.

参考文献

[1]蔡莲红,黄德智,蔡锐. 现代语音技术基础与应用[M]. 北京:清华大学出版社, 2003:26-29.

CAI Lian-hong,HUANG De-zhi,CAI Rui. The foundation and application of modern speech technology[M]. Beijing: Tsinghua University Press, 2003:26-29. (In Chinese)

[2]胡光锐,韦晓东. 基于倒谱特征的带噪语音端点检测[J]. 电子学报, 2000, 28(10): 95-97.

HU Guang-rui,WEI Xiao-dong. Endpoint detection of noisy speech based on cepstum[J]. Acta Electronica Sinica, 2000,28(10):95-97. (In Chinese)

[3]SHEN J L,HUNG J W,LEE L S. Robust entropy-based endpoint detection for speech recognition in noisy environments [C]//Sydney ICSLP, Sydney, Australia, Nov-Dec 1998:232-235.

[4]ZHAO H, ZHAO L X, ZHAO K, et al. Voice activity detection based on distance entropy in noisy environment [C]//5th International Conference on Digital Content, Multimedia Technology and its Applications (IDC09), 2009: 1364-1367.

[5]朴春俊,马静霞,徐鹏. 带噪语音端点检测方法研究[J]. 计算机应用,2006,26(11):2685-2686.

PIAO Chun-jun,MA Jing-xia,XU Peng. Study on noisy speech endpoint detection method[J]. Computer Application, 2006, 26(11): 2685-2686. (In Chinese)

[6]HUANG L S, YANG C H. A novel approach to robust speech endpoint detection in car environments[C]// ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings,2000,(3):1751-1754.

[7]肖述才,王作英. 端点检测中的一种新的对数能量特征[J]. 电声技术, 2004, (6):37-41.

XIAO Shu-cai,WANG Zuo-ying.A new logarithmic energy feature for endpoint detection[J]. Audio Engineering, 2004, (6):37-

41. (In Chinese)

[8]TIAN Y, WU J, WANG Z Y,et al. Fuzzy clustering and bayesian information criterion based threshold estimation for robust voice activity detection[C]// ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings, 2003, (1):444-447.

[9]边肇祺,张学工. 模式识别[M]. 北京:清华大学出版社,2000: 278-280.

BIAN Zhao-qi,ZHANG Xue-gong. Pattern Recognition [M]. Beijing: Tsinghua University Press,2000:278-280. (In Chinese)

[10]CHEN S S, GOPALAKRISHNAN P S. Clustering via the bayesian information criterion with applications in voice recognition[C]//ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing Proceedings,1998(1): 645-648.

推荐访问: 对数 语音 检测方法 能量

版权所有:智城范文网 2010-2025 未经授权禁止复制或建立镜像[智城范文网]所有资源完全免费共享

Powered by 智城范文网 © All Rights Reserved.。粤ICP备20058421号