论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 工科论文 >> 通信学论文 >> 正文 会员中心
 通信学论文   交通运输论文   工业设计论文   环境工程论文   电力电气论文   水利工程论文   材料工程论文   建筑工程论文   化学工程论文
 机械工程论文   电子信息工程论文   建筑期刊   工科综合论文   汽车制造
基于语音存在概率的语音活动检测方法

  【 论文 关键词】语音增强 语音活动检测 语音存在概率

  【论文摘要】首先 总结 了几种常见的语音活动检测(vad)方法,然后从 计算 每帧每个频率点的语音存在概率出发,提出了一种新的vad方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。

  1引言

  日常生活中,人们说话有间隙,有必要对一段语音进行检测,以确定哪些时间上是有语音,哪些时间上没有语音。在语音编码中,语音活动检测(voice activitydetection,vad)用来区分有语音段和无语音段。如果一段时间被判断为无语音段,则不需对其编码。这样可减少信道带宽的占用,使有限的带宽得到合理使用。在语音增强中,vad用来判断一段时间上是否存在语音。如果某段时间内不存在语音,那么这段时间就只有噪声存在,因此可以被用来估计和更新噪声功率谱。在语音增强领域,vad的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计,如果噪声功率谱估计不准确,就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。

  笔者提出了一种新的vad方法,这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。

  2语音存在概率估计

  为进行vad,首先对每帧每个频率点进行语音存在概率估计,该估计大致分为两步:(1)估计是否存在强语音成分;(2)估计语音不存在概率和语音存在概率。wWw.11665.cOm含噪语音由纯净语音和噪声叠加而成,所以假设

  y(k,l)=x(k,l)+d(k,l)(1)

  其中,y(k,l)为含噪信号,x(k,l)为纯净语音,d(k,l)

  为噪声,k为某一帧的频率点编号,l为帧编号。

  2.1估计是否存在强语音成分

  含噪语音中某些地方会有明显的语音存在,由于后面估计语音不存在概率需要用到相邻帧的信息,所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断,如果是,那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。

  对于含噪信号,要进行两次平滑,一次是帧内平滑,一次是帧间平滑。首先进行帧内平滑

  

  其中,αs为平滑参数且0<αs<1。然后搜索d帧中各频率点的最小值,即smin(k,l)=min{s(k,l′)|l-d+1≤l′≤l}(4)根据 文献 [1]可找到bmin,满足e{smin(k,l)}=b-1min·λd(k,l)(5)也就是说可通过一个补偿因子bmin估计出当前帧的噪声功率谱。定义

  

  根据γmin和ζ,按照下面的判决准则,判断当前帧是否含有强语音成分

  

  其中,“0”为有强语音存在,“1”为没有强语音存在,γ0=4.6,ζ0=1.67。

  2.2估计语音不存在概率和语音

  存在概率利用前面强语音成分判断的结果,可通过先排除含有强语音成分的频率点,再进行帧内平滑和帧间平滑,最后得到对应于每帧每个频率点的估计量。这个估计量反映了该帧每个频率点上能量情况。如某帧是无语音帧,则其各频率点上的估计量将会较小。再通过对一段区间上搜索最小估计量,将搜索到的结果作为参照标准。当某帧某个频率点的估计量超过参照标准的若干倍时,即判定此处含有语音,否则就不含有语音。首先,利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。先进行帧内平滑

  

   的计算用到了i(k,l),排除了强语音存在的频率点。再进行帧间平滑

  

  然后同前面估计是否存在强语音成分一样,进行区间最小值搜索

  

  定义

   l )=e{d(k,l)2}。由于按照式(13)计算语音存在概率需要估计先验信噪比ξ和后验信噪比γ,如果估计不准确,必然导致vad结果不准确。故这里对此进行简化,直接用1减去q(k,l)作为语音存在概率p(k,l)。

  3利用语音存在概率进行vad

  3.1检测指标计算

估计出语音存在概率后,还不能直接用来进行vad,因为这些概率是针对每一个频率点的,需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察,发现有2项指标可被用来比较准确地辨别出有声段和无声段,分别是

  

  其中,pt为某一帧所有频率点的语音存在概率之和,pe为某一帧上语音存在概率为1的所有频率点个数,m为有频率点数。但是,实验表明,这两个参数虽然总体上可以看出哪些是无声段哪些是有声段,但起伏可能非常剧烈,所以需要进行平滑处理。设定

  

  其中,采用了当前帧前面4帧的数据进行平滑。

  3.2参数设定

  判断是否存在语音主要看式(17)~(18)中2个指标是否超过某个门限。具体为

  

  其中,式(19)~(20)对一段含噪信号最开始一段的2个指标求平均,然后利用式(21)~(22)得到正式的门限;w为每帧有频率点数。其判断结果

  

  其中,“1”为有语音,“0”为无语音。

  4实验结果

为  评价该vad方法的性能,设定如下指标

含噪信号是人工合成的,其中纯净信号来自一段评书,噪声信号取自noisex-92噪声库,包括白噪声、粉红噪声、f16战斗机噪声、沃尔沃汽车噪声、闲聊声和工厂噪声等,信噪比均为6 db。所有指标均与 文献 [3]中的方法对比。含语音帧总数和纯噪声帧总数根据纯净信号人为判定。将文献[3]中的方法称为方法a,本文方法称为方法b。3项指标的 计算 结果列于表1~3。

可看出,在大部分情况下,方法b要优于方法a;但当信噪比降低到一定程度后,方法a要优于方法b。图1给出了背景噪声是白噪声时,2种方法的性能比较。可看出,当输入信噪比大于5 db时,方法b明显优于方法a;但当信噪比降到0 db后,方法a好于方法b。

  5 总结

这  种新的vad方法在信噪较高时,效果非常好。如实验发现,当背景噪声为白噪声,信噪比为18 db时总体准确率可达0.961 8,而文献[3]中的方法只能达到0.831 3。但当信噪比下降到0 db后,新的方法表现不如文献[3]中的方法。另外,在背景噪声为非平稳噪声时,效果也不够理想,有待改进。

   参考 文献

  [1]martin r.noise power spectral density estimation basedon optimal smoothing and minimum statistic    [j].ieeetrans.on speech and audio processing,2001,9(5):504-512.

[2]cohen i.noise spectrum estimation in adverse environment:improved minima controlled recursive averaging[j].ieee trans.on speech and audio processing,2003,11(5):466-475.

[3]吴平,谷源涛,崔慧娟.一种稳健的背景噪声监测方法[j].电声技术,2003(11):42-45.

  • 上一篇工学论文:
  • 下一篇工学论文:
  •  作者:吴愚 方元 [标签: 语音 概率 语音 检测 方法 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    基于智能家居的6410网关网络文件挂载
    基于民用建筑雨季施工防护工作分析与研究
    基于ubuntu的分布式计算平台实现
    基于社会转型和电子商务背景下网络消费的调…
    基于Sap2000的井字梁设计
    基于跳跃扩散过程的保险资金最优投资模型研…
    基于陶行知理念下的体育课堂分组教学研究
    基于重庆农业补贴政策下农业经济增长因素分…
    基于网络层次分析法的科研人员绩效评价
    基于可持续发展的财务评价指标的构建
    基于因子分析的农业上市公司经营绩效实证分…
    基于CLIL理念的高校公共外语教师职业发展研…
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有