第1章?盲信号处理基础
1.1?概??述
1.1.1?背景和国内外现状
设想有一个大厅在举行招待会,同时有许多人在相互交谈,人们可以相互倾听对方的说话,也可以仅仅关注一个人的声音。当用计算机通过话筒采集声音时,得到的则是多个说话人混叠在一起的声音,如何让计算机也能分离开每个说话者的声音?这就是所谓的鸡尾酒会问题cocktailpartyproblem。
人耳可以在两人以上的讲话环境中分辨出单个人的声音,这种分辨能力是人体内部语音理解机理系统特有的一种感知能力,它来源于人的双耳效应和人类语音中包含的声纹特征。通常情况下语音经双耳输入,人们根据两路输入的不同时延特性进行分离;同时由于人的发音器官构造的差异,每个人都有自身独特的声纹,人耳也可以借助于声纹对信号进行分离。
计算机语音处理则主要通过传感器检测语音信号,然后利用信号处理方法从大量的数据中提取人们所希望得到的成分而获得有用的信息。由于传感器检测的信号是混叠信号,如何在混叠方式和源信号都未知的情况下恢复出源信号分量,是解决鸡尾酒会问题的基本任务,称为盲源分离blindsourceseparation,BSS。
盲源分离技术是20世纪90年代发展起来的一种新兴的数据处理方法。它主要面向非高斯信号处理,这与现代信号处理向非平稳、非高斯、非线性的方向发展相吻合,有利于复杂信号的分析与处理。盲源分离问题的研究过程中出现的独立分量分析dpnetcoetaayiICA方法,不仅为鸡尾酒会问题的解
ineednompnnnlss,决提供了理论基础,还成为盲信号处理的基本方法。
所谓的盲源分离,是指在不知源信号和传输通道参数的情况下,根据输入源信号的统计特性,仅由观测信号恢复出各个独立的源信号的过程。这一过程又称为独立分量分析。现在所指的盲源分离通常是对观测到的源信号的线性瞬时混叠信号进行分离。在考虑到时间延迟的情况下,观测到的信号应该是源信号和通道的卷积,对卷积混叠信号进行盲分离通常称为盲反卷积blinddeconvolusion,BD。
?2? 盲信号处理理论与应用
盲源分离和盲反卷积方法的研究具有非常重要的实际意义。为解决前面提出的鸡尾酒会问题,可以先通过信号分离得到单个说话者的声音,然后再进行其他处理;在阵列信号处理方面,雷达接收到的可能是多个目标发出的混叠信号,如果对它们先进行分离,再做进一步处理,会提高辨别能力;在移动通信领域,天线接收到的信号也是多路信号的混叠,盲源分离和盲反卷积方法可以在信道均衡和多用户检测中得到直接应用;在生物医学信号处理中,多传感器检测到的是各种不同的生物电信号的混叠,当需要进行某种诊疗时,往往仅需要了解其中某种特定生物电信号的特性。还有在图像信号处理、地震信号处理和噪声消除等各个方面,都会遇到类似的问题。
较早进行盲源分离方法研究的是Jut
en和Herault[1],他们提出了一种类神经盲源分离方法。该方法基于反馈神经网络,通过选取奇次的非线性函数构成Hebb训练,从而达到盲源分离的目的。该方法不能完成多于两个混叠源信号的分离,非线性函数的选取具有随意性,并且缺乏理论解释。Tong等[2]分析了盲源分离问题的可分离性和不确定性,并给出一类基于高阶统计的矩阵代数特征分解方法。他们指出,由于源和混叠系统参数未知,虽然在某些假设下,根据输入信号的某些统计特性可以恢复出源信号,但分离出的信号存在幅度和排列次序两种不确定性,即与源信号相比,输出分离信号的幅度和排列顺序都与源信号存在差异,但波形保持不变。考虑到问题的复杂性,这两个不确定性是可以接受的。Cardo?so[3]提出了基于高阶统计的联合对角化盲源分离方法,并应用于波束形成技术。Comon[4]系统地分析了瞬时混叠信号盲源分离问题,并明确了独立分量分析的概念,提出了利用可以测度源信号统计独立性的Kul
bak?Leibler准则作为对照函数contrastfunction,通过对概率密度函数的高阶近似,得出用于测度信号各分量统计独立的对比函数,并由此给出一类基于特征分解的独立分量分析方法。Bel
和Sejnowski[5]基于信息理论,针对线性系统,通过最大化输出非线性节点的熵,得出一种最大信息传输的准则函数并由此导出一种自适应盲源分离和盲反卷积方法x,当该方法中非线性函数的选取逼近源信号的概率分布时,可以较
infoma好地恢复出源信号。该算法只能用于一类源信号峭度kurtosis大于某一值的信号的盲分离,所以它对分离线性混叠的语音信号非常有效,但对负峭度信号分离较困难。Amari等[6]基于信息理论中概率密度的Gram?Charlier展开利用最小互信息minimummutualinformation,MMI准则函数,得出一类前馈网络的训练算法,该算法可以有效分离出具有负峭度的源信号,并具有等变equivariant特性,即算法不受混叠矩阵的影响。
Hyvarinen和Oja[7]基于源信号非高斯性测度或峭度,给出一类定点训练算法t,该类算法可以提取单个具有正或负峭度的源信号,由于其简单
fixed?poin有效,被广泛应用。该类准则函数和算法与Girolami和Fyfe[8,9]的外推投影追踪
第1章?盲信号处理基础?3?
exploratoryprojectionpursuit,EPP算法具有相似性。
前期大多数盲分离方法在对瞬时混叠或者卷积混叠矩阵及源信号进行估计时,系统的数学模型通常不考虑噪声的存在以简化系统模型。而实际情况中,不论是源信号的背景环境还是传感器接收元件都在很大程度上带有各种各样的噪声,如延时、反射、回音和非线性形变等都可能发生,这使得传感器输出的混叠信号是人们感兴趣的源信号以及大量隐含在其中的噪声的相互混合。
在盲源分离理论和基本方法的研究已经取得一定进展之后,人们开始研究实际应用中真实环境下的盲源分离问题。Le
等[10]将基于信息最大传输或最大似然算法得出的盲源分离训练算法进行盲反卷积,并用于真实记录的语音信号分离。实验证明分离后的语音识别率得到提高。Karhunen和Hyvarinen[11]等将神经网络盲分离算法用于提取图像的特征和分离医学脑电信号。Makeig等[12]等用盲源分离或ICA方法将与脑电electroencephalograpgic,EEG信号中记录的事件相关的相应数据分解为与传感器数量相等的成分,这一分解为在不同事件刺激下脑电信号的进一步研究提供了方便。Mckeown等[13]还将ICA用于分析核磁共振成像数据集。与主分量分析principalcomponentanalysis,PCA比较表明,
ICA在与任务相关的活动数据的时空扩展估计方面得到改善。Sahlin和Bro?man[14]在移动通信的手机中增加一个麦克风,用信号分离算法来改善语音信号传输之前的信噪比。
卷积混叠信号是真实的场景之一,在对线性瞬时混叠信号盲源分离方法进行研究的同时,人们对卷积混叠信号盲分离和盲反卷积方法也进行了研究。Plat
和Faggin[15]将H?J算法推广到具有时间延迟和卷积混叠情况。Yel
in和Wen?sten[16]给出了基于高阶累计量和高阶谱多通道盲反卷积方法,通过递归特征分解可以同时进行盲系统参数辨识和盲反卷积,但该方法由于用到高阶累积量和需计算高阶谱,所需运算量极大。Thi和Jut
en[17]同样利用四阶累积量或四阶矩函数,给出了卷积信号盲分离自适应的训练方法。Tokkola[18,19]提出了一个反馈网络结构,将Infomax算法推广到更广泛的情况,即具有时间延迟的源的混叠或卷积混叠信号的盲分离。Le
等[20]将基于信息最大传输或最大似然算法得出的盲源分离训练算法变换到频率域,并利用所谓FIR多项式代数技术进行盲反卷积。最近的卷积混叠信号盲分离方法主要是时频遮掩方法,将混叠语音分段,利用短时傅里叶分析和经典的ICA方法,有时加上DOAdirectionofar
ival估计,在两个源的卷积混叠信号盲分离方面取得不错的效果。
含噪声混叠信号是另一必须考虑的真实场景。在实际语音环境中,外界噪声对语音的干扰是普遍存在的,所以,带噪声的混叠和非线性混叠信号盲分离问题的研究具有更加重要的理论价值和实际意义。对于带噪盲信号分离问题,由于数据自身的复杂性,使用ICA理论来实现带噪声盲源分离具有非常大的难度。
?4? 盲信号处理理论与应用
有人把带噪声混叠看作是非线性的,所以现有的一些带噪声混叠信号盲分离方法都是非线性方法。Moulines等[21]利用逼近最大似然方法进行带噪声混叠信号的盲分离和盲反卷积,其中用于处理不完全数据的期望最大化expectationmaximizing,EM方法作为主要数学工具;Hyvarinen[22]指出,在混叠过程中存在噪声意味着观测数据和源信号的关系存在非线性,他们用了独立成分和混叠矩阵的联合最大似然估计方法。
较早涉及非线性混叠信号盲分离的是Burel[23],他用一个两层感知器和基于误差后向传输思想的无监督训练算法,通过梯度下降算法优化统计独立的测度函数,得到一种盲分离算法,可以用于非线性混叠信号的盲分离。由于非线性盲分离比线性情况的分离难度更大,直到1996年Par
a[24,25]提出一类前向信息保持非线性结构映射网络,通过最小化输出互信息,减小输出各个分量间的剩余度,才可以得到非线性独立成分。Pajunen等[26]用自组织映射self?organizationmap,SOM网络从非线性混叠信号中恢复源信号,该算法可以不考虑非线性混叠的形式,但其网络复杂性呈指数增长且在分离连续源时存在严重的插值误差。Yang等[27]利用两层感知器网络结构,通过最大熵和最小互信息作为测度独立的代价函数,提出了信息后向传输的训练方法。当合理选择非线性函数时该算法可以分离出一些特定的非线性混叠的源信号。Taleb和Jut
en[28]提出了一种非线性混叠信号盲分离算法,可以对一种特定非线性混叠称为后非线性混叠的信号进行盲分离。
但是由于盲信号处理中存在太多的未知条件,直接利用盲分离算法来实现带噪声的混叠信号分离非常困难,总的来讲,关于带噪声的盲分离算法的研究成果比较少[29,30]。
欠定情况语音分离也是实际语音信号盲分离过程中常遇到的问题,它是指在观测信号个数少于源信号个数的情况下进行语音分离。欠定情况下系统是不可逆的,即使混叠矩阵已知,源信号也不存在唯一解,经典的独立分量分析算法[30]不能解决这种情况下的语音盲分离问题。
欠定混叠语音信号盲分离一直是研究的热点。文献[31]、[32]提出了利用最大后验概率估计方法maximumaposterior,MAP和最大似然估计方法maxi?mumlikelihoodestimation,MLE来估计源信号和混叠矩阵。Le
等[32]提出用超完备基表征的方法从少数的几个混叠信号中分离出多个原始信号。Lewicki和Sejnowski[33]在假设源信号是拉普拉斯分布条件下,提出完备的贝叶斯方法解决欠定盲源分离问题。Bofil
和Zibulevsky[34]首先提出了两阶段分离方法,即先利用聚类的方法来估计混叠矩阵,然后用提出的最短路径分解shortestpathde?composition方法来估计源信号。针对两阶段分离方法的第一阶段,近年来有学者提出基于势函数potentialfunction[34]、K?均值聚类[35]、Winner?Takes?Al
[36]
第1章?盲信号处理基础?5?
及基于时频点比率聚类[37]等来估计混叠矩阵;有l?范数解1nrm
在第二阶段,1l?osolution算法[35,37,38]、最短路径分解法[34,36]、基于二阶统计特性的稀疏分解原则statistical
ysparsedecompositionprinciple,SSDP[39]的算法等。但由于欠定情况下先验知识很少,若再有噪声或干扰,对算法的鲁棒性要求很高,现有的算法又大多基于线性混叠模型,因此对实际语音的分离还是非常困难的。
时频域的欠定语音分离方法近年不断进展。Jourjine等[40]提出了时频域上稀疏信号不相连正交性的概念从两个混叠信号中恢复出多个源;Bofil
和Zibu?levsky[41]利用语音信号在短时傅里叶变换域中的稀疏特性实现了欠定语音盲分离;Abrard等[42]提出在时频域中利用两个混叠信号的时频比率来估计出多个源信号;Yilmaz和Rickard[43]利用时频掩码技术在时频域解决欠定语音分离问题。
稀疏编码sparsecoding是对多维数据的一种神经元网络表征,在这个神经元网络里,只有少数的一些神经元权值起主要的作用。这种表征类似于去冗余redundancyreduction,并且受到了神经学界研究者的重视。稀疏编码起源于1994年Barlow[44]和Field[45]从生理学和信息处理的角度上对感知数据sensorydata进行稀疏编码的探讨,后来Hyvarinen[46]对稀疏编码的应用从整体上进行了系统的分析,指出所谓“稀疏?是指这些分量的概率密度函数在原点处有尖锋,两旁有较重的拖尾。稀疏分布实际上就等同于超高斯分布或者是正峭度。稀疏编码的关键问题就是要找到一个神经元网络矩阵,使信号经过该矩阵转换后得到的分量具有稀疏分布。
稀疏编码作为一种稀疏神经元网络表征方法可以有效地应用于语音去噪[46~48]。这种稀疏表征可以借助于ICA特征提取来得到,也就是求语音数据的特征基矩阵[49,50]。由于稀疏编码去噪主要利用的是语音数据的特征基来进行降噪,因此它对语音信号的破坏较小,去噪后的语音失真比较小。相对小波变换方法去噪来讲,由于小波消噪过程主要依赖于数学理论,与语音信号本身关联不大,且受小波基、小波分解层次的影响较大,因此容易破坏语音信号中的有用语音成分,使得分离效果并不理想。而稀疏编码去噪有着更好的合理性和可行性,相对而言语音增强效果也更好。
同时,稀疏信号处理也成为研究欠定信号分离的有效手段[51~61]。当信源具有某种稀疏性,在某一时刻或某一段时间内只有不多于观测信号个数的信源值不为0,其他均为0或很小,就可以使欠定情况转化为正定的情况,那么问题就变得相对简单了。
利用稀疏性解决欠定模型下信号分离问题的关键在于将欠定模型弱化为正定甚至过定模型,这里所说的稀疏性,描述的是几个信号相互之间的特性,而不是信号自身的稀疏性。当然,信号自身的稀疏性也会影响信号之间的稀疏性,信号自身稀疏性越强,信号之间的稀疏性就越强。从这点上说,两种稀疏性是一致的。
?6? 盲信号处理理论与应用
信号的稀疏性有时域的稀疏性和变换域的稀疏性两种,Karvanen和Cichocki[51] 提出了度量信号稀疏程度的方法,Kreutz?Delgado等[52]用广义高斯模型描述信号在不同参数下所具有的稀疏特性。Li等[53]利用了时域信号的稀疏性解决欠定问题,而Bofil
和Zibulevsky[54]则利用了变换域中的稀疏性。
Davies和Mitianoudis[55]提出的过完备描述OverCompleteICA算法中,同样是利用了稀疏性这一特点。OverCompleteICA也被认为是一种稀疏信号处理的方法。假设观测信号向量在一个过完备基上进行分解所得到的系数向量是稀疏的,则可以得到有效地描述信号的基。一般在数学上对稀疏性的描述常采用Laplace分布,由于Laplace分布在0点不可导,为计算上的方便,Le
等[32]、Lewicki和Sejnowski[33]以及Girolami[56]采用了相应的近似方法。
在很多实际应用场合,经常遇到只有单个话筒的情况,作为欠定情况的特例,单通道的混叠语音信号分离具有更重要的实际意义。国外关于单通道语音分离的研究始于20世纪90年代末,Jang等[62,63],Beierholm等[64]和Jang等[65]取得了一些成果。
与此相反地,针对单个话筒麦克风采集语音信号的问题,人们也在考虑使用麦克风阵列来提高语音质量[66~74],即进行语音增强。所谓麦克风阵列,就是多个麦克风按照一定的拓扑结构组成一个阵列。麦克风阵列在时域和频域的基础上增加一个空间域,对来自空间不同方位的信号进行空时频联合处理,它继承了天线阵列的有关算法,同时又吸收了一些单麦克风语音处理的方法。基于这一特点,与单个麦克风相比,麦克风阵列具有空间选择性,使它在捕获特定方向的高质量信号的同时,又减少了噪声和其他干扰。另外,麦克风阵列不必限制说话人的活动,在其接收区域内,可以自动检测、定位和追踪说话者。因此,麦克风阵列可以广泛应用于各种嘈杂背景的语音通信环境如会场、助听器、车载免提电话等,以提高语音通信质量。许多学者正致力于麦克风语音处理技术的研究,并取得了很多成果。
结合ICA和麦克风阵列,提出了基于ICA的麦克风阵列语音增强方案[75,76]。方案中,首先,利用ICA对严重污染的语音信号进行分析,提取出相对纯净的目标信号;然后,通过后续的麦克风阵列语音增强系统如维纳后滤波、GSC等,得到最后的增强信号。此外,还提出了一种利用麦克风嵌套子阵列纠正频域反卷积的顺序模糊问题的方法,利用麦克风嵌套子阵列结合DOA法和相关法解决盲源分离中顺序模糊的问题。
近年来,盲信号分离理论和方法及其应用研究持续取得进展,在国际著名学术期刊持续有相关论文发表。学术界也有专题系列研讨会。由较早开展ICA研究的法国学者Cardoso、Jut
en和Loubaton等组织的第一届独立分量分析和盲信号分离国际研讨会ICA?99于1999年1月11日到15日在法国阿尔卑斯山下的
|