新研发的声波水印法,可应用于高性能的录音设备,提高录音质量!

   电子分析员        

技术的发展使得制造出小巧、高性能的录音设备成为可能,并且极大地降低了音频编辑的难度。任何参与对话的人都可以秘密地记录对话,用他们自己的设备获取自己版本的音频。录音可以很容易地编辑后,以改变信息的意义。挑战在于证明录音是否被篡改。对此,一个可靠的解决方案是广受赞誉的电网频率(ENF)标准。更新的录音设备是用来避免接收电信号的,因为从音频内容的角度来看,电信号代表噪音。因此,经典的ENF标准变得不那么有效的记录与较新的设备。本文描述了一种新颖的声音水印(即,水印声学总结与对话)解决方案,基于环境声音,可以容易地控制和不可疑的听众:时钟的滴答声。这个信号被用作频率扫掠(唧唧声)信号的掩盖器,用来编码ENF并将其嵌入到在一个房间里录制的所有录音中。使用建议的水印解决方案嵌入的ENF可以在任何稍后的时刻被提取和检查,以确定一个记录是否被篡改,从而允许使用ENF标准原则检查与较新的设备制作的记录。实验结果表明,该方法在实际应用中具有很好的效果。


相关论文以题为“Sonic Watermarking Method for Ensuring the Integrity of Audio Recordings”发表在《Applied Sciences》上。




ENF标准代表了在音频认证和完整性检查方面的一个重大突破。该方法基于配电网的一个关键特性:电网信号的频率随时间随机变化,且在大范围内是相同的。围绕标称频率的变化非常小,但可以检测到。当在连接电网的建筑物中录制音频时,录音设备会接收到电网信号。被拾取的信号非常小,因为设备被设计成防止它的捕获,因为它污染了录音。为了检查记录的完整性,从记录中提取提取的电网信号,然后估计其频率随时间的变化。最后,将提取的ENF变化量与直接利用监测站监测电网信号得到的参考变化量进行比较。由于ENF的变化在大范围内是相同的,所以只需要少量监测电网并能提供参考ENF变化的台站就可以覆盖大范围的地区。参考的ENF变化也可以从配电和监控公司得到。为了演示上面的属性,图1显示了ENF在一个小时内的变化。



图1.ENF行为示例(在2015年1月1日午夜至凌晨01:00之间记录)。


研究材料和方法


一种几乎存在于任何房间而不会引起注意的声音是钟表的滴答声。它满足前三个原则,但不能被认为是水印,因为它不携带任何信息。在提出的系统中,它作为一个遮罩为一个可变数量的线性调频信号编码ENF信息。这种信号的组合满足所有四项原则。混合的声音通过与语音信号混合的房间传播,然后根据声音水印的定义,录音设备捕获结果。图2显示了使用该系统的场景。



图2.所提出的声学水印系统被伪装成时钟。由滴答声和被它们掩盖的线性调频信号(即水印)组成的混合物在房间里播放。房间里的录音设备记录下这些混合和对话。这样,水印被嵌入到所有的记录中。


滴答的声音


它表示声音水印的第一个组成部分。滴答声的主要作用是作为一个未被怀疑的,自然遇到的掩膜水印的第二组成部分(即,线性调频信号)在下一小节中描述。这些类型的信号具有脉冲的特性,其特征是大带宽(在这种情况下,高达16khz),如图3所示。研究人员利用连续滴答声之间的时间距离进行水印。它可以偏离一秒,但不能太多,否则会引起人们的注意,谁听到它。这些轻微偏差的控制代表了设计中的一个新的自由度,因为它可以用来嵌入额外的水印数据。滴答声之间的时间距离携带房间标识信息。



图3.机械钟产生的声音信号的记录:(A)突出滴答声的脉冲性质的时域表示;(b)面板(a)中显示的信号的频谱图,突出了这种类型音频信号的大带宽。


生成声音水印的方法


为了减轻对本节的理解,建议的声音水印系统的主要目的是提醒:在所有录音中嵌入ENF变化,在房间中提出的声音水印系统被放置,即使当新的录音设备拒绝干线哼声被使用。这样,拟议的系统允许在这些条件下使用广受赞誉的ENF标准原则。该音频水印发生器的框图如图4所示。嵌入在录音中的数据(例如,由ENF变体和房间标识号组成的声音水印)来自外部测量设备(ENF)或在安装系统时设置的数据(房间ID)。这些数据输入块在图4中用黄色表示。水印的声学传输使用两类声音:线性调频信号(作为主要数据载体)和滴答声。图4中生成音频信号的块用蓝色表示。水印生成器需要两个信号处理模块:一个用于提高线性调频信号相对于滴答声的信噪比,以提高水印提取性能;另一个用于通过稍微延迟音频混合来嵌入房间ID。这种延迟应该是人类听觉系统无法察觉的。在图4中,信号处理模块以灰色显示。



图4. 建议的声音水印生成器的框图。黄色块提供要嵌入到录音中的数据,蓝色块是受控的音频信号生成器,灰色块是信号处理阶段,绿色块是输出阶段,扬声器,在房间中播放声音水印。


水印提取性能


水印提取性能的实验流程如图5所示。根据记录的混合信号的功率比,进行了两种类型的实验。这里研究人员要提醒的是,在记录的信号中有两个主要成分:语音信号和由时钟滴答声和线性调频信号组成的声音水印。使用了一个数据库,其中包含一年以上提供的每秒的ENF值。然后将声音水印与语音信号按要求的功率比进行混合,然后利用环境(会议室、百家讲坛)的声脉冲响应对得到的混合信号进行滤波。提取的序列与参考序列进行比较。首选的评估是苛刻的,结果要么是成功(100%恢复),要么是失败(即使是99%恢复的情况下,例如)。即使没有从整个序列中正确提取出一个ENF值,它仍然被认为是失败的。由于实验在每个功率比下运行100次,因此成功运行的次数(其中ENF序列被完全恢复)给出了正确提取的概率。



图5.流程图描述了实验过程,以表征水印的提取性能。


在第一个实验中,语音信号和声音水印的功率比在6 dB ~ 20 dB之间变化,同时保持声音水印的组成部分(滴滴声-线性调频信号)的功率比为20 dB。总共运行了3000次以获得变化值(对于两种声环境,每个功率比为100次)。结果如图6a)所示。在第二次实验中,语音信号与声水印的功率比保持在6 dB,而声水印的组成部分(滴滴声与线性调频信号)的功率比在20 ~ 30 dB之间变化。总共进行了2200次试验以获得变异值。结果如图6b所示。



图6.(a)正确检测水印的概率取决于声音信号和声音水印之间的PR(滴答声到线性调频信号PR为常数,等于20 dB);(b)水印正确检测的概率取决于滴答声和线性调频信号之间的PR(声音信号对声音水印的PR是恒定的,等于6 dB)。


从结果中可以看出,该方法在会议室中使用效果最好。这是一个有利的结果,因为最重要的讨论都是在这样的环境中进行的。另一个观察结果是,语音信号与声音水印之间的PR比声音水印各组成部分之间的PR的衰减更明显。为达到最佳效果,应注意将系统设置为声音信号和声音水印之间的PR值小于或等于7 dB,而滴答声和线性调频信号之间的PR值不应超过24 dB。


结论


本文提出了一种基于ENF准则的音频水印方法,是一种颇受好评的音频认证解决方案。建议的声音水印使用一个信号,可以存在于任何房间而不提请注意:时钟的滴答声。该方法使用这个信号作为一个遮罩为一个可变数量的线性调频信号编码ENF信息。线性调频信号参数的选择是一项至关重要的任务,本文根据五个严格的原则进行了研究。文中对声波水印发生器进行了详细的描述,并给出了所有的数学运算,以方便其他研究者对其进行重现。并详细介绍了完整性检查方法。


对该方法进行了综合测试,实验的每一步使用了100个带水印的语音信号,同时考虑了信号在室内的传播。实验中使用的资源可在参考的在线数据库中获得,以帮助其他研究人员重新实施进一步的研究。结果表明,所涉及信号的功率比对水印提取性能的影响,并给出了极限值。研究的信号持续时间非常重要,结果表明,只有10分钟的记录才能完美地找到一年的记录时间。完美检测记录切割部分(时刻和持续时间)的性能也令人印象深刻,超过95%的完美检测。


论文链接:https://www.mdpi.com/2076-3417/10/10/3367/htm



最新评论(0)条评论
取消

还没有人评论哦,抢沙发吧~

相关新闻推荐