天天百科

深度学习把单声道录音变成身临其境的声音

2023-05-30 分类:养生资讯

TIPS:本文共有 1897 个字,阅读大概需要 4 分钟。

我们已经有了几十年的3D图像,但是有效地模仿3D声音一直是研究人员所回避的问题。现在,机器学习算法可以通过观看视频产生“2.5D”的声音。

听着附近树上小鸟的歌唱,你就能相对快速地辨认出它的大致位置,而不用看。当你过马路时,听听汽车引擎的轰鸣声,你通常能立即知道它是否在你身后。

人类在三维空间定位声音的能力是非凡的。这一现象得到了很好的理解——它是耳朵形状不对称以及耳朵之间距离不对称的结果。

但是,尽管研究人员已经学会了如何创建容易欺骗我们的视觉系统的3D图像,但还没有人找到一种令人满意的方法来创建能够令人信服地欺骗我们的听觉系统的合成3D声音。

如今,这种状况似乎至少在一定程度上将发生改变,这要归功于得克萨斯大学at分校的高若翰(Ruohan Gao)和Facebook Research的克里斯汀格劳曼(Kristen Grauman)的研究。他们使用了一种人类也会利用的技巧,来教人工智能系统将普通的单声道声音转换成相当不错的3D声音。研究人员称之为2.5D声音。

第一次的一些背景知识。大脑利用各种线索来判断声音来自3D空间的哪里。一个重要的线索是声音到达每只耳朵的时间的差异——耳间时差。

在你左边发出的声音显然会比在你右边发出的声音先到达你的左耳。虽然你没有意识到这种差异,但大脑用它来确定声音的来源。

另一个线索是体积的差异。同样的声音在左耳会比右耳更大,大脑也会利用这一信息进行计算。这叫做耳间电平差。

这些差异取决于两耳之间的距离。立体声录音不会再现这种效果,因为立体声麦克风的分离与之不匹配。

声音与耳垂相互作用的方式也很重要。襟翼会根据声音到达的方向来扭曲声音。例如,一个声音从前面到达耳道之前击中耳瓣。相比之下,同样的声音从头部后面发出,在到达耳道之前就被耳瓣扭曲了。

大脑也能感觉到这些差异。事实上,耳朵的不对称形状是我们能够分辨声音是来自上方,还是其他许多方向的原因。

人工复制3D声音的技巧是再现所有这些几何形状对声音的影响。这是一个棘手的问题。

测量失真的一种方法是双耳录音。这是一段通过在每只耳朵里放一个麦克风来录制的录音,它可以捕捉到这些微小的变化。

通过分析这些变异,研究人员可以使用一种数学算法来重现它们,这种算法被称为“头部相关传递函数”。这就把任何一副普通的耳机变成了非凡的3D音响。

但是因为每个人的耳朵是不同的,每个人以不同的方式听到声音。因此,创造一个人的头部相关传递函数意味着在播放录音之前测量这个人的耳朵的形状。虽然这可以在实验室里完成,但是没有人知道如何在野外完成。

尽管如此,仍然有一些方法可以利用不依赖于耳朵形状的声音失真来近似三维声音——耳朵间的时间和水平差异。

格劳曼和高使用的技巧是通过视觉线索来确定声音的方向(人类也经常这样做)。因此,如果有一个场景的视频和单声道录音,机器学习系统就会计算出声音来自哪里,然后扭曲听觉间的时间和水平差异,从而为听者产生这种效果。

例如,想象一段视频,两个音乐家在演奏鼓和钢琴。如果鼓在视野的左边钢琴在右边,很容易假设鼓的声音应该来自左边钢琴应该来自右边。这就是这个机器学习系统所做的,相应地扭曲了声音。

研究人员的训练方法相对简单。训练任何机器学习系统的第一步是创建一个数据库,其中包含它需要学习的效果的示例。格劳曼和高通过对2000多个音乐片段的双耳录音制作了一个,他们也对这些音乐片段进行了录像。

他们的双耳记录仪由一对合成的耳朵组成,耳朵之间的间距相当于一个人头的宽度,这对耳朵还可以用GoPro相机记录前方的场景。

然后,研究小组用这些录音来训练机器学习算法,根据现场视频识别声音来自哪里。学会了这一点,它就能够观看视频,然后以一种模拟声音应该来自哪里的方式扭曲单耳录音。Grauman和Gao说:“我们将结果输出的声音称为2.5D的视觉声音——视频流帮助‘提升’平面单声道音频到空间化的声音中。”

结果令人印象深刻。你可以在这里观看他们工作的视频——观看的时候一定要戴上耳机。

这段视频将2.5D录音和单耳录音的结果进行了比较,并展示了其效果。“预测的2.5D视觉声音提供了更身临其境的音频体验,”格劳曼和高说。

然而,由于上面提到的原因,它并不能产生完整的3D声音——研究人员没有创建一个个性化的头部相关传输功能。

同时,该算法也存在一些难以处理的问题。显然,系统无法处理视频中不可见的任何声源。它也不能处理未经训练而无法识别的声源。该系统主要针对音乐视频。

尽管如此,格劳曼和高有一个聪明的想法,适用于许多音乐视频。他们还雄心勃勃地要扩展它的应用。他们说:“我们计划探索结合物体定位和运动的方法,并明确地模拟场景声音。”

如果觉得《深度学习把单声道录音变成身临其境的声音》对你有帮助,请点赞、收藏,并留下你的观点哦!

阅读剩余内容
网友评论
相关阅读
小编推荐