具有自监督多感官特征的视听场景分析外文翻译资料

 2023-10-07 04:10

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


具有自监督多感官特征的视听场景分析

5 动作识别

我们已经通过可视化看到我们的表现传达了关于声源的信息。现在我们问它是否对识别任务有用。为了研究这个问题,我们使用UCF-101数据集对我们的动作识别模型进行了微调[64],用对齐任务中学习到的权重初始化。我们在表1中给出了结果,并将我们的模型与其他无监督学习和3D CNN方法进行了比较。我们使用2.56秒的子序列进行训练,遵循[56],我们通过随机翻转和裁剪以及小的(最多一帧)音频移位来增强[56]。在测试时,我们跟踪[65],平均每个视频的模型输出超过25个剪辑,使用中心224times;224裁剪。优化细节见补充资料。

分析 首先,我们看到,我们的模型显著优于之前应用于该任务的自我监督方法,包括混叠学习[17](82.1% vs. 50.9%的准确率)和O3N[19](60.3%)。我们怀疑这部分是因为这些方法要么处理单个帧,要么处理短序列,而且它们解决的任务不需要大量的运动分析。然后,我们将我们的模型与使用监督前训练的方法进行比较,重点放在最先进的I3D[56]模型上。虽然我们的自监督模型与在密切相关的动力学数据集上进行预训练的I3D版本(94.5%)之间存在较大差距,但我们的模型(包括声音和视觉)的性能与使用ImageNet进行预训练的(纯视觉)I3D接近[66](84.2%)。

接下来,我们用[16]而不是我们自己的自我监督任务来训练我们的多感官网络,即通过随机配对来自不同视频的音频和视频流来创造负面例子,而不是引入错位。我们发现这个模型的性能明显低于我们的模型(78.7%),这可能是因为它的任务在很大程度上可以在不分析运动的情况下解决。

最后,我们询问模型的组件如何对其性能做出贡献。为了测试该模型是否从音频中获得了预测能力,我们训练了一个模型的变体,在这个模型中,音频子网被消融(激活设置为零),结果发现这导致性能下降5%。这表明,声音对我们的结果很重要,而我们的视觉特征是单独有用的。我们还尝试训练一个在光谱图上运行的模型的变体,而不是原始波形,发现这产生了类似的性能(详见补充材料)。为了衡量自我监督训练的重要性,我们将我们的模型与随机初始化的网络(即从零开始训练)进行了比较,发现性能有显著(14%)的下降——与从I3D中删除ImageNet训练前的下降幅度相似。这些结果表明,该模型学习了一种既适用于视觉识别又适用于视听动作识别的表示法。

6.1 屏幕内外声像分离

现在,我们将我们的表示应用于一个经典的视听理解任务:分离屏幕内外的声音。为此,我们提出了一个使用我们学到的特性的源代码分离模型。我们对这个问题的表述类似于最近的视听分离和纯视听分离工作[34、36、67、42]。我们通过将输入视频(“屏幕上”)的音频轨道与随机选择的视频(“屏幕外”)轨道相加,创建合成声音混合物。然后,我们的模型负责分离这些声音。

任务 我们考虑的模型以混合音频的光谱图作为输入,并恢复两种混合成分的光谱图。我们最简单的屏幕内外分离模型学会最小化:

, (3)

xM是混合声音,xF和xB是组成它的屏幕内外声音(即前景和背景)的光谱图,fF和fB是我们的模型根据(视听)视频I对它们的预测。

我们还考虑了利用Yu等人的[36]的置换不变损失(PIT)模型来分割这两个声音,而不考虑它们在屏幕内外的出处。

混合光谱图

这个损失类似于方程3,但它允许屏幕内外的声音交换而不受惩罚:

LP (xF, xB, x̂1, x̂2) = min (L (x̂1, x̂2), L (x̂2 x̂1)), (4)

L (xi, xj) = kximinus;xF k1 kxjminus;xBk1和x̂1和x̂2是预测。6.1源分离模型

我们增加我们的视听网络u-net encoder-decoder(43、69、70),混合的声音映射到其上,离屏组件(图6)。向u-net提供视频信息,包括我们的多重网络的特点在三个时间尺度:我们将最后一层一层的每个时间尺度的编码器最近的时间采样率。在拼接之前,我们使用线性插值使视频特征与音频采样率匹配;然后,我们将它们在空间上集中起来,并在频域上平铺,从而重塑我们的3D CNN的时间/高度/宽度形状,以匹配2D编码器的时间/频率形状。我们对u-net使用类似[69]的参数,添加一对卷积层来补偿光谱图中大量的频率通道。我们预测了对数光谱图及其相位的大小(我们将相位损失按0.01进行了缩放,因为它在感知上不那么重要)。为了得到波形,我们将预测的光谱图倒置。我们强调我们的模型使用原始视频,没有预处理或标签(例如没有人脸检测或预先训练的监督功能)。

我们使用VoxCeleb数据集对我们的模型进行了语音分离任务的评估[71]。我们将培训/测试分开,以获得不相交的演讲者身份。

表2:将混合语音从VoxCeleb(按混合语音中说话人的性别分类)中分离出来,并转移到简单的网格数据集。我们评估/离屏声音预测误差(开/关)使用ℓ1距离真正log-spectrograms(低更好)。我们还使用了盲源分离度量(越高越好)[68]。

表3:短视频(200ms)视听分离方法与纯视听分离方法的比较。我们将屏幕上音频预测的SDR (On-SDR)与音频重采样到2khz进行了比较。8%, 20%用于培训、验证和测试)。在训练中,我们采样2.1秒。从较长的5秒剪辑。并将每个波形的平均平方振幅归一化为一个常量。我们使用了64 ms帧长,16 ms步长的光谱图,得到了128times;1025的光谱图。在每一小批优化中,我们随机配对视频剪辑,使其中一个成为另一个的屏幕外声音。我们共同优化了我们的多感官网络和u-net模型,使用我们的自监督表示初始化权重(详见补充资料)。

6.2 评价

我们将我们的模型与各种分离方法进行了比较:1)我们用其他特征替换了我们的自监督视频表示,2)与使用盲分离方法的纯音频方法进行了比较,3)与其他视听模型进行了比较。

由于我们的主要目标之一是评估学习特征的质量,我们比较了我们模型的几种变体(表2)

然后我们询问我们的表现有多少来自于运动特征,而不是来自于识别说话者的属性(例如性别)。为了验证这一点,我们只训练了一个单一帧的模型。我们发现性能显著下降(11.4 vs. 14.8)。对于两名性别相同的说话者来说,这一降幅尤其大——在这种情况下,嘴唇的运动是一个重要的线索。

有人可能还会问,早期的视听融合是否有帮助——毕竟,网络融合了光谱图编解码器中的模式。为了验证这一点,我们删除了我们的多感官网络的音频流,并重新训练了分离模型。该模型获得了较差的性能,表明融合音频是有益的,即使它在其他地方可用。最后,当编码器和解码器只使用单耳音频时,我们的表示使用立体声。为了测试它是否使用双耳线索,我们将所有音频转换为单声道并重新评估它。我们发现,这并没有显著影响性能,这可能是由于使用立体声提示的困难具有自监督多感官特征的视听场景分析。

图7:屏幕内外分离模型的定性结果。我们展示了来自我们测试集的两个合成混合物的输入框和光谱图,以及两个包含多个扬声器的网络视频。第一个(男性/男性混合物)比第二个(女性/男性混合物)包含更多的工件。第三个视频是一个真实世界的混合视频,其中一名女性演讲者(同时)将一名男性西班牙语演讲者翻译成英语。最后,我们将电视新闻节目中两位(男性)演讲者的演讲分开。虽然这些真实的例子没有根据,但是源代码分离方法定性地分离了这两种声音。请参阅我们的网页(http://andrewowens.com/multisensory),以获得视频源分离结果。

在网络视频中(例如39%的音轨是单声道)。最后,我们还将(无需再培训)我们所学的模型转移到网格数据集(GRID dataset)[73],这是一个实验室记录的数据集,在这个数据集中,人们在一个简单的背景前说简单的短语,发现方法的相似的相对顺序。

为了更好地了解我们的模型的有效性,我们将其与纯音频分离方法进行了比较。虽然这些方法不适用/屏幕分离,我们修改我们的模型有它独立的音频使用一个额外的排列不变的损失方程(4),然后比较了方法使用盲分离指标[68]:signal-to-distortIOn比率(SDR),信号干扰比率(先生),signal-to-artifacts比率(SAR)。为了保持方法之间的一致性,我们将预测波形重采样到16khz(所有方法使用的最小值),并使用混合相位来反转我们模型的光谱图,而不是预测相位(其他方法都没有预测)。

我们将模型与PIT-CNN[36]进行了比较。该模型使用vggstyle [74] CNN通过一个完全连接的层来预测两个软分离掩模。将这些映射乘以输入混合,以获得分段的流。短片尽管这种方法工作得很好,我们发现它失败再输入(例如,获得1.8特别提款权实验如表2所示),创建一个更强的坑基线,因此我们创建了一个版本的自成一派u-net模型,优化坑损失而不是我们/萤幕下的损失,即以u-net取代VGG-style网络和面具。我们证实了该模型在短序列上获得了类似的性能(表3),并发现它在较长的视频上得到了成功的训练。最后,我们比较了基于递归网络和TSP数据集训练的预训练分离模型[67]。我们发现,我们的视听模型,当训练一个坑损失,优于所有这些方法,除了在SAR指标,其中u-net坑模型略好(这在很大程度上衡量的存在,以产生的波形伪影)。特别是,我们的模型比自成一派的方法来更好的性别两个扬声器的混合物是相同的(表2)。有趣的是,我们发现本方法仍然表现更好盲分离指标转让lab-recorded网格数据集时,我们假设是由于重要领域转变。

并与侯氏等人的声像分离模型进行了比较。这个模型是为增强一个已知演讲者的演讲而设计的,但是我们将它应用到我们的任务中,因为它是最密切相关的先验方法。我们还评估了Gabbay等人的网络。我们使用与我们相同的程序训练这些模型([45]使用扬声器标识创建硬混合;相反,我们假设说话人的身份是未知的,而且是随机混合的)。两种模式都采用非常短的(5帧)视频输入。因此,在[45]之后,我们对200ms视频进行了评估(表3)。对于这些基线,我们使用[45]的VIOla-Jones[76]唇线检测器(我们自己的模型不使用人脸检测)对说话者嘴周围的视频进行裁剪。这些方法在其(Mel-) STFT表示中使用了少量的频带,这限制了它们的定量性能。为了解决这些限制,我们只评估屏幕上的音频,并在计算SDR之前将音频采样到一个较低的公共速率(2 kHz)。我们的模型明显优于这些方法。定性上,我们观察到[45]经常平滑in-put谱图在声源分离指标上的性能可能受到其音频表示中频带相对较少的影响。

6.3 定性结果

我们的定量结果表明,我们的模型可以成功地分离屏幕内外的声音。然而,这些度量标准在表达预测声音的质量方面受到限制(并且对可能不重要的因素(例如频率表示)很敏感)。因此,我们也提供定性的例子。在图7中,我们展示了来自我们的测试集的两个合成混合物的结果,以及两个真实的混合物:同时进行西班牙语到英语的翻译和同时进行演讲的电视采访。我们利用我们的模型是完全卷积的这一事实将它应用到这8.3秒。视频(比培训视频长4倍)。我们在网页上的视频中包含了额外的源代码分离示例。这包括一个随机的(综合混合的)测试视频样本,以及包含屏幕内外声音的野外视频的结果。

为了演示我们的模型根据说话者改变预测的能力,我们拍摄了一段两个人在电视辩论节目上讲话的视频,用视觉蒙住屏幕的一边(类似于[25]),然后运行我们的声源分离模型。如图1所示,当左边的扬声器被隐藏时,我们将听到右边的扬声器,反之亦然。请查看我们的视频查看结果。

大规模的训练我们在大量的数据上训练模型的更大的变化。为此,我们结合了VoxCeleb和VoxCeleb2[77]数据集(大约。8times;as manys video),如在[47]中,通过对AudIOSet中约8%的背景音轨采样,对环境声音进行建模。为了提供更多的时间背景,我们使用4.1秒进行了培训。视频(约。256 STFT时间样本)。我们还简化了模型,将谱图帧长减少到40ms(513个频率样本),预测谱图大小而不是对数,并将相位损失的权重增加到0.2。请查看我们的视频查看结果。

7 讨论

在这篇论文中,我们提出了一种学习时间多感官表征的方法,并通过实验表明,它对三个下游任务是有用的:(a)训练前的动作识别系统,(b)声源位置的可视化,(c)屏幕上/屏幕外的声源分离。我们认为这项工作为未来的研究打开了两个潜在的方向。首先是开发学习融合多感官表征的新方法。我们提出了一种方法-检测时间偏差-但也可以纳入其他学习信号,如环境声音[15]提供的信息。另一个方向是将我们的表示用于额外的视听任务。我们在这里介绍了几个应用程序,但是还有其他的音频理解任务可以从视觉信息中获益,同样,可视应用程序也可以从融合的音频信息中获益。

这项工作在一定程度上得到了DARPA资助的FA8750-16-C-0166、加州大学伯克利分校长期网络安全中心和伯克利大学DeepDrive的支持。我们感谢艾伦Jabri大卫·Fouhey Andrew Liu Morten Kolbaelig;k,枭龙Wang和Jitendra Malik有益的讨论。

参考文献

  1. Smith, L., Gasser, M.: The development of embodied cognitIOn: Six lessons from babies. Artificia

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[609624],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。