两眼观察有视差,这种模型消除它!

   自动化那些事        

该研究针对双目视差估计的难点:(1)在无监督学习中使用翘曲函数时,在遮挡区域得不到满意的结果;(2)特征匹配模块中采用大量的三维卷积,运行时间低,参数数量少。


为了解决这些问题,研究者提出了一种用于半监督立体匹配学习的patch注意网络。首先,研究者采用了一种通道-注意机制,通过选择不同的表面来减少大量的3D卷积来聚合成本,这被称为patch注意网络(PA-Net)。其次,研究者将所提出的PA-Net作为生成器,并将其与传统的无监督学习损失和对抗性学习模型相结合,构建一个半监督学习框架,以提高阻塞区域的性能。


研究者对PA-Net进行了监督学习、半监督学习和无监督学习方式的训练。


大量的实验表明:(1)研究者的半监督学习框架能够克服无监督学习的缺点,通过使用少数或不准确的基本事实,在不适定区域内显著提高性能;(2)研究者的PA-Net在监督学习方面可以胜过其他最先进的方法,并且使用更少的参数。本文以“Patch attention network with generative adversarial model for semi-supervised binocular disparity prediction”为题于2020年11月12日发布于《The Visual Computer》杂志上。


研究背景与实验


立体匹配是计算机视觉应用的基础研究,如自动驾驶、机器人导航、三维重建。它的目的是通过对经过校正的图像进行像素匹配来估计视差图。在深度学习的突破性工作之后,目前最先进的立体匹配方法使用深度卷积神经网络(CNNs)来回归密集的视差图。


从网络结构来看,模型可以分解为三个模块:特征提取、特征匹配和视差回归。其中,特征匹配模块是获取准确视差估计的关键步骤。


近年来,常用三维卷积运算建立视差、高度、宽度和特征维数之间的关系。结果表明,三维卷积运算可以提高图像在遮挡情况下的几何学习能力和匹配精度。但频繁的上下采样使用大量的三维卷积运算也带来了计算代价问题。从损失函数的角度来看,学习方法可以分为有监督学习和无监督学习。


对于监督学习,大多数方法将匹配任务视为一个回归问题,并且使用规范来惩罚网络。一些技术将匹配任务视为一个分类问题,并使用交叉熵函数来训练模型。对于无监督学习,许多方法借鉴传统的立体匹配方法,利用扭曲函数和光度一致性以无监督的方式驱动网络。


虽然无监督学习取得了很大的成功,甚至超过了一些有监督的方法,但是它仍然存在不理想的结果,如图所示。现有的无监督学习方式依赖于使用左右图像的扭曲函数。但是,由于不同的光照和相机参数,它不能很好地匹配像素到像素的对应关系。与此同时,非监督学习损失函数,如光度损失,由于缺乏对遮挡区域的先验知识,只能对非遮挡区域的像素进行约束。因此,它在遮挡区域造成了很高的误差率。


图为Kitti 2012数据集的结果


研究者提出了一个新的补丁注意网络,称为PA-net.在网络中,研究者引入了一个补丁注意块,它使用一种通道-注意机制来聚合成本体积的不同表面上的差异信息。该网络实现了准确的预测,节省了大量的参数。其次,引入生成对抗性模型,构建半监督学习框架.在该框架中,研究者使用PA网作为生成器,并添加了一个简单的判别器来指导半监督学习。


实验结果表明,研究者的补丁注意网络可以获得较高的精度,但在监督学习方式下使用的参数较少。此外,研究者的半监督框架通过使用少量或不准确的地面真相,显着地提高了封堵的精度。同时,它的性能优于现有的无监督立体匹配方法,甚至一些监督技术。


图为现有无监督方法性能不理想的原因


研究者提出了基于生成对抗性模型的半监督视差估计网络,包括基于补丁注意的视差生成网络和视差对鉴别器网络。


图为半监督学习框架


图为视差发生器网络架构


图为特征匹配流水线概述


在这项工作中,研究者使用补丁注意块来减少广泛使用的3D卷积操作的数量,如图所示。


图为说明不同表面上的贴片注意事项


图为视差信道上的补丁注意块结构


虽然从成本体积中提取的初始视差图相当好,但通过卷积运算可以使重建边界过于平滑。同时,研究者注意到在自然状态下原始的左图像包含了边界信息,并且左特征图提取了一个判别特征。因此,研究者以左特征图和原始左图像为指导,对视差图进行细化。


视差判别器网络测量假视差图与真实视差图之间的分布距离。判别器网络的本质是一种分类网络,它区分伪影,惩罚产生器生成符合自然数据分布的视差图。此外,还应确保生成的视差图必须与输入图像相对应。


为了达到上述目的,研究者首先将左右图像和视差图连接起来作为鉴别器网络的输入。然后,将输入到鉴别器网络中,得到真实或假的概率。鉴别器网络的结构与生成器的特征提取模块相同。尽管如此,研究者还是从先前的研究中吸取了有益的教训。


为了探讨半监督学习的性能,研究者在各种数据集上测试了研究者的方法。首先,研究者介绍了有关设置、培训策略和评估协议的实现细节,如节所示。然后,研究者进行了大量的实验,验证了该方法的有效性,包括补丁注意机制和半监督学习。最后,研究者对所提出的方法在公共数据集上进行了验证,证明了研究者的半监督学习方法在遮挡区域的学习效果优于非监督学习。


图为现场流动试验数据定性结果


为了验证研究者设计的有效性,研究者通过评估SceneFlow数据集和Kitti 2015验证集上的平均端点误差(EPE)和3像素阈值错误率,比较了不同设置的PA-Net的性能。


图为说明补丁注意块的效果


图为Kitti 2012测试集定性结果


图为Kitti 2015测试集定性结果


对于相同的网络结构,半监督学习的性能介于监督学习和无监督学习之间。与无监督学习相比,半监督学习可以有效地提高闭塞区域的学习性能.这是因为无监督损失函数只能学习受先验知识限制的非遮挡区域的匹配规则。


因此,无监督学习可以在非遮挡区域得到准确的结果,在被遮挡区域得到错误的输出。相比较而言,基于GANS的半监督学习可以指导学习过程,通过数据分布来提高遮挡区域的性能。


研究者的基于监督学习的PA网使用较少的低效率三维卷积,但与其他方法相比,得到了更精确、更健壮的视差图。它可以归结为:(1)使用一系列的补丁注意块,利用信道选择使网络更加高效和有效;(2)有监督和半监督的损失函数,帮助实现亚像素精度和了解数据分布。


图为被遮挡区域上错误映射的部分放大


研究者提出的半监督学习框架可以显著提高系统的学习性能,但只有少量的真实和不准确的差异。研究者的半监督学习框架明显优于无监督学习。这意味着研究者的方法可以在实践中使用,因为这种不准确的差异很容易被传统的方法或设备所获取。


同时,如果研究者有精确的视差由激光雷达或其他设备,研究者的方法可以使结果达到一个新的水平,只需使用少量的地面真相。


研究结论


为了减少三维卷积的数量,该研究提出了一种更高效的网络,该网络采用信道注意机制来规范代价量。同时,研究者引入对敌训练策略,并使用PA-Net作为视差生成器来实现半监督学习框架。在SceneFlow和KITTI上的实验结果表明,研究者提出的pat - net能够以较少的参数获得较好的定量结果。


研究者的半监督学习框架可以克服无监督学习方式中遮挡的不良性能,并且可以通过使用少量的ground truth或不准确的视差来显著提高性能。此外,研究者的半监督学习方法优于其他先进的无监督学习方法,甚至一些监督方法。在未来,研究者会继续提高研究者方法的稳定性,减少对标记数据的需求。


参考文献:Zhibo Rao, Mingyi He, Yuchao Dai & Zhelun Shen Patch attention network with generative adversarial model for semi-supervised binocular disparity prediction   The Visual Computer (2020)


最新评论(0)条评论
取消

还没有人评论哦,抢沙发吧~

相关新闻推荐