加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_阳江站长网 (https://www.0662zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 点评 > 正文

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

发布时间:2020-12-16 23:10:02 所属栏目:点评 来源:51cto
导读:实时运行、使用单块英伟达 RTX 2080 TI GPU 即可以实现 HD 60fps 和 4K 30fps 的速度,那个「让整个世界都变成你的绿幕」的抠图方法 Background Matting 发布了 2.0 版本,为用户提供了更自然更快速的实时背景替换效果。 背景替换是电影特效中的关键一环,

给出原始图像 I 和捕捉背景图 B,该方法首先使用因子 c 对图像 I 和 B 执行下采样,得到 I_c 和 B_c。然后 base 网络 G_base 以 I_c 和 B_c 为输入,预测粗粒度前景蒙版 α_c、前景残差 F^R_c、误差预测图 E_c 和隐藏特征 H_c。紧接着 refinement 网络 G_refine 使用 H_c、I 和 B 在预测误差 E_c 较大的区域中细化 α_c 和 F^R_c,得到原始分辨率的蒙版 α 和前景残差 F^R。

该模型为全卷积模型,可以处理任意大小和长宽比的图像。

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

架构图。

base 网络

该方法的 base 网络是一个受 DeepLabV3 和 DeepLabV3+ 启发的全卷积编码器 - 解码器网络,包含三个主要模块:骨干网络、ASPP 和解码器。

研究者采用 ResNet-50 作为编码器骨干网络,它可以被替换为 ResNet-101 和 MobileNetV2 以实现速度和质量之间的权衡。

和 DeepLabV3 方法一样,该方法在骨干网络之后采用了 ASPP(空洞空间金字塔池化)模块,该模块包含多个空洞卷积滤波器,扩张率分别为为 3、6、9。

解码器网络在每一步均使用了双线性上采样,结合来自骨干网络的残差连接(skip connection),并使用 3×3 卷积、批归一化和 ReLU 激活函数(最后一层除外)。解码器网络输出粗粒度的前景蒙版 α_c、前景残差 F^R_c、误差预测图 E_c 和 32 通道的隐藏特征 H_c。H_c 包含的全局语境将用于 refinement 网络中。

refinement 网络

refinement 网络的目标是减少冗余计算并恢复高分辨率的抠图细节。base 网络在整个图像上运行,而 refinement 网络仅在基于误差预测图 E_c 选择的图像块上运行。refinement 网络包括两个阶段:先以原始分辨率的 1/2 进行细化,再用全分辨率细化。在推断过程中,该方法细化 k 个图像块,k 可以提前设置,也可以基于权衡图像质量和计算时间的阈值进行设置。

实验

该研究将这一方法与基于 trimap 的两种方法 Deep Image Matting、FBA Matting (FBA) 和基于背景图像的方法 Background Matting (BGM) 进行对比。

在合成数据集上的评估结果

下表 1 展示了这些方法在不同数据集上的量化评估结果。从中可以看出,该研究提出的方法在所有数据集上均优于基于背景的 BGM 方法,但略逊于当前最优的 trimap 方法 FBA,FBA 需要人工精心标注的 trimap 且速度比该研究提出的方法慢。

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

在现实数据上的评估结果

该研究还对比了这些方法在真实数据上的性能。从下图中可以看出,该研究方法的生成结果在头发和边缘方面更加清晰和详细。

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

该研究邀请 40 位参与者评估该方法与 BGM 的生成效果,结果参见下表 2。从中可以看出该方法较 BGM 有显著提升。59% 的参与者认为该算法更好,而认为 BGM 更好的参与者比例仅为 23%。在 4K 及更高分辨率的样本中,认为该方法更好的参与者比例更是高达 75%。

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

性能对比

下表 3 和表 4 表明该方法比 BGM 小但速度更快。

该方法的参数量仅为 BGM 的 55.7% 。但它在批大小为 1 的情况下,使用一块英伟达 RTX 2080 TI GPU 就能够实现 HD 60fps 和 4K 30fps 的速度,可用于很多实时应用。相比之下,BGM 只能以 7.8fps 的速度处理 512×512 分辨率图像。

将该方法的骨干网络换成 MobileNetV2 后,其性能得到了进一步提升,实现了 HD 100fps 和 4K 45fps。

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

实际使用

研究人员将此方法应用到了 Zoom 视频会议和抠图这两种场景中。

在 Zoom 实现中,研究人员构建了拦截摄像头输入的 Zoom 插件,收集一张无人的背景图,然后执行实时视频抠图和合成,在 Zoom 会议中展示结果。研究人员使用 720p 摄像头在 Linux 中进行了测试,实际效果很好。

此外,研究人员对比了该方法和绿幕色度抠图的效果,发现在光照不均匀的环境下,该方法的效果胜过专为绿幕设计的方法,如下图所示:

单块GPU实现4K每秒30帧,实时视频抠图再升级毛发细节到位

 

(编辑:应用网_阳江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读