2张图片就能“算出”一段视频 惊到网友

  • 时间: 2020-11-25 09:56:04

  只给 AI 两张图片,就能得到高帧率动态视频?

  输入的两张图像,重叠后是这样的:

2 张图片就能“算出”一段视频惊道网友

  而算出来的视频,是酱婶的:

2 张图片就能“算出”一段视频惊道网友

  不错,这又是视频插帧算法的功劳。

  极限操作玩得6,让老电影变丝滑的常规手法,这个名叫 RIFE 的 AI 算法同样信手拈来。

  右边这支经典探戈,看上去是不是比左边丝滑多了?

2 张图片就能“算出”一段视频惊道网友

  不仅是老电影,飞行表演的精彩瞬间,也能一口气从每秒 24 帧提升到每秒 96 帧。

2 张图片就能“算出”一段视频惊道网友

  这项新研究,来自旷视和北大。不仅能让老影像资料追上人民群众对高帧率的需求,支持 2X/4X/8X 高质量插值,它还有一个最大的特点:快。

  量子位在 Colab 上用 T4 跑了一遍 Demo,一个时长 53 秒的 720p 25fps 视频,插值到 100fps 仅用了 2 分 19 秒。

  该项目现已开源,并且有官方 Demo、第三方 Windows 应用可以试玩。

  看过了 RIFE 的表现,网友们不由惊叹,这是要超越那只经常在各种修复视频里出现的插帧 AI DAIN,引领一波新潮流的节奏啊?

  一时之间,RIFE 在 Reddit 上的热度飙升到了 2.8k。

2 张图片就能“算出”一段视频惊道网友

  那么,这样的效果究竟是怎么实现的呢?

  从双向估计,到一步预测中间帧

  视频插帧,通常是用光流预测算法来预测中间帧,并插入两帧之间。光流,就像光的流动一样,是一种通过颜色来表示图像中目标移动方向的方式。

2 张图片就能“算出”一段视频惊道网友

  △稀疏光流与稠密光流

  传统光流预测算法,通常根据前后两帧视频来预测中间的某一帧长啥样。

  将预测完成的图像插进去后,视频看起来就会变得更丝滑。

  以 DAIN 的算法为例,如果要预测t时刻的帧,就需要t时刻的前后两帧视频,通过光流预测算法来实现。

2 张图片就能“算出”一段视频惊道网友

  △DAIN 的算法图

  但是这一类的算法会产生一个缺点:在预测过程中,如果用前后两帧图像产生双向光流,用线性组合来估计中间流,预测出来的结果,在运动边界区域就会出现伪影。

2 张图片就能“算出”一段视频惊道网友

  这样的伪影,使得重建中间帧图像的效果不尽人意。

  那么,如果换一种思路,直接先预测中间流呢?

  相比于利用前一帧和后一帧进行两次估计,这里的 IFNET (a Specialized and Efficient Intermediate Flow Network)算法,将直接采用线性运动假设,对中间帧进行一次估计。

2 张图片就能“算出”一段视频惊道网友

  效果也显而易见,相比于利用前后两帧的双向估计所产生的光流,利用 IFNET 估计出的光流效果非常清晰,而且几乎没有伪影。

2 张图片就能“算出”一段视频惊道网友

  利用这种方式重建图像,不仅光流边缘看得清楚,而且速度也更快。

  论文提到,RIFE 是首个基于光流的实时视频插帧方案。

  由于中间帧预测,直接假设了前后两帧的变换是线性的,相当于每帧预测中直接少了一次估计。

  那么,这个模型,究竟将插帧算法提升到了怎么样的水平?

  运行速度远超其他方法

  前文已经提到,RIFE 最亮眼的一点是快。

  研究人员在 UCF101、Vimeo90K、Middlebury OTHER set 和 HD benchmarks 等基准上,将 RIFE 与英伟达的 SoftSplat、上交大的 DAIN 等「前辈」进行了对比。

  用来测试运行时间的是一个 640 x 480 的视频,使用的 GPU 型号是 NVIDIA TITAN X(Pascal)。

2 张图片就能“算出”一段视频惊道网友

  从结果可以看出,在性能相当的情况下,RIFE 基础模型的运行速度超过了所有对比方法。

  而模型的大版本 RIFE-Large,在性能超越 SOTA 方法 SoftSplat 的情况下,运行速度快出了 30%。

  另外,研究人员基于 Vimeo90K 测试集,提供了可视化的对比结果。

2 张图片就能“算出”一段视频惊道网友

  可以看到绿框部分,SepConv-L1 和 DAIN 产生了伪影,而 CAIN 铲子部分则出现了缺失,相对而言,RIFE 生成的结果更为可靠。

  安装包和 colab 都有,试玩无忧

  效果这么美丽的模型,应该怎么使用?

  目前作者们已经给出了预训练模型的几种用法,从 GitHub 项目中可以直接下载网盘版的压缩包。

2 张图片就能“算出”一段视频惊道网友

  无论是用作者提供的 demo、还是用你自己想要进行插帧的样本,都可以上手试玩。

  当然,模型也有 colab 版本,可以直接在云服务器上玩模型。

  而且,已经有玩家做出了 Windows 版的软件,可以直接下载下来使用。界面看起来还挺简洁:

2 张图片就能“算出”一段视频惊道网友

  模型 RIFE 的出现,已经让一些游戏爱好者狂热了起来:

  你们能想象吗,就算是已经吃灰很久的 PS2,也可以达到 4k 游戏的水平效果了!利用这种算法,3 步就能搞定!

2 张图片就能“算出”一段视频惊道网友

  不过,也有网友表示了对这种算法的担忧。

  虽然这种算法速度快、性能高,但实际上存在一个问题:

  这种算法,本质上无法联想到丢失的帧间信息,所以无法用在安防视频上。

2 张图片就能“算出”一段视频惊道网友

  对于这些方面的应用,未来还需要进一步考虑。