商汤科技入选 CVPR 2018 的 44 篇论文，都研究什么？

时间: 2018-05-11 02:35:49

雷锋网(公众号：雷锋网) AI 科技评论按：本文由商汤科技独家投稿，AI 科技评论获其授权转载。

全球计算机视觉顶级会议 IEEE CVPR 2018 (Computer Vision and Pattern Recognition，即 IEEE 国际计算机视觉与模式识别会议) 即将于六月在美国盐湖城召开，本届大会总共录取来自全球论文 979 篇。CVPR 作为计算机视觉领域级别最高的研究会议，其录取论文代表了计算机视觉领域在 2018 年最新和最高的科技水平以及未来发展潮流。

CVPR 官网显示，今年有超过 3300 篇的大会论文投稿，录取的 979 篇论文，比去年增长了 25%（2017 年论文录取 783 篇）。这些录取的最新科研成果，涵盖了计算机视觉领域各项前沿工作。CVPR 2018 包括 21 场 tutorials、48 场 workshops，并且有来自全球各地超过 115 家企业将入驻今年 CVPR 工业展览。

商汤科技、香港中文大学-商汤科技联合实验室以及其他商汤科技联合实验室共有 44 篇论文被本届 CVPR 大会接收，其中包括口头报告论文 3 篇（录取率仅 62/3300 = 1.88%），亮点报告论文 13 篇，论文录取数量相较于 CVPR 2017 的 23 篇又有大幅度提高，成绩斐然。全球领先的科研成果展示了商汤科技智能视觉领域强大的人才储备、科研底蕴和创新能力。

商汤科技 CVPR 2018 录取论文在以下领域实现突破：大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。这些新颖的计算机视觉算法不仅有着丰富的应用场景，使得更多的智能视觉算法能应用于日常生活之中，还为后续研究提供了可贵的经验和方向。

大规模分布式训练

代表性论文：Oral – 深度增强学习自动网络结构设计

本文致力于解决深度神经网络结构的自动设计问题，与一般人工的结构设计不同，本文提出了一种高效算法，通过强化学习来自动设计最优的网络结构。传统的神经网络结构设计通常需要大量专家的知识和试错成本，并且甚至还需要一些灵感，每年仅有几个重要的网络结构被设计出来，因此，人工设计网络结构是一个难度极高的工作。近期的网络结构自动搜索的算法通常需要巨大的计算资源（数百块 GPU，近一个月的训练），并且生产的模型可迁移性不强，难以做到真正的实用化。

本文提出了一种基于强化学习的网络结构自动设计算法，通过「网络块」的设计思想，让搜索空间大大降低，并且使设计的网络具有非常强的可迁移性。同时，本文使用「提前停止」和分布式架构来加速整个网络结构学习过程，达到了百倍于之前算法的速度（32 块 GPU，3 天的训练）。实验表面，其生成的网络结构在 CIFAR 数据集上达到并且超越人类设计的网络结构的精度，并且其结构可以迁移到大规模的 ImageNet 数据上，取得良好的性能。

人体理解与行人再识别

代表性论文：Oral – 基于组一致性约束条件的行人再识别

行人再识别是新一代智能安防系统中的重要组件之一。给定一幅行人图像，行人再识别要求跨不同摄像头，对同一行人基于其视觉外观进行准确匹配和识别。现有深度学习算法通常使用过于局部的约束损失函数进行行人特征学习，因而不能精确的学习行人图像之间的视觉相似度。本文针对该问题提出一种新颖的组一致性约束条件，并通过连续条件随机场对该约束条件进行建模。将该连续条件随机场加入深度神经网络，从而实现该深度模型的端对端训练。实验结果表明该一致性条件在训练与测试中均能够大幅度提升最终视觉特征的鲁棒性与判别性，实现高精度的行人再识别。

自动驾驶场景理解

代表性论文：Spotlight – 极低延迟的视频语义分割

本文关注面向自动驾驶场景的视频实时语义分割问题，虽然近年来图像语义分割取得很大的进展，但是对于面向视频的语义分割任务仍然存在挑战。其主要困难在于：1）视频需要更多的计算量；2）许多实时的应用如自动驾驶需要实现低延迟性。

本文致力于解决这两方面的难题，同时尽可能的保证分割的精度。在视频分割问题中，邻近帧之间的语义标签的变化相对较小，因此不必每帧都使用一个完整的网络来提取语义标签。基于这种认识，本文提出了一个如图所示的语义分割的框架，把整个网络分为高层部分和低层部分，低层部分消耗较少的计算；本文的框架只在关键帧运行完整的网络来提取高层特征进行语义分割，而在其他帧则从上一个关键帧传播特征来进行语义分割。相应的框架由两部分组件构成：1）关键帧调度模块，以及 2）特征跨帧传播模块，其都基于低层特征进行相应的计算，因此相对完整的网络计算量小很多。同时为了减少延迟，在检测到当前帧为关键帧时，使用了一个低延迟的调度策略。本文提出的方法在两个数据集上均验证了我们方法的有效性，取得了较低延迟并保持精确的分割精度。

Spotlight – 基于单视图的立体匹配

面向自动驾驶场景的单目深度估计方法，通常利用一个视角的图像数据作为输入，直接预测图片中每个像素对应的深度值，这就导致了现有方法通常需要大量的带深度信息标注的数据。近期的研究提出了在训练过程引入了几何约束的改进，但是在测试过程仍然缺乏显式的几何约束。本文提出把单目深度估计分解为两个子过程，即视图合成过程以及双目匹配过程，通过这样分解之后，使得所提出的模型既可以在测试阶段显式地引入几何约束又可以极大的减少对带深度标注数据的依赖。实验证明，本文提出的方法仅利用少量的深度数据就可以在 KITTI 数据集上超过之前的所有方法，并首次仅靠单目图像数据就超过了双目匹配算法 Block Matching，进一步推动了单目深度估计技术的落地。

底层视觉算法

代表性论文：Spotlight – 基于深度增强学习的普适图像复原

本文提出了一种新颖的深度学习图像复原方法。大部分已有复原算法仅面向解决某类特定的图像复原问题，因而对各种不同类别的降质图像缺乏普适性。针对该问题，本文提出的 RL-Restore 算法先训练一系列针对不同降质图像的小型神经网络；同时设计一种评价图像复原质量的奖励函数，使用增强学习算法学习如何将这些小型神经网络进行合理组合。针对不同的降质图像，获得不同的复原算法组件的组合，实现对复杂降质图像的有效复原。

视觉与自然语言的综合理解

代表性论文：Spotlight – 面向视觉问题回答的对偶视觉问题生成

针对开放式视觉问答（Open-ended VisualQuestion Answering）中训练数据过少的问题，本文提出了一种「可逆问答网络」。该模型可以通过重组不同模块，使一组模型同时完成「问题回答」和「问题生成」两种互逆的两个任务。该模型通过充分利用视觉问答和视觉问题生成的对偶性，提升模型对于有限训练数据的利用效率。该方法采用两个任务同时训练同一模型，使网络能够对问题和图片之间的联系有更深的理解，从而在问题生成和问题回答两个任务上都取得了更好的精度和效果。

人脸识别与人脸分析

代表性论文：Poster – 超越人脸识别的人脸解离特征空间学习

本文同时解决人脸识别、属性分类和任意人脸生成这三个问题。大多数人脸特征学习的工作通常能够让网络学习得到一个具有极强身份或属性区分度的特征，以应用于人脸识别、属性分类等任务；或者学习一个具有全局信息的特征，以应用于人脸生成和编辑等应用。为什么不能学习到一个完备的特征空间并使得语义信息高度区分化，进而实现一个特征能够完成所有的任务呢？本文提出了一个信息蒸馏与驱逐网络的框架，只使用身份 ID 作为监督信息，学习到了一个同时具有极强信息区分度且包含全局信息的稠密凸特征空间。在 LFW、LFWA 和 CelebA 等数据集上的实验表明，人脸在该特征空间下的投影具有极高的身份、属性识别能力，且该空间内的任意一个点均具有较强的身份和属性语义，并可生成具有该语义的人脸图像。

Poster – 基于边缘感知的人脸关键点定位

本文提出一种基于边缘感知的人脸关键点检测算法，将人脸边缘线所描述的结构信息融入到关键点检测中，极大地提升了算法在大侧脸、夸张表情、遮挡、模糊等极端情况下的检测精度。文章主要解决了两大问题：1. 人脸关键点在各个数据集间歧义性，定义不一致问题。文章通过捕捉对于人脸更通用的边缘线信息，将其作为人脸到关键点的中间媒介，使得不同数据集即使存在关键点差异，仍然可以相互辅助训练。2. 复杂情况下关键点检测精度问题。本文首先通过消息传递结合对抗学习得到高精度的边缘线检测结果，再将边缘线信息多语义层次地融合到关键点检测中，使得算法在复杂情况下的鲁棒性大幅提升。

另外，文章还提出了一个新的人脸关键点检测数据集 Wider Facial Landmarksin-the-wild (WFLW)，包含 10,000 张带有 98 点和 6 属性标注的人脸数据，旨在帮助学界更有效的评估关键点算法在各种条件下的鲁棒性。

物体检测、识别与跟踪

代表性论文：Spotlight – 基于孪生候选区域网络的高性能视觉跟踪

本文提出一种基于端到端深度学习框架的高性能单目标跟踪算法。现有的单目标跟踪算法通常较难兼顾性能和速度，仅能在某一指标占优。本文利用孪生（Siamese）网络和区域候选网络（Region Proposal Network），构建了一种高速高精度的单目标跟踪算法。两个子网络通过卷积操作升维，统一在一个端到端的深度神经网络框架里。训练过程中，算法可以利用拥有密集标注（VID）和稀疏标注（YoutubeBB）的数据集进行训练。相较于现有方法，稀疏标注的数据集大大增加了训练数据来源，从而可以对深度神经网络进行更充分的训练；区域候选网络中的坐标回归可以让跟踪框更加准确，并且省去多尺度测试耗费的时间。实验方面，本文提出的跟踪算法能在 160 帧速度下达到 VOT2015 和 VOT2016 数据集上目前的先进水平。

Poster – 快速的端到端多角度文字检测与识别方法

本文首次提出了端到端的多角度文字检测与识别方法。文字检测与识别 (OCR) 是计算机视觉领域的经典问题，过去的做法将文字检测与识别看做两个问题分别解决。本文提出了一个端到端的方法同时进行文字检测与识别，验证了这两个任务相辅相成，共同监督网络训练可以让这两个任务取得更好的精度。由于两个任务共用一个特征提取的网络，速度也是分别进行文字检测与识别的两倍左右。同时本文也提出了 RoIRotate 操作，其扩展了 RoIAlign，可以应用于旋转物体的检测。本文在多个数据集上超过了现有方法。

深度生成式模型

代表性论文：Poster – 基于特征装饰的实时零点风格迁移

目前针对图像风格化的实时应用，大多需要针对特定的风格图来设计特定的风格迁移模型；如果需要实现对于任意风格图的迁移，计算复杂度和迁移效果大多不能得到保证。本文提出一种实时零点图像风格迁移模型，实现对于任意风格图像的多尺度高质量风格化迁移。该方法基于名为风格装饰器的特征迁移网络结构，可以容易地嵌入图像重构网络中来达到多尺度的风格特征迁移。该网络结构使得生成的风格化图像充分表达风格图中的具体纹理模式，同时保留原图中的语义信息。实验表明，该网络对各种类别的风格图都有较高的风格化能力，并且可以有效扩展到多风格迁移和视频风格迁移等应用中。

附录：

商汤科技及商汤科技联合实验室共有 44 篇论文被接收，具体如下：

1.3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang, Xiaolong Wang, Xiaogang Wang

2. Attention-aware Compositional Network for Person Re-Identification

Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang, Wanli Ouyang

3. Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration

Lu Sheng*, Jing Shao*, Ziyi Lin and Xiaogang Wang (*equal contribution)

4. Beyond Holistic Object Recognition:Enriching Image Understanding with Part States

Cewu Lu, Hao Su, Yonglu Li, Yongyi Lu, Li Yi, Chi-Keung Tang, Leonidas J. Guibas

5. Collaborative and Adversarial Network for Unsupervised domain adaptation

Weichen Zhang, Wanli Ouyang, Dong Xu, Wen Li

6. Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal

7. Deep Cocktail Networks: Multi-source Unsupervised Domain Adaptation with Category Shift

Ruijia Xu, Ziliang Chen, Wangmeng Zuo, Junjie Yan, Liang Lin

8. Deep Group-shuffling Random Walk for Person Re-identification

Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang

9. Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Bao, Rynson Lau, Ming-Hsuan Yang

10. Eliminating Background-bias for Robust Person Re-identification

Maoqing Tian, Hongsheng Li, Shuai Yi, Xuesen Zhang, Jianping Shi, Junjie Yan, Xiaogang Wang

11. End-to-End Deep Kronecker-Product Matching for Person Re-identification

Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang

12. End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan

13. Exploring Disentangled Feature Representation Beyond Face Identification

Yu Liu*, Fangyin Wei*, Jing Shao*, LuSheng, Junjie Yan and Xiaogang Wang (*equal contribution)

14. Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Shuqin Xie, Zitian Chen, Chao Xu, Cewu Lu

15. FOTS: Fast Oriented Text Spotting with a Unified Network

Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

16. GeoNet: Unsupervised Learning of Dense Depth, Motion Field and Camera Pose

Zhichao Yin, Jianping Shi

17. Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification

Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang

18. High Performance Visual Tracking with Siamese Region Proposal Network

Bo Li, Wei Wu, Zheng Zhu, Junjie Yan

19. ID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang

20. Learning a Toolchain for Image Restoration

Ke Yu, Chao Dong, Liang Lin, Chen Change Loy

21. Learning Dual Convolutional Neural Networks for Low-Level Vision

Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang

22. Learning Globally Optimized Object Detector via Policy Gradient

Yongming Rao, Dahua Lin, Jiwen Lu

23. LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation

Tak Wai Hui, Xiaoou Tang, Chen Change Loy

24. Low-Latency Video Semantic Segmentation

Yule Li, Jianping Shi, Dahua Lin

25. Look at Boundary: A Boundary-Aware Face Alignment Algorithm

Wayne Wu, Chen Qian, Shuo Yang, Wang Quan

26. LSTM Pose Machines

Yue Luo, Jimmy Ren, Zhouxia Wang, Wenxiu Sun, Jinshan Pan, Jianbo Liu, Jiahao Pang, Liang Lin

27. Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang

28. Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

Shuyang Sun, Zhanghui Kuang, Lu Sheng, Wanli Ouyang, Wei Zhang

29. Optimizing Video Object Detection via a Scale-Time Lattice

Kai Chen, Jiaqi Wang, Shuo Yang, Xingcheng Zhang, Yuanjun Xiong, Chen Change Loy, Dahua Lin

30. PAD-Net: Multi-Tasks Guided Prediciton-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Dan Xu, Wanli Ouyang, Xiaogang Wang, Nicu Sebe

31. Path Aggregation Network for Instance Segmentation

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia

32. Pose-Robust Face Recognition via Deep Residual Equivariant Mapping

Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy

33. Practical Block-wise Neural Network Architecture Generation

Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-lin Liu

34. Recognize Actions by Disentangling Components of Dynamics

Yue Zhao, Yuanjun Xiong, Dahua Lin

35. Recovering Realistic Texture in Image Super-resolution by Spatial Feature Modulation

Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

36. Single View Stereo Matching

Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang,Wenxiu Sun, Hongsheng Li, Liang Lin

37. Temporal Hallucinating for Action Recognition with Few Still Images

Lei Zhou, Yali Wang, Yu Qiao

38. Towards Human-Machine Cooperation: Evolving Active Learning with Self-supervised Process for Object Detection

Keze Wang, Xiaopeng Yan, Lei Zhang, Liang Lin

39. Unifying Identification and Context Learning for Person Recognition

Qingqiu Huang, Yu Xiong, Dahua Lin

40. Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

Zhirong Wu, Yuanjun Xiong, Stella Yu, Dahua Lin

41. Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding

Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang

42. Visual Question Generation as Dual Task of Visual Question Answering

Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang, Xiaogang Wang

43. Weakly Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu

44. Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains

Jiahao Pang, Wenxiu Sun, Chengxi Yang, Jimmy Ren, Ruichao Xiao, Jin Zeng, Liang Lin