Deep Residual Learning for Image Recognition CVPR 2016

Introduction Deep Residual Networks (Res. Nets) • A simple and clean framework of training

Res. Nets @ ILSVRC & COCO 2015 Competitions 3 Kaiming He, Xiangyu Zhang, Shaoqing

Result • Performances increase absolutely • Based on Res. Net-101 • Existing techniques can

Revolution of Depth 5 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep

Revolution of Depth 6 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep

Is learning better networks as simple as s No! 7

Simply stacking layers? • Plain nets: stacking 3 x 3 Convlayers. . . •

Left : a shallower model (18 layers) Right : a deeper counterpart (34 layers)

Deep Residual Learning • Plaint net �� (�� ) is any desired mapping, hope

Deep Residual Learning • Residual net �� (�� ) is any desired mapping, hope

Deep Residual Learning • �� is a residual mapping w. r. t. identity

Network “Design” • Keep it simple Res. Net • The basic design (VGG-style) •

CIFAR-10 experiments • Deep Res. Nets can be trained without difficulties • Deeper Res.

Image. Net experiments • Deep Res. Nets can be trained without difficulties • Deeper

Image. Net experiments • A practical design of going deeper 16 Kaiming He, Xiangyu

Image. Net experiments 10 -crop testing, top-5 val error (%) Kaiming He, Xiangyu Zhang,

Image. Net experiments Image. Net Classification top-5 error (%) Kaiming He, Xiangyu Zhang, Shaoqing

Exploring over 1000 layers • Test 1202 layers • Training is finished • Training

Conclusion • Deep Residual Learning: • Ultra deep networks can be easy to train

Reference • Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning

Slides: 22

Download presentation

Deep Residual Learning for Image Recognition “CVPR 2016 Best Paper Award” Presenter : Jingyun Ning

Introduction Deep Residual Networks (Res. Nets) • A simple and clean framework of training “very” deep nets • State-of-the-art performance for • Image classification • Object detection • Semantic segmentation • and more. . . 2 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Res. Nets @ ILSVRC & COCO 2015 Competitions 3 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Result • Performances increase absolutely • Based on Res. Net-101 • Existing techniques can use residual networks or features from it 4 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Revolution of Depth 5 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Revolution of Depth 6 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Is learning better networks as simple as s No! 7

Simply stacking layers? • Plain nets: stacking 3 x 3 Convlayers. . . • 56 -layer net has higher training error and test error than 20 -layer net 8 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Left : a shallower model (18 layers) Right : a deeper counterpart (34 layers) • A deeper model should not have higher training error • A solution by construction: • original layers: copied from a learned shallower model • extra layers: set as identity • at least the same training error • Optimization difficulties: solvers cannot find the solution when going deeper. . . 9 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Deep Residual Learning • Plaint net �� (�� ) is any desired mapping, hope the 2 weight layers fit �� (�� ) 10 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Deep Residual Learning • Residual net �� (�� ) is any desired mapping, hope the 2 weight layers fit �� (�� ) let �� (� ) = �� (�� ) + �� Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Deep Residual Learning • �� is a residual mapping w. r. t. identity • If identity were optimal, easy to set weights as 0 • If optimal mapping is closer to identity, easier to find small fluctuations 12 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Network “Design” • Keep it simple Res. Net • The basic design (VGG-style) • all 3 x 3 conv (almost) • spatial size /2 => # filters x 2 • Simple design; just deep! Other remarks: • no max pooling(almost) • no hidden fc • no dropout 13 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

CIFAR-10 experiments • Deep Res. Nets can be trained without difficulties • Deeper Res. Nets have lower training error, and also lower test error 14 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Image. Net experiments • Deep Res. Nets can be trained without difficulties • Deeper Res. Nets have lower training error, and also lower test error 15 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Image. Net experiments • A practical design of going deeper 16 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Image. Net experiments 10 -crop testing, top-5 val error (%) Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015. 17

Image. Net experiments Image. Net Classification top-5 error (%) Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015. 18

Exploring over 1000 layers • Test 1202 layers • Training is finished • Training error is similar • Testing error is high because of over fitting 19 Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015.

Conclusion • Deep Residual Learning: • Ultra deep networks can be easy to train • Ultra deep networks can gain accuracy from depth • Ultra deep representations are well transferrable • Now 200 layers on Image. Net and 1000 layers on CIFAR! 20

Reference • Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun. “Deep Residual Learning for Image Recognition”. ar. Xiv 2015. • Slides of Deep Residual Learning @ ILSVRC & COCO 2015 competitions 21

Thank You! 22