Batch Normalization Survey
Batch Normalization(以下用 BN 简称)旨在缓解深度网络中的“Internal Covariate Shift(内部协变量移位)”,对同一 mini‑batch 的特征做标准化,使得训练可使用更大的学习率并加快收敛,同时降低对初始化的敏感性。所谓内部协变量移位,是指随着层数加深、参数更新导致每层输入分布不断变化,进而增加优化难度。
Batch Normalization(以下用 BN 简称)旨在缓解深度网络中的“Internal Covariate Shift(内部协变量移位)”,对同一 mini‑batch 的特征做标准化,使得训练可使用更大的学习率并加快收敛,同时降低对初始化的敏感性。所谓内部协变量移位,是指随着层数加深、参数更新导致每层输入分布不断变化,进而增加优化难度。
我确实是没想到,以恒大为代表的一批一线房产商会在中国房地产市场崩溃前先行崩溃。恒大也好华夏也好,这些不在浙江房产基本盘内的房企最初在我这被熟知可能真得感谢中国足球。
2019年时,在NLP领域,以transformer为代表的一系列革新被应用于非监督学习中,并且衍变生成之后大名鼎鼎的BERT和GPT系列模型。而在CV领域,则没有能与之对应的更新。这时候FAIR的Kaiming He团队提出了Moco v1的构想,一举横扫了包括PASCAL VOC和COCO在内的7大数据集,至此,CV拉开了Self-Supervised的新篇章,与Transformer联手成为了深度学习炙手可热的研究方向。
注意力机制在NLP领域和机器翻译领域已取得了巨大成就,因此在引入视觉领域时,也是颇受期待。注意力机制可以理解为模仿人类观察画面的方式,会主要关注一些局部重要的信息来增进其对整体画面信息的理解能力。整体而言可以概括为两个方面:
对于图像中目标检测,最朴素的需求就是输入一张目标图像,输出图像中待检测目标物的位置,用bounding box形式输出,和该物体的类别,用类别标签标示。在Yolo出现之前,业界最优秀的方法是基于region proposal的R-cnn系列方法,包括rcnn、fast-rcnn和faster-rcnn。概括而言这一类的算法可以归纳成两步走的two-stage,首先通过经验手段或者elective search、rpn等方法来生成网络觉得可能会出现目标物体位置的region proposal,然后再将rp中提取到的信息通过网络,最后用分类来获得目标物体的类别,用回归来确定目标物体的bounding box位置。这种做法相对于之前其他的方法而言,大大提高了物体定位的准确率,但是也存在一个很大的问题就是处理速度慢。人们举过一个很生动的例子,如果将rcnn系列检测器放在一辆以60km/h疾驰的汽车上做物体检测,当输入一帧画面得到结果的时候,用rcnn的车子已经开出300m远,用fast-rcnn的也已经开出34m以上。因此rcnn系列算法在一些强调响应速度的应用上,会显得非常滞后。
Anchor Box最早是在Faster-R-CNN中被提到使用,此后在SSD、YOLOv2、YOLOv3等一系列目标检测网络中被普遍使用。Anchor Boxes实质上是一组人为预先设定的检测尺寸框,各个anchor box之间都有各自不同的尺寸和长宽比,以适应不同的被检物体类别。
Optical Character Recognition(OCR),直译为光学字符识别,是从文本资料的图片或影印件当中进行文字内容识别,从而获得文字内容和版面信息的过程。早在DL热潮之前就有了一定研究,但依靠人工设定的中低层特征提取的方法所提取到的特征,往往处于一种低维度的粗糙状态,并且受到繁琐的前后处理过程影响。而DL带来的最大提升也是在于解决了特征提取的困境。在实践过程中,具体会体现在以下三个方面: