Attention on Detection

Kyrie Chen 2021-01-10

注意力机制在NLP领域和机器翻译领域已取得了巨大成就，因此在引入视觉领域时，也是颇受期待。注意力机制可以理解为模仿人类观察画面的方式，会主要关注一些局部重要的信息来增进其对整体画面信息的理解能力。整体而言可以概括为两个方面：

Evolution by Yolo

Kyrie Chen 2020-12-16

对于图像中目标检测，最朴素的需求就是输入一张目标图像，输出图像中待检测目标物的位置，用bounding box形式输出，和该物体的类别，用类别标签标示。在Yolo出现之前，业界最优秀的方法是基于region proposal的R-cnn系列方法，包括rcnn、fast-rcnn和faster-rcnn。概括而言这一类的算法可以归纳成两步走的two-stage，首先通过经验手段或者elective search、rpn等方法来生成网络觉得可能会出现目标物体位置的region proposal，然后再将rp中提取到的信息通过网络，最后用分类来获得目标物体的类别，用回归来确定目标物体的bounding box位置。这种做法相对于之前其他的方法而言，大大提高了物体定位的准确率，但是也存在一个很大的问题就是处理速度慢。人们举过一个很生动的例子，如果将rcnn系列检测器放在一辆以60km/h疾驰的汽车上做物体检测，当输入一帧画面得到结果的时候，用rcnn的车子已经开出300m远，用fast-rcnn的也已经开出34m以上。因此rcnn系列算法在一些强调响应速度的应用上，会显得非常滞后。

Why Anchor Boxes

Kyrie Chen 2020-12-02

Anchor Box最早是在Faster-R-CNN中被提到使用，此后在SSD、YOLOv2、YOLOv3等一系列目标检测网络中被普遍使用。Anchor Boxes实质上是一组人为预先设定的检测尺寸框，各个anchor box之间都有各自不同的尺寸和长宽比，以适应不同的被检物体类别。

文字识别OCR方法综述与应用

Kyrie Chen 2020-10-10

Optical Character Recognition(OCR)，直译为光学字符识别，是从文本资料的图片或影印件当中进行文字内容识别，从而获得文字内容和版面信息的过程。早在DL热潮之前就有了一定研究，但依靠人工设定的中低层特征提取的方法所提取到的特征，往往处于一种低维度的粗糙状态，并且受到繁琐的前后处理过程影响。而DL带来的最大提升也是在于解决了特征提取的困境。在实践过程中，具体会体现在以下三个方面：

Sort & Deep Sort物体跟踪算法小议

Kyrie Chen 2020-09-25

Deep SORT是多目标跟踪Multiple Object Tracking(MOT)中常用到的一种算法，是一个基于检测的跟踪（Tracking-by-Detection）方法。主要任务是：给定一个图像序列，找到序列中运动的物体，并在不同帧之间保持同一物体的一致身份（ID）。

半监督学习在CV中的简述

Kyrie Chen 2020-09-13

当前的CV计算模式无论是早先的Machine Learning还是现在的Deep Learning解决方案，都是遵照着ML/DL expertise+Computation+Data的形式展开，其中ML/DL expertise代表着算法工程师们在特征工程、模型选择、模型设计、模型训练上的人为抉择，Computation是硬件承载这些方案的计算能力，而Data则是支撑所有解决方案进行的数据模块，包括参与训练的数据集和后续验证的数据集。但是在工业界，如果需要进行非常严谨的监督学习方法，针对Data而言，通常需要大量人力进行精细标注，成本高昂且周期较长。

什么是内卷

Kyrie Chen 2020-08-02

Essay

看电影，为了获得更好的视野，一个人先站起来看了，被他挡住的人不得不也站起来，最后大家都不得不站起来看电影，只有第一排的人坐着。

稀疏标签处理

Kyrie Chen 2020-04-07

Machine Learning

这类问题我们一般称之为“长尾问题”, 如按照 class frequency 排序, 可以将 frequency 较高的 class/label 称之为 head label, frequency 较低的 class/label 称之为tail label.