zh
姓名格式错误
公司名称格式错误
数据堂严格遵守用户隐私条款,您所填写的信息我们会严格保密,请放心填写~
来源: 数据堂
计算机视觉是关于如何对数字图像或视频进行高级语义理解的跨学科研究。它为机器提供了“看到”的智能,并需要实现人脑的视觉能力(主要是视觉皮层)。
想象一下,如果我们想为盲人设计指导产品,并且当盲人过马路时,系统摄像头将捕获以下图像,必须完成哪些视觉任务?
1.图像分类:对图像中出现的目标物的标签进行分类,例如图像中的人物、建筑物、街道和车辆数量。
2.目标检测数据集:从图像或视频中提取有趣的目标。对于盲目引导系统,所有类型的车辆,行人,交通标志和交通信号灯都是需要注意的对象。
3.语义图像分割:有必要在视野中划定车辆和道路。这需要语义图像分割技术作为在图像对象中描绘前景对象轮廓的支持。
4.场景文字识别:道路名称、绿灯倒计时秒数、商店名称等。这些文字对于实现盲目引导功能也至关重要。
以上内容涵盖了计算机视觉(CV)领域中的四个主要任务。简历领域主要有八项任务。其他四个主要任务包括:图像生成,人体关键点检测,视频分类和度量学习。
目标检测数据集如何运作
目标检测数据集定位图像中物体的位置,并在该物体周围绘制边界框,这通常涉及两个过程,分类物体类型,然后在该对象周围绘制一个框。现在让我们回顾一下用于目标检测数据集的一些常见模型架构:
R-CNN
该技术结合了两种主要方法:将高容量卷积神经网络应用于自下而上的候选区域,以便对物体进行局部化和分割,并监督辅助任务的预训练。接下来是特定领域的微调,从而产生高性能提升。
模型中的物体检测系统有三个模块:第一个负责生成与类别无关的候选区域,这些候选区域定义了模型检测器可用的候选检测器集;第二个模块是一个大型卷积神经网络,负责从每个区域提取固定长度的特征向量;第三个模块由一类支持向量机组成。
模型内部使用选择性搜索来生成区域类别,选择性搜索根据颜色、纹理、形状和大小对相似的区域进行分组。对于特征提取,该模型通过在每个候选区域上应用Caffe CNN(卷积神经网络)得到4096维特征向量,227×227 的RGB图像,通过五个卷积层和两个全连接层前向传播来计算特征。
Fast R-CNN
一种基于快速区域的卷积网络方法(Fast R-CNN)进行目标检测,它在Caffe(使用Python和C ++)中实现,该模型在PASCAL VOC 2012上实现了66%的平均精度,而R-CNN则为62%。
与R-CNN相比,Fast R-CNN具有更高的平均精度,单阶段训练,更新所有网络层的训练,以及特征缓存不需要磁盘存储。
在其结构中,Fast R-CNN将图像作为输入同时获得候选区域集,然后,它使用卷积和最大池化图层处理图像,以生成卷积特征图,在每个特征图中,对每个候选区域的感兴趣区域(ROI)池化层提取固定大小的特征向量。
这些特征向量之后将送到全连接层,然后它们分支成两个输出层,一个产生几个对象类softmax概率估计,而另一个产生每个对象类的四个实数值,这4个数字表示每个对象的边界框的位置。
Faster R-CNN
Faster R-CNN:利用候选区域网络实现实时目标检测数据集,提出了一种训练机制,可以对候选区域任务进行微调,并对目标检测数据集进行微调。
Faster R-CNN模型由两个模块组成:提取候选区域的深度卷积网络,以及使用这些区域FastR-CNN检测器, Region Proposal Network将图像作为输入并生成矩形候选区域的输出,每个矩形都具有检测得分。
Mask R-CNN
在此模型中,物体通过边界框和语义分割实现分类和局部化,语义分割是将图片中每个像素分类。该模型通过在每个感兴趣区域(ROI)添加分割掩模的预测来扩展Faster R-CNN, Mask R-CNN产生两个输出,类标签和边界框。
SSD: Single Shot MultiBox Detectorz
它是一种使用单个深度神经网络预测图像中物体的模型。网络使用特征图的小卷积滤波器为每个对象类别生成分数。
该方法使用前馈卷积神经网络,产生特定目标的一组边界框和分数,添加了卷积特征图层,允许在多个尺度上进行特征检测,在此模型中,每个特征图单元格都关联到一组默认边界框,下图显示了SSD512模型在动物,车辆和家具上的表现。
You Only Look Once (YOLO)
下图中展示的文章提出了一种单一的神经网络,可以在单次评估中预测图像中的边界框和类概率。
YOLO模型实时处理每秒45帧,YOLO将图像检测视为回归问题,这使得其管道非常简单因此该模型非常快。
它可以实时处理流视频,延迟小于25秒,在训练过程中,YOLO可以看到整个图像,因此能够在目标检测数据集中包含上下文。
在YOLO中,每个边界框都是通过整个图像的特征来预测的,每个边界框有5个预测,x,y,w,h和置信度,(x,y)表示相对于网格单元边界的边界框中心, w和h是整个图像的预测宽度和高度。
该模型通过卷积神经网络实现,并在PASCAL VOC检测数据集上进行评估。网络的卷积层负责提取特征,而全连接的层预测坐标和输出概率。
用于目标检测的数据增强策略
数据增强通过旋转和调整原始图片大小等方式来创建新图像数据。
虽然该策略本身不是模型结构,转换通常应用在训练中。转换是指可应用于转移到其他目标检测数据集的对象检测数据集。
在此模型中,增广策略被定义为在训练过程中随机选择的一组n个策略,在此模型中应用的一些操作包括颜色通道畸变,几何图像畸变,以及仅边界框注释中的像素畸变。对COCO数据集的实验表明,优化数据增强策略能够将检测精度提高超过+2.3平均精度,这允许单个推理模型实现50.7平均精度的准确度。
结论
现在,我们应该跟上一些最常见的——目标检测技术以及一些已在各种环境中应用的最新技术。技术的创新,不要自己设置限制,智能手机内也可以检测到目标。简而言之,我们需要不断探索和学习。