这篇文章主要介绍“PANet的相关知识点有哪些”,在日常操作中,相信很多人在PANet的相关知识点有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”PANet的相关知识点有哪些”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
创新互联建站是一家集网站建设,陆丰企业网站建设,陆丰品牌网站建设,网站定制,陆丰网站建设报价,网络营销,网络优化,陆丰网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
PANet 是基于Mask R-CNN进行改进后的网络,改进的三个点分别为:
原始 Mask R-CNN 没有很好地利用低层信息。高层的 Feature maps 关注物体整体,低层的 Feature maps 关注物体的纹理图案。使用低层的信息可以对物体进行更好地定位。对此 PANet 增加了 Bottom-up Path Augmentation(整体结构图中的b. ),将低层的信息又传导到高层中去,同时减少了高层到低层的信息流通需要穿过的卷积层数。
原 RoI Pooling 只在最后一层上提取信息,而 PANet 则使用Adaptive Feature Pooling(AFP,整体结构图中的 c.)同时对多个层级进行 RoI Pooling ,将多层级的信息整合后进行预测。
最终的 Mask 预测分支融合了 FCN 式的预测和 fully-connected 式的预测,前者关注局部,后者关注整体Context信息,从而提升最终 Mask 的质量。
下图是PANet的整体结构:
绿色的虚线表示PANet增加 b. 后,高层信息和输入之间跨越的卷积层数更少了,对比红色虚线可能要经过上百个卷积层(参见ResNet Block1~4),信息流通更顺畅。
1、Bottom-up Path Augmentation
整体结构图中 N2=P2,N3~N5 都是通过下面的卷积结构计算得来。
2、Adaptive Feature Pooling
在 FPN 中,不同大小的物体被分给不同的层,比如最小的分给P2,最大的分给P5。这个处理方式很简单有效,但不一定得到最佳的结果,例如大小相差10像素的物体可能就被分到不同的层上了。为了得到更优的结果,PANet 索性将每个Proposal 在N2~N5对应区域(结构图b. 灰色区域)的特征都用上,具体使用方法为:
1、使用 RoIAlign 对其进行提取得到 4 组相同shape的特征图。
2、对4组特征进行融合,可以是sum、max、product。
3、使用融合后的特征图进行分类、bbox预测、mask预测。
上述过程在bbox分支和mask分支上执行时有所不同:
bbox分支
如下图所示,bbox分支的具体AFP计算过程如下:
1、先RoIAlign得到等尺寸的4个Feature map
2、使用同一个全连接层对4个 Feature map 分别计算
3、将4组特征进行融合
4、再用一个全连接层计算得到分类和bbox回归的结果。
mask分支
mask 分支有4个卷积层,特征融合操作在conv1后进行,具体计算过程如下:
1、先RoIAlign得到等尺寸的4个Feature map
2、使用conv1对4个 Feature map 分别计算
3、将4组特征进行融合
4、使用融合后的特征进行计算后得到最终的mask预测结果。
在AFP中还有个细节:
特征融合应该使用哪一种操作?经过试验验证,使用 max 进行特征融合效果较好。
AFP是否真的有效呢?论文中使用max作为融合函数后分析发现,对于原本应该分别分配给N2~N5(对应下图level1~4)的 proposals,max函数提取到的特征其实大多数都不来自本层,例如level4(N5)只用到了来自level4 40%的特征,也就是说,通过AFP使得模型在预测时综合利用了N2~N5的特征,而最后的实验结果表明这的确带来了不少提高。
3、Mask 分支 FCN+Fully-connected 的融合
在 FCN 和 Fully-connected 的融合上,需要确定 Fully-connected 层选择哪一层进行输入,以及如何将二者的结果进行融合。通过实验发现,conv3作为 Fully-connected 层的输入、sum作为融合函数效果较好。
4、其它细节
对于多尺度训练,设置长边为1400,其他的在400-1400之间。
对于多GPU同步BN, 在一个batch前计算所有样本的均值和方差,一起更新,而不是batch里面一张一张更新。
heavier head,与 RetinaNet 类似使用4个连续的 3×3 卷积而不是使用fc层,不同的是box分类和box回归参数共享。
Multi-scale Training & Multi-GPU Sync. BN 这两个技术帮助网络收敛的更好,泛化能力更强。
Bottom-up Path Augmentation 无论是否使用自适应池化卷积。自下而上增强路径提高了预测mask的表现。这验证了低层特征信息的有效性。
Adaptive Feature Pooling 无论是否使用自下而上的增强路径。自适应池化滤波都不断提升性能。其他层的特征对最终预测是有用的。
Fully-connected Fusion:全连接融合目的是提高mask预测的质量。这对于所有尺度都适用。
Heavier Head:对于bbox训练非常有效,对于mask预测效果一般。
到此,关于“PANet的相关知识点有哪些”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!