faster rcnn结构-白红宇

faster rcnn结构

阅读量：6840 次

发布时间：2019-06-26

本文共 557 字，大约阅读时间需要 1 分钟。

rpn-data层输入的是data即整张图片，然后是根据映射生成roi框

rpn-loss-bbox输入的才是整个网络预测的roi框

bbox_transform在rpn-data层使用，把生成的achor，并不是把预测的roi框回归

rpn_loss_bbox，论文中定义输入是ti和ti*，ti和ti*是4维向量，但ti和ti*并不是预测框坐标和gt框坐标（即左上右下）。ti应该是论文中的tx、ty、tw、th组成的向量，即（x-xa）/wa、（y-ya）/ha、 log(w/wa)、 log(h/ha)，也即是预测框和anchor的四个偏移值——中心点x偏移了多少、中心点y偏移了多少、宽度（比例）差了多少、高度（比例）差了多少。ti*是论文中的tx*、ty*、tw*、th*组成的向量，即（x*-xa）/wa、（y*-ya）/ha、 log(w*/wa)、log(h*/ha)，也即是gt框和anchor四个偏移值——中心点x偏移了多少、中心点y偏移了多少、宽度（比例）差了多少、高度（比例）差了多少。所以说，直接训练的并不是坐标值，而是偏移值。

stage1和stage2的第二部分都是由rpn生成roi，在这一阶段会增加一个proposal_layer层，这一层是把这些偏移值转换为roi框的坐标。

转载地址：http://ryzul.baihongyu.com/

你可能感兴趣的文章

过几天就要去公司报道了，记录一下这段时间找工作的经历....