博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
faster rcnn结构
阅读量:6840 次
发布时间:2019-06-26

本文共 557 字,大约阅读时间需要 1 分钟。

rpn-data层输入的是data即整张图片,然后是根据映射生成roi框

rpn-loss-bbox输入的才是整个网络预测的roi框

bbox_transform在rpn-data层使用,把生成的achor,并不是把预测的roi框回归

 

 

rpn_loss_bbox,论文中定义输入是ti和ti*,ti和ti*是4维向量,但ti和ti*并不是预测框坐标和gt框坐标(即左上右下)。ti应该是论文中的tx、ty、tw、th组成的向量,即(x-xa)/wa、(y-ya)/ha、 log(w/wa)、 log(h/ha),也即是预测框和anchor的四个偏移值——中心点x偏移了多少、中心点y偏移了多少、宽度(比例)差了多少、高度(比例)差了多少。ti*是论文中的tx*、ty*、tw*、th*组成的向量,即(x*-xa)/wa、(y*-ya)/ha、 log(w*/wa)、log(h*/ha),也即是gt框和anchor四个偏移值——中心点x偏移了多少、中心点y偏移了多少、宽度(比例)差了多少、高度(比例)差了多少。所以说,直接训练的并不是坐标值,而是偏移值。

stage1和stage2的第二部分都是由rpn生成roi,在这一阶段会增加一个proposal_layer层,这一层是把这些偏移值转换为roi框的坐标。

 

转载地址:http://ryzul.baihongyu.com/

你可能感兴趣的文章
过几天就要去公司报道了,记录一下这段时间找工作的经历....
查看>>
我的友情链接
查看>>
什么是p2p流媒体技术?
查看>>
KVM虚拟机快照研究(一)
查看>>
我的友情链接
查看>>
yeelink在PX2上的运用(远程控制)
查看>>
IOS GCD之Block
查看>>
响应式 Web 设计必备的 12 款 CSS 框架
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
Java中ArrayList和LinkedList区别
查看>>
css渐变
查看>>
安全漏洞影响的电子邮件地址
查看>>
linux超级基础系列——什么是shell? bash和shell有什么关系?
查看>>
硬件发展历史
查看>>
写一个迷你版Smarty模板引擎,对认识模板引擎原理非常好(附代码)
查看>>
OC中归档与解归档
查看>>
配置与管理DNS服务器
查看>>
linux程序包管理之源码编译安装
查看>>
Eureka Server
查看>>