-
神经科学研究表明,人眼视觉系统具有明显的方向选择性机制,而且为了实现对场景的感知与理解,人眼视觉系统利用方向选择性机制从场景中提取图像的结构信息。因此,方向选择性机制揭示了人眼视觉系统关于图像结构特征提取的基本过程。
当人眼视觉系统感知图像场景时,初级视觉皮层神经元呈现出很强的方向选择性[17-19]。视觉系统正是利用方向选择性机制提取场景中的结构信息以实现对场景的感知与理解。方向选择性机制主要起源于初级视觉皮层中局部感受野内神经元对“视觉刺激”响应的空间排列方式及其相互作用[20]。神经元对“视觉刺激”有两种截然不同的响应,即“兴奋”和“抑制”,而且两种响应相互作用。如果神经元响应方向与中心神经元响应方向相同或相似,那么该神经元呈现出“兴奋”响应。相反,如果神经元响应方向与中心神经元方向不同,那么该神经元更可能呈现“抑制”响应。图1所示为神经元“兴奋”与“抑制”响应之间的相互作用示意图。第2、3、5、7个神经元与中心神经元(最下方)之间的响应关系是“兴奋”,因为这些神经元具有相似的响应方向。与之相反,第1、4、6、8个神经元与中心神经元之间的响应关系是“抑制”,因为它们具有不同的响应方向。
-
受方向选择性机制启发,文中利用图像中像素的梯度方向模拟神经元的响应方向,根据相邻像素梯度方向之间的相互关系设计方向选择视觉模式,以分析图像的结构。
对于给定的图像
$ I $ ,像素$ x $ 的视觉结构可以利用该像素$ x $ 的梯度方向与其圆形邻域像素$ X = \{ {x_1},{x_2},\cdots,{x_n}\} $ 的梯度方向之间的相互关系来表示:$$ VP(x|X) = A(I(x|X)) = A(I(x|{x_1},{x_2},\cdots,{x_n})) $$ (1) 式中:
$ VP(x|X) $ 表示像素$ x $ 的视觉结构;$ A $ 表示各像素梯度方向的空间关系排列模式,$ I(x|X) $ 表示像素$ x $ 与邻域像素$ {x_i} \in X $ 之间以及邻域像素$ {x_i} \in X $ 之间梯度方向之间的相互关系。每个神经元通过突触与其周围大量神经元连接在一起,神经元之间的相互作用关系极其复杂,还不能完备地表示出来。为了有效地分析方向选择性机制,简化处理复杂的方向选择性机制,Hubel[18]和Ferster[19]研究了中心神经元和与其周围有信息传递的神经元之间的关系,得出中心神经元与其周围神经元之间的突触传递信息,即兴奋和抑制,这种简化方向选择性机制分析模型是合理、可计算的,并在实验中得到了验证[18-19],视觉系统的信息传递主要集中在中心神经元与邻域神经元之间。
受这种方向选择性分析方法启发,文中对圆形邻域内各像素
$ {x_i} \in X $ 响应方向之间的相互关系不予考虑,仅考虑中心像素$ x $ 与其圆形邻域像素$ {x_i} $ 之间的相互关系模拟方向选择性机制。因此,公式(1)可简化为:$$ VP(x|X) = A(I(x|X)) \approx A(I(x|{x_1},x|{x_2},\cdots,x|{x_n})) $$ (2) 式中:
$ I(x|{x_i}) $ 表示中心像素梯度方向与圆形邻域像素$ {x_i} $ 梯度方向之间的相互关系。神经元对输入场景有两种截然不同的响应,即“兴奋”和“抑制”,两种类型的响应相互作用共同刻画场景中的结构信息。突触可塑性研究表明,“兴奋”与“抑制”两种响应类型由两神经元响应方向之间的相似性决定。文中将像素的梯度方向作为神经元的响应方向,通过比较中心像素与其圆形邻域像素之间梯度方向的相似性模拟对应神经元的“兴奋(‘1’)”或“抑制(‘0’)”响应对
$ I(x|{x_i}) $ 的建模。对于输入图像
$ I $ ,首先计算各个像素垂直和水平方向梯度幅值,然后结合两个方向上梯度幅值计算像素的梯度方向。$$ \theta (x,y) = \arctan \left( {\frac{{{G_v}(x,y)}}{{{G_h}(x,y)}}} \right) $$ (3) $$ {G_v} = I * {F_v} \text{,} {G_h} = I * {F_h} $$ (4) 式中:
$ \theta (x,y) $ 为图像$ I $ 中像素$ (x,y) $ 处的梯度方向;$ {G_v} $ 、$ {G_h} $ 为分别为图像$ I $ 垂直和水平方向梯度幅值,利用如下Prewitt算子计算得到。$$ {F_h} = \frac{1}{3}\left[ {\begin{array}{*{20}{c}} 1&1&1 \\ 0&0&0 \\ { - 1}&{ - 1}&{ - 1} \end{array}} \right] {F_v} = \frac{1}{3}\left[ {\begin{array}{*{20}{c}} 1&0&{ - 1} \\ 1&0&{ - 1} \\ 1&0&{ - 1} \end{array}} \right] $$ (5) 利用圆形邻域像素与其中心像素之间梯度方向的相似性对
$ I(x|{x_i}) $ 建模,表征神经元响应之间的相互关系(“兴奋”与“抑制”)。$$ I(x|{x_i}) = \left\{ \begin{gathered} 1,{\rm{if}}\left| {\theta (x) - \theta ({x_i})} \right| \leqslant T \hfill \\ 0,{\rm{else}} \hfill \\ \end{gathered} \right. $$ (6) 式中:“1”表示“兴奋”响应;“0”表示“抑制”响应;
$ T $ 表示方向相似性阈值。当两个像素梯度方向差的绝对值小于该阈值时,认为这两个像素的梯度方向相似或一致。$ T $ 的大小将影响方向选择性视觉模式构建,进而影响图像背景杂波建模的精度。Campbell[21]在研究人类视觉系统方向选择性机制时,通过分析不同角度的相邻光栅方向人眼视觉掩盖效应主观测试结果,对方向相似性阈值进行了研究。研究结果表明:两相邻光栅,如果具有相同的方向,则两个光栅的掩盖效应会很强,认为两个光栅方向完全相同;随着两光栅之间方向差异的不断增加,两光栅的掩盖效应迅速下降;当两光栅方向差大于一定的阈值(12º)后,两光栅的掩盖效应变得很弱,人眼视觉系统很容易区分出相邻光栅之间的方向差异。文中也是利用人眼视觉系统对图像中两像素梯度之间方向差异进行感知,满足视觉掩盖效应。因此,
$ T $ 的取值参考了Campbell[21]的研究结果。考虑到两个像素之间方向差异的正负性,而且在公式(6)中方向差取绝对值,因此将$ T $ 设置为6º,通过实验也验证了将$ T $ 设置为6º是合适的。公式(6)即可用于表征中心像素与其圆形邻域像素梯度方向之间的相互关系,模拟局部感受野中神经元“兴奋”与“抑制”响应之间的相互作用,构建中心像素的方向选择性视觉模式二进制编码,从而表征图像中的结构信息。以中心像素及其圆形8-邻域为例,方向选择性视觉模式的提取过程如图2所示。通过比较中心像素与其圆形邻域像素之间梯度方向之间的相似性,即可对中心像素的视觉模式进行二进制编码,得到方向选择性视觉模式,辅助人眼视觉系统完成对场景结构的提取与理解。
-
人眼视觉系统具有高度的结构自适应性,对结构规则的的图像区域高度敏感,非常善于提取图像的结构信息并用来解读图像中的内容能,能够将注意力不经意地集中到结构规则性强的目标上[22],最近关于视觉感知的研究成果[23-24]也证明了这一点。人眼视觉系统通过内在推导机制完成视觉信息处理,首先感知理解图像中结构规则性强的区域,然后利用内在推导机制去理解感知图像中结构规则性弱的区域。图像结构规则性强的区域内容变化是有序的、可预测的,而不规则区域的内容是不确定的、不可预测的。对于结构极不规则的区域,人眼视觉系统会将其视为噪声而被忽略。
因此,在目标探测识别图像中,人眼视觉系统会无意识地分配更多的精力提取图像的结构信息。探测识别的目标多为人造目标,如坦克、装甲车、建筑物等,它们的结构具有一定的规则性。背景杂波一般为自然场景,即使杂波整体轮廓与目标具有一定的相似性,但其结构具有不规则性,如草地、树木等具有杂乱而又不确定的结构,即结构规则性差。因此,当视觉系统处理输入场景时,能快速地将视觉关注集中到结构规则性强目标区域,进而对其进行下一步的探测与识别。对于结构规则性差或没有结构规则的区域,视觉系统往往只是提取它们的大体轮廓结构信息而忽略其具体细节。如树木背景,视觉系统会很自然地忽略树干与树枝的具体结构,而仅分配了少量的注意到其轮廓结构上。
图3(a)为坦克目标图像,图3(b)、(c)分别为草地背景杂波和树木背景杂波图像。从直观上看,人眼视觉系统可以很容易地提取出坦克图像的结构特征,以实现对目标的感知与理解。对于背景杂波图像,人眼视觉系统提取其结构信息的任务变得几乎不可能,仅仅感受到其整体轮廓和结构的杂乱无章,更不可能感知到杂波内的具体细节结构。进一步,图3(d)~(f)为上述三幅图像对应的方向选择性视觉模式结构图,尽管坦克图像中的炮管与背景灰度相似,但在视觉模式结构图中仍然能够清楚地看到炮管的结构(请将图放大后观察)。可以看出图3(d)与图3(e)~(f)具有很大的差别,与主观视觉感知结果一致,验证了方向选择性视觉模式能有效表征不同视觉内容的图像结构信息。
-
图像中各像素方向选择性视觉模式种类数量取决于中心像素的圆形邻域
$ {X = \left( {{x_{\text{1}}},{x_{\text{2}}},\cdots,{x_n}} \right)} $ 内的像素数量(即n的大小),而且随着n的增大,视觉模式的种类数量呈指数方式递增。因此,即使对一个较小的局部区域,视觉模式的种类数量也很大。例如,对于一个圆形8-邻域区域,中心像素的视觉模式种类数量高达256种,相应的直方图维度也较高。高维度的视觉模式不但增加了计算量,而且不利于图像结构表征和杂波度量。因此,有必要采用合理可行的措施对视觉模式进行降维,使视觉模式计算效率更高。为了减少方向选择性视觉模式的种类数量,对所有类型的视觉模式之间的关系进行了研究,并提出一种切实可行的视觉模式降维方案。实验中发现,在这些视觉模式中,具有相同数量的“1”的视觉模式往往表现为相同或相似的图像结构特征。例如,VPcode=10000000和VPcode=00010000,这两种视觉模式中都只有1个“1”,在视觉上表现出相似的图像结构。根据方向选择性视觉模式的定义,这种视觉模式更可能出现在结构杂乱区域(不平滑或结构无规律)。换句话说,某一视觉模式中如果有更少的“1”(如0,1,2个等),则表明该视觉模式所在区域一般是结构杂乱无规则区域。进一步,VPcode= 11101111和VPcode=01111111,两种视觉模式中都有1个“0”和7个“1”,这种模式更可能出现在同质区域(光滑区域或结构规则区域)。换句话说,某一视觉模式中如果有更多的“1”(如6,7,8个等),则表明该视觉模式所在区域一般是结构规则或同质/平滑区域。因此,文中提出根据视觉模式中“1”的数量对视觉模式进行合并。对于圆形n-邻域(邻域内像素个数为n),图像中所有可能类型的视觉模式被合并为(n+1)种,大大减少了视觉模式的种类数量。例如圆形8-邻域区域,视觉模式种类数量由原来的256种合并减少为9种。
图4所示为利用降维前后的视觉模式(8-邻域)对目标坦克图像所提取的视觉模式结构。图4(a)为目标坦克图像,图4(b)为降维前的视觉模式结构,图4(c)为降维后的视觉模式结构。通过比较图4(b)和图4(c),可以看出图4(b)中几乎全部的图像结构特征都可以用降维后的9种视觉模式表征。
图 4 坦克图像降维前后视觉模式图
Figure 4. Directional selectivity vision pattern (before/after dimension reduction)
图5(a)为图3(a)~(c)三幅图像的方向选择性视觉模式直方图(8-邻域,降维后)。可以看出,三幅图像的视觉模式直方图各不相同,其中坦克图像与树木杂波图像之间的直方图差异最大(0.5111)。由于坦克图像的灰度与草地杂波图像灰度相似,而且坦克图像中有部分草地背景(上端部分)与图1(b)草地杂波图像完全相同,故坦克图像与草地杂波图像之间的直方图差异(0.1434)不如坦克图像与树木杂波图像之间的直方图差异大,但两者之间直方图差异仍然显而易见。直方图之间的差异与视觉感知一致,进一步验证了在该直方图空间中度量背景杂波与目标之间的差异是有效的。
图 5 坦克图像与杂波图像直方图差异
Figure 5. The difference between visual pattern histograms of tank image and background clutter
图5(b)为图3(a)~(c)三幅图像的对比度加权视觉模式直方图,文中提出的杂波度量方法考虑了人眼视觉系统对图像对比度敏感,将对比度作为权重因子,视觉模式直方图加权,将结构信息和对比度信息统一。从图中可以看出,坦克图像与树木杂波图像之间的对比度加权直方图差异最大(0.5198),坦克图像与草地杂波图像之间的对比度加权直方图差异(0.2852)小于前者,但这种度量更符合人眼的视觉感知特性。
总的来说,在光电成像探测中,目标一般为人造物体,背景杂波一般为自然场景,两者在图像结构空间中有很大的差异。方向选择性视觉模式可以有效表征不同内容的图像结构,通过合并具有相同数量“1”的视觉模式可以使模式的维度大大减小。将图像对比度作为权重因子构造对比度加权的视觉模式直方图能有效表征人眼对图像结构和对比度敏感这两种特性。因此,在加权直方图空间中衡量背景杂波与目标的差异能更好的符合人眼视觉特性。
-
图像结构特征一般利用对应的直方图来表征,因此文中将图像方向选择性视觉模式映射成对应的直方图来表征图像结构信息。人眼视觉系统对亮度、亮度对比度、边缘、角点(拐点)、梯度等信息敏感,杂波建模时,应将其作为权重因子予以考虑。考虑到文中关注的是目标探测识别,人眼对度亮度变化更加敏感,因此选择亮度对比度作为权重,另外,文中也是利用图像的梯度幅值来估计图像亮度对比度,在一定程度上既体现了图像的亮度变化,又体现了图像的梯度信息,相对单独使用亮度、角点、边缘等信息更具有优势。
为了突出对比度大的像素对杂波表征的贡献,弱化对比度小的像素对杂波表征的贡献,在构建方向选择性视觉模式直方图时,将亮度对比度作为权重,对直方图加权(即像素的对比在在直方图对应的bin上累加),将图像的结构信息和对比度信息统一到权直方图中。最后在加权直方图空间中度量背景杂波与目标之间的差异来对背景杂波建模。
文中利用图像的梯度幅值来估计图像亮度对比度,按照公式(7)计算:
$$ {{w_{ij}} = \max (\frac{{\text{1}}}{{{\text{16}}}}I * {F_{n = {\text{1,2,3,4}}}}}) $$ (7) 式中:
$ I $ 表示图像;$ {{F_{n = {\text{1,2,3,4}}}}} $ 为图6所示的梯度滤波器。考虑到Sobel、Prewitt梯度滤波器尺寸较小(3×3),并且只考虑了水平和垂直两个方向上的灰度变化,这样将导致所提取的梯度信息不充分。为此,选取具有4个方向并且尺寸更大的梯度滤波器,可以使获得的梯度信息更加符合人眼视觉特性。计算出图像亮度对比度后,将对比度作为权重因子,对方向选择性视觉模式直方图加权,得到对比度加权的方向选择性视觉模式直方图。
$$ {H_{w,t}^{VP}\left( b \right) = \frac{{\text{1}}}{{mn}}\sum\limits_{i = {\text{0}}}^{m - {\text{1}}} {\sum\limits_{j = {\text{0}}}^{n - {\text{1}}} \omega } ({x_{ij}}) \cdot f\left( {VP\left( {{x_{ij}}} \right),b - {\text{1}}} \right)} $$ (8) $$ {f\left( {VP\left( {{x_{ij}}} \right),b - {\text{1}}} \right) = \left\{ \begin{gathered} 1,{\rm{if}}(VP({x_{ij}})) = b - {\text{1}} \hfill \\ 0,{\rm{else}} \hfill \\ \end{gathered} \right.} $$ (9) 式中:
$ b $ 表示直方图中bin的索引;$ {t \in T,C} $ 表示目标区域或背景杂波区;$ {x_{ij}} $ 表示位置$ (i,j) $ 处的像素,$ H_{w,t}^{VP}\left( b \right) $ 表示目标图像或杂波图像的对比度加权视觉模式直方图;m、n表示目标区域或背景杂波区域的宽度和高度;$ \omega ({x_{ij}}) $ 表示目标区域或背景杂波区域的亮度对比度。在实验中发现,对于较大的n值(圆形邻域中像素个数),计算复杂度会显著增加,但对于提升背景杂波表征精度贡献有限。因此,文中n的值设置为8。相应地,对比度加权直方图中bin的数量为9。通过公式(8),更强调背景杂波或目标区域中对比度大的像素对杂波表征的贡献,而且将图像的结构信息和对比对信息统一表示在一个公式中,有效地表征了人眼对图像结构和亮度对比度敏感这两种特性。
-
上一节已经建立了对比度加权的方向选择性视觉模式直方图,在对比度加权直方图空间中度量背景杂波与目标之间的差异来对杂波量化与建模。
$$ {S\left( {T,C} \right) = 1 - \sum\limits_{b = 1}^B {\frac{{{\text{2}} \times H_{w,T}^{VP}\left( b \right) \cdot H_{w,C}^{VP}\left( b \right)}}{{H_{w,T}^{VP}{{\left( b \right)}^{\text{2}}} + H_{w,C}^{VP}{{\left( b \right)}^{\text{2}}} + \varepsilon }}} } $$ (10) 式中;
$ B $ 表示直方图中bin的数量;$ T $ 表示目标区域;$ C $ 表示背景杂波区域;$ S\left( {T,C} \right) $ 表示背景杂波与目标之间的差异;$ \varepsilon $ 为防止分母为零的小常数。基于方向选择性机制的背景杂波度量方法具体步骤如下。
(1) 目标区域提取。将目标区域
$ T $ 从图像中提取出来,设其尺寸为m×n;(2) 图像分块。将背景图像划分为N个背景小单元
$ {C_i} $ ,每个背景小单元在水平和垂直方向均与目标区域尺寸相等,背景小单元之间水平和垂直方向无重叠;(3) 按照公式(8),分别提取目标区域
$ T $ 和背景小单元$ {C_i} $ 的对比度加权直方图;(4) 按照公式(10),在对比度加权直方图空间中计算目标块
$ T $ 与背景小单元$ {C_i} $ 之间的差异;(5) 计算整幅图像的背景杂波值。按照公式(10)、(11),统计所有背景小单元
$ {C_i} $ 与目标区域$ T $ 之间差异的均方根或均值。$$ {C_{SRrms}} = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {{{(S\left( {T,{C_i}} \right))}^2}} } $$ (11) $$ {C_{SRavg}} = \frac{1}{N}\sum\limits_{i = 1}^N {S\left( {T,{C_i}} \right)} $$ (12) 式中:N为背景小单元
$ {C_i} $ 的数量。 -
为验证文中给出的图像杂波表征方法的有效性,利用荷兰国家应用科学院(TNO)所提供的Search_2图像数据库[25-26]对文中方法进行相关实验验证。Search_2图像数据库包含不同复杂场景的数字图像,每幅图像中包含军事目标,并且包括由64名专业观察者参与的对每幅图像的视觉搜索和探测心理物理学实验结果。
为了验证文中方法的优势,实验中选择了五种常用的背景杂波表征方法与文中方法进行了对比。对比方法包括统计方差度量(SV)[3]、目标结构相似性杂波度量(TSSIM)[8]、基于边缘概率密度的杂波度量(POE)[6]、基于人眼视觉特性的图像结构差异性杂波度量(VSD)[10]、引入梯度分布特征的图像背景杂波度量(ESSIM)[12]。采用均方根误差(RMSE)、Pearson线性相关系数(PLCC)、Spearman秩相关系数(SRCC)三个指标来度量基于杂波的目标获取性能预测值与主观实验真值的一致性,以衡量背景杂波度量方法的合理性及有效性。其中PLCC、SRCC越大越好,REMS越小越好。三个评价指标的具体定义可参考文献[12]。
通过计算基于杂波度量的目标获取预测性能与主观观察者目标获取性能(探测概率(PD)、虚警概率(FD)、目标搜索时间(ST))之间的误差和相关性来评价杂波度量的有效性。采用美国空军 Wilson提出的目标获取性能预测模型作为目标探测概率预测模型、目标虚警概率预测模型、目标搜索时间预测模型[27],定义如下:
$$ P{D_{pred}} = {{{{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E}} \mathord{\left/ {\vphantom {{{{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E}} {(1 + {{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E})}}} \right. } {(1 + {{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E})}} $$ (13) $$ P{F_{pred}} = A - {{{{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E}} \mathord{\left/ {\vphantom {{{{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E}} {(1 + {{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E})}}} \right. } {(1 + {{({C \mathord{\left/ {\vphantom {C {{C_{50}}}}} \right. } {{C_{50}}}})}^E})}} $$ (14) $${T_{pred}} = x \cdot C + y 或 {T_{pred}} = {x \mathord{\left/ {\vphantom {x {(C + y)}}} \right. } {(C + y)}} $$ (15) 式中:
$ C $ 为待比较的不同杂波度量值;$ A $ 为Search_2数据库中每幅图像的总探测概率,相应值为 0.998[26];$ {C_{50}} $ 为50%探测概率下对应的杂波度量值。$ E $ 、$ {C_{50}} $ 、$ x $ ,$ y $ 为待优化参数,可根据杂波度量值与实际目标获取性能值,利用最小二乘法或非线性优化拟合获取。对于目标搜索时间预测模型(公式(14)),当目标搜索时间与杂波度量值的大小成正比时,使用正比例公式(前者);成反比时,使用反比例公式(后者)。 -
利用SV、TSSIM、POE、VSD、ESSIM及文中提出的杂波度量SR分别对Search_2数据库中的图像进行杂波估计。利用计算得到的杂波值
$ C $ 以及Search_2数据库提供的人眼主观测试数据(PD、PF、ST作为真值)对相应的目标获取性能预测模型(即公式(12)~(14))进行拟合,得到对应参数$ E $ 、$ {C_{50}} $ 、$ x $ ,$ y $ 的值以及杂波预测的目标探测概率$ P{D_{pred}} $ 、目标虚警概率$ P{F_{pred}} $ 、目标搜索时间$ S{T_{pred}} $ 。利用目标获取性能预测值($ P{D_{pred}} $ 、$ P{F_{pred}} $ 、$ S{T_{pred}} $ )以及Search_2数据库提供的主观目标获取性能真值($ PD $ 、$ PF $ 、$ ST $ )即可计算对应的评价指标PLCC、SRCC、RMSE。表1、表2、表3分别为基于杂波度量的PD 、 PF 、 ST的误差分析和相关性分析实验结果。表 1 各杂波度量方法与目标探测概率之间相关性
Table 1. Correlation between detection probability and clutter models
Clutter metric C50 E PLCC SRCC RMSE SV 3.8739 4.0679 0.4196 0.6432 0.1513 TSSIM 0.2529 −3.9987 0.5799 0.7100 0.1357 POE 121.3247 0.7772 0.4446 0.6398 0.1387 VSD 0.0879 3.0248 0.751 0.752 0.0718 ESSIM 0.6204 18.9565 0.870 0.806 0.0569 SRrms 0.9732 14.0322 0.879 0.813 0.0541 SRavg 0.8569 16.8765 0.883 0.815 0.0549 表 3 各杂波度量与目标搜索时间之间相关性
Table 3. Correlation between search time and clutter models
Clutter metric x y PLCC SRCC RMSE SV 8.3006 −2.0684 0.4635 0.6583 3.9075 TSSIM 0.5255 −0.7245 0.4230 0.7562 3.2510 POE 995.56 58.4036 0.6156 0.7505 3.8601 VSD 0.779 −0.0633 0.756 0.5280 3.1501 ESSIM 0.5792 −0.6074 0.897 0.5950 2.1287 SRrms 0.7654 −0.7621 0.881 0.6045 2.1143 SRavg 0.8012 −0.8104 0.875 0.6051 2.1138 表1列出了利用各背景杂波评估得到的目标探测概率与实际主观探测概率之间的相关性及均方根误差的统计结果。SV、POE、TSSIM的RMSE都较大,分别为0.1513、0.1387、0.1357,且PLCC和SRCC较其他方法都低,表明SV、POE、TSSIM杂波度量与主观数据一致性差。VSD和ESSIM的RMSE、PLCC和SRCC系数都优于前三种杂波度量,表明利用VSD和ESSIM所预测的目标探测概率准确度较高。但是文中提出的杂波度量SRrms、SRavg的PLCC和SRCC比其他五种杂波度量都高,PLCC为0.879 (SRrms)、0.883 (SRavg),SRCC为0.813 (SRrms)、0.815 (SRavg),而且RMSE也最小,分别为0.0541(SRrms)、0.0549(SRavg),表明利用文中的杂波度量预测的探测概率与主观探测概率一致性最好。
表 2 各杂波度量方法与目标虚警概率之间相关性
Table 2. Correlation between false probability and clutter models
Clutter metric C50 E PLCC SRCC RMSE SV 5.9179 2.6791 0.5924 0.5366 0.0762 TSSIM 0.7002 15.7001 0.6910 0.5450 0.0830 POE 4.5127 0.7856 0.6180 0.5541 0.0821 VSD 0.0815 2.7751 0.809 0.774 0.0511 ESSIM 0.6003 14.2259 0.845 0.832 0.0459 SRrms 0.8761 8.8754 0.842 0.832 0.0451 SRavg 1.5422 6.6767 0.845 0.834 0.0462 表2列出了利用各背景杂波评估得到的目标虚警概率与实际主观虚警概率之间的相关性及均方根误差的统计结果。同目标探测概率预测结果类似,SV、POE、TSSIM在PLCC、SRCC、RMSE方面仍然是最差的杂波度量方法。ESSIM与VSD在预测虚警概率方面性能处于中等水平,而文中提出的杂波度量SRrms、SRavg预测的虚警概率与主观数据误差最小,分别为0.0451(SRrms)、0.0462(SRavg),而且相关性也较高,PLCC为0.842(SRrms)、0.845 (SRavg),略低于ESSIM。SRCC为0.832(SRrms),0.834 (SRavg),优于其他方法。
表3列出了利用各背景杂波评估得到的目标搜索时间与实际主观搜索时间之间的相关性及均方根误差的统计结果。总的来说,各杂波度量所预测的搜索时间在相关性方面(PLCC/SRCC)和均方根误差(RMSE)方面普遍低于探测概率和虚警概率的相关性和均方根误差,而且RMSE也比较大。主要是因为在Search_2数据库中,不同观察者所给出的主观搜索时间相差很大。SV、POE、TSSIM仍然是性能最差的杂波度量方法,文中提出的杂波度量SRrms、SRavg在SRCC和RMSE方面好于其他五种杂波方法,SRCC为0.6045 (SRrms)、0.6051 (SRavg),RMES为2.1143(SRrms)、2.1138(SRavg),在PLCC方面比ESSIM差,PLCC为0.881(SRrms)、0.875(SRavg),但好于其余四种杂波方法。
综上所述,文中提出的杂波度量方法在预测探测概率和虚警概率时,在相关性(PLCC/SRCC)及均方根误差(RMSE)方面都优于对比的杂波度量方法;在预测搜索时间时,除相关性PLCC次好外,相关性SRCC和均方根误差(RMSE)都好于对比的杂波度量方法。
-
为了分析公式(6)中
$ T $ 对背景杂波建模的影响,$ T $ 分别设置为3º、4º、5º、6º、7º、8º、9º,构建方向选择性视觉模式,然后进行杂波建模,最后计算得到不同方向相似性阈值对应的PD 、 PF 、 ST与主观测试结果的RMSE。如表4所示,以公式(11)SRrms杂波计算方法为例,计算了方向相似性阈值分别为3º、4º、5º、6º、7º、8º、9º时对应的RMSE。表 4 不同方向相似性阈值下目标探测概率、目标虚警概率、目标搜索时间与主观测试结果的均方根误差
Table 4. RMSE between PD, FD, ST and subjective test results under different directional similarity thresholds
Threshold T PD FD ST 3 0.0754 0.0772 2.2656 4 0.0672 0.0683 2.2078 5 0.0594 0.0507 2.1592 6 0.0541 0.0451 2.1143 7 0.0589 0.0496 2.1672 8 0.0622 0.0645 2.2134 9 0.0781 0.0785 2.2704
Image background clutter modeling method based on directional selectivity mechanism
-
摘要: 受视觉系统方向选择性机制启发,提出了种新的图像杂波建模方法,并将其应用于成像系统目标获取性能评估中。首先,利用像素的梯度方向模拟视觉系统局部感受野中神经元的响应方向,通过比较中心像素与邻域像素之间的梯度方向相似性模拟神经元“兴奋”与“抑制”响应之间的关系,设计了一种方向选择性视觉模式。其次,考虑到人眼视觉系统对亮度对比度敏感,将亮度对比度作为权重因子对视觉模式直方图加权,在加权直方图空间中对背景杂波建模。最后,推导了背景杂波与目标获取性能之间的关系,建立了光电成像系统目标获取性能评估模型。利用公开数据集对模型进行了验证,实验结果表明,提出的方法所评估的目标获取性能与外场实际目标获取性能具有较高的一致性,而且在均方根误差、相关性方面优于现有的性能评估方法。Abstract: Inspired by the direction selectivity mechanism of vision system, a new image clutter modeling method was proposed and applied to the target acquisition performance evaluation of imaging system. Firstly, the gradient direction of pixels was used to simulate the response direction of neurons in the local receptive field of the visual system. By comparing the gradient direction similarity between the central pixel and the adjacent pixel, the relationship between neuron "excitation" and "inhibition" response was simulated. The visual pattern was designed based on directional selectivity. Secondly, considering the sensitivity of human visual system to brightness contrast, the brightness contrast was used as a factor to weight the visual pattern histogram. The background clutter was modeled in the weighted histogram space. Finally, the relationship between background clutter and target acquisition performance was deduced, and the target acquisition performance evaluation model of photoelectric imaging system was established. The experimental results show that the target acquisition performance evaluated by the proposed method is consistent with the actual target acquisition performance in the field, and is superior to the existing performance evaluation methods in terms of root mean square error and correlation.
-
表 1 各杂波度量方法与目标探测概率之间相关性
Table 1. Correlation between detection probability and clutter models
Clutter metric C50 E PLCC SRCC RMSE SV 3.8739 4.0679 0.4196 0.6432 0.1513 TSSIM 0.2529 −3.9987 0.5799 0.7100 0.1357 POE 121.3247 0.7772 0.4446 0.6398 0.1387 VSD 0.0879 3.0248 0.751 0.752 0.0718 ESSIM 0.6204 18.9565 0.870 0.806 0.0569 SRrms 0.9732 14.0322 0.879 0.813 0.0541 SRavg 0.8569 16.8765 0.883 0.815 0.0549 表 3 各杂波度量与目标搜索时间之间相关性
Table 3. Correlation between search time and clutter models
Clutter metric x y PLCC SRCC RMSE SV 8.3006 −2.0684 0.4635 0.6583 3.9075 TSSIM 0.5255 −0.7245 0.4230 0.7562 3.2510 POE 995.56 58.4036 0.6156 0.7505 3.8601 VSD 0.779 −0.0633 0.756 0.5280 3.1501 ESSIM 0.5792 −0.6074 0.897 0.5950 2.1287 SRrms 0.7654 −0.7621 0.881 0.6045 2.1143 SRavg 0.8012 −0.8104 0.875 0.6051 2.1138 表 2 各杂波度量方法与目标虚警概率之间相关性
Table 2. Correlation between false probability and clutter models
Clutter metric C50 E PLCC SRCC RMSE SV 5.9179 2.6791 0.5924 0.5366 0.0762 TSSIM 0.7002 15.7001 0.6910 0.5450 0.0830 POE 4.5127 0.7856 0.6180 0.5541 0.0821 VSD 0.0815 2.7751 0.809 0.774 0.0511 ESSIM 0.6003 14.2259 0.845 0.832 0.0459 SRrms 0.8761 8.8754 0.842 0.832 0.0451 SRavg 1.5422 6.6767 0.845 0.834 0.0462 表 4 不同方向相似性阈值下目标探测概率、目标虚警概率、目标搜索时间与主观测试结果的均方根误差
Table 4. RMSE between PD, FD, ST and subjective test results under different directional similarity thresholds
Threshold T PD FD ST 3 0.0754 0.0772 2.2656 4 0.0672 0.0683 2.2078 5 0.0594 0.0507 2.1592 6 0.0541 0.0451 2.1143 7 0.0589 0.0496 2.1672 8 0.0622 0.0645 2.2134 9 0.0781 0.0785 2.2704 -
[1] Zhang Jianqi, He Guojing, Liu Delian, et al. Infrared and Laser Engineering, 2008, 37(4): 565-568. (in Chinese) [2] Zhang Jianqi, Wang Xiaorui. Optoelectronic Imaging System Modeling and Performance Evaluation Theory [M]. Xi'an: Xidian University Press, 2010: 305-350. (in Chinese) [3] Schmieder D E, Weathersby M R. Detection performance in clutter with variable resolution [J]. IEEE Transactions on Aerospace and Electronic Systems, 1983, 19(4): 622-630. [4] Rotman S R, Cohen A, Shame D. Textural metrics for clutter affecting human target acquisition [J]. Infrared Physics & Technology, 1996, 37(6): 667-674. [5] Shirvaikar M V, Trivedi M M. Developing texture-based image clutter measures for object detection [J]. Opt Eng, 1992, 31(2): 2628-2639. [6] Biberman L M. Electro-optical Imaging System Performance and Modeling [M]. US: SPIE Press, 2001: 1-21. [7] Chang H H, Zhang J Q. Detection probability and detection time using clutter metrics [J]. Infrared Physics & Technology, 2007, 51(2): 83-90. [8] Chang H H, Zhang J Q. New metrics for clutter affecting human target acquisition [J]. IEEE Transactions on Aerospace & Electronic System, 2006, 42(1): 361-368. [9] Zhou Wang, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. doi: 10.1109/TIP.2003.819861 [10] Xu Dejiang, Shi Zelin, Luo Haibo. Image structure difference clutter measurement using human visual characteristics [J]. Infrared and Laser Engineering, 2013, 42(6): 1635-1641. (in Chinese) [11] Li Qian, Zhang Jianqi, Yang Cui. Edge structure background clutter scale[J]. Journal of Xidian University (Natural Science Edition), 2012, 39(3): 95-99. (in Chinese) [12] Xiao Chuanmin, Shi Zelin, Liu Yunpeng. Image background clutter measurement with gradient distribution feature [J]. Optical Precision Engineering, 2015, 23(12): 3472-3479. (in Chinese) doi: 10.3788/OPE.20152312.3472 [13] Li Qian, Yang Cui, Zhang Jianqi. Hidden Markov models for background clutter [J]. Optical Engineering, 2013, 52(7): 073108. [14] Yang C, Wu J, Li Q. Sparse-representation-based clutter metric[J]. Applied Optics, 2011, 50(11): 1601-1605. [15] Li Q, Yang C, Zhang J. Target acquisition performance in a cluttered environment[J]. Applied Optics, 2012, 51(31): 7668-7673. [16] Vollmerhausen R H, Jacobs E, Driggers R G. New metric for predicting target acquisition performance[J]. Optical Engineering, 2004, 43: 2806-2818. [17] Albright T D. Direction and orientation selectivity of neurons in visual area MT of the macaque[J]. J Neurophysiol, 1984, 52(6): 1106–1130. [18] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. J Physiol, 1962, 160(1): 106-154. [19] Hubel D H, Wiesel T N. Receptive fields and functional architecture in two nonstriate visual areas (18 and 19) of the cat [J]. J Neurophysiol, 1965, 28: 229-289. [20] Hansel D, Vreeswijk C. The mechanism of orientation selectivity in primary visual cortex without a functional map [J]. J Neurosci, 2012, 32(12): 4049-4064. [21] Campbell F W, Kulikowski J J. Orientational selectivity of the human visual system [J]. J Physiol, 1966, 187(2): 437-445. [22] Wang Z, Bovik A, Sheikh H, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [23] Zhai G, Wu X, Yang X, et al. A psychovisual quality metric in free-energy principle[J]. IEEE Transactions on Image Processing, 2012, 21(1): 41-52. [24] Friston K, Kilner J, Harrison L. A free energy principle for the brain[J]. J Physiology, 2006, 100(1-3): 70-87. [25] Toet A, Bijl P, Valeton J M. Image dataset for testing search and deletion models [J]. Optical Engineering, 2001, 40: 1760-1767. doi: 10.1117/1.1388608 [26] Toet A. Structural similarity determines search time and detection probability [J]. Infrared Physics & Technology, 2010, 53(6): 464-468. [27] Wilson D L. Image-based contrast-to-clutter modeling of detection [J]. Optical Engineering, 2001, 40(9): 1852-1857. doi: 10.1117/1.1389502