-
DR2_net是把整副高分辨率大图分块成同尺寸的无重叠的子图像,对每个同等规模的子图像使用一致尺寸的观测矩阵进行采样和重构[19],造成了对含有更多信息量图片的欠采样和信息量少图片的过采样,使重构图像在块与块交界位置处产生像素的不规则跳变。针对该算法的缺陷,笔者提出了Os_net进行重叠分块采样。在Os_net中要对于输入的第
$ i $ 个原始图片$ {X_i} \in {R^{N \times N}} $ 进行重叠分割。如图2所示,需要按照步长
$S$ 来对原始图片进行移动切割成多个$ n \times n $ 大小的图像块,为了确保原始图片信息全部保留,在切割之前需调整图片的尺寸,调整方式见公式(1)和公式(2)。然后对调整完成的图像进行重叠切割,记子图像的个数为R,见公式(3)。$$ pad\_h = S - \left[ {\left( {N - n} \right){\text{%}} S} \right] $$ (1) $$ H = N + pad\_h $$ (2) $$ R = {\left( {\frac{{H - n}}{S} + 1} \right)^2} $$ (3) 式中:
$N$ 为原始图片大小;$ pad\_h $ 为原始图片需填充的长度;$S$ 表示切割移动的步长,$\dfrac{n}{2} \leqslant S < n$ ;$ H $ 为调整后图像块的大小。将处理好的分割后的图像块作为重叠采样网络(Os-net)的输入,并将其拉伸成维度为
$ 1 \times m $ 的列向量。拉伸后的图像$ {x_i} \in {R^{1 \times m}} $ 经过第一层全连接层进行采样,得到采样值$ y_i^r \in {R^{1 \times r}} $ :$$ y_i^r = {x_i}{W_1} $$ (4) 式中:
$ {W_1} \in {R^{m \times r}} $ 为权值矩阵;$ y_i^r $ 即为采样值;$r$ 为采样次数。网络中的第二层全连接层为图像重建网络,采样值经第二层全连接层可得到重构图像
$ x_i^r \in {R^{1 \times m}} $ :$$ x_i^r = y_i^r{W_2} $$ (5) 式中:
$ y_i^r $ ~$ x_i^r $ 的映射为线性映射;$ {W_2} \in {R^{r \times m}} $ 为权值矩阵,此处令$m = 1\;024$ 。该网络通过两个全连接层分别构成了编码(encode)和解码(decode)两个部分,编码部分完成图像的重叠采样,解码部分完成图像的重建。为了获得最终输出高分辨率图像,先将子图像按切割顺序依次拼接,其次对拼接后的图像行和列重叠的部分求取平均值。Os_net在重叠区域进行重复采样,增加了采样次数,故对于整副大图而言,其整体采样率与输入网络中的小块图像采样率不同,二者之间的数量关系如下:
$$ mr = \frac{r}{{{n^2}}} $$ (6) $$ MR = \frac{{R \times r}}{{{N^2}}} $$ (7) 联立公式(1) 、(2)、 (3)、(6)可得:
$$ MR = \frac{{{{\left\{ {N - n + 2S - \left[ {\left( {N - n} \right){\text{%}} S} \right]} \right\}}^2} \times {n^2}\times mr}}{{{S^2}\times {N^2}}} $$ (8) 式中:
$mr$ 为子图像的采样率;$MR$ 为整张图片的采样率。 -
2016年,Shi Wenzhe提出了子像素卷积,实现了从低分辨率到高分辨率的映射过程[25],与需要填补0来扩展信息的反卷积相比,子像素卷积充分利用了图像的先验信息。受子像素卷积启发,笔者提出了Ns_net网络。该网络是先通过嵌套切割,从高分辨率的原始图片中提取四个均含有部分原始图片信息的子图像,即将大小为
$ N \times N $ 的原始图片等分为$ \dfrac{{{N^2}}}{4} $ 个$ 2 \times 2 $ 的像素块,然后依次提取每个像素块的左上角、右上角、左下角、右下角的像素点排列组合成4个$\dfrac{N}{2} \times \dfrac{N}{2}$ 的图像块,如图3所示。这里令$ N = 64 $ ,经过嵌套切割后得到4个$ 32 \times 32 $ 的子图像。将这些子图像拉伸成$ 1 \times m $ 大小的图像$ {x_i} \in {R^{1 \times m}} $ 输入全连接层,完成压缩采样得到采样值$ y_i^r \in {R^{1 \times r}} $ ,随后再将采样值输入全连接层进行图像重构,并输出重建图像块$ x_i^r \in {R^{1 \times m}} $ 。将$ x_i^r $ 尺寸复原为$ 32 \times 32 $ 后,按照分割顺序将4张输出图像的像素点挨个放回原始高分辨率图片的位置得到最终图片。 -
2018年,Thuong Nguyen Canh等提出了MS-DCSNet,采用卷积层完成Down-sampling的过程,该网络使用了基于多尺度的小波变换转换图像信号,对四个频带的小波系数进行卷积采样[26]。卷积采样使卷积核在不同的位置之间共享权重,实现了平移不变性,并且能减少网络中的参数,完全可以替换全连接层采样。图4为笔者提出能运用在单像素压缩成像系统中的卷积采样网络示意图。Cs_net包含两个子网络:卷积下采样子网络和卷积上采样子网络。在卷积下采样子网络中,先用卷积核对输入的第
$ i $ 个图像$ {x_i} \in {R^{n \times n}} $ 进行卷积采样,公式如下:$$ {y_i} = {X_i}*{W_\alpha } $$ (9) 式中:
${W_\alpha }$ 为$ m $ 个$ 32 \times 32 \times 1 $ 的卷积核;${y_i}$ 为第$ i $ 个原始图像经压缩采样后得到的采样值,维度为$ 2 \times 2 \times m $ 。其中,$ m $ 的值与$ MR $ 存在密不可分的联系,数量关系如下:$$ MR = \frac{{4 \times m}}{{64 \times 64}} \times 100{\text{%}} $$ (10) 上述网络大大减少了权重的数量,降低了计算的复杂度。在采样率为0.2时,Cs_net的权重数量为
${32^2} \times 205 = 209\;920$ ,而全连接采样的权重数量为${64^2} \times 820 = 3\;358\;720$ ,笔者提出的网络减少了超过90%的权重。在卷积上采样子网络中,将采样值
$ {y_i} $ 输入网络进行图像重建,公式如下:$$ {Z_i} = {y_i}*{W_\beta } $$ (11) 式中:
$ {W_\beta } $ 为1024个$ 2 \times 2 \times m $ 的卷积核;$ {Z_i} $ 为重建后的图像,维度为$1 \times 1 \times 4\;096$ 。为了恢复至原始信号的维度,将$ {Z_i} $ 维度转换成$ 64 \times 64 $ 。 -
使用与DR2_net[19]一致的91张自然图片来生成Os_net、Ns_net和Cs_net的训练集。在训练Cs_net时使用步幅14对这些图片进行切割,得到7851张大小为
$ 64 \times 64 $ 的图像块作为训练集。在训练Os_net和Ns_net时,为了保证实验的公平性,需要保持训练集的数量一致,因此从上述每一张$ 64 \times 64 $ 的图像中均匀地抽取一张$ 32 \times 32 $ 的图像块,最终得到7 851张小图作为训练集。保留提取的图像块的亮度分量作为网络的输入$ {x_i} $ 。最大迭代周期、Batch size和学习率分别设置为1000、128和0.0001,采用Adam优化器进行迭代优化。损失函数采用均方差,公式如下:$$ Loss = \frac{1}{N}{\sum\limits_{i = 1}^N {\left\| {x_i^r - {x_i}} \right\|} ^2} $$ (12) 为了使经过训练的矩阵加载在于DMD上,需要对神经网络Os_net、Ns_net和Cs_net的第一层的浮点型权重进行二值化。文中使用的二值化方法是基于符号函数Sign的确定性方法:
$$ {W^b} = Sign({W_1}) = \left\{ {\begin{array}{*{20}{c}} { + 1}&{{W_1} \geqslant 0} \\ { - 1}&{{\rm{otherwise}}} \end{array}} \right. $$ (13) 式中:
$ {W_1} $ 表示浮点型权重;$ {W^b} $ 表示经过二值化的权重。然而符号函数的导数在非零时为0,在跳跃间断点零时不可导,显然不可进行反向传播运算,故在反向传播时用Htanh函数替代符号函数来进行导数修正,具体如下:
$$ \begin{split} Htanh\left(x\right)=&Clip\left(x,-1,1\right)={\rm{max}}\left[-1,{\rm{min}}\left(1,x\right)\right]\end{split} $$ (14) -
此节设计了对照实验来评估上述提出的三种采样网络、双全连接层网络(Fc_net)和目前最先进的压缩感知图像重建算法TVAL3的去块状化效果。为了确保对比实验的公平性,在TVAL3算法重建时用经过训练的浮点全连接层代替高斯矩阵。根据公式(8)所示,Os_net的采样率计算方法与其他神经网络算法采样率不一样,其采样率随着步长
$S$ 的增大而有所提升,当步长为31时其采样率与其他神经网络算法逼近,为了确保公平,选取步长为31。从数据集Set 0中提取了五张$256 \times 256$ 的图片用于测试,以评估网络的性能。由于峰值信噪比(PSNR)与均方误差(MSE)只是基于对应像素点的误差评价,无法表现“虚假边界”,实验结果分析过程中需同时结合视觉来衡量去块状化效果,在此从图像“Cameraman”中选择一个64×64的小块图像来评估不同算法去块状化的效果。由表1可知: Os_net的客观评价结果相比传统迭代算法TVAL3有
$1.03 \sim 2.36\; {\rm{dB}}$ 的提升,与基于深度学习的Fc_net、Ns_net和Cs_net相比在重建质量上分别有$ 0.072 \sim 0.11 \;{\rm{dB}} $ 、$1.939 \sim 3.846 \;{\rm{dB}}$ 和$0.073 \sim $ $ 0.466 \;{\rm{dB}}$ 的提升。这是因为即使Os_net步长设置为31以逼近其他重建算法的采样率,其采样率仍会大于其他算法,实际采样率对应为0.019、0.05、0.13和0.25,这种采样率上的差异导致了Os_net在重建质量上的提升。在采样率低至0.015时,Ns_net相比TVAL3能产生更高质量的重建图片,但在其他采样率下Ns_net的重建效果逊于TVAL3的重建效果。与此同时,在所有采样率下Ns_net的重建结果均弱于其他神经网络算法的重建结果,这是因为Ns_net打乱了输入图片的空间规律,打断了数据集的信息连续性,数据集的调整降低了模型训练的质量。Cs_net与Fc_net在低采样率时PSNR基本相同,在高采样率时有$0.2 \sim 0.4\; {\rm{dB}}$ 的差距,这可能是因为Fc_net网络输入子图像尺寸更小,能对每小块图像进行更精确的重建。表 1 不同算法在不同采样率下的重建结果对比 (PSNR/dB)
Table 1. Reconstruction results of different algorithms at different sampling rates (PSNR/dB)
Images Methods MR=0.015 MR=0.04 MR=0.1 MR=0.2 Bird Tval3 13.177 13.236 14.745 13.622 Fc_net 15.269 15.612 15.784 15.858 Os_net 15.311 15.629 15.784 15.859 Ns_net 14.624 15.097 15.402 15.565 Cs_net 15.274 15.599 15.780 15.841 Cameraman Tval3 17.437 21.698 24.492 25.927 Fc_net 20.468 22.222 24.330 26.544 Os_net 20.686 22.386 24.471 26.650 Ns_net 18.363 19.781 21.114 21.899 Cs_net 20.486 22.243 24.184 26.102 Head Tval3 17.675 17.556 17.591 17.610 Fc_net 20.010 20.229 20.495 20.607 Os_net 20.010 20.239 20.491 20.606 Ns_net 19.525 19.878 20.120 20.240 Cs_net 20.037 20.267 20.398 20.562 Monarch Tval3 18.228 21.353 25.283 23.860 Fc_net 18.989 22.070 25.264 28.052 Os_net 19.186 22.282 25.414 28.24 Ns_net 15.996 17.907 19.867 21.162 Cs_net 19.048 22.010 24.907 27.218 Peppers Tval3 18.085 20.855 25.278 30.891 Fc_net 21.115 23.599 26.334 28.890 Os_net 21.207 23.672 26.404 28.965 Ns_net 18.197 20.066 21.412 22.224 Cs_net 21.189 23.56 25.955 28.269 Mean Tval3 16.920 18.940 21.478 22.382 Fc_net 19.170 20.746 22.441 23.990 Os_net 19.280 20.842 22.513 24.064 Ns_net 17.341 18.546 19.583 20.218 Cs_net 19.207 20.736 22.245 23.598 图5为五种重建算法重建图,从视觉效果评测五种算法的去块状化能力。从图中可以直观地出,Cs_net的重建图像完全没有“虚假边界”,在极低采样率下图片轮廓也清晰可见。而TVAL3作为先进的CS迭代算法,在低采样率下存在明显的十字形块状化,随着采样率的提升,在图像重建质量升高的同时,十字形块状化也逐渐变弱,但依旧无法消除。在采样率为0.015和0.04时,Fc_net重建图像块与块之间存在很明显的像素跳变,这是由于Fc_net使用相同的观测矩阵固定观测,会在图片光滑处过采样,纹理区欠采样。Os_net在重复采样区域存在块状化,随着采样率的提高,块状化程度比Fc_net更轻,Os_net的重建质量之所以优于Fc_net,是因为Os_net独特的采样方式带来了其在采样率计算上的优势,使得其重建质量更优,但其小图之间依旧存在十分明显的“虚假边界”。Ns_net对输入图片的像素进行重排,小图之间的棋盘效应消失,但却在每个像素之间出现了像素跳变现象。故此得出Cs_net相较于其他四种重建算法具有更好的去块状化效果。Cs_net在重建质量上明显优于TVAL3与Ns_net,与Fc_net的重建质量基本相同,但Cs_net具有十分显著的去块状化效果。
-
上述结果证明,五种算法中Cs_net对去块状化有明显优势,设计了对照实验组以验证Cs_net在实际系统实验中的表现。由于实际实验中DMD只能加载二值采样矩阵,则将Cs_net第一层卷积层进行二值化。为了实验公平,同时将TVAL3中随机高斯矩阵替换为训练过的二值矩阵,确保与Cs_net的采样矩阵相同。
表2为TVAL3和Cs_net的仿真结果。与表1中的结果对比可以看出,Cs_net二值化后的重构效果明显逊于未二值化的重构效果。这是因为−1和1的二值化矩阵与浮点矩阵相比,其对特征的表达能力和拟合能力更弱,所以二值化后的矩阵在采样时降低了网络整体的学习能力。从表2中可以得出:Cs_net在所有的采样率下均优于TVAL3算法;且在极低采样率下,Cs_net的优势更加明显,二者之间的差值高达
$2.07\; {\rm{dB}}$ 。同时,Cs_net相比于TVAL3能更稳定地重建出图像,随着采样率从0.2降低至0.015,Cs_net重建出来的图像平均PSNR差别仅为$2.102 \; {\rm{dB}}$ ,而TVAL3平均PSNR降低了$3.805 \; {\rm{dB}}$ ,这是因为通过训练所得的Cs_net相比于传统的TVAL3算法具有更好的鲁棒性,在低采样率下也能稳定地重建图像。表 2 不同采样率下TVAL3与Cs_net的重建结果对比 (PSNR/dB)
Table 2. Reconstruction result of TVAL3 and Cs_net at different sampling rates (PSNR/dB)
Images Methods MR=0.015 MR=0.04 MR=0.1 MR=0.2 Bird TVAL3 13.173 13.515 13.561 13.644 Cs_net 15.239 15.466 15.648 15.668 Cameraman TVAL3 17.062 21.876 24.072 21.924 Cs_net 20.111 21.113 22.447 22.575 Head TVAL3 17.745 17.716 18.064 19.414 Cs_net 19.764 19.89 20.189 20.247 Monarch TVAL3 16.638 21.395 22.844 20.957 Cs_net 18.753 20.539 22.799 23.174 Peppers TVAL3 19.695 19.908 21.930 27.399 Cs_net 20.802 21.958 23.735 23.514 Mean TVAL3 16.863 18.882 20.094 20.668 Cs_net 18.934 19.793 20.964 21.036 -
用光子计数成像系统来评估Cs_net的消除块状化的能力。在模拟实验中使用灰度图片作为测试图片,在真实的系统实验中使用掩膜板作为成像目标,该掩膜板为“组合图案”,如图6所示。在实际实验中采用微镜组合方案[3],设置整个DMD镜的成像分辨率为
$64 \;\times 64 \;{\rm{pixel}}$ ,将整个DMD镜面分成$2 \times 2$ 部分,对分辨板实现卷积采样。在实验中将DMD的翻转频率设置为两次/s,在对比实验中所设置的采样率分别为0.015、0.04、0.1和0.2,对应不同采样率下的采样时间为32 s、82 s、206 s和420 s。选择TVAL3进行对照实验。由于难以获得DMD上的原始图像,故选择无参考评测指标对其性能进行评测。图 6 传统算法与所提出的方法在光子计数成像系统中的结果对比
Figure 6. Comparison of the results of the traditional algorithm and the proposed method in the photon counting imaging system
由图6可知,在所有采样率时,使用TVAL3重构都存在十字形块状化,而Cs_net即使在低采样率下也不存在“虚假边界”且重建图像的边缘分辨率更高。从上述对照组实验中可以得出,Cs_net相比于TVAL3具有十分显著的去块状化效果。
Deblocking sampling network for photon counting single-pixel imaging
-
摘要: 将光子计数技术和单像素成像结合,能实现高灵敏、低成本的光子计数成像,但存在采样时间和重建时间长的问题。基于深度学习的压缩采样和重建网络,将去除偏置和激活函数的全连接层作为测量矩阵,通过从数据中学得高效的测量矩阵和避免传统迭代算法带来的巨大计算量,实现了更快、更高质量的图像重建。但利用全连接层进行高分辨图像的分块压缩感知时,重建图像会产生块状效应。针对该问题提出了重叠分块采样网络(Os_net)、嵌套采样网络(Ns_net)、卷积采样网络(Cs_net)等三种方法以取代全连接层采样。在重建网络的设计中,使用线性映射网络对图像进行重建,设计实验结果表明Cs_net的去块状化效果最好。将Cs_net二值化后应用于光子计数单像素成像系统,实验结果表明Cs_net除块状化明显优于传统算法TVAL3,且Cs_net在重建质量上也同样取得了较好的效果。Abstract: Combining photon counting technology with single-pixel imaging can achieve highly sensitive and low cost photon counting imaging, but there are problems of long sampling time and long reconstruction time. The compressed sampling and reconstruction network, which is based on deep learning, uses the fully connected layer without the offset and activation function as the measurement matrix, achieves faster and higher quality image reconstruction by learning efficient measurement matrices from the data and avoids the huge amount of calculation caused by traditional iterative algorithms. However, when the fully connected layer is used for block compression sensing of high-resolution images, the reconstructed image will produce block artifact. In response to this problem, overlapping block sampling network (Os_net), nested sampling network (Ns_net), and convolution sampling network (Cs_net) were proposed: to replace fully connected layer sampling. In the design of the reconstructed network, the images were reconstructed by using a linear mapping network. The design experiment shows that Cs_net has the best deblocking effect. After Cs_net binarization is applied to a photon counting single-pixel imaging system, the experiment results show that Cs_net de-blocking effect is significantly better than the traditional algorithm TVAL3, and Cs_net has also achieved good results on the reconstruction quality.
-
表 1 不同算法在不同采样率下的重建结果对比 (PSNR/dB)
Table 1. Reconstruction results of different algorithms at different sampling rates (PSNR/dB)
Images Methods MR=0.015 MR=0.04 MR=0.1 MR=0.2 Bird Tval3 13.177 13.236 14.745 13.622 Fc_net 15.269 15.612 15.784 15.858 Os_net 15.311 15.629 15.784 15.859 Ns_net 14.624 15.097 15.402 15.565 Cs_net 15.274 15.599 15.780 15.841 Cameraman Tval3 17.437 21.698 24.492 25.927 Fc_net 20.468 22.222 24.330 26.544 Os_net 20.686 22.386 24.471 26.650 Ns_net 18.363 19.781 21.114 21.899 Cs_net 20.486 22.243 24.184 26.102 Head Tval3 17.675 17.556 17.591 17.610 Fc_net 20.010 20.229 20.495 20.607 Os_net 20.010 20.239 20.491 20.606 Ns_net 19.525 19.878 20.120 20.240 Cs_net 20.037 20.267 20.398 20.562 Monarch Tval3 18.228 21.353 25.283 23.860 Fc_net 18.989 22.070 25.264 28.052 Os_net 19.186 22.282 25.414 28.24 Ns_net 15.996 17.907 19.867 21.162 Cs_net 19.048 22.010 24.907 27.218 Peppers Tval3 18.085 20.855 25.278 30.891 Fc_net 21.115 23.599 26.334 28.890 Os_net 21.207 23.672 26.404 28.965 Ns_net 18.197 20.066 21.412 22.224 Cs_net 21.189 23.56 25.955 28.269 Mean Tval3 16.920 18.940 21.478 22.382 Fc_net 19.170 20.746 22.441 23.990 Os_net 19.280 20.842 22.513 24.064 Ns_net 17.341 18.546 19.583 20.218 Cs_net 19.207 20.736 22.245 23.598 表 2 不同采样率下TVAL3与Cs_net的重建结果对比 (PSNR/dB)
Table 2. Reconstruction result of TVAL3 and Cs_net at different sampling rates (PSNR/dB)
Images Methods MR=0.015 MR=0.04 MR=0.1 MR=0.2 Bird TVAL3 13.173 13.515 13.561 13.644 Cs_net 15.239 15.466 15.648 15.668 Cameraman TVAL3 17.062 21.876 24.072 21.924 Cs_net 20.111 21.113 22.447 22.575 Head TVAL3 17.745 17.716 18.064 19.414 Cs_net 19.764 19.89 20.189 20.247 Monarch TVAL3 16.638 21.395 22.844 20.957 Cs_net 18.753 20.539 22.799 23.174 Peppers TVAL3 19.695 19.908 21.930 27.399 Cs_net 20.802 21.958 23.735 23.514 Mean TVAL3 16.863 18.882 20.094 20.668 Cs_net 18.934 19.793 20.964 21.036 -
[1] Takhar D, Laska J N, Wakin M B, et al. A new compressive imaging camera architecture using optical-domain compression [C]//Conference on Computational Imaging IV, 2006: 20060116-18. [2] Yu W K, Liu X F, Yao X R, et al. Single photon counting imaging system via compressive sensing[J]. arXiv, 2012: 1202.5866. [3] Wang H, Yan Q, Li B, et al. Sampling time adaptive single photon compressive imaging [J]. IEEE Photonics Journal, 2019, PP(99): 1-1. [4] Liu Y, Shi J, Zeng G. Single-photon-counting polarization ghost imaging[J]. Appl Opt, 2016, 55(36): 10347-10351. [5] Chan W L, Charan K, Takhar D, et al. A single-pixel terahertz imaging system based on compressed sensing [J]. Applied Physics Letters, 2008, 93(12): S293. [6] 俞文凯. 压缩感知在超灵敏时间分辨成像光谱中的应用[D]. 中国科学院大学, 2015. Yu Wenkai. Application of compressed sensing in ultra-sensitive time-resolved imaging spectroscopy[D]. Beijing: University of Chinese Academy of Sciences, 2015. (in Chinese) [7] Taguchi K, Iwanczyk J S. Vision 20/20: Single photon counting X‐ray detectors in medical imaging[J]. Medical Physics, 2013, 40(10): 4820371. [8] Shigetomo S, Hiromi S, Yoshiyuki T, et al. Astronomical observation with a Nb-Al-AlOX-Al-Nb STJ single photon detecor for optical wavelengths [J]. Publications of the Astronomical Society of Japan, 2004, 56(4): L19-L23. [9] Liu X, Yu W, Yao X. Measurement dimensions compressed spectral imaging with a single point detector [J]. Optics Communications, 2016, 365: 173-179. doi: 10.1016/j.optcom.2015.12.020 [10] Davenport M, Baraniuk R, Devore R, et al. The Johnson-Lindenstrauss lemma meets compressed sensing [DB/OL]. [2021-11-12]. http: //mdav. ece. gatech. edu/talk/princeton-2006. pdf. [11] Baraniuk R, Davenport M, Devore R, et al. A simple proof of the restricted isometry property for random matrices [J]. Constructive Approximation, 2008, 28(3): 253-263. doi: 10.1007/s00365-007-9003-x [12] Bajwa W U, Haupt J D, Raz G M, et al. Toeplitz-structured compressed sensing matrices [C]//2007 IEEE/SP 14th Workshop on Statistical Signal Processing, 2007: 294-298. [13] Candes E, Tao T. Near optimal signal recovery from random projections: Universal encoding strategies [J]. IEEE Transactions on Information Theory, 2004, 52(12): 5406-5425. [14] Tropp J A, Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit [J]. IEEE Transactions on Information Theory, 2007, 53(12): 4655-4666. doi: 10.1109/TIT.2007.909108 [15] Needell D, Vershynin R. Signal recovery from inaccurate and incomplete measurements via regularized orthogonal matching pursuit[J]. IEEE Journal of Selected Topics in Signal Processing, 2010, 4: 310-316. [16] Li C. An efficient algorithm for total variation regularization with applications to the single pixel camera and compressive sensing[D]. Houston: Rice University, 2010. [17] Mousavi A, Patel A B, Baraniuk R G. A deep learning approach to structured signal recovery [C]//IEEE, 2016. [18] Kulkarni K, Lohit S, Turaga P, et al. ReconNet: Non-iterative reconstruction of images from compressively sensed measurements [C]//Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016. [19] Yao H, Dai F, Zhang D, et al. Dr2-net: Deep residual reconstruction network for image compressive sensing [J]. Neurocomputing, 2019, 359: 483-493. doi: 10.1016/j.neucom.2019.05.006 [20] Zhang Jian, Ghanem B. ISTA-Net: Interpretable optimization-inspired deep network for image compressive sensing [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1828-1837. [21] Higham C F, Murray-smith R, Padgett M J, et al. Deep learning for real-time single-pixel video [J]. Sci Rep, 2018, 8(1): 2369. [22] Wang F, Wang H, Wang H, et al. Learning from simulation: An end-to-end deep-learning approach for computational ghost imaging [J]. Optics Express, 2019, 27(18): 25560-25572. doi: 10.1364/OE.27.025560 [23] Li B, Yan Qiurong, Wang Y F, et al. A binary sampling Res2 net reconstruction network for single-pixel imaging [J]. Review of Scientific Instruments, 2020, 91(3): 033709. doi: 10.1063/1.5137817 [24] 管焰秋, 鄢秋荣, 杨晟韬, 等. 基于残差编解码网络的单光子压缩成像[J]. 光学学报, 2020, 40(1). Guan Yanqiu, Yan Qiurong, Yang Shengtao, et al. Single-photon compression imaging based on residual coding and decoding network[J]. Acta Optica Sinica, 2020, 40(1): 0111022. (in Chinese) [25] Shi W, Caballero J, Huszar F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 1874-1883. [26] Canh T N, Jeon B. Difference of convolution for deep compressive sensing[C]//2019 IEEE International Conference on Image Processing (ICIP), 2019.