CAT-Net- Compression Artifact Tracing Network for Detection and Localization of Image Splicing
原创
: CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing
CAT-Net: Compression Artifact Tracing Network for Detection and Localization of Image Splicing
图像篡改检测的定位分为三类: 基于块的检测 ,补丁检测,和像素级的检测
视觉线索和压缩伪影:可以作为两个依据来判定图像的篡改
视觉线索即像素之间的关系。对于单纯把视觉线索作为网络检测标准的网络,把复制粘贴到纯色背景的情况是绝对检测不出来的。在表格篡改和标语篡改中,这种情况还是很常见的。
而压缩伪影:特指Jpg压缩所用的DCT矩阵,一般还是识别jpg双压缩线索比较常见。ELA之类的。
池化:研究表明不适合图像的篡改检测,强化图像的内容,抑制噪声信号。池化可能在cv的其他领域的效果不错,但是在图像篡改检测邻域,会破坏图像像素之间的细微线索,导致检测的失败。
这个网络结构好像最近很流行,这种多分辨率融合网络,2021年的论文已经连续看到2篇了。
这个结构的网络说起来真的挺有道理的,多个尺度的特征进行融合,多个分辨率,使用低维特征什么的。
总之就是从像素的线索和 压缩伪影的线索分别输入到两个流中,最后输入到一个特征融合器里面进行特征的融合。
不同的尺度之间融合详细
下采样 用的 不是池化,而是步长为2 的3*3卷积。
把不同尺度的特征变换大小之后相加。
噪声伪影流
这一块没怎么看明白。
这个是上图quantization table 线路中所有卷积的描述,大体上是一个残差模块。
convert to binary volume
将DCT矩阵转化为二进制卷?
二进制卷可能意思就是二进制的一个矩阵吧。把HW大小变为了(T+1)HW大小的二进制矩阵。
T T为区间的范围,类似进行归一化,将所有的元素标准化到[-T,T]之间。
把绝对值不同的分到(T+1)个矩阵通道中去。是*0 到 T ,总数T+1个通道。
作者认为T应当为20最优。
输入不是jpg图片情况
只有jpg图像有dct矩阵,和量化表。
若是只能检测jpg图片,那么算法的应用性能也是不错了,毕竟jpg压缩效率高,缓解了人类对于流量需求,占据网络流传图片的总数也多。让人想起了中国移动。
当输入为其他格式图像时,人为的计算出DCT矩阵。根据像素值计算?
可以做一个任意格式图片-》jpg的jpg编码器。将所有的量化矩阵设置为同一个,压缩系数设置为100。由此可以实现网络对于任意图片的可输入性。
DCT计算 https://blog.csdn.net/newchenxf/article/details/51719597
结果展示
一般来说,篡改检测论文的结果展示都是放原图,gt,对比图。输出图像也是黑白的。
但是这样把结果图预测的TP,TN,FP,FN 用醒目颜色标出的还是头一次看到。这个可以解决结果展示 的颜色单调问题。