聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

ACM MM'22:面向现实应用的鲁棒性图表嵌入方法

2023-01-12 11:27 浏览: 513842 次 我要评论(0 条) 字号:

图像嵌入技术是实现图像水印与图像溯源的重要途径之一,但图像嵌入技术应用于图表时会面临由图表低频同质特性带来的感知质量差与面对现实世界失真的鲁棒性不足的问题。为了解决这个问题,我们通过分析图表的图像特征与感知特性,训练了用于评估区域敏感度的感知模型并引入了平滑损失函数,同时模拟现实世界失真变换进行对抗性训练,提出了第一个针对现实世界应用的鲁棒性图表嵌入方案,可在保证图表高感知质量的同时,实现现实失真变换下对图表嵌入数据的高精度恢复,为图表的复用、水印与溯源提供支持。

该成果“ChartStamp: Robust Chart Embedding for Real-World Applications”发表于会议ACM International Conference on Multimedia(ACM MM) 2022上。ACM Multimedia是多媒体领域的顶级会议之一,为CCF推荐的A类会议。

  • 论文链接:

    https://doi.org/10.1145/3503161.3548286


背景与动机

图表作为一种直观有效传达定量信息的载体在现实生活中得到了广泛的应用。图表在生成之后往往以bitmap的图像格式保存与传播,然而转化为bitmap格式后,一方面图表中蕴含的信息难以被机器理解与读取,造成了图表一旦转化则难以修改和复用的问题;另一方面,包含隐私信息的图表在传播过程中存在被盗印盗拍的可能,难以对图表所属方和传播来源进行查证与溯源。

图表嵌入技术可以有效解决上述问题。图表嵌入是图像嵌入的一个子领域,它通过对原始图像添加轻微扰动的方式将相关信息嵌入到图表中。根据目标应用程序的不同,嵌入到图表图像中的信息可以是图表数据和样式、超链接、辅助数据或归属信息等。图表嵌入在现实中有许多潜在的应用。例如,通过嵌入图表数据和样式,可以从保存后的图表图像中重建出可修改的图表对象,这可以作为图像识别和 OCR 方法的替代解决方案,并且同时解决了图表复用难的问题。另一个潜在的应用是通过在图表中嵌入超链接或版权信息,可以有效对图表归属与传播来源进行追踪,以达到图表溯源与水印的目的。

针对自然图像的图像嵌入技术获得了广泛的研究,不论是基于传统方法将数据嵌入到图像的空间域、频域或变换域中,或是基于深度学习通过深度神经网络对图像进行自动嵌入,都实现了极佳的图像嵌入性能。基于深度神经网络的现有方法在自然图像上已经实现了诸如对屏幕拍照,也就是将图像展示在屏幕上并用相机拍照的1024bit鲁棒性数据嵌入和对打印拍照,也就是将图像打印出来后再拍照的100bit鲁棒性数据嵌入,并保证了较好的图像感知质量。

然而与针对自然图像的图像嵌入技术相比,图表嵌入技术在面临更多挑战的同时也缺乏充足的研究。挑战主要体现在两方面。一方面是自然图像中存在着大量边缘与纹理的高频区域,图像嵌入带来的轻微扰动在自然图像中并不显眼,而图表通常包含较多的低频同质化区域,缺乏足够的中高频区域,使同样的扰动在图表中感知质量较差。图1展示了现有针对自然图像的前沿图像嵌入技术在自然图像与在图表图像上的嵌入效果示例,从左至右依次为原始自然图像,嵌入后自然图像,原始图表与嵌入后图表。可以看到,应用于自然图像时感知质量非常好,嵌入后图像看起来与原始图像几乎一模一样。但当应用于图表时,嵌入后的图表能明显看到类似云雾状的可见扰动。另一方面是图表在现实应用中会经历不同的操作导致的失真,如JPEG 压缩、在屏幕或纸上阅读,然后拍照等,这对图表嵌入技术的高鲁棒性提出了要求。图表嵌入技术的研究相对缺乏,仅有的两个研究工作一种是传统的空间域图表嵌入方法,仅对 JPEG 和电子失真具有鲁棒性;另一种是基于深度学习的图表嵌入方法,鲁棒性低,不足以应对JPEG失真。现有工作无法同时克服上述两种挑战。

图1 现有图像嵌入方法在自然图像与图表图像的嵌入效果对比

为解决上述问题,我们提出了ChartStamp,一种基于深度学习的图表嵌入方法,可以根据目标鲁棒性将不同长短的信息嵌入到图表图像中,同时保持良好的感知质量。ChartStamp是第一个实现了对现实世界打印拍照失真具备鲁棒性的图表嵌入方法。


设计与实现

图2 ChartStamp流程图

如图2所示为ChartStamp的流程图。ChartStamp 由五个神经网络组成:编码器、感知模型、鉴别模型、解码器和检测模型。编码器接收图表图像和要嵌入的信息作为输入,输出为残差图像。感知模型根据接收的图表图像生成视觉敏感度指导图以指导编码器将数据嵌入到视觉不敏感区域。鉴别模型旨在区分编码的图表图像与原始图表图像,并与编码器进行交替对抗训练。解码器接收嵌入的图像并恢复出嵌入的信息。检测模型从拍照得到的图像中定位出嵌入图表的具体位置。

实际训练与使用过程中,输入信息首先经过纠错编码生成Raw Bits,然后将原始图表图像缩放到统一的大小,将缩放后的图表图像与Raw Bits一起输入进编码器。编码器输出生成的残差与原始图像相加后得到嵌入后的图表图像。嵌入后的图表图像可能会经过例如 JPEG 压缩、显示、打印等失真变换。因此在输入进解码器之前,需要先送到检测模型进行检测和定位,定位到嵌入图表的具体位置后将定位的嵌入图表恢复到统一的大小,再送到解码器中恢复出Raw Bits。最后,应用纠错解码来恢复出输入的消息。应该注意的是,感知模型和鉴别模型仅用于模型训练。模型训练完成后,应用于嵌入图表图像或从图表图像中提取嵌入数据时不会使用到它们。

具体的,针对上述提到的两种挑战,我们对ChartStamp进行分析。

首先是针对嵌入图表感知质量低的问题,已有工作表明,图表中前景部分往往蕴含更丰富的信息量而背景部分大多为无实际意义的同色区域或重复纹理区域,包含语义信息较少。在前景不变的前提下对图表背景进行少量扰动不会影响读者的阅读体验。基于此现象,我们提出了新的评估图表区域敏感度的感知模型,感知模型接收到原始图表作为输入后会对图表前景进行预测,感知模型将某区域预测为前景的可能性越高,则认为该区域的敏感度越高;反之,感知模型认为某区域为背景的可能性越高,表示该区域越不敏感,可以适当添加更多的噪声。通过敏感度高低的差异性,感知模型会指导编码器在进行图表嵌入时将扰动更多的添加在背景不敏感区域,而对读者更关注的前景区域少加修改,以此提升感知质量。进一步地,为了提升图表感知质量至更高的水平,我们考虑到同质平滑区域与高频纹理区域的感知差别,引入了平滑损失函数。平滑损失函数的核心思想在于根据原始图表的平滑程度动态给扰动赋予不同的惩罚权重。具体来说,平滑损失函数首先对原始图表各区域的平滑程度进行评估,对变化平缓的区域赋予高惩罚权重,对变化剧烈的区域赋予低惩罚权重。其次,平滑损失函数会对添加的扰动的平滑程度进行评估,并计算出各区域扰动的基础平滑损失,某区域若添加的扰动完全相同,则该区域基础平滑损失为0,反之扰动差异越大,基础平滑损失越大。最后,将基础平滑损失乘以对应的惩罚权重,得到最终的平滑损失函数。平滑损失函数的引入保证了在图表平滑区域中添加的扰动也更平滑,不会有突兀的变化,提升了低频区域的感知质量。除此之外,鉴别模型与编码器的对抗训练也有助于使生成的嵌入图表图像与原始图像更加不可区分。

另一方面,为了满足图表嵌入的高鲁棒性要求,需要提升图表嵌入方案的鲁棒性。我们以一系列的模拟变换近似现实世界失真并进行对抗性训练,以此获得对现实失真的鲁棒性。

在添加这些针对图像质量与鲁棒性的优化后,我们进行了现实世界的实验以验证提出方法的鲁棒性。如表1与图3所示,ChartStamp在经历打印后拍照及屏幕拍照失真后仍能保持95%以上的信息恢复准确率,具有很高的鲁棒性。在感知质量方面,我们进行了用户实验,用户实验结果表明用户认为嵌入后图表仍保持较高的感知质量,不会影响到对于图表的阅读与使用,并且在与已有各图表嵌入方法的对比中被认为是感知质量最优。

表1 图表嵌入信息的恢复准确率

图3 ChartStamp嵌入效果(左:原图,右:嵌入图)

总结而言,我们提出了ChartStamp方法:ChartStamp是第一个对现实世界打印拍照失真具有鲁棒性的图表嵌入方法,可以根据不同的鲁棒性要求调整嵌入容量,并且保持较高的感知质量,为图表的复用重构、水印、溯源等众多潜在应用与功能提供了支持。


详细内容请参见:

Jiayun Fu, Bin B. Zhu, Haidong Zhang, Yayi Zou, Song Ge, Weiwei Cui, Yun Wang, Dongmei Zhang, Xiaojing Ma, and Hai Jin. 2022. ChartStamp: Robust Chart Embedding for Real-World Applications. In Proceedings of the 30th ACM International Conference on Multimedia (MM '22). Association for Computing Machinery, New York, NY, USA, 2786–2795. https://doi.org/10.1145/3503161.3548286



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复