基于深度学习的司法卷宗去重技术

发表时间:2021/4/2   来源:《科学与技术》2020年第31期   作者:贾云龙
[导读] 随着互联网技术的不断发展,具有扫描以及拍照功能的智能设备的日益普及,

        贾云龙
        北京经舆典网络科技有限公司,北京

        摘要:随着互联网技术的不断发展,具有扫描以及拍照功能的智能设备的日益普及,人们可以随时随地的扫描或拍照出图像,各类图像的规模呈现出爆炸式地增长。现今办公环境提倡绿色环保的无纸化办公,大量文档被制作成数字图像,数字图像文档处理技术产生了大量的需求。在司法领域,同样提倡无纸化流程,司法工作者需要面对数字图像卷宗。严谨是司法行业的特点,生产数字卷宗的同时,难免因为人工原因产生一些重复的文档,这有悖于司法行业的要求,所以使用图像技术进行图像卷宗文档的去重就显得尤为必要。我们提出了一种基于深度学习卷积神经网络的方法,对司法卷宗图像进行自动去重。在实验中,我们的方法F1值达到了97.83%,准确的筛查出了重复卷宗,提升了司法数字化办公的可靠性。
        关键词:图像去重;司法卷宗;深度学习

1引言
        图像去重是指在一个多张图像的图像库中,将重复的图像找出并剔除的过程。为了解决图像去重问题,一个非常有效的解决方案是先采用k近邻搜索算法(K-Nearest Neighbor search, KNN search)得到初步近似结果再做进一步的重排序。k近邻搜索算法就是根据查询数据与候选数据的相似性,从图像数据库中寻找与查询数据最相似的候选数据。
        实现k邻搜索算法的技术手段有基于二进制哈希方法和基于深度学习的图像嵌入方法。基于哈希的方法是将数据映射成二进制码的哈希数据,其优点是低存储开销和快搜索速度。通过对哈希方法的深入调研和分析,我们发现哈希方法主要涵盖四个部分即特征提取、哈希映射、量化过程和保留原始数据间的距离关系。传统的哈希方法只是采用人工提取的图像特征,比如HOG(Histogram of Oriented Gradient, 方向梯度直方图)、LBP(Local Binary Pattern, 局部二值模式)等,但是这类方法忽略了对图像数据本身的理解和分析,性能上存在一定劣势。
        基于深度学习的图像处理方案是近期非常流行的方法。自2006年Geoffery Hinton等在《Science》杂志发表了著名的论文《Reducing the dimensionality of data with neural networks》[1]开始,深度学习的热潮从学术界席卷到了工业界。2012年,Krizhevsky等人利用深度卷积神经网络AlexNet[2]将ImageNet图像分类任务中的Top5分类识别错误率从以前的25%降低到15%。随后,以深度卷积神经网络为代表的各种深度学习算法被广泛应用于图像识别中,不断刷新纪录。深度学习近年在图像识别、语音识别、自然语言处理等领域不断取得突破性进展。由于深度学习架构具有端到端的特征学习能力,因此将深度学习应用到图像去重中是必然趋势和选择。下文将着重讨论我们提出的基于卷积神经网络的图像嵌入去重方法。

2基于卷积神经网络的图像嵌入去重方法
        卷积神经网络中的卷积层可以定义为


F1表达召回率和精度的平均情况。

3结论
        本文提出的基于卷积神经网络的图像嵌入去重方法,高召回和精度的检测出了重复的卷宗图像。实验结果表明,我们的方法在F1值上达到了97.83%,该算法可以达到人工卷宗图像去重的水平,完全可以替代人工的繁杂劳动,提升了司法流程的严谨性,也促进了智能化办公的可靠性。

参考文献
1.Hinton, Geoffrey E., and Ruslan R. Salakhutdinov. "Reducing the dimensionality of data with neural networks." science 313.5786 (2006): 504-507.
2.Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems 25 (2012): 1097-1105.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: