人工智能可识别您手写的内容了-深度学习进行手写字体页面

发布时间:2018-06-16 15:00:36   来源:网络 点击 :
趣说人工智能 2018-06-16 09:46

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割(趣说人工智能版权)。尽管生活在21世纪,但大部分日常文件仍然是手写的。许多学校笔记,医生笔记和历史文档都是手写的。

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割

将手写文档归档至关重要,但通常仅限于存储文档的高分辨率图像。由于文件中的文本信息难以识别,因此人们会手动存储手写的手写文本[1]。目前大量的努力来开发自动方法来转录手写文本。通常,数据流包括执行页面分割以识别文档中的文本区域,然后运行手写文本识别[1]。这篇博文的主要重点是描述页面分割方法。在将来的文章中,将描述使用递归神经网络(RNN)的手写文本识别(类似于[2,3])。

页面分割

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割。页面分割在历史文档中被广泛研究,其中文档被分割成装饰,背景,文本块和边缘。传统上,手工制作的特征被用于分割,但最近Chen等人 [1]证明编码器 - 解码器架构中的卷积神经网络(CNN)可以自动学习历史文档的高级特征表示。特征表示被馈送到SVM分类器中以学习文档的分段。这里我们重点关注IAM数据集中手写文本的分割[4]。来自IAM数据集的文件包含打印部分和手写部分。该算法的目标是在文档的手写部分周围安装一个边界框(如图2所示)。

方法

探索获得边界框的两种方法:使用最大稳定极值区域(MSER)算法和使用深度CNN方法的手工特征。

MSER算法方法

MSER算法用于检测图像上与图像上的文本相对应的“斑点”。使用以下算法对检测到的区域进行后处理以识别连续的文本区域:

对于在迭代:

  1. Δ表示的分数在所有方向上扩展边界框
  2. 合并所有重叠由I表示的百分比的边界框

以下是一些结果。

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割

MSER算法先前成功地用于检测打印文本块[5-6]。但是,如果参数(ΔI)未针对特定文档进行仔细调整,则该算法无法检测到该通道。当使用不同参数的同一图像(图3-1)时,该算法无法检测连续的文本区域(如图3-2所示)。与印刷文本相比,手写文本更加多样化,不同人可以有不同的书写风格,字母之间的距离等等。经过我们的实验,我们发现很难获得可以在不同的个体之间推广的参数。因此,我们决定实施CNN的段落分割方法。查看Jupyter Notebook以获取上面使用的MSER算法的参考实现。

深度的CNN方法

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割

深度CNN(如图4所示)使用Apache MXNet编写,并将IAM文档作为输入,并预测手写段落的边界框。该网络最初被训练以最小化预测和实际边界框的均方误差。在图5中,八个图像的边界框显示为使用MXBoard(MXNet记录器到TensorBoard)的训练进度。

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割

随着网络的权重被随机初始化,我们可以观察到预测的边界框最初倾向于图像的右下角。我们可以观察到,随着迭代次数的增加,预测的边界框向正确的区域漂移。在最后几个时代(240和280)中,边界框的大小波动,网络很可能过度配合训练数据(见图6)。

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割

均方误差最初被用作损失函数,因为交点(IOU)损失函数的交点需要预测边界框和实际边界框之间的重叠(否则这些值将是未定义的)。因此,在平均平方区域生成合理的边界框之后,网络进行了微调以尽量减少IOU。最终结果如图6所示。

数据增强

人工智能可识别您手写的内容了-深度学习进行手写字体页面分割。大多数作者都是以相似的位置开始他们的传播,所以边界框的预测位置有偏差。为了规避这个问题,引入了简单的随机翻译。训练图像随机偏移5%,图像如图7所示。查看Jupyter Notebook以获取上面使用的深度CNN的参考实现。提出的深层CNN方法能够识别手写段落的位置,并能够在不同作者之间进行概括。目前的实现仅限于以相对有限的方式的单个手写文本块(例如,一个连续的块,没有倾斜的书写,处于类似的位置)。未来,将开发更一般的页面分割方法,其包括检测段落内的多个段落和/或行。页面分割方法的结果将被馈送到基于RNN的手写识别算法中。

参考

[1] Chen,K.,Seuret,M.,Liwicki,M.,Hennebert,J.,&Ingold,R.(2015年8月)。用卷积自动编码器对历史文档图像进行页面分割。在文件分析与识别(ICDAR),2015年第13届国际会议(pp.1011-1015)中。IEEE。

[2] Puigcerver,J.(2017年11月)。多维复发层是手写文本识别所必需的吗?在文件分析与识别(ICDAR),2017年第14届IAPR国际会议上(第1卷,第67-72页)。IEEE。

[3] Bluche,T.,Louradour,J.,&Messina,R.(2017年11月)。扫描,参与和阅读:mdlstm关注的端到端手写段落识别。在文件分析与识别(ICDAR),2017年第14届IAPR国际会议上(第1卷,第1050-1055页)。IEEE。

延伸阅读: