识别图像中的文字(光学文字识别 OCR)

解决方案1:基于注意力机制的先进文字识别系统

j u n g l e

本项目可以快速的从图片中识别出文字,基于最新的虚拟注意力技术,本系统一次可以识别出图片中一整句话的文字。给系统输入一张图片,系统就能输出图片中的文字。

项目主页:

https://github.com/da03/Attention-OCR/blob/master/README.md

项目描述:

要运行项目请按下面的步骤操作:

使用方法


Step1: 安装软件环境

安装:Tensorflow:

Installation Instructions (tested on 0.12.1)

安装:Distance (可选):

注意: 我们假设以下操作都在这个目录里进行 :Attention-OCR.


Step2: 准备训练数据

指定图片路径

我们需要参数 data-path 指定图片的路径和图片对应的文字,比如:

同时我们需要设置 data-base-dir 参数从而我们可以从目录 data-base-dir/path/to/image 中读取图片。 如果 data-path 包含图片的绝对路径,那么 data-base-dir 需要被设置成 /.

一个小小的例子

我在这里提供了一个小小的范列数据集,它有特殊的格式,是 Synth 90k 的子集。下面我们就使用这个小数据集训练用于识别图片中文字的神经网络模型。

下载数据集

解压


Step3: 开始训练!

训练开始一段时间后,你可以在 log.txt 文件中看到如下内容:

训练将会持续较长的时间,因为我们同时训练了 CNN 模型和注意力模型。


Step4: 测试并使用模型

测试并可视化

测试数据的格式与训练数据的格式相同。我们同样提供了测试数据,其中包括 ICDAR03, ICDAR13, IIIT5k 和 SVT。

下载测试数据包:

解压:

我们同时还提供了一个训练完成的模型:

验证模型:

经过一段时间后,你可以在 log.txt 文件中看到如下内容:

输出的图片将在 results/correct 文件夹里(输出目录可以由参数 output-dir 来设定,默认值是 results )。

格式: Image index ( predicted / ground truth ) Image file

Image 0 (j/j):

Image 1 (u/u): ![example image 1]

Image 2 (n/n): ![example image 2]

Image 3 (g/g): ![example image 3]

Image 4 (l/l): ![example image 4]

Image 5 (e/e): ![example image 5]

解决方案2:BasicOCR


BasicOCR是一个致力于解决自然场景文字识别算法研究的项目。该项目由长城数字大数据应用技术研究院佟派AI团队发起和维护。

项目主页:

https://tongpi.github.io/basicOCR/

数据集

佟派中文合成文本数据集

参考文献:

译:所见即所得——视觉标记解码器(What You Get Is What You See : A Visual Markup Decompiler) 2017 詹妮

基于多视角特征信息的attention ocr 2017 瑜珊

Attention_ocr技术总结 2017 张晶

TextBox实验记录 2017 瑜珊

基于TensorFlow的车牌号识别系统 2017 毛少将

Leave A Comment?