OCR,光学字符识别(OPTICAL CHARACTER RECOGNITION),作为计算机视觉领域的经典问题之一
它指对图像中的文字进行检测识别(包括文字检测+文字识别),并获取文本的结果。常见于拍照检查、文档识别、证照票据识别、车牌识别、自然场景下的文本定位识别等,相关技术在数字时代得到了广泛的应用。
作为计算机视觉领域的OCR识别在训练的时候当然也会需要大量的图片数据来供神经网络的学习,一般需要数以千万计的图片才能训练一个文字识别系统,才能达到识别文字的目的。
但是如果采用人工标注会浪费大量的人力财力,导致入不敷出。本文接下来介绍一种能够根据场景生成大量的文字图片的工具。
总体预览,它主要具有功能:
1. 生成横、竖排文字。
2. 生成彩色图片的文字图。
3. 能够选择生成文字的语料。
4. 能够生成定长或者不定长的文字图片。
5. 对生成的文字图片引入多种变换,比如增加文字的随机倾斜角度,模拟小图放大,大图放小,上下左右运动模煳等功能。