百万级字符中文自然文本数据集:CTW

文字识别,一直是图像处理领域中的重要任务。近日,清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)—— 一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 ——

32,285 张图像和 1,018,402 个中文字符

规模远超此前的同类数据集。

研究人员表示,未来还将在此数据集之上推出基于业内最先进模型的评测基准。

GitHub地址项目GitHub地址