文字识别,一直是图像处理领域中的重要任务。近日,清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)—— 一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 ——
32,285 张图像和 1,018,402 个中文字符
规模远超此前的同类数据集。
研究人员表示,未来还将在此数据集之上推出基于业内最先进模型的评测基准。
文字识别,一直是图像处理领域中的重要任务。近日,清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)—— 一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 ——
32,285 张图像和 1,018,402 个中文字符
规模远超此前的同类数据集。
研究人员表示,未来还将在此数据集之上推出基于业内最先进模型的评测基准。