OCR(Optical Character Recognition),也称光学字符识别,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入的一种技术。其实大家都在应用这项技术:快递单号的扫描识别、火车票的验证等等。最近,Facebook 研究人员提出了一个大规模图像文本提取和识别系统:Rosetta。这是一种有效的建模技术用于检测和识别图像中的文本。通过进行大量的评估实验,Facebook 解释了这种实用系统是如何用于构建 OCR 系统,以及如何在系统的开发期间部署特定的组分。KDD 2018 链接。