我们最著名的SDK已更新至第5版:这是自两年最大的OCR技术更新!:
OCR技术更新
端到端单词OCR

什么时候应该使用端到端OCR?在质量较低的图像上,字符分类艰难的时候。

何不对整文进行端到端OCR?处理高质量的文档的时候,启发式算法具有相同的精度,但速度更快。
端到端OCR 要点:

深度学习语言模型
你能识别这个字母吗?
这个呢?
和这个
现在识别单词:

为什么识别单词更容易?因为我们知道这个词!它来自英语词汇。
加入有几个适合的词汇?

使用深度学习语言模型来评估所有的结果。
深度学习语言要点
“精确”OCR模式
这个更新包括新的基于神经网络的“精确”OCR模式,适用于OCR质量优先的特定情况。
目前,新模式包括:
我们建议对发票、协议、收据和ID的低质量或照片图像使用此模式。
印章和签名附近文本的识别质量改进
协议类的文档有大图片,如印章和签名。
通常情况下,印章会阻止机器提取印章附近或之间的文本-文本成为“图片”的一部分,无法识别。我们在文档分析的文档(协议)模型中添加了特殊的分类器。它检测印章和签名,并把它们从分析中删除,让附近的文字成为可识别的。
测试结果:查找目标对象的准确性:表格,文本,图片,图章,签名 —— 减少了19,3%的错误!
基于神经网络的精确条形码识别
我们建立了一个神经网络结构,它能够将图像像素分为两类:条形码和非条形码。
在分割图上选择连通组分;在他们周围建立包围矩形,我们认为矩形作为条形码的假设。在下一个阶段,一个特殊的神经网络对假设值进行解码。

PDF功能增强
数字签名
在PDF中找出数字签名(SourceHasDigitalSignature)。
由于FRDocument可能由多个(多页)图像文件组成,因此可以通过
IFRPage::SourceHasDigitalSignature
IFRPage::SourceImagePath
IFRPage::SourceFilePageIndex获得详细信息。
智能字体嵌入
智能字体嵌入模式有助于减少PDF文件的大小。
只要目标标准和用户选择的处理设置允许,它就会自动绕过字体嵌入以降低文件占用空间(默认导出模式:FEM_EmbedSubsetWhenNeeded)。
检查文本层的质量
CheckTextLayer()方法
结合现有的HasTextLayer特性和新的质量分类器;检查PDF文本层并报告其质量是否适合OCR。
自适应识别方法
自适应识别改进并加速PDF处理(默认PDF识别模式:
PullXTextAndRecognizeRest)。
内容重用模式
内容重用模式-CRM_ContentAndPictures。
帮助处理包含混合内容(扫描和文本)的Office文件。
其他功能
1. .Net核心包装中的完整API覆盖率
2. Java应用程序中优化的RAM消耗
3. ABBYY将终止对32位兼容产品版本的支持
4. 升级至APDFL v.18
5. NeoML(ABBYY机器学习C++ 开源库)的使用
系统要求
API改变
为了看到完整的API改变,请访问 https://www.abbyy.com/media/32896/fr-engine-12-for-windows-r5-release-notes.pdf