[使用教程] PDF多引擎排版功能(高保真,混合,OCR,精排,快速)的...

[复制链接]
admin 发表于 2021-6-21 00:14:19 | 显示全部楼层 |阅读模式
目前分成了五个排版引擎可供选择,分别为高保真,混合,OCR,精排,快速。
  • 高保真引擎 采用独创的智能翻译引擎,能够精准对PDF表格、公式、矢量图等进行识别,是一种精细排版模式。
  • 混合引擎  将文字颜色统一变成黑色,利用新的算法读取文字然后按照高保真引擎进行排版,可以处理高保真模式下少数段落排版有问题的PDF。
  • OCR引擎 是先将PDF转成图片进行OCR文字识别,然后采用OCR智能排版算法进行排版,可以翻译图片类PDF,该排版算法在配置界面可以进行灵活调节,OCR排版范围设置的越大,段落更容易合在一起。如果原文档是英文,需要在配置界面把ocr语言改为en,保存配置,翻译首页引擎里选择ocr进行翻译。
  • 精排引擎 是采用了OCR智能排版算法进行排版(在配置界面调节OCR排版后也会影响该算法),和OCR引擎不同的是,精排引擎要求是可复制文本的PDF,不对文本进行OCR识别,可以使用精排引擎来快速使用OCR智能排版算法,比如翻译出现一行一行的情况,没有合成一个段落,可以调节OCR排版范围将它们合成一个段落。
  • 快速引擎不会对文件进行深度备份和深度合成,可以加快翻译进度,该翻译内核采用了第一个高保真引擎

混合引擎相对高保真引擎,无法区分PDF中的字体颜色,其他排版效果和高保真引擎一致。
排版效果的排序结果:  高保真引擎>混合引擎>OCR智能排版算法
PDF的翻译普适性:     OCR智能排版算法>混合引擎>高保真引擎

开发者建议:优先使用高保真引擎快速引擎,如果存在错位的特殊文档,你可以尝试其他的引擎(比如混合引擎),以最优的效果为准。

多个引擎区别的另一种讲解:
pdf翻译受到文本识别和智能排版算法的影响,该软件内置了三个文本识别算法以及两个智能排版算法。
文本识别算法分别为:可复制文本识别算法可复制文本识别算法OCR文本识别算法
智能排版算法分别为:高保真智能排版算法OCR智能排版算法
以上引擎分别由这些算法组合形成的,以适应不同类型的PDF。

高保真引擎= 可复制文本识别算法① + 高保真智能排版算法。
混合引擎   = 可复制文本识别算法+ 高保真智能排版算法。
OCR引擎  =  OCR文本识别算法③   + OCR智能排版算法
精排引擎  =  可复制文本识别算法+ OCR智能排版算法
快速引擎  =  可复制文本识别算法① + 高保真智能排版算法 + 快速合成算法。


OCR引擎使用说明:
      对于单栏文本,可以使用趣卡翻译自带的ocr翻译功能,对于多栏文本由于目前自带的OCR功能识别效果还比不过一些收费的ocr软件,可能识别之后的排版并不是很好,目前还在改进中。你也可以使用其他收费的ocr软件先转换成文本可复制的pdf文件,然后使用趣卡翻译的高保真模式进行翻译。