目前分成了五个排版引擎可供选择,分别为高保真,混合,OCR,精排,快速。
- 高保真引擎 采用独创的智能翻译引擎,能够精准对PDF表格、公式、矢量图等进行识别,是一种精细排版模式。
- 混合引擎 将文字颜色统一变成黑色,利用新的算法读取文字,然后按照高保真引擎进行排版,可以处理高保真模式下少数段落排版有问题的PDF。
- OCR引擎 是先将PDF转成图片进行OCR文字识别,然后采用OCR智能排版算法进行排版,可以翻译图片类PDF,该排版算法在配置界面可以进行灵活调节,OCR排版范围设置的越大,段落更容易合在一起。如果原文档是英文,需要在配置界面把ocr语言改为en,保存配置,翻译首页引擎里选择ocr进行翻译。
- 精排引擎 是采用了OCR智能排版算法进行排版(在配置界面调节OCR排版后也会影响该算法),和OCR引擎不同的是,精排引擎要求是可复制文本的PDF,不对文本进行OCR识别,可以使用精排引擎来快速使用OCR智能排版算法,比如翻译出现一行一行的情况,没有合成一个段落,可以调节OCR排版范围将它们合成一个段落。
- 快速引擎不会对文件进行深度备份和深度合成,可以加快翻译进度,该翻译内核采用了第一个高保真引擎。
混合引擎相对高保真引擎,无法区分PDF中的字体颜色,其他排版效果和高保真引擎一致。
排版效果的排序结果: 高保真引擎>混合引擎>OCR智能排版算法。
PDF的翻译普适性: OCR智能排版算法>混合引擎>高保真引擎。
开发者建议:优先使用高保真引擎或快速引擎,如果存在错位的特殊文档,你可以尝试其他的引擎(比如混合引擎),以最优的效果为准。
多个引擎区别的另一种讲解:
pdf翻译受到文本识别和智能排版算法的影响,该软件内置了三个文本识别算法以及两个智能排版算法。
文本识别算法分别为:可复制文本识别算法①,可复制文本识别算法②,OCR文本识别算法③。
智能排版算法分别为:高保真智能排版算法,OCR智能排版算法。
以上引擎分别由这些算法组合形成的,以适应不同类型的PDF。
高保真引擎= 可复制文本识别算法① + 高保真智能排版算法。
混合引擎 = 可复制文本识别算法② + 高保真智能排版算法。
OCR引擎 = OCR文本识别算法③ + OCR智能排版算法。
精排引擎 = 可复制文本识别算法①+ OCR智能排版算法。
快速引擎 = 可复制文本识别算法① + 高保真智能排版算法 + 快速合成算法。
OCR引擎使用说明:
对于单栏文本,可以使用趣卡翻译自带的ocr翻译功能,对于多栏文本由于目前自带的OCR功能识别效果还比不过一些收费的ocr软件,可能识别之后的排版并不是很好,目前还在改进中。你也可以使用其他收费的ocr软件先转换成文本可复制的pdf文件,然后使用趣卡翻译的高保真模式进行翻译。
|