🗒️OCR识别PDF环境部署流程

type
status
date
slug
summary
tags
category
icon
password
URL
以下是针对PDF(主要针对图片型)识别功能的使用环境部署流程

Python环境准备

升级PIP

如果已经安装最新版pip,则可以跳过该步骤。

安装PaddlePaddle

安装PaddleOCR

升级setuptools

编译升级GCC

libstdc++.so.6 版本过低

在部署使用过程中遇到脚本报错 ImportError: /lib64/libstdc++.so.6: version 'CXXABI_1.3.8' not found,发现是libstdc++.so.6版本太低导致,必须编译升级GCC才行

查看libstdc++.so.6版本

如果输出如下:
可以看到确实缺失CXXABI_1.3.8

编译GCC

  • 安装依赖库 yum install -y gmp-devel mpfr-devel libmpc-devel
  • 下载源码包 http://ftp.gnu.org/gnu/gcc/gcc-9.2.0/gcc-9.2.0.tar.xz
  • 解压缩
  • configure
  • make (注意,这个非常耗时,加 -j4 的意思就是4线程编译。如果你有4核,就会占满,导致CPU打满,服务报警,所以看情况用)

链接lib

安装库文件

安装 Mesa OpenGL 实现库,否则会报错 ImportError: libGL.so.1: cannot open shared object file: No such file or directory

修改配置代码

修改paddleocr代码

由于paddleocr默认会输出Fused 0 subgraphs into layer_norm op类似的日志,而这些日志会影响执行,目前没有找到通过配置的方式修改实现,所以需要修改代码
然后执行:/switch_ir_optim搜索switch_ir_iroptim,将config.switch_ir_optim(True)中的True改为False

参考文档

https://www.byyui.com/article/gm-convert-pdf-in-linux-with-gs.html
Loading...

© itzsh 2021-2025