python3如何解析处理pdf文件并提取信息

2025-04-21 10:30:59

1、首先在windows10打开cmd，选择一个虚拟环境，进入到该虚拟环境中，用命令pip install pdfminer3k下载解析库，如下图所示：

2、标准pdf文档解析如下图所示，导入pdfminer个文件解析模块，设备模块，页面锟侯希哇处理模块，并创建PDF解析对象，判断该pdf是否可以解析，如果最后对pdf的每一页进行解析处理，具体代码和讲解如下图所示：

3、对于日常的python编程更倾向于用类把功能进行封装，如下图所示，是将pdf进行解析成txt类的详细讲解。

4、运行该程序，输出结果如下所示：可以发现pdfminer库解析pdf速度很快，而且解析的也很好。

5、pdf文档转换成byte字符流，需要先把byte转换成str字符流，接着对文本进行处理，根据所需要的信息进行提取。

6、pdf文件处理经常是需要批量处理的，此函数是用来把文件夹下所有的pdf的路径读取出来，便于python程序批量处理，具体的程序和输出结果如下所示：

7、在所有的pdf文件中查找单词'also'，运行刚才的程序，会有如下所示，可以发现共输出了158个结果，并且每一个结果里都有'also'这个单词的那句话。

8、对于解析提取pdf的关键信息，为了操作方便起见，需要在python文件的外部进行传参数，具体如下图所示，最主要的命令为sys.argv。

9、解析处理pdf文件并提取信息需要一系列复杂操作，先是要进入到程序所在的位置，然后激活虚拟环境，接着需要传参，可以直接用bat一家操作全部完成，非常方便快捷。

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。