60行Python代码,实现多线程PDF转Word
工作中经常会遇到需要提取 PDF 文件中文字的情况,一个 PDF 还好,复制粘贴一下也花不了太多时间,如果需要把大量 PDF 转为 Word,怎么办呢? 今天教大家用 60 行代码实现,多线程批量 PDF 转 Word。没兴趣看具体过程可以直接拉到最后,有代码。 分解任务 把 PDF 转为 Word,分几步?两步,第一步读取 PDF 文件,第二步写入 Word 文件。 是的,就是这么简单,借助 Python 第三方包,可以轻松实现上面两个过程,我们要用到 pdfminer3k 和 python-docx 这两个包。 读取 PDF from pdfminer.pdfinterp import PDFResourceManager from pdfminer.pdfinterp import process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams resource_manager = PDFResourceManager() return_str = StringIO() lap_params = LAParams() device = TextConverter(resource_manager, return_str, laparams=lap_params) process_pdf(resource_manager, device, file) // file是使用open方法打开的PDF文件句柄 device.close() // 此处content就是转换为文字的PDF内容 content = return_str.getvalue() content 变量存储的就是我们从 PDF 文件中读取出的文字内容,可以看到,使用 pdfminer3k 可以轻松完成这个任务。接下来我们需要把文字内容写入成一个 word 文件。 ...