个人技术分享

必须记住我们学习的时间是有限的。时间有限，不只由于人生短促，更由于人事纷繁。我们就应力求把我们所有的时间用去做最有益的事情。

备案号：鄂ICP备2023027962号-1

使用Python提取pdf文件中的文本

2024-05-18 10:55
pdf
70人已看

使用Python提取pdf文件中的文本

介绍
效果
代码

介绍

使用python提取pdf文件中的文本。

效果

原pdf文件内容：
在这里插入图片描述
提取的文本：

代码

from pdfminer.high_level import extract_text


def extract_pdf_to_txt(pdf_path, txt_path):
    # 提取PDF中的文本
    text = extract_text(pdf_path)

    # 将文本写入txt文件
    with open(txt_path, 'w', encoding='utf-8') as f:
        f.write(text)

    print(f"PDF text extracted to {txt_path}")


# 使用函数
pdf_file_path = 'pdf_res/output_1.pdf'  # 替换为你的PDF文件路径
txt_file_path = 'extracted_text.txt'  # 提取后的文本文件名

extract_pdf_to_txt(pdf_file_path, txt_file_path)