个人技术分享

使用Python提取pdf文件中的文本

介绍

  • 使用python提取pdf文件中的文本。

效果

原pdf文件内容:
在这里插入图片描述
提取的文本:
在这里插入图片描述

代码

from pdfminer.high_level import extract_text


def extract_pdf_to_txt(pdf_path, txt_path):
    # 提取PDF中的文本
    text = extract_text(pdf_path)

    # 将文本写入txt文件
    with open(txt_path, 'w', encoding='utf-8') as f:
        f.write(text)

    print(f"PDF text extracted to {txt_path}")


# 使用函数
pdf_file_path = 'pdf_res/output_1.pdf'  # 替换为你的PDF文件路径
txt_file_path = 'extracted_text.txt'  # 提取后的文本文件名

extract_pdf_to_txt(pdf_file_path, txt_file_path)