duplicate_check/读取pdf.py


								# -*- coding: utf-8 -*-


								"""

								@Time    :  2023/3/9 15:34

								@Author  :

								@FileName:

								@Software:

								@Describe:

								"""

								import pdfplumber

								import pandas as pd


								path = "./data/新建文件夹/13977991/全文对照.pdf"

								# with pdfplumber.open(path) as pdf:

								#     first_page = pdf.pages[0]

								#     # 获取文本，直接得到字符串，包括了换行符【与PDF上的换行位置一致，而不是实际的“段落”】

								#     print(first_page.extract_texts())

								#     # 获取本页全部表格，也可以使用extract_table()获得单个表格

								#     for table in p0.extract_tables():

								#         #得到的table是嵌套list类型，转化成DataFrame更加方便查看和分析

								#         df = pd.DataFrame(table[1:], columns=table[0])

								#         print(df)


								with pdfplumber.open(path) as pdf:

								    content = ''

								    for i in range(len(pdf.pages)):

								        # 读取PDF文档第i+1页

								        page = pdf.pages[i]


								        # page.extract_text()函数即读取文本内容，下面这步是去掉文档最下面的页码

								        page_content = '\n'.join(page.extract_text().split('\n')[:-1])

								        content = content + page_content


								print(content)


								import pdfplumber

								import pandas as pd


								with pdfplumber.open(path) as pdf:

								    first_page = pdf.pages[3]

								    tables = first_page.extract_tables()

								    for table in tables:

								        df = pd.DataFrame(table)

								        # 第一列当成表头：

								        # df = pd.DataFrame(table[1:], columns=table[0])


								print(df)