# -*- coding: utf-8 -*- """ @Time : 2023/3/9 15:34 @Author : @FileName: @Software: @Describe: """ import pdfplumber import pandas as pd path = "./data/新建文件夹/13977991/全文对照.pdf" # with pdfplumber.open(path) as pdf: # first_page = pdf.pages[0] # # 获取文本,直接得到字符串,包括了换行符【与PDF上的换行位置一致,而不是实际的“段落”】 # print(first_page.extract_texts()) # # 获取本页全部表格,也可以使用extract_table()获得单个表格 # for table in p0.extract_tables(): # #得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析 # df = pd.DataFrame(table[1:], columns=table[0]) # print(df) with pdfplumber.open(path) as pdf: content = '' for i in range(len(pdf.pages)): # 读取PDF文档第i+1页 page = pdf.pages[i] # page.extract_text()函数即读取文本内容,下面这步是去掉文档最下面的页码 page_content = '\n'.join(page.extract_text().split('\n')[:-1]) content = content + page_content print(content) import pdfplumber import pandas as pd with pdfplumber.open(path) as pdf: first_page = pdf.pages[3] tables = first_page.extract_tables() for table in tables: df = pd.DataFrame(table) # 第一列当成表头: # df = pd.DataFrame(table[1:], columns=table[0]) print(df)