Python轻松搞定PDF，分割合并一步到位！揭秘高效处理技巧

PDF（Portable Document Format）是一种广泛使用的文档格式，由于其跨平台性和可以保留原始文档格式的特点，被广泛应用于各种场合。Python作为一种功能强大的编程语言，提供了多种库来处理PDF文件。本文将介绍如何使用Python轻松实现PDF文件的分割和合并，并揭秘一些高效处理技巧。

一、PDF分割

1. 使用PyPDF2库分割PDF

PyPDF2是一个纯Python库，用于读取PDF文件，并提供了分割PDF的基本功能。以下是一个简单的示例：

import PyPDF2 def split_pdf(input_pdf, output_folder, page_range): """ 使用PyPDF2分割PDF文件。 :param input_pdf: 输入的PDF文件路径 :param output_folder: 输出文件夹路径 :param page_range: 分割的页码范围，例如(0, 2)表示分割前两页 """ with open(input_pdf, 'rb') as file: reader = PyPDF2.PdfFileReader(file) total_pages = reader.numPages for i in range(page_range[0], page_range[1]): if i >= total_pages: break writer = PyPDF2.PdfFileWriter() writer.addPage(reader.getPage(i)) output_pdf = f"{output_folder}/page_{i+1}.pdf" with open(output_pdf, 'wb') as output_file: writer.write(output_file) # 使用示例 split_pdf('input.pdf', 'output', (0, 2))

2. 使用PDFMiner库分割PDF

PDFMiner是一个用于提取PDF文件中的文字、图像和结构的库。它也可以用来分割PDF文件。以下是一个简单的示例：

from pdfminer.high_level import extract_pages from pdfminer.layout import LTPage def split_pdf_with_pdfminer(input_pdf, output_folder): """ 使用PDFMiner分割PDF文件。 :param input_pdf: 输入的PDF文件路径 :param output_folder: 输出文件夹路径 """ for page_layout in extract_pages(input_pdf): output_pdf = f"{output_folder}/page_{page_layout.page_number}.pdf" page = LTPage() page.add_layout(page_layout) page.save(output_pdf) # 使用示例 split_pdf_with_pdfminer('input.pdf', 'output')

二、PDF合并

1. 使用PyPDF2库合并PDF

PyPDF2同样可以用来合并PDF文件。以下是一个简单的示例：

import PyPDF2 def merge_pdfs(input_pdfs, output_pdf): """ 使用PyPDF2合并PDF文件。 :param input_pdfs: 输入的PDF文件路径列表 :param output_pdf: 输出的PDF文件路径 """ pdf_writer = PyPDF2.PdfFileWriter() for input_pdf in input_pdfs: with open(input_pdf, 'rb') as file: pdf_reader = PyPDF2.PdfFileReader(file) for page in range(pdf_reader.numPages): pdf_writer.addPage(pdf_reader.getPage(page)) with open(output_pdf, 'wb') as output_file: pdf_writer.write(output_file) # 使用示例 merge_pdfs(['input1.pdf', 'input2.pdf'], 'output.pdf')

2. 使用Pillow库合并PDF

Pillow是一个Python图像处理库，也可以用来合并PDF文件。以下是一个简单的示例：

from PIL import Image def merge_pdfs_with_pillow(input_pdfs, output_pdf): """ 使用Pillow合并PDF文件。 :param input_pdfs: 输入的PDF文件路径列表 :param output_pdf: 输出的PDF文件路径 """ images = [] for pdf in input_pdfs: for page in range(1, get_page_count(pdf) + 1): images.append(Image.open(f"{pdf}[{page}]")) images[0].save(output_pdf, save_all=True, append_images=images[1:]) def get_page_count(pdf): """ 获取PDF文件页数。 :param pdf: PDF文件路径 :return: PDF文件页数 """ return len(Image.open(pdf).getpages()) # 使用示例 merge_pdfs_with_pillow(['input1.pdf', 'input2.pdf'], 'output.pdf')