Ceci est une ancienne révision du document !

Extraire les pages d'un PDF

Extraire les pages d'un PDF et nommer les fichiers résultant avec une donnée contenu dans chaque page.

import os
import pdfplumber
from pypdf import PdfReader, PdfWriter
import re
 
# Le fichier source PDF
pdf_path = "./le gros fichier.pdf"
 
# Dossier de sortie
output_folder = "pages"
os.makedirs(output_folder, exist_ok=True)
 
# Lecture avec pdfplumber pour extraire le texte
with pdfplumber.open(pdf_path) as pdf:
    for i, page in enumerate(pdf.pages):
        text = page.extract_text()
 
        # 🔍 Exemple : chercher un numéro de facture dans le texte
        # (à adapter selon le format de tes données)
        match = re.search(r"Facture\s*:\s*(\w+)", text)
 
        if match:
            nom_fichier = match.group(1)
        else:
            nom_fichier = f"page_{i+1}"  # nom générique si rien trouvé
 
        # Extraire la page avec PyPDF et l’enregistrer
        reader = PdfReader(pdf_path)
        writer = PdfWriter()
        writer.add_page(reader.pages[i])
        output_path = os.path.join(output_folder, f"{nom_fichier}.pdf")
 
        with open(output_path, "wb") as f_out:
            writer.write(f_out)
 
        print(f"Page {i+1} enregistrée sous : {output_path}")