Outils pour utilisateurs

Outils du site


informatique:python:extraire_pages_pdf

Ceci est une ancienne révision du document !


Extraire les pages d'un PDF

Extraire les pages d'un PDF et nommer les fichiers résultant avec une donnée contenu dans chaque page.

import os
import pdfplumber
from pypdf import PdfReader, PdfWriter
import re
 
# Le fichier source PDF
pdf_path = "./le gros fichier.pdf"
 
# Dossier de sortie
output_folder = "pages"
os.makedirs(output_folder, exist_ok=True)
 
# Lecture avec pdfplumber pour extraire le texte
with pdfplumber.open(pdf_path) as pdf:
    for i, page in enumerate(pdf.pages):
        text = page.extract_text()
 
        # 🔍 Exemple : chercher un numéro de facture dans le texte
        # (à adapter selon le format de tes données)
        match = re.search(r"Facture\s*:\s*(\w+)", text)
 
        if match:
            nom_fichier = match.group(1)
        else:
            nom_fichier = f"page_{i+1}"  # nom générique si rien trouvé
 
        # Extraire la page avec PyPDF et l’enregistrer
        reader = PdfReader(pdf_path)
        writer = PdfWriter()
        writer.add_page(reader.pages[i])
        output_path = os.path.join(output_folder, f"{nom_fichier}.pdf")
 
        with open(output_path, "wb") as f_out:
            writer.write(f_out)
 
        print(f"Page {i+1} enregistrée sous : {output_path}")
informatique/python/extraire_pages_pdf.1752049186.txt.gz · Dernière modification : de cyrille

Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC0 1.0 Universal
CC0 1.0 Universal Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki