import pdfplumber

# List of your PDF files (update with your filenames)
pdf_files = ["data/book1.pdf", "data/book2.pdf", "data/book3.pdf", "data/book4.pdf"]

# Extract text from each book
books_text = {}
for i, pdf_file in enumerate(pdf_files, 1):
    with pdfplumber.open(pdf_file) as pdf:
        text = ""
        for page in pdf.pages:
            text += page.extract_text() or ""
        books_text[f"book{i}"] = text
        with open(f"book{i}.txt", "w", encoding="utf-8") as f:
            f.write(text)

# Combine into one file (optional)
combined_text = "\n".join(books_text.values())
with open("combined_books.txt", "w", encoding="utf-8") as f:
    f.write(combined_text)

print("Text extraction complete. Check book1.txt, book2.txt, book3.txt, book4.txt, and combined_books.txt.")