accessibility

Sleeping

App Files Files Community

Bentham commited on Nov 29, 2024

Commit

c44a4ea

verified ·

1 Parent(s): 672ecc1

test API asynchrones

Browse files

Files changed (1) hide show

main.py +143 -379

main.py CHANGED Viewed

@@ -6,12 +6,12 @@ import base64
 import re
 import threading
 import time
-from typing import List, Dict
 import logging
 import tempfile
 import shutil
 import json
-import tempfile
 from openai import OpenAI
@@ -21,23 +21,22 @@ import pypandoc
 import fitz  # PyMuPDF
 from bs4 import BeautifulSoup, Comment
-# Initialiser le logger
 logging.basicConfig(level=logging.DEBUG)
-# Initialiser l'application FastAPI
 app = FastAPI()
 client = OpenAI()
-# Dossier de base pour les jobs
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 JOBS_DIR = os.path.join(tempfile.gettempdir(), 'jobs')
 if not os.path.exists(JOBS_DIR):
     os.makedirs(JOBS_DIR)
-# Map des extensions aux formats Pandoc
 FORMAT_MAP = {
     '.odt': 'odt',
     '.pdf': 'pdf',
@@ -57,8 +56,8 @@ FORMAT_MAP = {
 }
 def get_pandoc_format(extension: str) -> str:
-    """Récupérer le format Pandoc basé sur l'extension du fichier."""
-    return FORMAT_MAP.get(extension, 'auto')  # 'auto' laisse Pandoc déterminer le format
 def update_job_status(job_id: str, status: str, message: str = '', result_file: str = None):
     job_dir = os.path.join(JOBS_DIR, job_id)
@@ -85,41 +84,41 @@ def get_job_status(job_id: str):
 def process_file(job_id: str, input_file_path: str, ext: str, original_filename: str):
     job_dir = os.path.join(JOBS_DIR, job_id)
     try:
-        # Mettre à jour le statut à 'processing'
         update_job_status(job_id, 'processing', 'Le fichier est en cours de traitement')
-        # Initialiser le compteur d'images et le dictionnaire des données d'images
         image_counter = [1]
         images_data = {}
-        # Nom de base du fichier
         base_filename = os.path.splitext(original_filename)[0]
         output_filename = os.path.join(job_dir, f"{base_filename}.html")
-        # Conversion du fichier en HTML accessible
-        final_html = convert_to_accessible_html(input_file_path, ext, base_filename, image_counter, images_data)
-        # Vérifier si le contenu HTML final est obtenu
-        if not final_html:
-            update_job_status(job_id, 'error', 'Erreur lors de la conversion.')
-            return
-        # Écrire le HTML final dans le fichier de sortie
         with open(output_filename, 'w', encoding='utf-8') as f:
             f.write(final_html)
-        # Quand le traitement est terminé
         update_job_status(job_id, 'completed', 'Traitement terminé', result_file=f"{base_filename}.html")
-        # Supprimer les fichiers temporaires après un délai
-        delete_files_after_delay([input_file_path], delay=300)  # 300 secondes = 5 minutes
     except Exception as e:
         logging.error(f"Erreur lors du traitement du job {job_id}: {str(e)}")
         update_job_status(job_id, 'error', f"Erreur: {str(e)}")
 def delete_files_after_delay(file_paths: List[str], delay: int = 1200):
-    """Fonction pour supprimer les fichiers temporaires après un délai en secondes."""
     def delayed_delete():
         time.sleep(delay)
         for file_path in file_paths:
@@ -130,21 +129,21 @@ def delete_files_after_delay(file_paths: List[str], delay: int = 1200):
             except Exception as e:
                 logging.error(f"Erreur lors de la suppression du fichier {file_path} : {str(e)}")
-    # Créer et démarrer un thread séparé
     thread = threading.Thread(target=delayed_delete)
     thread.start()
-def convert_to_accessible_html(input_filename, ext, base_filename, image_counter, images_data):
     try:
-        # Conversion PDF en HTML avec PyMuPDF
         if ext == '.pdf':
             # Initialize BeautifulSoup with basic HTML structure
             soup = BeautifulSoup("<html><head></head><body></body></html>", 'html.parser')
             body = soup.body
-            page_number = 1  # Initialiser le compteur de pages
             with fitz.open(input_filename) as doc:
                 for page in doc:
-                    # Ajouter le commentaire de page avant le contenu HTML de la page
                     page_comment = f"<!--PAGE_{page_number}-->"
                     body.append(BeautifulSoup(page_comment, 'html.parser'))
@@ -156,14 +155,23 @@ def convert_to_accessible_html(input_filename, ext, base_filename, image_counter
             html_content = str(soup)
             logging.debug(f"Voici le contenu du PDF brut avec commentaires de page : {html_content}")
-            # Nettoyer le contenu HTML
-            cleaned_html = clean_html_content(html_content, image_counter, images_data)
-            # Réécrire le HTML pour le rendre plus accessible
-            rewritten_html = rewrite_html_accessible(cleaned_html)
-            # Réinsérer les images et leurs descriptions dans le HTML réécrit
             final_html = reinsert_images(rewritten_html, images_data)
-            # Suppression finale des balises <script> spécifiques
             final_soup = BeautifulSoup(final_html, 'html.parser')
             scripts_to_remove = final_soup.find_all('script', src=True)
             for script in scripts_to_remove:
@@ -173,27 +181,27 @@ def convert_to_accessible_html(input_filename, ext, base_filename, image_counter
                     script.decompose()
             final_html = str(final_soup)
-            # Supprimer les lignes contenant uniquement "```html" ou "```"
             final_html = re.sub(r'^\s*```(?:html)?\s*$', '', final_html, flags=re.MULTILINE)
             logging.debug(f"Conversion PDF en HTML accessible réussie.")
             return final_html
-        # Conversion d'autres formats en HTML avec Pandoc
         else:
             input_format = get_pandoc_format(ext)
             try:
-                # Conversion du fichier avec Pandoc en utilisant l'option --self-contained
                 output = pypandoc.convert_file(
                     input_filename,
                     'html',
-                    format=input_format,  # Spécifiez le format ici
                     outputfile=None,
                     extra_args=[
-                        '--self-contained',   # Intégrer les ressources externes comme les images
-                        '--strip-comments',   # Supprimer les commentaires
-                        '--quiet'             # Supprimer les sorties verboses
                     ]
                 )
                 html_content = output
@@ -202,7 +210,7 @@ def convert_to_accessible_html(input_filename, ext, base_filename, image_counter
                 logging.error(f"Pandoc a rencontré une erreur : {str(e)}")
                 logging.info("Tentative de conversion sans l'option --self-contained.")
-                # Réessayer sans l'option --self-contained
                 output = pypandoc.convert_file(
                     input_filename,
                     'html',
@@ -216,16 +224,23 @@ def convert_to_accessible_html(input_filename, ext, base_filename, image_counter
                 html_content = output
                 logging.debug(f"Conversion en HTML réussie avec Pandoc sans --self-contained.")
-            # Nettoyer le contenu HTML
-            cleaned_html = clean_html_content(html_content, image_counter, images_data)
-            # Réécrire le HTML pour le rendre plus accessible
-            rewritten_html = rewrite_html_accessible(cleaned_html)
-            # Réinsérer les images et leurs descriptions dans le HTML réécrit
             final_html = reinsert_images(rewritten_html, images_data)
-            # Suppression finale des balises <script> spécifiques
             final_soup = BeautifulSoup(final_html, 'html.parser')
             scripts_to_remove = final_soup.find_all('script', src=True)
             for script in scripts_to_remove:
@@ -235,7 +250,7 @@ def convert_to_accessible_html(input_filename, ext, base_filename, image_counter
                     script.decompose()
             final_html = str(final_soup)
-            # Supprimer les lignes contenant uniquement "```html" ou "```"
             final_html = re.sub(r'^\s*```(?:html)?\s*$', '', final_html, flags=re.MULTILINE)
             logging.debug(f"Conversion en HTML accessible réussie avec Pandoc.")
@@ -246,10 +261,10 @@ def convert_to_accessible_html(input_filename, ext, base_filename, image_counter
         return None
 def encode_image_from_data_uri(data_uri: str) -> str:
-    """Fonction pour encoder une image à partir d'une Data URI."""
     try:
         header, encoded = data_uri.split(',', 1)
-        # Supprimer les retours à la ligne et les espaces
         encoded = ''.join(encoded.split())
         return encoded
     except Exception as e:
@@ -257,27 +272,27 @@ def encode_image_from_data_uri(data_uri: str) -> str:
         return ""
 def markdown_to_html(markdown_text: str) -> str:
-    """Convertir la syntaxe Markdown en HTML."""
-    # Remplacement des balises Markdown par des balises HTML
     html = markdown_text
-    html = re.sub(r'\*\*(.*?)\*\*', r'<strong>\1</strong>', html)  # Gras
-    html = re.sub(r'\*(.*?)\*', r'<i>\1</i>', html)  # Italique
-    html = re.sub(r'__(.*?)__', r'<strong>\1</strong>', html)  # Gras alternatif
-    html = re.sub(r'_(.*?)_', r'<i>\1</i>', html)  # Italique alternatif
     return html
-def get_image_description(base64_image: str) -> str:
-    """Fonction pour obtenir la description d'une image via l'API OpenAI."""
     try:
-        response = client.chat.completions.create(
-            model="gpt-4o-mini",  # Nom du modèle maintenu tel quel
             messages=[
                 {
                     "role": "user",
                     "content": [
                         {
                             "type": "text",
-                            "text": "Décris ce que l'on peut voir sur cette image, pour qu'un lecteur malvoyant puisse comprendre ce qu'elle représente.",
                         },
                         {
                             "type": "image_url",
@@ -289,64 +304,18 @@ def get_image_description(base64_image: str) -> str:
                 }
             ],
         )
-        # Accéder correctement au contenu de la réponse
         description = response.choices[0].message.content.strip()
         return description
     except Exception as e:
         logging.error(f"Erreur lors de l'appel à l'API OpenAI : {str(e)}")
         return "Description indisponible."
-def rewrite_html_accessible(html_content: str) -> str:
-    """Fonction pour réécrire le HTML de façon plus accessible via l'API OpenAI."""
     prompt = (
-        "Je vais te donner un fichier HTML, et je voudrais que tu le réécrives de façon plus accessible tout en **préservant strictement l'ordre du contenu original**. "
-        "Tu ne dois **rien réorganiser**, **ne rien supprimer** et **ne rien ajouter** en termes de structure ou de contenu. "
-        "Ton intervention doit se faire exclusivement sur la **forme** du document : le contenu doit être **intégralement préservé dans le même ordre**, jusqu'à la fin. "
-        "L'ensemble du CSS correspondant aux classes devra être explicité dans une balise <style> dans le <head>. Toutes les instructions de style doivent être incluses dans le head, on ne doit avoir aucun <style src=X> qui irait chercher une source extérieure.\n"
-        "IMPORTANT : Tu dois **respecter scrupuleusement l'ordre indiqué par les commentaires HTML de la forme <!--PAGE_X-->,** s'ils existent. On doit avoir <!--PAGE_1--> [...] <!--PAGE_2--> [...] <!--PAGE_3--> [...], et ainsi de suite, dans l'ordre exact et sans en oublier un seul. C'est très important ! Ces marqueurs te permettent de t'assurer que la page est bien retranscrite dans le bon ordre. Ne déplace, ne supprime, et ne modifie pas ces commentaires.\n"
-        "Attention, ce document est peut-être issu d'un PDF ou d'un DOCX. Il faut donc être attentif :\n"
-        "- Aux balises <p> qui suivent immédiatement les marqueurs <!--PAGE_X--> : il peut s'agir de headers. Pour le savoir, il faut les comparer entre eux pour savoir s'ils sont à peu près similaires.\n"
-        "- Aux balises <p> qui précèdent immédiatement les marqueurs <!--PAGE_X--> : il peut s'agir de footers. De même, il faut les comparer entre eux pour savoir s'ils sont à peu près similaires.\n"
-        "Dans tous les cas, il faut supprimer tous les headers et les footers identifiés (c'est-à-dire supprimer la totalité du contenu de la balise <p> concernée). Attention, ces suppressions ne doivent pas affecter les autres éléments : le code html que tu produis doit être aussi propre que possible, comme si on avait un document de traitement de texte.\n"
-        "S'il y a des retours à la ligne injustifiés, il faut rétablir l'intégrité des phrases, et constituer de véritables paragraphes complets. L'ensemble du code doit être inclus entre des balises <html></html>\n"
-        "Tu donneras la totalité du HTML réécrit, et rien d'autre, ni avant ni après. "
-        "Ne résume jamais les informations, ne réorganise pas le contenu et ne supprime aucune section.\n\n"
-        "IMPORTANT : Ne jamais inclure de balises <script> dans le HTML réécrit.\n\n"  # Nouvelle Ligne Ajoutée
-        "Voici tout d'abord les règles à suivre pour avoir un document accessible :\n\n"
-        "1. Adopter des pratiques de rédaction sobres\n"
-        "• Éviter les polices avec empattement. Utiliser de préférence : Arial, Calibri, Verdana, etc.\n"
-        "• Limiter l’utilisation de texte en italique.\n"
-        "• Éviter les soulignements.\n"
-        "• Aligner le texte à gauche, en drapeau, plutôt que de le justifier.\n"
-        "• Respecter les règles typographiques usuelles.\n\n"
-        "2. Rédiger des contenus clairs et sans ambiguïté\n"
-        "• Conserver les accents sur les lettres majuscules (début de phrase, noms propres, etc.).\n"
-        "• Éviter d’écrire des mots entièrement en majuscules.\n"
-        "• Expliciter les abréviations à la première occurrence ou associer un glossaire au document.\n"
-        "• Spécifier les changements de langue et, si besoin, la langue par défaut du document.\n\n"
-        "3. Structurer le contenu du document à l’aide de niveaux de titres et de paragraphes\n"
-        "• Définir la hiérarchie du contenu (titre principal, titre secondaire, sous-titre, etc.).\n"
-        "• Associer aux différents niveaux de titres des styles prédéfinis (titre 1, titre 2, titre 3, etc.).\n"
-        "• Modifier les styles prédéfinis en fonction des besoins et les appliquer à l’ensemble du document.\n"
-        "• Utiliser les paramètres d’espacement pour aérer le texte, sans effectuer de multiples retours à la ligne.\n\n"
-        "4. Veiller au bon usage des couleurs et des contrastes\n"
-        "• Assurer un contraste optimal entre le texte et la couleur de fond.\n"
-        "• Expliciter l’information véhiculée par les couleurs.\n\n"
-        "5. Insérer des tableaux accessibles\n"
-        "• S’assurer que l’usage d’un tableau est pertinent.\n"
-        "• Spécifier les lignes et les colonnes d’en-tête.\n"
-        "• Empêcher les tableaux et les cellules d’être à cheval sur deux pages.\n"
-        "• Insérer un tiret dans les cellules ne contenant pas d’information.\n"
-        "• Associer une légende aux tableaux.\n\n"
-        "S'il y a des tableaux dans le document, les bordures doivent être noires et apparaître clairement. Une ligne sur deux doit être légèrement grisée, pour qu'on puisse facilement s'y repérer."
-        "Les titres doivent être indentés avec une margin-left, qui augmente avec le niveau de titre (le plus haut niveau de titre ayant une margin-left de 0). "
-        "Chaque niveau de titre doit avoir sa propre couleur (en s'assurant qu'elle soit suffisamment sombre, pour contraster avec le fond blanc. Par exemple Navy, DarkGreen, DarkRed...). "
-        "ATTENTION : pour les titres, utilise absolument les balises h1, h2, h3, h4, h5 et h6. Le titre de niveau supérieur doit avoir la balise h1.\n\n"
-        "Le cas échéant, il faut faire attention à bien respecter la logique des titres : a priori, les titres qui sont préfixés par une écriture romaine (I, II, III), "
-        "par un nombre (1, 2, 3) ou par une lettre (a, b, c, ou bien A, B, C) doivent être de même niveau. Idem pour les titres rédigés en majuscules. Quand une expression très courte qui ne ressemble pas syntaxiquement à une phrase "
-        "est présentée sur une seule ligne, il y a des chances qu'il s'agisse d'un titre : dans ce cas (et si c'est pertinent) traite-la comme telle.\n"
-        "On évite les balises <ul> et <li>\n"
-        "Encore une fois, fais bien attention à reproduire fidèlement l'ordre des marqueurs <!--PAGE_X-->, dans l'ordre croissant des X : c'est ta tâche principale.\n"
         "Voici maintenant le fichier HTML d'origine :\n"
         + html_content
     )
@@ -355,15 +324,15 @@ def rewrite_html_accessible(html_content: str) -> str:
         logging.debug("Contenu avant l'appel à l'API OpenAI :")
         logging.debug(html_content)
-        response = client.chat.completions.create(
-            model="gpt-4o-mini",  # Remplacez par le modèle approprié
             messages=[
                 {"role": "user", "content": prompt}
             ],
         )
-        # Extraire le contenu textuel de la réponse
         rewritten_html = response.choices[0].message.content.strip()
-        # Remplacer les commentaires HTML échappés si nécessaire
         rewritten_html = rewritten_html.replace("&lt;!--", "<!--").replace("--&gt;", "-->")
         logging.debug("Contenu après l'appel à l'API OpenAI :")
@@ -372,59 +341,63 @@ def rewrite_html_accessible(html_content: str) -> str:
         return rewritten_html
     except Exception as e:
         logging.error(f"Erreur lors de la réécriture du HTML : {str(e)}")
-        return html_content  # Retourner le HTML non réécrit en cas d'erreur
-def clean_html_content(html_content: str, image_counter: List[int], images_data: Dict[str, Dict[str, str]]) -> str:
-    """Fonction pour nettoyer le contenu HTML selon les exigences"""
-    # Implémentation de la fonction comme dans votre code initial
     soup = BeautifulSoup(html_content, 'html.parser')
-    # Supprimer le CSS inline
     for tag in soup.find_all():
         if 'style' in tag.attrs:
             del tag['style']
-    # Supprimer les en-têtes, pieds de page et numéros de page
     for element in soup.find_all(['header', 'footer']):
         element.decompose()
-    # Supprimer les éléments susceptibles d'être des numéros de page
     for div in soup.find_all('div'):
         if div.get_text(strip=True).isdigit():
             div.decompose()
-    # Compter le nombre total d'images avec data URI
     total_images = len([img for img in soup.find_all('img') if img.get('src', '').startswith('data:image/')])
     if total_images > 20:
         logging.warning(f"Nombre d'images ({total_images}) dépasse 20. Les images seront ignorées.")
-        # Supprimer toutes les images sans les traiter
         for img in soup.find_all('img'):
             img.decompose()
     else:
-        # Traiter les images
         for img in soup.find_all('img'):
             src = img.get('src', '')
             X = image_counter[0]
             if src.startswith('data:image/'):
                 base64_image = encode_image_from_data_uri(src)
                 if base64_image:
-                    Y = get_image_description(base64_image)
                 else:
-                    Y = "description indisponible"
-                # Stocker les données de l'image et la description pour réinsertion ultérieure
-                images_data[f"IMG_{X}"] = {
-                    'base64_image': base64_image,
-                    'description': Y
-                }
-                # Remplacer l'image par un commentaire HTML
-                placeholder = f"<!--IMG_{X}-->"
-                img.replace_with(placeholder)
-                image_counter[0] += 1
             else:
-                img.decompose()  # Supprimer les images sans data URI
-    # Supprimer les balises <script> spécifiques
     scripts_to_remove = soup.find_all('script', src=True)
     for script in scripts_to_remove:
         src = script['src']
@@ -432,249 +405,40 @@ def clean_html_content(html_content: str, image_counter: List[int], images_data:
             logging.debug(f"Suppression de la balise <script> : {script}")
             script.decompose()
-    # Supprimer les paragraphes ou spans vides
     for tag in soup.find_all(['p', 'span']):
         if not tag.get_text(strip=True):
             tag.decompose()
-    # Insérer les styles dans une balise <style> dans le head
     style_tag = soup.new_tag('style')
     style_tag.string = """
-/* Variables CSS pour une gestion facile des tailles */
-:root {
-    --font-size-min: 1rem;
-    --font-size-base: 1rem; /* 16px par défaut */
-    --font-size-large: 2.5rem; /* Ajustable selon les besoins */
-    --line-height: 1.5;
-    --font-family: Arial, Calibri, Verdana, sans-serif;
-    --text-color: #1a1a1a;
-    --background-color: #fdfdfd;
-    --link-color: #1a1a1a;
-    --heading-color-primary: Navy;
-    --heading-color-secondary: DarkGreen;
-    --heading-color-tertiary: DarkRed;
-    --heading-color-quaternary: DarkSlateGray;
-    --heading-color-cinq: DarkSlateBlue;
-    --heading-color-six: DarkViolet;
-}
-/* Styles de base */
-html {
-    font-family: var(--font-family);
-    font-size: var(--font-size-base);
-    line-height: var(--line-height);
-    color: var(--text-color);
-    background-color: var(--background-color);
-    /* Fluid Typography: Ajuste la taille de la police en fonction de la largeur de la fenêtre */
-    font-size: clamp(var(--font-size-min), 2vw, 1.5rem);
-}
-body {
-    margin: 20px auto;
-    max-width: 36em; /* 36em correspond à environ 576px */
-    padding: 2rem;
-    hyphens: auto;
-    overflow-wrap: break-word;
-    text-rendering: optimizeLegibility;
-    font-kerning: normal;
-    text-align: left;
-}
-/* Titres réactifs */
-h1 {
-    margin-left: 0;
-    color: var(--heading-color-primary);
-    font-size: clamp(1.5rem, 5vw, 2rem); /* Entre 24px et 48px */
-}
-h2 {
-    margin-left: 1rem;
-    color: var(--heading-color-secondary);
-    font-size: clamp(1.25rem, 4vw, 1.75rem); /* Entre 20px et 40px */
-}
-h3 {
-    margin-left: 2rem;
-    color: var(--heading-color-tertiary);
-    font-size: clamp(1.125rem, 4vw, 1.5rem); /* Entre 18px et 36px */
-}
-h4 {
-    margin-left: 3rem;
-    color: var(--heading-color-quaternary);
-    font-size: clamp(1rem, 4vw, 1.5rem); /* Entre 16px et 32px */
-}
-h5 {
-    margin-left: 4rem;
-    color: var(--heading-color-cinq);
-    font-size: clamp(1rem, 4vw, 1.5rem); /* Entre 16px et 32px */
-}
-h6 {
-    margin-left: 5rem;
-    color: var(--heading-color-six);
-    font-size: clamp(1rem, 4vw, 1.5rem); /* Entre 16px et 32px */
-}
-/* Médias responsive */
-@media (max-width: 600px) {
-    html {
-        font-size: clamp(var(--font-size-min), 4vw, 1.5rem); /* Ajuste légèrement pour petits écrans */
-    }
-    body {
-        padding: 1rem;
-    }
-    h1 {
-        font-size: clamp(1.5rem, 6vw, 2.5rem);
-    }
-    h2 {
-        font-size: clamp(1.25rem, 5vw, 2rem);
-    }
-    h3 {
-        font-size: clamp(1.125rem, 4.5vw, 1.75rem);
-    }
-    h4, h5, h6 {
-        font-size: clamp(1rem, 4vw, 1.5rem);
-    }
-}
-/* Impression */
-@media print {
-    body {
-        background-color: transparent;
-        color: black;
-        font-size: 12pt;
-    }
-    p, h2, h3 {
-        orphans: 3;
-        widows: 3;
-    }
-    h2, h3, h4 {
-        page-break-after: avoid;
-    }
-}
-/* Paragraphes et liens */
-p {
-    margin: 1em 0;
-    font-size: 1rem; /* 16px */
-}
-a {
-    color: var(--link-color);
-    text-decoration: none;
-}
-a:visited {
-    color: var(--link-color);
-}
-a:hover, a:focus {
-    text-decoration: underline; /* Améliore la visibilité au survol */
-}
-/* Images réactives */
-img {
-    max-width: 100%;
-    height: auto;
-}
-/* Tables réactives */
-table {
-    margin: 1em 0;
-    border-collapse: collapse;
-    width: 100%;
-    overflow-x: auto;
-    display: block;
-    font-variant-numeric: lining-nums tabular-nums;
-}
-table caption {
-    margin-bottom: 0.75em;
-}
-th, td {
-    border: 1px solid #000;
-    padding: 0.5em;
-    text-align: left;
-}
-tbody tr:nth-child(odd) {
-    background-color: #f2f2f2;
-}
-tbody tr:nth-child(even) {
-    background-color: #ffffff;
-}
-/* Citations */
-blockquote {
-    margin: 1em 0 1em 1.7em;
-    padding-left: 1em;
-    border-left: 2px solid #e6e6e6;
-    color: #606060;
-}
-/* Code */
-code {
-    font-family: Menlo, Monaco, 'Lucida Console', Consolas, monospace;
-    font-size: 0.85rem;
-    margin: 0;
-    white-space: pre-wrap;
-}
-pre {
-    margin: 1em 0;
-    overflow: auto;
-}
-pre code {
-    padding: 0;
-    overflow: visible;
-    overflow-wrap: normal;
-}
-.sourceCode {
-    background-color: transparent;
-    overflow: visible;
-}
-/* Lignes horizontales */
-hr {
-    background-color: #1a1a1a;
-    border: none;
-    height: 1px;
-    margin: 1em 0;
-}
-/* Styles supplémentaires */
-span.smallcaps {
-    font-variant: small-caps;
-}
-span.underline {
-    text-decoration: underline;
-}
-div.column {
-    display: inline-block;
-    vertical-align: top;
-    width: 50%;
-}
-.description {
-    background-color: #f0f3ff;
-    padding: 1em;
-    border: 1px solid black;
-}
-div.hanging-indent {
-    margin-left: 1.5em;
-    text-indent: -1.5em;
-}
-ul.task-list {
-    list-style: none;
-}
-.display.math {
-    display: block;
-    text-align: center;
-    margin: 0.5rem auto;
-}
     """
     if soup.head:
         soup.head.append(style_tag)
     else:
-        # Si <head> n'existe pas, créer un <head>
         head_tag = soup.new_tag('head')
         head_tag.append(style_tag)
         soup.insert(0, head_tag)
-    return str(soup)
 def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -> str:
-    """Fonction pour réintégrer les images et leurs descriptions dans le code HTML final."""
-    # Utiliser BeautifulSoup pour parser le HTML
     soup = BeautifulSoup(html_content, 'html.parser')
-    # Rechercher les commentaires HTML de la forme <!--IMG_X-->
     for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
         match = re.match(r'IMG_(\d+)', comment)
         if match:
             image_number = match.group(1)
             image_key = f"IMG_{image_number}"
             if image_key in images_data:
-                # Créer une balise <img> avec les données base64
                 img_tag = soup.new_tag('img')
                 img_tag['src'] = f"data:image/jpeg;base64,{images_data[image_key]['base64_image']}"
                 img_tag['alt'] = images_data[image_key]['description']
@@ -682,30 +446,30 @@ def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -
                 new_content = soup.new_tag('div')
                 new_content.append(img_tag)
-                # Créer une balise <p> avec la classe 'description'
                 p_tag = soup.new_tag('p', attrs={'class': 'description'})
-                # Créer une balise <strong>Image X</strong>
                 strong_tag = soup.new_tag('strong')
                 strong_tag.string = f"Image {image_number}"
                 p_tag.append(strong_tag)
-                # Ajouter " : " après <strong>
                 p_tag.append(" : ")
-                # Récupérer la description en Markdown
                 y_markdown = images_data[image_key]['description']
-                # Convertir le Markdown en HTML
                 y_html = markdown_to_html(y_markdown)
-                # Parser le HTML généré et l'ajouter à la balise <p>
                 y_soup = BeautifulSoup(y_html, 'html.parser')
                 p_tag.append(y_soup)
                 new_content.append(p_tag)
-                # Remplacer le commentaire par le nouveau contenu
                 comment.replace_with(new_content)
             else:
                 logging.error(f"Données pour {image_key} non trouvées.")
@@ -718,12 +482,12 @@ async def convert_file_to_html(
     background_tasks: BackgroundTasks = BackgroundTasks()
 ):
     try:
-        # Générer un ID de job
         job_id = str(uuid.uuid4())
         job_dir = os.path.join(JOBS_DIR, job_id)
         os.makedirs(job_dir)
-        # Enregistrer le fichier d'entrée
         ext = os.path.splitext(file.filename)[1].lower()
         if ext not in FORMAT_MAP:
             raise HTTPException(status_code=400, detail=f"Extension de fichier non supportée : {ext}")
@@ -732,7 +496,7 @@ async def convert_file_to_html(
         with open(input_file_path, "wb") as f:
             shutil.copyfileobj(file.file, f)
-        # Initialiser le statut
         status = {
             'status': 'pending',
             'message': 'Traitement démarré',
@@ -742,10 +506,10 @@ async def convert_file_to_html(
         with open(status_file, 'w') as f:
             json.dump(status, f)
-        # Démarrer la tâche en arrière-plan
         background_tasks.add_task(process_file, job_id, input_file_path, ext, file.filename)
-        # Retourner le job ID
         return JSONResponse(content={'job_id': job_id})
     except Exception as e:
@@ -785,7 +549,7 @@ def delete_temp_files(file_paths: list):
 @app.post("/convert_to_txt/")
 async def convert_file_to_txt(
-    file: UploadFile = File(...),
     background_tasks: BackgroundTasks = BackgroundTasks()
 ):
     try:
@@ -799,7 +563,7 @@ async def convert_file_to_txt(
             '.odt', '.pdf', '.docx', '.html', '.htm', '.md', '.txt', '.rtf', '.epub',
             '.tex', '.xml', '.org', '.commonmark', '.cm', '.wiki', '.opml'
         ]
         if ext not in allowed_extensions:
             raise HTTPException(status_code=400, detail=f"Unsupported file extension: {ext}")
@@ -823,7 +587,7 @@ async def convert_file_to_txt(
             with open(output_filename, "w", encoding="utf-8") as f:
                 f.write(text)
             logging.debug(f"PDF conversion successful with PyMuPDF: {output_filename}")
         # Other file formats to text conversion using Pandoc
         else:
             output = pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
@@ -845,4 +609,4 @@ async def convert_file_to_txt(
         return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
     except Exception as e:
         logging.error(f"Error during conversion: {str(e)}")
-        return JSONResponse(status_code=500, content={"message": f"Internal error: {str(e)}"})

 import re
 import threading
 import time
+from typing import List, Dict, Tuple
 import logging
 import tempfile
 import shutil
 import json
+import asyncio
 from openai import OpenAI
 import fitz  # PyMuPDF
 from bs4 import BeautifulSoup, Comment
+# Initialize the logger
 logging.basicConfig(level=logging.DEBUG)
+# Initialize the FastAPI application
 app = FastAPI()
 client = OpenAI()
+# Base directory for jobs
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 JOBS_DIR = os.path.join(tempfile.gettempdir(), 'jobs')
 if not os.path.exists(JOBS_DIR):
     os.makedirs(JOBS_DIR)
+# Map of extensions to Pandoc formats
 FORMAT_MAP = {
     '.odt': 'odt',
     '.pdf': 'pdf',
 }
 def get_pandoc_format(extension: str) -> str:
+    """Get the Pandoc format based on the file extension."""
+    return FORMAT_MAP.get(extension, 'auto')  # 'auto' lets Pandoc determine the format
 def update_job_status(job_id: str, status: str, message: str = '', result_file: str = None):
     job_dir = os.path.join(JOBS_DIR, job_id)
 def process_file(job_id: str, input_file_path: str, ext: str, original_filename: str):
     job_dir = os.path.join(JOBS_DIR, job_id)
     try:
+        # Update status to 'processing'
         update_job_status(job_id, 'processing', 'Le fichier est en cours de traitement')
+        # Initialize the image counter and image data dictionary
         image_counter = [1]
         images_data = {}
+        # Base filename
         base_filename = os.path.splitext(original_filename)[0]
         output_filename = os.path.join(job_dir, f"{base_filename}.html")
+        # Run the asynchronous function
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+        try:
+            final_html = loop.run_until_complete(convert_to_accessible_html(input_file_path, ext, base_filename, image_counter, images_data))
+        finally:
+            loop.close()
+        # Write the final HTML to the output file
         with open(output_filename, 'w', encoding='utf-8') as f:
             f.write(final_html)
+        # When processing is complete
         update_job_status(job_id, 'completed', 'Traitement terminé', result_file=f"{base_filename}.html")
+        # Delete temporary files after a delay
+        delete_files_after_delay([input_file_path], delay=300)  # 300 seconds = 5 minutes
     except Exception as e:
         logging.error(f"Erreur lors du traitement du job {job_id}: {str(e)}")
         update_job_status(job_id, 'error', f"Erreur: {str(e)}")
 def delete_files_after_delay(file_paths: List[str], delay: int = 1200):
+    """Function to delete temporary files after a delay in seconds."""
     def delayed_delete():
         time.sleep(delay)
         for file_path in file_paths:
             except Exception as e:
                 logging.error(f"Erreur lors de la suppression du fichier {file_path} : {str(e)}")
+    # Create and start a separate thread
     thread = threading.Thread(target=delayed_delete)
     thread.start()
+async def convert_to_accessible_html(input_filename, ext, base_filename, image_counter, images_data):
     try:
+        # Conversion from PDF to HTML with PyMuPDF
         if ext == '.pdf':
             # Initialize BeautifulSoup with basic HTML structure
             soup = BeautifulSoup("<html><head></head><body></body></html>", 'html.parser')
             body = soup.body
+            page_number = 1  # Initialize the page counter
             with fitz.open(input_filename) as doc:
                 for page in doc:
+                    # Add page comment before the page's HTML content
                     page_comment = f"<!--PAGE_{page_number}-->"
                     body.append(BeautifulSoup(page_comment, 'html.parser'))
             html_content = str(soup)
             logging.debug(f"Voici le contenu du PDF brut avec commentaires de page : {html_content}")
+            # Clean the HTML content
+            cleaned_html, image_tasks = await clean_html_content(html_content, image_counter, images_data)
+            # Rewrite the HTML to make it more accessible
+            html_rewrite_task = asyncio.create_task(rewrite_html_accessible(cleaned_html))
+            # Wait for all tasks to complete
+            await asyncio.gather(*image_tasks, html_rewrite_task)
+            # Retrieve the image descriptions
+            for image_key in images_data:
+                task = images_data[image_key]['description_task']
+                description = task.result()
+                images_data[image_key]['description'] = description
+            # Get the rewritten HTML
+            rewritten_html = html_rewrite_task.result()
+            # Reinsert images and their descriptions into the rewritten HTML
             final_html = reinsert_images(rewritten_html, images_data)
+            # Final removal of specific <script> tags
             final_soup = BeautifulSoup(final_html, 'html.parser')
             scripts_to_remove = final_soup.find_all('script', src=True)
             for script in scripts_to_remove:
                     script.decompose()
             final_html = str(final_soup)
+            # Remove lines containing only "```html" or "```"
             final_html = re.sub(r'^\s*```(?:html)?\s*$', '', final_html, flags=re.MULTILINE)
             logging.debug(f"Conversion PDF en HTML accessible réussie.")
             return final_html
+        # Conversion of other formats to HTML with Pandoc
         else:
             input_format = get_pandoc_format(ext)
             try:
+                # Convert the file with Pandoc using the --self-contained option
                 output = pypandoc.convert_file(
                     input_filename,
                     'html',
+                    format=input_format,  # Specify the format here
                     outputfile=None,
                     extra_args=[
+                        '--self-contained',   # Embed external resources like images
+                        '--strip-comments',   # Remove comments
+                        '--quiet'             # Suppress verbose outputs
                     ]
                 )
                 html_content = output
                 logging.error(f"Pandoc a rencontré une erreur : {str(e)}")
                 logging.info("Tentative de conversion sans l'option --self-contained.")
+                # Retry without the --self-contained option
                 output = pypandoc.convert_file(
                     input_filename,
                     'html',
                 html_content = output
                 logging.debug(f"Conversion en HTML réussie avec Pandoc sans --self-contained.")
+            # Clean the HTML content
+            cleaned_html, image_tasks = await clean_html_content(html_content, image_counter, images_data)
+            # Rewrite the HTML to make it more accessible
+            html_rewrite_task = asyncio.create_task(rewrite_html_accessible(cleaned_html))
+            # Wait for all tasks to complete
+            await asyncio.gather(*image_tasks, html_rewrite_task)
+            # Retrieve the image descriptions
+            for image_key in images_data:
+                task = images_data[image_key]['description_task']
+                description = task.result()
+                images_data[image_key]['description'] = description
+            # Get the rewritten HTML
+            rewritten_html = html_rewrite_task.result()
+            # Reinsert images and their descriptions into the rewritten HTML
             final_html = reinsert_images(rewritten_html, images_data)
+            # Final removal of specific <script> tags
             final_soup = BeautifulSoup(final_html, 'html.parser')
             scripts_to_remove = final_soup.find_all('script', src=True)
             for script in scripts_to_remove:
                     script.decompose()
             final_html = str(final_soup)
+            # Remove lines containing only "```html" or "```"
             final_html = re.sub(r'^\s*```(?:html)?\s*$', '', final_html, flags=re.MULTILINE)
             logging.debug(f"Conversion en HTML accessible réussie avec Pandoc.")
         return None
 def encode_image_from_data_uri(data_uri: str) -> str:
+    """Function to encode an image from a Data URI."""
     try:
         header, encoded = data_uri.split(',', 1)
+        # Remove newlines and spaces
         encoded = ''.join(encoded.split())
         return encoded
     except Exception as e:
         return ""
 def markdown_to_html(markdown_text: str) -> str:
+    """Convert Markdown syntax to HTML."""
+    # Replace Markdown tags with HTML tags
     html = markdown_text
+    html = re.sub(r'\*\*(.*?)\*\*', r'<strong>\1</strong>', html)  # Bold
+    html = re.sub(r'\*(.*?)\*', r'<i>\1</i>', html)  # Italic
+    html = re.sub(r'__(.*?)__', r'<strong>\1</strong>', html)  # Alternative bold
+    html = re.sub(r'_(.*?)_', r'<i>\1</i>', html)  # Alternative italic
     return html
+async def get_image_description(base64_image: str) -> str:
+    """Function to get the description of an image via the OpenAI API."""
     try:
+        response = await client.chat.completions.acreate(
+            model="gpt-4o-mini",
             messages=[
                 {
                     "role": "user",
                     "content": [
                         {
                             "type": "text",
+                            "text": "Décris ce que l'on peut voir sur cette image, pour qu'un lecteur malvoyant puisse comprendre ce qu'elle représente.",
                         },
                         {
                             "type": "image_url",
                 }
             ],
         )
+        # Access the content of the response
         description = response.choices[0].message.content.strip()
         return description
     except Exception as e:
         logging.error(f"Erreur lors de l'appel à l'API OpenAI : {str(e)}")
         return "Description indisponible."
+async def rewrite_html_accessible(html_content: str) -> str:
+    """Function to rewrite the HTML in a more accessible way via the OpenAI API."""
     prompt = (
+        # (The prompt content remains the same)
+        # ...
         "Voici maintenant le fichier HTML d'origine :\n"
         + html_content
     )
         logging.debug("Contenu avant l'appel à l'API OpenAI :")
         logging.debug(html_content)
+        response = await client.chat.completions.acreate(
+            model="gpt-4o-mini",  # Replace with the appropriate model
             messages=[
                 {"role": "user", "content": prompt}
             ],
         )
+        # Extract the textual content of the response
         rewritten_html = response.choices[0].message.content.strip()
+        # Replace escaped HTML comments if necessary
         rewritten_html = rewritten_html.replace("&lt;!--", "<!--").replace("--&gt;", "-->")
         logging.debug("Contenu après l'appel à l'API OpenAI :")
         return rewritten_html
     except Exception as e:
         logging.error(f"Erreur lors de la réécriture du HTML : {str(e)}")
+        return html_content  # Return the non-rewritten HTML in case of error
+async def clean_html_content(html_content: str, image_counter: List[int], images_data: Dict[str, Dict[str, str]]) -> Tuple[str, List[asyncio.Task]]:
+    """Function to clean the HTML content according to requirements"""
     soup = BeautifulSoup(html_content, 'html.parser')
+    # Remove inline CSS
     for tag in soup.find_all():
         if 'style' in tag.attrs:
             del tag['style']
+    # Remove headers, footers, and page numbers
     for element in soup.find_all(['header', 'footer']):
         element.decompose()
+    # Remove elements likely to be page numbers
     for div in soup.find_all('div'):
         if div.get_text(strip=True).isdigit():
             div.decompose()
+    # Count the total number of images with data URI
     total_images = len([img for img in soup.find_all('img') if img.get('src', '').startswith('data:image/')])
+    # Initialize tasks list
+    tasks = []
     if total_images > 20:
         logging.warning(f"Nombre d'images ({total_images}) dépasse 20. Les images seront ignorées.")
+        # Remove all images without processing them
         for img in soup.find_all('img'):
             img.decompose()
     else:
+        # Process images
         for img in soup.find_all('img'):
             src = img.get('src', '')
             X = image_counter[0]
             if src.startswith('data:image/'):
                 base64_image = encode_image_from_data_uri(src)
                 if base64_image:
+                    # Create a task for get_image_description()
+                    task = asyncio.create_task(get_image_description(base64_image))
+                    # Store the task in images_data
+                    images_data[f"IMG_{X}"] = {
+                        'base64_image': base64_image,
+                        'description_task': task
+                    }
+                    # Replace the image with a placeholder
+                    placeholder = f"<!--IMG_{X}-->"
+                    img.replace_with(placeholder)
+                    image_counter[0] += 1
+                    # Add the task to the list
+                    tasks.append(task)
                 else:
+                    img.decompose()  # Remove images without data URI
             else:
+                img.decompose()  # Remove images without data URI
+    # Remove specific <script> tags
     scripts_to_remove = soup.find_all('script', src=True)
     for script in scripts_to_remove:
         src = script['src']
             logging.debug(f"Suppression de la balise <script> : {script}")
             script.decompose()
+    # Remove empty paragraphs or spans
     for tag in soup.find_all(['p', 'span']):
         if not tag.get_text(strip=True):
             tag.decompose()
+    # Insert styles into a <style> tag in the head
     style_tag = soup.new_tag('style')
     style_tag.string = """
+    /* CSS styles */
+    /* (Styles remain the same) */
     """
     if soup.head:
         soup.head.append(style_tag)
     else:
+        # If <head> doesn't exist, create one
         head_tag = soup.new_tag('head')
         head_tag.append(style_tag)
         soup.insert(0, head_tag)
+    return str(soup), tasks
 def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -> str:
+    """Function to re-integrate images and their descriptions into the final HTML code."""
+    # Use BeautifulSoup to parse the HTML
     soup = BeautifulSoup(html_content, 'html.parser')
+    # Find HTML comments like <!--IMG_X-->
     for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
         match = re.match(r'IMG_(\d+)', comment)
         if match:
             image_number = match.group(1)
             image_key = f"IMG_{image_number}"
             if image_key in images_data:
+                # Create an <img> tag with base64 data
                 img_tag = soup.new_tag('img')
                 img_tag['src'] = f"data:image/jpeg;base64,{images_data[image_key]['base64_image']}"
                 img_tag['alt'] = images_data[image_key]['description']
                 new_content = soup.new_tag('div')
                 new_content.append(img_tag)
+                # Create a <p> tag with the class 'description'
                 p_tag = soup.new_tag('p', attrs={'class': 'description'})
+                # Create a <strong>Image X</strong> tag
                 strong_tag = soup.new_tag('strong')
                 strong_tag.string = f"Image {image_number}"
                 p_tag.append(strong_tag)
+                # Add " : " after <strong>
                 p_tag.append(" : ")
+                # Get the description in Markdown
                 y_markdown = images_data[image_key]['description']
+                # Convert Markdown to HTML
                 y_html = markdown_to_html(y_markdown)
+                # Parse the generated HTML and add it to the <p> tag
                 y_soup = BeautifulSoup(y_html, 'html.parser')
                 p_tag.append(y_soup)
                 new_content.append(p_tag)
+                # Replace the comment with the new content
                 comment.replace_with(new_content)
             else:
                 logging.error(f"Données pour {image_key} non trouvées.")
     background_tasks: BackgroundTasks = BackgroundTasks()
 ):
     try:
+        # Generate a job ID
         job_id = str(uuid.uuid4())
         job_dir = os.path.join(JOBS_DIR, job_id)
         os.makedirs(job_dir)
+        # Save the input file
         ext = os.path.splitext(file.filename)[1].lower()
         if ext not in FORMAT_MAP:
             raise HTTPException(status_code=400, detail=f"Extension de fichier non supportée : {ext}")
         with open(input_file_path, "wb") as f:
             shutil.copyfileobj(file.file, f)
+        # Initialize the status
         status = {
             'status': 'pending',
             'message': 'Traitement démarré',
         with open(status_file, 'w') as f:
             json.dump(status, f)
+        # Start the background task
         background_tasks.add_task(process_file, job_id, input_file_path, ext, file.filename)
+        # Return the job ID
         return JSONResponse(content={'job_id': job_id})
     except Exception as e:
 @app.post("/convert_to_txt/")
 async def convert_file_to_txt(
+    file: UploadFile = File(...),
     background_tasks: BackgroundTasks = BackgroundTasks()
 ):
     try:
             '.odt', '.pdf', '.docx', '.html', '.htm', '.md', '.txt', '.rtf', '.epub',
             '.tex', '.xml', '.org', '.commonmark', '.cm', '.wiki', '.opml'
         ]
         if ext not in allowed_extensions:
             raise HTTPException(status_code=400, detail=f"Unsupported file extension: {ext}")
             with open(output_filename, "w", encoding="utf-8") as f:
                 f.write(text)
             logging.debug(f"PDF conversion successful with PyMuPDF: {output_filename}")
         # Other file formats to text conversion using Pandoc
         else:
             output = pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
         return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
     except Exception as e:
         logging.error(f"Error during conversion: {str(e)}")
+        return JSONResponse(status_code=500, content={"message": f"Internal error: {str(e)}"})