Spaces:

MisterAI
/

Testing_BrokenSpace

Running

App Files Files Community

MisterAI commited on 6 days ago

Commit

bc195ee

verified ·

1 Parent(s): 42f475a

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -46

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
-#BS_app.py_03
-#Training OK BUT REWRITE ALL FILES OF MODEL ON ORIGINAL REPO !!
 #testing bloom1b training
@@ -10,6 +10,7 @@ from datasets import load_dataset, Dataset
 from huggingface_hub import HfApi, HfFolder
 import requests
 from io import BytesIO
 # Récupérer token depuis les variables d'environnement
 hf_token = os.getenv("MisterAI_bigscience_bloom_560m")
@@ -33,9 +34,7 @@ def generate_response(input_text):
     return response
 # Fonction pour le fine-tuning
-def fine_tune_model(dataset_path, dataset_file, epochs, batch_size, prefix):
-    import json  # Assurez-vous que json est importé
     # Récupération du fichier à partir de l'URL fournie
     response = requests.get(f"{dataset_path}/resolve/main/{dataset_file}")
     dataset_lines = response.text.strip().split('\n')
@@ -43,42 +42,20 @@ def fine_tune_model(dataset_path, dataset_file, epochs, batch_size, prefix):
     # Convertir les lignes en dictionnaires pour JSONL
     dataset_dict = [json.loads(line) for line in dataset_lines if line]
-#MAPPAGE
-#    # Créer un Dataset Hugging Face
-#    dataset = Dataset.from_dict({
-#        'question': [item['question'] for item in dataset_dict],
-#        'chosen': [item['chosen'] for item in dataset_dict]
-#    })
-#
-#    # Préparation des données
-#    def preprocess_function(examples):
-#        inputs = [q + ' ' + c for q, c in zip(examples['question'], examples['chosen'])]
-#        model_inputs = tokenizer(inputs, truncation=True, padding='max_length', max_length=512)
-#        model_inputs["labels"] = model_inputs["input_ids"].copy()
-#        return model_inputs#*
-#
     # Créer un Dataset Hugging Face
     dataset = Dataset.from_dict({
-        'prompt': [item['prompt'] for item in dataset_dict],
-        'output': [item['output'] for item in dataset_dict]
     })
     # Préparation des données
     def preprocess_function(examples):
-        inputs = [p + ' ' + o for p, o in zip(examples['prompt'], examples['output'])]
         model_inputs = tokenizer(inputs, truncation=True, padding='max_length', max_length=2048)
         model_inputs["labels"] = model_inputs["input_ids"].copy()
         return model_inputs
     dataset = dataset.map(preprocess_function, batched=True)
     dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])
@@ -122,17 +99,6 @@ def fine_tune_model(dataset_path, dataset_file, epochs, batch_size, prefix):
 # Interface Gradio
 with gr.Blocks() as demo:
     with gr.Tab("Chatbot"):
@@ -148,6 +114,10 @@ with gr.Blocks() as demo:
         with gr.Row():
             dataset_path = gr.Textbox(label="Chemin du dataset")
             dataset_file = gr.Textbox(label="Nom du fichier du dataset")
             epochs = gr.Number(label="Nombre d'époques", value=1)
             batch_size = gr.Number(label="Taille du batch", value=2)
             prefix = gr.Textbox(label="Préfixe pour les fichiers sauvegardés")
@@ -158,7 +128,7 @@ with gr.Blocks() as demo:
         fine_tune_button.click(
             fine_tune_model,
-            inputs=[dataset_path, dataset_file, epochs, batch_size, prefix],
             outputs=fine_tune_output
         )
@@ -166,5 +136,3 @@ with gr.Blocks() as demo:
 # Lancement de la démo
 if __name__ == "__main__":
     demo.launch()

+#BS_app.py_06
+#Training OK BUT REWRITE ALL FILES OF MODEL ON ORIGINAL REPO!!
 #testing bloom1b training
 from huggingface_hub import HfApi, HfFolder
 import requests
 from io import BytesIO
+import json
 # Récupérer token depuis les variables d'environnement
 hf_token = os.getenv("MisterAI_bigscience_bloom_560m")
     return response
 # Fonction pour le fine-tuning
+def fine_tune_model(dataset_path, dataset_file, split, colonne_input_ids, colonne_attention_mask, colonne_labels, epochs, batch_size, prefix):
     # Récupération du fichier à partir de l'URL fournie
     response = requests.get(f"{dataset_path}/resolve/main/{dataset_file}")
     dataset_lines = response.text.strip().split('\n')
     # Convertir les lignes en dictionnaires pour JSONL
     dataset_dict = [json.loads(line) for line in dataset_lines if line]
     # Créer un Dataset Hugging Face
     dataset = Dataset.from_dict({
+        colonne_input_ids: [item[colonne_input_ids] for item in dataset_dict],
+        colonne_attention_mask: [item.get(colonne_attention_mask, "") for item in dataset_dict],
+        colonne_labels: [item.get(colonne_labels, "") for item in dataset_dict]
     })
     # Préparation des données
     def preprocess_function(examples):
+        inputs = [p +'' + c for p, c in zip(examples[colonne_input_ids], examples[colonne_attention_mask])]
         model_inputs = tokenizer(inputs, truncation=True, padding='max_length', max_length=2048)
         model_inputs["labels"] = model_inputs["input_ids"].copy()
         return model_inputs
     dataset = dataset.map(preprocess_function, batched=True)
     dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])
 # Interface Gradio
 with gr.Blocks() as demo:
     with gr.Tab("Chatbot"):
         with gr.Row():
             dataset_path = gr.Textbox(label="Chemin du dataset")
             dataset_file = gr.Textbox(label="Nom du fichier du dataset")
+            split = gr.Textbox(label="Split (si applicable)")
+            colonne_input_ids = gr.Textbox(label="Colonne input_ids")
+            colonne_attention_mask = gr.Textbox(label="Colonne attention_mask")
+            colonne_labels = gr.Textbox(label="Colonne labels (si applicable)")
             epochs = gr.Number(label="Nombre d'époques", value=1)
             batch_size = gr.Number(label="Taille du batch", value=2)
             prefix = gr.Textbox(label="Préfixe pour les fichiers sauvegardés")
         fine_tune_button.click(
             fine_tune_model,
+            inputs=[dataset_path, dataset_file, split, colonne_input_ids, colonne_attention_mask, colonne_labels, epochs, batch_size, prefix],
             outputs=fine_tune_output
         )
 # Lancement de la démo
 if __name__ == "__main__":
     demo.launch()