Spaces:

MisterAI
/

Testing_BrokenSpace

Running

App Files Files Community

MisterAI commited on 7 days ago

Commit

7a5daaa

verified ·

1 Parent(s): f69df77

Create app.py

Browse files

Files changed (1) hide show

app.py +117 -0

app.py ADDED Viewed

	@@ -0,0 +1,117 @@

+#BS_app.py_03
+#Training NOK
+#testing bloom1b training
+import gradio as gr
+import os
+from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments, DataCollatorForLanguageModeling
+from datasets import load_dataset, Dataset
+from huggingface_hub import HfApi, HfFolder
+import requests
+from io import BytesIO
+# Récupérer token depuis les variables d'environnement
+hf_token = os.getenv("MisterAI_bigscience_bloom_560m")
+# Configurer le token pour l'utilisation avec Hugging Face
+if hf_token:
+    HfFolder.save_token(hf_token)
+else:
+    raise ValueError("Le token Hugging Face n'est pas configuré. Assurez-vous qu'il est défini dans les variables d'environnement.")
+# Chargement du modèle et du tokenizer
+model_name = "MisterAI/bigscience_bloom-560m"
+model = AutoModelForCausalLM.from_pretrained(model_name)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# Fonction pour générer une réponse
+def generate_response(input_text):
+    inputs = tokenizer(input_text, return_tensors="pt")
+    outputs = model.generate(**inputs, max_length=100)
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return response
+# Fonction pour le fine-tuning
+#def fine_tune_model(dataset_path, dataset_file, epochs, batch_size, prefix):
+#    # Chargement du dataset
+#    if dataset_path.startswith("https://huggingface.co/datasets/"):
+#        dataset = load_dataset('json', data_files={dataset_file: dataset_path})
+#    else:
+#        dataset = load_dataset('json', data_files={dataset_file: dataset_path})
+#
+#    # Préparation des données
+#    dataset = Dataset.from_dict(dataset[dataset_file])
+#    dataset = dataset.map(lambda x: tokenizer(x['question'] + ' ' + x['chosen'], truncation=True, padding='max_length'), batched=True)
+#    dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])
+#
+#    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+def fine_tune_model(dataset_path, dataset_file, epochs, batch_size, prefix):
+    # Récupération du fichier à partir de l'URL fournie
+    response = requests.get(dataset_path)
+    dataset_lines = response.text.strip().split('\n')
+    # Convertir les lignes en dictionnaires
+    dataset_dict = [json.loads(line) for line in dataset_lines]
+    # Créer un Dataset Hugging Face
+    dataset = Dataset.from_dict({
+        'question': [item['question'] for item in dataset_dict],
+        'chosen': [item['chosen'] for item in dataset_dict]
+    })
+    # Préparation des données
+    def preprocess_function(examples):
+        inputs = [q + ' ' + c for q, c in zip(examples['question'], examples['chosen'])]
+        model_inputs = tokenizer(inputs, truncation=True, padding='max_length', max_length=512)
+        model_inputs["labels"] = model_inputs["input_ids"].copy()
+        return model_inputs
+    dataset = dataset.map(preprocess_function, batched=True)
+    dataset.set_format(type='torch', columns=['input_ids', 'attention_mask', 'labels'])
+    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+    # Configuration de l'entraînement
+    training_args = TrainingArguments(
+        output_dir=f"./{prefix}_{model_name.split('/')[-1]}",
+        num_train_epochs=epochs,
+        per_device_train_batch_size=batch_size,
+        save_steps=10_000,
+        save_total_limit=2,
+        push_to_hub=True,
+        hub_model_id=f"{prefix}_{model_name.split('/')[-1]}",
+        hub_strategy="checkpoint",
+        hub_token=hf_token,
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        data_collator=data_collator,
+        train_dataset=dataset,
+    )
+    # Lancement de l'entraînement
+    trainer.train()
+    # Sauvegarde du modèle avec un préfixe
+    trainer.save_model(f"./{prefix}_{model_name.split('/')[-1]}")
+    tokenizer.save_pretrained(f"./{prefix}_{model_name.split('/')[-1]}")
+    # Push vers Hugging Face Hub
+    api = HfApi()
+    api.upload_folder(
+        folder_path=f"./{prefix}_{model_name.split('/')[-1]}",
+        repo_id=f"{prefix}_{model_name.split('/')[-1]}",
+        repo_type="model"
+    )
+    return "Fine-tuning terminé et modèle sauvegardé."