Spaces:

cconsti
/

trial1

Runtime error

File size: 2,425 Bytes

a570747
6e565e2
 
a570747
6e565e2
a570747
 
 
6b4b78f
 
 
 
6e565e2
1d780ea
0d716fc
3cef3e3
6e565e2
816facc
6e565e2
816facc
6e565e2
816facc
6e565e2
816facc
6e565e2
3cef3e3
 
 
e02989b
3cef3e3
6e565e2
3cef3e3
9810d0f
f05adaf
 
3cef3e3
 
f05adaf
3cef3e3
 
 
6e565e2
9810d0f
 
6e565e2
9810d0f
 
 
6e565e2
f05adaf
6e565e2
3cef3e3
6b4b78f
6e565e2
 
6b4b78f
 
 
 
 
 
 
49eb74f
3cef3e3
 
6b4b78f
6e565e2
3cef3e3
 
 
6e565e2
 
3cef3e3
 
6e565e2
3cef3e3
 
6e565e2

import os
from datasets import load_dataset
from transformers import T5ForConditionalGeneration, T5Tokenizer, Trainer, TrainingArguments

# Ensure Hugging Face cache directory is writable
os.environ["HF_HOME"] = "/app/hf_cache"
os.environ["HF_DATASETS_CACHE"] = "/app/hf_cache"
os.environ["TRANSFORMERS_CACHE"] = "/app/hf_cache"
osave_dir = "./models/t5-finetuned"
os.makedirs(save_dir, exist_ok=True)  # Ensure the directory exists
trainer.save_model(save_dir)

# Load dataset
dataset = load_dataset("tatsu-lab/alpaca")
dataset["train"] = dataset["train"].select(range(2000))

# Check dataset structure
print("Dataset splits available:", dataset)
print("Sample row:", dataset["train"][0])

# If no 'test' split exists, create one
if "test" not in dataset:
    dataset = dataset["train"].train_test_split(test_size=0.1)

# Load tokenizer & model
model_name = "t5-large"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.gradient_checkpointing_disable() 

# Define tokenization function
def tokenize_function(examples):
    inputs = examples["input"]  # Ensure this matches dataset key
    targets = examples["output"]

    model_inputs = tokenizer(inputs, max_length=512, truncation=True, padding="max_length")
    labels = tokenizer(targets, max_length=512, truncation=True, padding="max_length")

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

#  Tokenize dataset
tokenized_datasets = dataset.map(tokenize_function, batched=True)

#  Assign train & eval datasets
train_dataset = tokenized_datasets["train"]
eval_dataset = tokenized_datasets["test"]

print("Dataset successfully split and tokenized.")

#  Define training arguments
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=5e-6,  # Reduce from 5e-5 to 5e-6
    per_device_train_batch_size=8,  # Keep batch size reasonable
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    fp16=True
)


# Set up Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# Start fine-tuning
trainer.train()

print("Fine-tuning complete!")

# Save model locally
trainer.save_model("./t5-finetuned")

print("Model saved successfully!")