SkillForge45
/

CarrotVid-0.1-1B-Demo

Model card Files Files and versions

xet

Community

SkillForge45 commited on Aug 1

Commit

5c9efac

verified ·

1 Parent(s): 3797a20

Create train.py

Browse files

Files changed (1) hide show

train.py +127 -0

train.py ADDED Viewed

	@@ -0,0 +1,127 @@

+import torch
+from torch.utils.data import DataLoader
+from datasets import load_dataset
+from model import ImageToVideoModel
+from de_en.tokenizer import VideoTokenizer
+import torch.optim as optim
+from torch.nn import MSELoss
+from tqdm import tqdm
+import argparse
+def prepare_datasets(dataset_name, batch_size, resolution):
+    dataset = load_dataset(dataset_name)
+    # Preprocess function
+    def preprocess(examples):
+        tokenizer = VideoTokenizer(resolution)
+        examples['image'] = [tokenizer.encode_image(img) for img in examples['image']]
+        examples['video'] = [tokenizer.encode_video(vid) for vid in examples['video']]
+        return examples
+    dataset = dataset.map(preprocess, batched=True)
+    dataset.set_format(type='torch', columns=['image', 'video'])
+    train_loader = DataLoader(dataset['train'], batch_size=batch_size, shuffle=True)
+    val_loader = DataLoader(dataset['validation'], batch_size=batch_size)
+    return train_loader, val_loader
+def train_model(config):
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    # Initialize model
+    model = ImageToVideoModel(
+        encoder_config=config['encoder'],
+        decoder_config=config['decoder'],
+        transformer_config=config['transformer']
+    ).to(device)
+    # Load datasets
+    train_loader, val_loader = prepare_datasets(
+        config['dataset_name'],
+        config['batch_size'],
+        config['resolution']
+    )
+    # Optimizer and loss
+    optimizer = optim.AdamW(model.parameters(), lr=config['lr'])
+    criterion = MSELoss()
+    # Training loop
+    for epoch in range(config['epochs']):
+        model.train()
+        train_loss = 0.0
+        for batch in tqdm(train_loader, desc=f"Epoch {epoch+1}"):
+            images = batch['image'].to(device)
+            videos = batch['video'].to(device)
+            # Random speed level for each sample in batch
+            speed_levels = torch.randint(0, 10, (images.size(0),).to(device)
+            optimizer.zero_grad()
+            # Predict all frames at once (teacher forcing)
+            outputs = model(images, videos[:, :-1], speed_levels)
+            loss = criterion(outputs, videos[:, 1:])
+            loss.backward()
+            optimizer.step()
+            train_loss += loss.item()
+        # Validation
+        model.eval()
+        val_loss = 0.0
+        with torch.no_grad():
+            for batch in val_loader:
+                images = batch['image'].to(device)
+                videos = batch['video'].to(device)
+                speed_levels = torch.randint(0, 10, (images.size(0),).to(device)
+                outputs = model(images, videos[:, :-1], speed_levels)
+                val_loss += criterion(outputs, videos[:, 1:]).item()
+        print(f"Epoch {epoch+1}, Train Loss: {train_loss/len(train_loader):.4f}, Val Loss: {val_loss/len(val_loader):.4f}")
+    # Save model
+    torch.save(model.state_dict(), config['save_path'])
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--dataset", type=str, default="ucf101")
+    parser.add_argument("--batch_size", type=int, default=8)
+    parser.add_argument("--epochs", type=int, default=10)
+    parser.add_argument("--lr", type=float, default=1e-4)
+    parser.add_argument("--resolution", type=int, default=128)
+    parser.add_argument("--save_path", type=str, default="image_to_video_model.pth")
+    args = parser.parse_args()
+    config = {
+        'dataset_name': args.dataset,
+        'batch_size': args.batch_size,
+        'epochs': args.epochs,
+        'lr': args.lr,
+        'resolution': args.resolution,
+        'save_path': args.save_path,
+        'encoder': {
+            'in_channels': 3,
+            'hidden_dims': [64, 128, 256, 512],
+            'embed_dim': 512
+        },
+        'decoder': {
+            'embed_dim': 512,
+            'hidden_dims': [512, 256, 128, 64],
+            'out_channels': 3
+        },
+        'transformer': {
+            'd_model': 512,
+            'nhead': 8,
+            'num_encoder_layers': 3,
+            'num_decoder_layers': 3,
+            'dim_feedforward': 2048,
+            'dropout': 0.1
+        }
+    }
+    train_model(config)