submission-template

Sleeping

App Files Files Community

Zen0 commited on Jan 11

Commit

9e24c35

verified ·

1 Parent(s): eb1168d

Update tasks/text.py

Browse files

Files changed (1) hide show

tasks/text.py +29 -91

tasks/text.py CHANGED Viewed

@@ -1,17 +1,15 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification
 from fastapi import APIRouter
 from datetime import datetime
 from datasets import load_dataset
 from sklearn.metrics import accuracy_score
-import torch
-from torch.utils.data import Dataset, DataLoader
 from .utils.evaluation import TextEvaluationRequest
 from .utils.emissions import tracker, clean_emissions_data, get_space_info
 router = APIRouter()
-DESCRIPTION = "Climate Disinformation Detection"
 ROUTE = "/text"
 @router.post(ROUTE, tags=["Text Task"], description=DESCRIPTION)
@@ -48,92 +46,32 @@ async def evaluate_text(request: TextEvaluationRequest):
     tracker.start()
     tracker.start_task("inference")
-    try:
-        # Get texts and labels
-        texts = test_dataset["quote"]
-        labels = test_dataset["label"]
-        # Load model and tokenizer from local directory
-        model_dir = "./"
-        tokenizer = AutoTokenizer.from_pretrained(model_dir)
-        model = AutoModelForSequenceClassification.from_pretrained(model_dir)
-        # Define dataset class
-        class TextDataset(Dataset):
-            def __init__(self, texts, labels, tokenizer, max_len=128):
-                self.texts = texts
-                self.labels = labels
-                self.tokenizer = tokenizer
-                self.max_len = max_len
-            def __len__(self):
-                return len(self.texts)
-            def __getitem__(self, idx):
-                text = self.texts[idx]
-                label = self.labels[idx]
-                encodings = self.tokenizer(
-                    text,
-                    max_length=self.max_len,
-                    padding='max_length',
-                    truncation=True,
-                    return_tensors="pt"
-                )
-                return {
-                    'input_ids': encodings['input_ids'].squeeze(0),
-                    'attention_mask': encodings['attention_mask'].squeeze(0),
-                    'labels': torch.tensor(label, dtype=torch.long)
-                }
-        # Create dataset and dataloader
-        test_dataset = TextDataset(texts, labels, tokenizer)
-        test_loader = DataLoader(test_dataset, batch_size=16)
-        # Model inference
-        model.eval()
-        predictions = []
-        ground_truth = []
-        device = 'cpu'
-        with torch.no_grad():
-            for batch in test_loader:
-                input_ids = batch['input_ids'].to(device)
-                attention_mask = batch['attention_mask'].to(device)
-                labels = batch['labels'].to(device)
-                outputs = model(input_ids=input_ids, attention_mask=attention_mask)
-                _, predicted = torch.max(outputs.logits, 1)
-                predictions.extend(predicted.cpu().numpy())
-                ground_truth.extend(labels.cpu().numpy())
-        # Stop tracking emissions
-        emissions_data = tracker.stop_task()
-        # Calculate accuracy
-        accuracy = accuracy_score(test_dataset["label"], predictions)
-        # Prepare results
-        results = {
-            "username": username,
-            "space_url": space_url,
-            "submission_timestamp": datetime.now().isoformat(),
-            "model_description": DESCRIPTION,
-            "accuracy": float(accuracy),
-            "energy_consumed_wh": emissions_data.energy_consumed * 1000,
-            "emissions_gco2eq": emissions_data.emissions * 1000,
-            "emissions_data": clean_emissions_data(emissions_data),
-            "api_route": ROUTE,
-            "dataset_config": {
-                "dataset_name": request.dataset_name,
-                "test_size": request.test_size,
-                "test_seed": request.test_seed
-            }
         }
-        return results
-    except Exception as e:
-        # Stop tracking in case of error
-        tracker.stop_task()
-        raise e

 from fastapi import APIRouter
 from datetime import datetime
 from datasets import load_dataset
 from sklearn.metrics import accuracy_score
+import random
 from .utils.evaluation import TextEvaluationRequest
 from .utils.emissions import tracker, clean_emissions_data, get_space_info
 router = APIRouter()
+DESCRIPTION = "Random Baseline"
 ROUTE = "/text"
 @router.post(ROUTE, tags=["Text Task"], description=DESCRIPTION)
     tracker.start()
     tracker.start_task("inference")
+    # Get true labels
+    true_labels = test_dataset["label"]
+    predictions = [random.randint(0, 7) for _ in range(len(true_labels))]
+    # Stop tracking emissions
+    emissions_data = tracker.stop_task()
+    # Calculate accuracy
+    accuracy = accuracy_score(true_labels, predictions)
+    # Prepare results dictionary
+    results = {
+        "username": username,
+        "space_url": space_url,
+        "submission_timestamp": datetime.now().isoformat(),
+        "model_description": DESCRIPTION,
+        "accuracy": float(accuracy),
+        "energy_consumed_wh": emissions_data.energy_consumed * 1000,
+        "emissions_gco2eq": emissions_data.emissions * 1000,
+        "emissions_data": clean_emissions_data(emissions_data),
+        "api_route": ROUTE,
+        "dataset_config": {
+            "dataset_name": request.dataset_name,
+            "test_size": request.test_size,
+            "test_seed": request.test_seed
         }
+    }
+    return results