Spaces:

zaidmehdi
/

arabic-dialect-classifier

Sleeping

zaidmehdi commited on Mar 17, 2024

Commit

2d22962

1 Parent(s): 6b5fdb9

defining model with classification head

Files changed (1) hide show

src/model_training.py CHANGED Viewed

@@ -1,18 +1,33 @@
-from transformers import AutoTokenizer, AutoModel
 from utils import get_dataset
-class Model():
-    def __init__(self) -> None:
-        pass
 def main():
     model_name = "moussaKam/AraBART"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = AutoModel.from_pretrained(model_name)
     dataset = get_dataset("data/DA_train_labeled.tsv", "data/DA_dev_labeled.tsv", tokenizer)
     print(dataset["train"])

+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import AutoTokenizer, AutoModel, AutoConfig
 from utils import get_dataset
+class Model(nn.Module):
+    def __init__(self, model_name, config, num_labels):
+        super().__init__()
+        self.model = AutoModel.from_pretrained(model_name, config=config)
+        self.classification_head = nn.Linear(config.hidden_size, num_labels)
+    def forward(self, input_ids):
+        outputs = self.model(input_ids)
+        pooled_output = outputs.last_hidden_state[:, 0]
+        logits = self.classification_head(pooled_output)
+        probabilities = F.softmax(logits, dim=-1)
+        return probabilities
 def main():
     model_name = "moussaKam/AraBART"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
+    config = AutoConfig.from_pretrained(model_name)
     dataset = get_dataset("data/DA_train_labeled.tsv", "data/DA_dev_labeled.tsv", tokenizer)
+    num_labels = len(set(dataset["train"]["label"]))
+    model = Model(model_name, config, num_labels)
     print(dataset["train"])