--- library_name: transformers tags: - argumentation license: apache-2.0 datasets: - Kleo/ArgKP_2021_GR language: - el metrics: - precision base_model: - ilsp/Meltemi-7B-v1 pipeline_tag: text-classification --- # Model Card for Model ID This is a Meltemi-7b-v1 adapter model for a sequence classification task. It classifies keypoint-argument pairs as Matching/Non-matching. It was developed in the process of the KeyPoint Matching subtask of the [Key Point Analysis|Quantitative Argument Summarization Shared Task](https://github.com/IBM/KPA_2021_shared_task) as a solution for a low-resource language, Greek. The classifier was trained on the official shared task's dataset (ArgKP-2021) in a machine translated version for Greek with madlad-400-3b. For details refer to ArgKP-2021-GR dataset. ## Model Details ### Model Description This is the model card of a 🤗 transformers model that has been pushed on the Hub. This model card has been automatically generated. - **Developed by:** https://huggingface.co/Kleo - **Shared by [optional]:** https://huggingface.co/Kleo - **Model type:** adapter - **Language(s) (NLP):** el/GR - **License:** Apache license 2.0 - **Finetuned from model [optional]:** [ilsp/Meltemi-7B-v1](https://huggingface.co/ilsp/Meltemi-7B-v1) ### Model Sources [optional] - **Repository:** https://github.com/Kleo-Karap/KPA_thesis - **Paper [optional]:** [More Information Needed] ## Uses ### Direct Use [More Information Needed] ## Bias, Risks, and Limitations The model has been finetuned on the train set of the ArgKP-2021-GR dataset, which is the result of machine translation. ## How to Get Started with the Model Use the code below to get started with the model. ``` import torch from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer, BitsAndBytesConfig from peft import PeftModel, PeftConfig bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16) peft_model_id = "Kleo/meltemi_base_finetuning_kpm_kp_arg" config = PeftConfig.from_pretrained(peft_model_id) model = AutoModelForSequenceClassification.from_pretrained(config.base_model_name_or_path, return_dict=True, quantization_config=bnb_config, device_map='auto') tokenizer = AutoTokenizer.from_pretrained(config.base_model_name_or_path) # Load the Lora model model = PeftModel.from_pretrained(model, peft_model_id) tokenizer.pad_token_id = tokenizer.eos_token_id tokenizer.pad_token = tokenizer.eos_token model.eval() # Initialize the classifier pipeline classifier = pipeline( "text-classification", model=model, tokenizer=tokenizer, device_map="auto" ) # List of inputs texts = [ "Keypoint: Ο εμβολιασμός μπορεί να έχει απρόβλεπτες παρενέργειες; Argument: Οι παιδικοί εμβολιασμοί ρουτίνας δεν θα πρέπει να είναι υποχρεωτικοί, καθώς τα παιδιά μπορεί να μην είναι σε θέση να αντέξουν τις επιπτώσεις τους", "Keypoint: Ο εμβολιασμός μπορεί να έχει απρόβλεπτες παρενέργειες; Argument: Ένα εμβόλιο, το οποίο δεν έχει ελεγχθεί επαρκώς και του οποίου οι επιπτώσεις δεν είναι γνωστές, δεν ενδείκνυται για τα παιδιά", "Keypoint: Ο εμβολιασμός μπορεί να έχει απρόβλεπτες παρενέργειες; Argument: Ο παιδικός εμβολιασμός δεν είναι απαραίτητος και μπορεί να επιφέρει άλλες ασθένειες στα παιδιά", "Keypoint: Στις Ηνωμένες Πολιτείες δεν υπάρχει ασφάλεια; Argument: σε ορισμένες πολιτείες εξακολουθούν να υπάρχουν πολλές ληστείες και εγκλήματα στα οποία εμπλέκονται αθώοι άνθρωποι", "Keypoint: Στις Ηνωμένες Πολιτείες δεν υπάρχει ασφάλεια; Argument: η κουλτούρα των ΗΠΑ προωθεί τον υλισμό", "Keypoint: Στις Ηνωμένες Πολιτείες δεν υπάρχει ασφάλεια; Argument: όχι, επειδή οι φόροι είναι υψηλοί και δαπανηροί", "Keypoint: Στις Ηνωμένες Πολιτείες δεν υπάρχει ασφάλεια; Argument: η υγειονομική περίθαλψη και η εκπαίδευση είναι υπερβολικά ακριβές για τη μεσαία τάξη", "Keypoint: Στις Ηνωμένες Πολιτείες δεν υπάρχει ασφάλεια; Argument: δεν είναι όλα όπως τις ταινίες, η Αμερική έχει πολλή ανισότητα" ] # Perform inference for multiple inputs results = classifier(texts) # Print results with sentence numbers for idx, result in enumerate(results, start=1): print(f"Sentence {idx}: Predicted Label: {result['label']}, Score: {result['score']:.4f}") ``` ## Training Details ### Training Data [ArgKP_2021_GR]](https://huggingface.co/datasets/Kleo/ArgKP_2021_GR) ### Training Procedure #### Preprocessing Social media text removal -Remove URLs, HTML tags, emojis and certain symbols #### Training Hyperparameters - **Training regime:** bf16 Mixed Precision #### Speeds, Sizes, Times [optional] ## Evaluation ### Testing Data, Factors & Metrics #### Testing Data [More Information Needed] #### Metrics mean Average Precision (mAP) ### Results [More Information Needed] #### Summary ## Environmental Impact Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700). - **Hardware Type:** [More Information Needed] - **Hours used:** [More Information Needed] - **Cloud Provider:** [More Information Needed] - **Compute Region:** [More Information Needed] - **Carbon Emitted:** [More Information Needed] ## Technical Specifications ### Model Architecture and Objective [More Information Needed] ### Compute Infrastructure The model has been trained with the available [Kaggle](https://www.kaggle.com/) resources: - Number of nodes: 1 - Number of GPUs per node: 1 - GPU type: NVIDIA P100 - GPU memory: 16GB ## Citation **BibTeX:** ``` @masterthesis{3456844, title = "Key Point Analysis in Greek: A New Dataset and Baselines", authorField = "Καραπαναγιώτου, Κλεοπάτρα", year = "2025", school = "ΠΜΣ Γλωσσική Τεχνολογία, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών" } ``` **APA:** Karapanagiotou, K. (2025). Key Point Analysis in Greek: A New Dataset and Baselines [MSc Thesis, National and Kapodistrian University of Athens]. Pergamos.https://pergamos.lib.uoa.gr/uoa/dl/frontend/el/browse/3456844 ## Model Card Contact https://huggingface.co/Kleo