SetFit with deutsche-telekom/gbert-large-paraphrase-cosine

This is a SetFit model that can be used for Text Classification. This SetFit model uses deutsche-telekom/gbert-large-paraphrase-cosine as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
0
  • 'Deshalb ist beim Arbeitslosengeld die Anspruchsdauer im Grundtarif auf zwölf Monate angelegt.'
  • 'Die Belastung mit Sozialversicherungsabgaben ist die höchste in der Geschichte der Bundesrepublik'
  • 'In den sozialen Sicherungssystemen muss vielmehr durch eine neue Balance von Eigenverantwortung, privater Risikovorsorge und Solidarität die Ausgabendynamik gedrosselt werden.'
1
  • 'o Vor den Problemen, die in mancher Schule durch Inklusion zum Beispiel erziehungsschwieriger Schüler entstehen, verschließen wir nicht die Augen.'
  • 'Dadurch wird die Arbeit wieder attraktiver.'
  • 'Um allen einen bezahlbaren Versicherungsschutz zu gewährleisten, muß jedes Krankenversicherungsunternehmen einen Pauschaltarif mit Kontrahierungszwang anbieten, der weder nach Alter, Geschlecht, Risiko oder sonstigen Kriterien differenziert.'

Evaluation

Metrics

Label F1 Precision Recall
all 0.8323 0.8360 0.8316

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("GeorgHCundK/gbert-large-stance-socialpolicy")
# Run inference
preds = model("Daran wollen wir anknüpfen und die Teilhabeleistungen stetig weiterentwickeln.")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 2 15.1124 50
Label Training Sample Count
0 392
1 364

Training Hyperparameters

  • batch_size: (64, 64)
  • num_epochs: (1, 1)
  • max_steps: -1
  • sampling_strategy: oversampling
  • body_learning_rate: (1e-05, 1e-05)
  • head_learning_rate: 0.01
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • eval_max_steps: -1
  • load_best_model_at_end: True

Training Results

Epoch Step Training Loss Validation Loss
0.0002 1 0.3708 -
0.0112 50 0.2974 0.2649
0.0223 100 0.2567 0.2522
0.0335 150 0.2392 0.2338
0.0446 200 0.1895 0.1996
0.0558 250 0.0703 0.1907
0.0669 300 0.0126 0.2218
0.0781 350 0.0026 0.1964
0.0892 400 0.0009 0.2404

Framework Versions

  • Python: 3.11.11
  • SetFit: 1.1.1
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.5.1+cu124
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}
Downloads last month
7
Safetensors
Model size
336M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for CundK/gbert-large-stance-socialpolicy

Finetuned
(3)
this model

Evaluation results