SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Lettria/grag-go-idf-mult_neg_rk_10-trial-3")
# Run inference
sentences = [
    'Procédures et démarches: Déposez sur\xa0mesdemarches.iledefrance.fr\xa0votre\xa0dossier de demande de subvention présentant le projet de manière précise et comportant toutes les pièces permettant l’instruction du dossier, réputé complet, par les services de la Région. Après examen du dossier, la demande de subvention sera soumise à la Commission permanente régionale pour délibération.  Le versement de la subvention est subordonné à la signature préalable d’une convention.\nBénéficiaires: Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution - Communes de > 20 000 hab, Collectivité ou institution - EPCI, Collectivité ou institution - EPT / Métropole du Grand Paris\nPrécision sure les bénéficiaires: Pour les PEMR et aires de covoiturage : État, Départements, EPCI, Communes, Syndicats mixtes,Ville de Paris.Pour les voies réservées\xa0: État, Départements, EPCI.',
    "'subvention':__inferred__|SUBORDONNÉ_À|'convention':document",
    "'Date de début de la future campagne':concept|EST|'non précisée':__inferred__",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Metric Value
cosine_accuracy 0.9984
cosine_accuracy_threshold -0.0928
cosine_f1 0.9992
cosine_f1_threshold -0.0928
cosine_precision 1.0
cosine_recall 0.9984
cosine_ap 1.0
cosine_mcc 0.0

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 2,467 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 26 tokens
    • mean: 191.64 tokens
    • max: 429 tokens
    • min: 18 tokens
    • mean: 31.2 tokens
    • max: 72 tokens
    • 1: 100.00%
  • Samples:
    sentence1 sentence2 label
    Type de project: L’excès de précipitations tout au long de l’année a conduit à une chute spectaculaire des rendements des céréales d’été et des protéagineux (blé, orge, pois, féverole, etc.) que produisent 90% des agriculteurs d’Île-de-France, historique grenier à blé du pays. Tributaires naturels du fleurissement des cultures, les apiculteurs professionnels de la région ont également souffert de ces dérèglements climatiques.La Région accompagne les exploitations concernées en leur apportant une aide exceptionnelle. 'excès de précipitations':phénomène DIMINUE
    Type de project: Dans le cadre de sa stratégie « Impact 2028 », la Région s’engage dans la défense de la souveraineté industrielle en renforçant son soutien à une industrie circulaire et décarbonée, porteuse d’innovations et créatrice d’emplois. PM'up Jeunes pousses industrielles soutient les projets d’implantation d’une première usine tournée vers la décarbonation, l’efficacité énergétique et la circularité des processus de production. Ces projets peuvent prendre l'une de ces formes : Une première unité de production industrielle, après une phase de prototypage,Une ligne pilote de production industrielle, en interne ou chez un tiers situé en Île-de-France, à condition que sa production soit destinée à de premières commercialisations,La transformation d’une unité de production pilote à une unité de production industrielle 'Région Île-de-France':organisation soutient
    Procédures et démarches: Le dépôt des demandes de subvention se fait en ligne sur la plateforme régionale mesdemarches.iledefrance.fr : Session de dépôt unique pour les nouvelles demandes : du 30 septembre au 4 novembre 2024 (11 heures) pour des festivals qui se déroulent entre le 1er mars 2025 et le 28 février 2026 (vote à la CP de mars 2025). Pour les demandes de renouvellement, un mail est envoyé aux structures concernées par le service du Spectacle vivant en amont de chaque session de dépôt.
    Bénéficiaires: Professionnel - Culture, Association - Fondation, Association - Régie par la loi de 1901, Association - ONG, Collectivité ou institution - Communes de 10 000 à 20 000 hab, Collectivité ou institution - Autre (GIP, copropriété, EPA...), Collectivité ou institution - Communes de 2000 à 10 000 hab, Collectivité ou institution - Communes de < 2000 hab, Collectivité ou institution - Communes de > 20 000 hab, Collectivité ou institution - Département, Collectivité ou institution - EPC...
    'Collectivité ou institution - EPCI':bénéficiaire PEUT_BÉNÉFICIER
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 616 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 616 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 24 tokens
    • mean: 188.12 tokens
    • max: 394 tokens
    • min: 17 tokens
    • mean: 31.2 tokens
    • max: 133 tokens
    • 1: 100.00%
  • Samples:
    sentence1 sentence2 label
    Type de project: Le programme propose des rencontres le samedi après-midi dans une université ou une grande école réputée, entre les professionnels bénévoles et les lycéens et collégiens sous la forme d'atelier thématiques. Ces moments de rencontre touchent à une grande multitude de domaines d’activités. L'objectif est de donner l’opportunité aux jeunes les plus enclavés d’échanger avec des intervenants professionnels aux parcours atypiques et inspirants. Les intervenants suscitent les ambitions et élargissent les perspectives des élèves. 'rencontres':événement impliquent
    Précision sure les bénéficiaires: Communes,Établissements publics de coopération intercommunale (avec ou sans fiscalité propre),Établissements publics territoriaux franciliens,Départements,Aménageurs publics et privés (lorsque ces derniers interviennent à la demande ou pour le compte d'une collectivité précitée). 'Aménageurs privés':entité INTERVIENT_POUR
    Date de début: non précisée
    Date de fin (clôture): non précisée
    Date de début de la future campagne: non précisée
    'Date de fin':concept EST
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • gradient_accumulation_steps: 2
  • learning_rate: 2.044202693407718e-05
  • num_train_epochs: 20
  • lr_scheduler_type: cosine
  • warmup_steps: 124
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • hub_model_id: Lettria/grag-go-idf-mult_neg_rk_10-trial-3
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2.044202693407718e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 20
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 124
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: Lettria/grag-go-idf-mult_neg_rk_10-trial-3
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss BinaryClassifEval_cosine_ap
0.1621 50 1.4756 - -
0.3241 100 0.6024 - -
0.4862 150 0.5528 - -
0.6483 200 0.3826 - -
0.8104 250 0.3344 - -
0.9724 300 0.355 - -
1.0 309 - 0.1723 1.0
1.1329 350 0.2415 - -
1.2950 400 0.1983 - -
1.4571 450 0.2042 - -
1.6191 500 0.1614 - -
1.7812 550 0.245 - -
1.9433 600 0.1246 - -
2.0 618 - 0.1204 1.0
2.1037 650 0.1493 - -
2.2658 700 0.1097 - -
2.4279 750 0.0856 - -
2.5900 800 0.0781 - -
2.7520 850 0.1151 - -
2.9141 900 0.1528 - -
3.0 927 - 0.1297 1.0
3.0746 950 0.0552 - -
3.2366 1000 0.0563 - -
3.3987 1050 0.0625 - -
3.5608 1100 0.0516 - -
3.7229 1150 0.0674 - -
3.8849 1200 0.129 - -
4.0 1236 - 0.1648 1.0
4.0454 1250 0.0445 - -
4.2075 1300 0.0603 - -
4.3695 1350 0.0874 - -
4.5316 1400 0.0353 - -
4.6937 1450 0.064 - -
4.8558 1500 0.0612 - -
5.0 1545 - 0.2055 1.0
5.0162 1550 0.0554 - -
5.1783 1600 0.0319 - -
5.3404 1650 0.0698 - -
5.5024 1700 0.0651 - -
5.6645 1750 0.0555 - -
5.8266 1800 0.122 - -
5.9887 1850 0.0266 - -
6.0 1854 - 0.1933 1.0
6.1491 1900 0.0636 - -
6.3112 1950 0.0158 - -
6.4733 2000 0.0156 - -
6.6353 2050 0.0445 - -
6.7974 2100 0.071 - -
6.9595 2150 0.0318 - -
7.0 2163 - 0.1893 1.0
7.1199 2200 0.046 - -
7.2820 2250 0.0353 - -
7.4441 2300 0.071 - -
7.6062 2350 0.0373 - -
7.7682 2400 0.0784 - -
7.9303 2450 0.0684 - -
8.0 2472 - 0.1226 1.0
8.0908 2500 0.0573 - -
8.2528 2550 0.0146 - -
8.4149 2600 0.0208 - -
8.5770 2650 0.0143 - -
8.7391 2700 0.0779 - -
8.9011 2750 0.0312 - -
9.0 2781 - 0.1612 1.0
9.0616 2800 0.034 - -
9.2237 2850 0.0163 - -
9.3857 2900 0.046 - -
9.5478 2950 0.0745 - -
9.7099 3000 0.0313 - -
9.8720 3050 0.0238 - -
10.0 3090 - 0.1342 1.0
10.0324 3100 0.028 - -
10.1945 3150 0.0084 - -
10.3566 3200 0.051 - -
10.5186 3250 0.0118 - -
10.6807 3300 0.032 - -
10.8428 3350 0.0679 - -
11.0 3399 - 0.1355 1.0
11.0032 3400 0.0084 - -
11.1653 3450 0.0112 - -
11.3274 3500 0.0228 - -
11.4895 3550 0.0119 - -
11.6515 3600 0.0511 - -
11.8136 3650 0.0363 - -
11.9757 3700 0.0161 - -
12.0 3708 - 0.1345 1.0
12.1361 3750 0.0054 - -
12.2982 3800 0.0142 - -
12.4603 3850 0.0045 - -
12.6224 3900 0.0272 - -
12.7844 3950 0.0064 - -
12.9465 4000 0.023 - -
13.0 4017 - 0.1177 1.0
13.1070 4050 0.0234 - -
13.2690 4100 0.0067 - -
13.4311 4150 0.019 - -
13.5932 4200 0.0051 - -
13.7553 4250 0.0117 - -
13.9173 4300 0.0244 - -
14.0 4326 - 0.1225 1.0
14.0778 4350 0.0268 - -
14.2399 4400 0.0041 - -
14.4019 4450 0.0165 - -
14.5640 4500 0.0028 - -
14.7261 4550 0.0156 - -
14.8882 4600 0.007 - -
15.0 4635 - 0.1199 1.0000
15.0486 4650 0.0178 - -
15.2107 4700 0.004 - -
15.3728 4750 0.0063 - -
15.5348 4800 0.0161 - -
15.6969 4850 0.0119 - -
15.8590 4900 0.0138 - -
16.0 4944 - 0.1232 1.0
16.0194 4950 0.0154 - -
16.1815 5000 0.0201 - -
16.3436 5050 0.0135 - -
16.5057 5100 0.0285 - -
16.6677 5150 0.0395 - -
16.8298 5200 0.0011 - -
16.9919 5250 0.0104 - -
17.0 5253 - 0.1274 1.0
17.1524 5300 0.0158 - -
17.3144 5350 0.0502 - -
17.4765 5400 0.0183 - -
17.6386 5450 0.0052 - -
17.8006 5500 0.054 - -
17.9627 5550 0.0273 - -
18.0 5562 - 0.1217 1.0
18.1232 5600 0.0102 - -
18.2853 5650 0.0086 - -
18.4473 5700 0.0012 - -
18.6094 5750 0.0084 - -
18.7715 5800 0.0178 - -
18.9335 5850 0.0089 - -
19.0 5871 - 0.1205 1.0000
19.0940 5900 0.0133 - -
19.2561 5950 0.0173 - -
19.4182 6000 0.0129 - -
19.5802 6050 0.009 - -
19.7423 6100 0.0019 - -
19.9044 6150 0.0186 - -
19.9368 6160 - 0.1177 1.0000
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.9
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.3.0
  • Accelerate: 1.1.0
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
18
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for Lettria/grag-go-idf-mult_neg_rk_8081

Quantized
(32)
this model

Evaluation results