SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs128-full-267")
# Run inference
sentences = [
    '관광 교통 서비스 체계 구축 정책의 추진은 몇 단계로 나눠서 할 수 있을까?',
    '관광 교통 서비스 체계 정책 추진 주체로는 중앙 및 지방정부, 공공기관, 민간기관 등이 고려될 수 있다. 중앙정부 및 지방정부, 공공기관 중 연구기관은 정책을 추진하는 주체로서, 지방정부와 사업기관은 정책을 실행하는 주체로서, 민간 기관은 직접 사업을 추진하는 주체로서 참여할 수 있다. 관광 교통은 기존 교통시설 및 수단을 관광객이 이용하는 개념이기 때문에 정책 영역이 국토교통부, 문화체육관광부, 넓게는 해양수산부 등 여러 부처에 걸쳐 있다. 원활한 정책사업 추진을 위해서는 부처 간 협력이 필수적이며, 부처 간 협력 체계로는 협력적 개별사업추진, 공동사업추진, 사업추진 조직구성 등 세 가지 대안을 고려해볼 수 있다. 관광 교통 서비스 체계 구축 정책은 3단계로 구분하여 추진할 수 있다. 1단계는 2016년 2017년으로 설정하고자 하며, 이 시기는 관광 교통 정책 사업을 추진하기 위한 기반을 마련하는 단계이다. 2단계는 2018년부터 2020년까지 3년간으로 본격적인 정책 사업이 추진되는 시기이며, 3단계는 2021년 이후 정책사업의 효과가 창출되는 기간으로, 확장된 형태의 신규 사업을 발굴 및 추진할 수 있어야 한다.',
    '관광교통 서비스 체계는 관광 활동을 위한 관광객의 이동 편의성과 효용을 최대화 하는 시스템을 뜻한다. 서비스 체계를 적용하는 영역은 관광 교통 정보, 관광교통수단, 관광교통 편의 서비스로 구분하여 볼 수 있다. 관광교통 정보는 관광 목적지에 도달하기 위해 필요한 관광교통 수단 및 관광교통 편의 서비스 등에 대한 종합적 정보를 뜻한다. 주요 관광자원과 관광 자원까지 이동하는 데 필요한 루트, 루트를 이동하기 위해 필요한 관광교통 수단과 비용, 관광교통 편의 서비스 등에 대한 정보를 모두 포함한다. 관광교통 수단은 출발지로부터 관광목적지를 연결하는 일반 및 특수교통수단을 뜻한다. 또한 교통 수단의 시간적, 공간적 연계 배치와 기반 시설로서 공항, 터미널, 역 또한 교통수단의 범위에 포함한다. 관광교통 편의 시스템은 교통수단의 이용을 보다 편리하게 하는 제도 및 서비스를 뜻한다. 관광교통 편의 서비스 영역에는 예약 할인, 그 밖의 제반 편의 서비스를 모두 포괄한다. 또한 교통수단의 이용은 물론 관광지 입장까지 아우르는 통합 패스 티켓, 바우처 등을 포함한다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 128
  • learning_rate: 3e-06
  • num_train_epochs: 1
  • warmup_ratio: 0.05
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0023 1 1.0033
0.0045 2 1.006
0.0068 3 0.8684
0.0091 4 1.0356
0.0113 5 1.0951
0.0136 6 0.9825
0.0159 7 1.094
0.0181 8 1.0091
0.0204 9 1.1165
0.0227 10 1.0149
0.0249 11 1.1065
0.0272 12 0.9278
0.0295 13 0.8635
0.0317 14 0.9592
0.0340 15 0.9102
0.0363 16 0.9965
0.0385 17 0.8249
0.0408 18 0.6985
0.0431 19 0.7526
0.0454 20 0.7812
0.0476 21 0.7648
0.0499 22 0.6916
0.0522 23 0.5688
0.0544 24 0.5997
0.0567 25 0.5402
0.0590 26 0.6133
0.0612 27 0.4658
0.0635 28 0.5788
0.0658 29 0.5382
0.0680 30 0.4873
0.0703 31 0.4616
0.0726 32 0.4825
0.0748 33 0.4029
0.0771 34 0.4002
0.0794 35 0.3985
0.0816 36 0.4523
0.0839 37 0.4022
0.0862 38 0.3506
0.0884 39 0.3522
0.0907 40 0.3154
0.0930 41 0.3347
0.0952 42 0.3903
0.0975 43 0.3894
0.0998 44 0.3591
0.1020 45 0.403
0.1043 46 0.3435
0.1066 47 0.3525
0.1088 48 0.2832
0.1111 49 0.2598
0.1134 50 0.3043
0.1156 51 0.3457
0.1179 52 0.3123
0.1202 53 0.3098
0.1224 54 0.2961
0.1247 55 0.2866
0.1270 56 0.3405
0.1293 57 0.2708
0.1315 58 0.3211
0.1338 59 0.2991
0.1361 60 0.2984
0.1383 61 0.3352
0.1406 62 0.329
0.1429 63 0.2811
0.1451 64 0.3083
0.1474 65 0.2941
0.1497 66 0.2671
0.1519 67 0.2647
0.1542 68 0.2389
0.1565 69 0.2413
0.1587 70 0.2949
0.1610 71 0.2614
0.1633 72 0.2442
0.1655 73 0.2521
0.1678 74 0.2889
0.1701 75 0.2475
0.1723 76 0.2389
0.1746 77 0.2317
0.1769 78 0.2507
0.1791 79 0.2692
0.1814 80 0.2304
0.1837 81 0.277
0.1859 82 0.2581
0.1882 83 0.2267
0.1905 84 0.2543
0.1927 85 0.2646
0.1950 86 0.232
0.1973 87 0.1785
0.1995 88 0.2396
0.2018 89 0.2448
0.2041 90 0.2336
0.2063 91 0.2511
0.2086 92 0.2313
0.2109 93 0.2494
0.2132 94 0.2064
0.2154 95 0.2125
0.2177 96 0.2062
0.2200 97 0.278
0.2222 98 0.1981
0.2245 99 0.2416
0.2268 100 0.2281
0.2290 101 0.215
0.2313 102 0.2547
0.2336 103 0.2755
0.2358 104 0.2266
0.2381 105 0.1744
0.2404 106 0.2254
0.2426 107 0.2109
0.2449 108 0.2161
0.2472 109 0.2006
0.2494 110 0.2185
0.2517 111 0.2448
0.2540 112 0.2038
0.2562 113 0.2404
0.2585 114 0.2434
0.2608 115 0.2466
0.2630 116 0.21
0.2653 117 0.2182
0.2676 118 0.2095
0.2698 119 0.2005
0.2721 120 0.2313
0.2744 121 0.2474
0.2766 122 0.2503
0.2789 123 0.1732
0.2812 124 0.2266
0.2834 125 0.2411
0.2857 126 0.2157
0.2880 127 0.2047
0.2902 128 0.2075
0.2925 129 0.1766
0.2948 130 0.2059
0.2971 131 0.1917
0.2993 132 0.2102
0.3016 133 0.1847
0.3039 134 0.2323
0.3061 135 0.2008
0.3084 136 0.2308
0.3107 137 0.1932
0.3129 138 0.2062
0.3152 139 0.178
0.3175 140 0.1925
0.3197 141 0.2254
0.3220 142 0.189
0.3243 143 0.1825
0.3265 144 0.1739
0.3288 145 0.1877
0.3311 146 0.202
0.3333 147 0.1821
0.3356 148 0.1971
0.3379 149 0.1941
0.3401 150 0.2201
0.3424 151 0.1971
0.3447 152 0.1722
0.3469 153 0.1974
0.3492 154 0.1772
0.3515 155 0.1978
0.3537 156 0.1991
0.3560 157 0.1907
0.3583 158 0.1973
0.3605 159 0.2122
0.3628 160 0.2076
0.3651 161 0.1793
0.3673 162 0.22
0.3696 163 0.1923
0.3719 164 0.2226
0.3741 165 0.164
0.3764 166 0.2099
0.3787 167 0.1917
0.3810 168 0.1616
0.3832 169 0.1603
0.3855 170 0.1924
0.3878 171 0.1601
0.3900 172 0.1671
0.3923 173 0.2146
0.3946 174 0.1875
0.3968 175 0.1883
0.3991 176 0.1672
0.4014 177 0.2319
0.4036 178 0.1831
0.4059 179 0.1839
0.4082 180 0.1469
0.4104 181 0.1768
0.4127 182 0.2164
0.4150 183 0.1701
0.4172 184 0.1816
0.4195 185 0.1779
0.4218 186 0.1977
0.4240 187 0.1651
0.4263 188 0.1533
0.4286 189 0.192
0.4308 190 0.186
0.4331 191 0.1843
0.4354 192 0.1819
0.4376 193 0.1697
0.4399 194 0.1784
0.4422 195 0.1737
0.4444 196 0.1748
0.4467 197 0.199
0.4490 198 0.1406
0.4512 199 0.1956
0.4535 200 0.1632
0.4558 201 0.1628
0.4580 202 0.1642
0.4603 203 0.1872
0.4626 204 0.1728
0.4649 205 0.23
0.4671 206 0.1634
0.4694 207 0.1692
0.4717 208 0.1608
0.4739 209 0.1349
0.4762 210 0.1496
0.4785 211 0.163
0.4807 212 0.2049
0.4830 213 0.1803
0.4853 214 0.1502
0.4875 215 0.1839
0.4898 216 0.182
0.4921 217 0.198
0.4943 218 0.1672
0.4966 219 0.1829
0.4989 220 0.165
0.5011 221 0.145
0.5034 222 0.1112
0.5057 223 0.1638
0.5079 224 0.1416
0.5102 225 0.1859
0.5125 226 0.2088
0.5147 227 0.2082
0.5170 228 0.1382
0.5193 229 0.1737
0.5215 230 0.1564
0.5238 231 0.1595
0.5261 232 0.174
0.5283 233 0.1537
0.5306 234 0.1637
0.5329 235 0.1932
0.5351 236 0.1711
0.5374 237 0.1839
0.5397 238 0.1956
0.5420 239 0.1828
0.5442 240 0.1617
0.5465 241 0.1654
0.5488 242 0.1438
0.5510 243 0.1713
0.5533 244 0.1827
0.5556 245 0.1398
0.5578 246 0.1441
0.5601 247 0.1888
0.5624 248 0.1511
0.5646 249 0.1677
0.5669 250 0.1451
0.5692 251 0.1878
0.5714 252 0.1762
0.5737 253 0.1782
0.5760 254 0.1882
0.5782 255 0.1584
0.5805 256 0.1759
0.5828 257 0.1483
0.5850 258 0.1588
0.5873 259 0.1709
0.5896 260 0.1375
0.5918 261 0.1526
0.5941 262 0.1985
0.5964 263 0.1853
0.5986 264 0.1867
0.6009 265 0.1336
0.6032 266 0.1494
0.6054 267 0.2113

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
2
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for seongil-dn/bge-m3-kor-retrieval-451949-bs128-full-267

Base model

BAAI/bge-m3
Finetuned
(197)
this model