SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("johnweak132/improve_vibi")
# Run inference
sentences = [
    'Trách nhiệm của Ban Điều hành cấp Trường đối với CTTN là gì?',
    'Điều  5.\tTrách nhiệm của Ban Điều hành cấp Trường\nĐề xuất phương hướng và xét duyệt kế hoạch phát triển CTTN của Trường để trình Ban Giám hiệu trường và BĐH của ĐHQG HCM. \nChuẩn bị các điều kiện cơ sở vật chất; tài chính; chương trình đào tạo; tổ chức xây dựng qui chế quy định liên quan tới việc tuyển chọn và chế độ chính sách phục vụ nhằm đảm bảo cho chương trình hoạt động có hiệu quả.\nTổ chức xét tuyển và triển khai hoạt động của chương trình theo quy định.\nChỉ đạo và theo dõi việc thực hiện chương trình tại các đơn vị.\nĐịnh kỳ báo cáo Ban Giám hiệu về các hoạt động của chương trình.',
    'Điều  3. Quy định về tổ chức đào tạo \n1) Đăng ký học phần\n- Các đối tượng được đăng ký học các lớp học phần mở theo quy định này: \na) Sinh viên chính quy đã quá hạn theo thiết kế chương trình đào tạo;  \nb) Sinh viên chính quy chưa quá hạn theo thiết kế chương trình đào tạo chỉ được phép đăng ký học lại, học cải thiện; ngoại trừ trường hợp với các môn ngoại ngữ thì được phép đăng ký học mới; \nc) Người học không phải sinh viên chính quy của Trường nhưng được Trường cho phép đăng ký học tập để tích lũy kiến thức hoặc để hoàn thành chương trình đào tạo; \nd) Các tình huống đặc biệt khác cần có sự đồng ý của Trưởng phòng Đào tạo Đại học.\n- Dựa trên kết quả đăng ký học phần, các lớp được duyệt mở với số lượng tối thiểu là 15 người học, trường hợp đặc biệt do Hiệu trưởng xem xét, phê duyệt.\n- Các lớp ngoài giờ hành chính có thể được mở nhiều đợt trong năm học.\n- Người học thực hiện đăng ký học phần trên hệ thống phần mềm của Trường. \n2) Hình thức giảng dạy, trách nhiệm của cán bộ giảng dạy\n- Thời gian dạy - học theo khung sau: \n+ 17g45 - 20g30 từ thứ hai đến thứ bảy,\n+ 7g30 – 11g30, 13g00 – 17g00 và 17g45 - 20g30 ngày chủ nhật.\n- Thời khóa biểu mỗi lớp phải đảm bảo đủ thời lượng phân bổ của môn học trong chương trình đào tạo. Phần lý thuyết tổ chức giảng dạy như trong đề cương của môn học. Phần thực hành có thể tổ chức giảng dạy theo hình thức 1 (giảng dạy theo thời khóa biểu) hoặc hình thức 2 (tổ chức ít nhất 3 buổi gặp trực tiếp sinh viên để hướng dẫn và giải đáp thắc mắc của sinh viên trong quá trình thực hiện các nội dung thực hành) tùy theo tính chất của môn học. \n- Hình thức dạy - học có thể là trực tiếp hoặc trực tuyến. Đơn vị quản lý chuyên môn của môn học quyết định hình thức giảng dạy.\n3) Quản lý quá trình học tập\n- Đối với sinh viên đang học của Trường: Các đơn vị liên quan trong Trường thực hiện quản lý như các lớp chính quy học trong giờ hành chính.\n- Đối với người học khác: Trường cấp mã người học cùng các tài khoản liên quan để tham gia học tập. Phòng Đào tạo Đại học có trách nhiệm quản lý chung đối với người học thuộc diện này.\n4) Kiểm tra, đánh giá môn học\n- Việc tổ chức kiểm tra, đánh giá môn học được thực hiện theo những quy định đào tạo đại học hiện hành như áp dụng đối với các lớp chính quy trong giờ hành chính. \n- Dựa trên thời điểm mở lớp và kết thúc lớp, Phòng Đào tạo Đại học quyết định việc tính điểm học phần cho học kỳ nào.\n5) Cấp bảng điểm\n- Người học được quyền yêu cầu cung cấp bảng điểm của học phần đã hoàn thành theo quy định.\n- Các đơn vị chức năng của Trường có trách nhiệm cấp bảng điểm theo yêu cầu của người học.     ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.7874 0.7864
cosine_accuracy@3 0.9529 0.9559
cosine_accuracy@5 0.9848 0.9853
cosine_accuracy@10 0.9984 0.9988
cosine_precision@1 0.7874 0.7864
cosine_precision@3 0.3182 0.3192
cosine_precision@5 0.1975 0.1976
cosine_precision@10 0.1001 0.1002
cosine_recall@1 0.7864 0.7855
cosine_recall@3 0.9524 0.9555
cosine_recall@5 0.9847 0.9853
cosine_recall@10 0.9984 0.9988
cosine_ndcg@10 0.9044 0.9046
cosine_mrr@10 0.873 0.873
cosine_map@100 0.8729 0.873

Training Details

Training Dataset

Unnamed Dataset

  • Size: 7,731 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 8 tokens
    • mean: 22.29 tokens
    • max: 82 tokens
    • min: 24 tokens
    • mean: 225.39 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Sinh viên dự bị không trở thành sinh viên chính thức bao nhiêu học kỳ sẽ bị loại khỏi CTTN? Điều 9. Tuyển bổ sung và loại ra khỏi chương trình, xét chính thức và dự bị
    Đối tượng tham gia CTTN là những sinh viên có năng lực xuất sắc, do đó, sau mỗi học kỳ BĐH quyết định việc loại sinh viên khỏi lớp tài năng, tuyển bổ sung sinh viên từ chương trình chuẩn vào lớp tài năng, xét chuyển đổi sinh viên chính thức và dự bị.
    Đầu mỗi học kỳ, Khoa xét và đề nghị lên BĐH các danh sách sinh viên tuyển bổ sung, bị loại ra khỏi các lớp CTTN hoặc danh sách sinh viên chính thức và dự bị theo các tiêu chuẩn như sau:
    1. Loại khỏi chương trình
    Tại thời điểm xem xét, sinh viên rơi vào một trong các trường hợp sau:
    - Chưa tốt nghiệp khi đã quá thời gian thiết kế của khóa học và không có lý do đặc biệt.
    - Không đăng ký học đầy đủ các môn học CTTN bắt buộc trong học kỳ.
    - ĐTBTL nhỏ hơn 6,5 – tính tương ứng sau học kỳ 1 và sau học kỳ hè (kết quả học tập của học kỳ hè sẽ được tính chung vào kết quả học tập học kỳ 2 của năm học tương ứng).
    - Số tín chỉ tích lũy (STCTL) so với tiến độ CTĐT nhỏ hơn 80% n...
    Các mức điểm xếp lớp tiếng Anh được Hiệu trưởng quyết định điều chỉnh như thế nào? Điều 4. Kiểm tra xếp lớp đầu khóa cho sinh viên thuộc CTC, CTTN, CTTT
    1. Vào đầu khóa học, Trường tổ chức kiểm tra tiếng Anh để xếp lớp cho tất cả sinh viên khóa tuyển mới. Đề kiểm tra xếp lớp đầu khóa có dạng thức như đề thi TOEIC 2 kỹ năng (nghe và đọc). Căn cứ vào kết quả kiểm tra tiếng Anh, sinh viên được xếp vào lớp tiếng Anh phù hợp với trình độ của sinh viên theo thông tin xếp lớp đầu khoá. Tùy theo tình hình thực tế, các mức điểm có thể được Hiệu trưởng quyết định điều chỉnh theo đề xuất hợp lý của bộ phận chuyên môn.
    2. Xếp lớp đầu khóa
    Điểm kiểm tra(dạng thức TOEIC nghe và đọc)
    Dưới 300 điểm sẽ không được học Anh văn 1 (mã môn ENG01), được đăng ký học Anh văn sơ cấp ngoài CTĐT chính quy do Trung tâm Ngoại ngữ phụ trách (không bắt buộc).
    Từ 300 – 345 điểm sẽ Học Anh Văn 1 (Mã môn ENG01)
    Từ 350 – 395 điểm sẽ Miễn Anh văn 1 (mã môn ENG01) và Học Anh văn 2 (mã môn ENG02).
    Từ 400-445 sẽ miễn anh văn 1 (mã môn ENG01), anh văn 2 (mã môn ENG02) và học anh văn 3 ...
    Trình độ tiếng Nhật đạt N mấy mới thì sinh viên CT CLC mới được công nhận xét tốt nghiệp được? Điều 5. Chương trình đào tạo
    CT CLC được xây dựng trên nền chương trình đào tạo đại trà tương ứng và theo quy định xây dựng chương trình đào tạo của Trường ĐHCNTT. CT CLC có sự khác biệt so với chương trình đại trà ở những điểm dưới đây:
    - Chuẩn đầu ra của CT CLC phải cao hơn chuẩn đầu ra của chương trình đại trà tương ứng về năng lực chuyên môn; năng lực ngoại ngữ; năng lực làm việc nhóm; khả năng thích nghi với môi trường công tác.
    - Chuẩn đầu ra ngoại ngữ: để được xét tốt nghiệp, sinh viên phải hoàn tất chương trình ngoại ngữ bắt buộc trong chương trình đào tạo và có một trong các chứng chỉ ngoại ngữ đạt trình độ tối thiểu:
    • Tiếng Anh: bậc 4/6 theo khung năng lực ngoại ngữ 6 bậc dùng cho Việt Nam. Cụ thể mức quy đổi sang các chứng chỉ quốc tế được quy định trong Quy định đào tạo ngoại ngữ hiện hành của Trường.
    • Tiếng Nhật: tương đương JLPT N3.
    - Để đảm bảo tính liên thông giữa CT CLC và chương trình đại trà, chương trình đào tạo của CT CL...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_eval_batch_size: 4
  • gradient_accumulation_steps: 4
  • learning_rate: 2e-05
  • num_train_epochs: 10
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - 0.5969 0.5877
0.0414 10 1.1864 0.6005 0.5918
0.0827 20 0.975 0.6108 0.6017
0.1241 30 0.871 0.6257 0.6148
0.1655 40 0.8726 0.6412 0.6309
0.2068 50 0.696 0.6572 0.6450
0.2482 60 0.7202 0.6689 0.6588
0.2896 70 0.7258 0.6805 0.6702
0.3309 80 0.5726 0.6897 0.6802
0.3723 90 0.5888 0.6953 0.6867
0.4137 100 0.8359 0.7012 0.6936
0.4550 110 0.6935 0.7122 0.7036
0.4964 120 0.5416 0.7215 0.7145
0.5377 130 0.7289 0.7303 0.7232
0.5791 140 0.4219 0.7346 0.7280
0.6205 150 0.4683 0.7390 0.7341
0.6618 160 0.4489 0.7457 0.7416
0.7032 170 0.4533 0.7500 0.7465
0.7446 180 0.5073 0.7564 0.7524
0.7859 190 0.452 0.7609 0.7578
0.8273 200 0.4786 0.7637 0.7611
0.8687 210 0.5777 0.7682 0.7650
0.9100 220 0.5669 0.7747 0.7700
0.9514 230 0.4965 0.7804 0.7759
0.9928 240 0.3868 0.7855 0.7808
1.0331 250 0.455 0.7875 0.7838
1.0745 260 0.3073 0.7918 0.7888
1.1158 270 0.3312 0.7881 0.7850
1.1572 280 0.3761 0.7838 0.7821
1.1986 290 0.3044 0.7881 0.7849
1.2399 300 0.2671 0.7957 0.7927
1.2813 310 0.2071 0.8024 0.7997
1.3226 320 0.2198 0.7995 0.7968
1.3640 330 0.2749 0.8021 0.7992
1.4054 340 0.3152 0.8027 0.8002
1.4467 350 0.3328 0.8123 0.8097
1.4881 360 0.2287 0.8150 0.8128
1.5295 370 0.2774 0.8188 0.8169
1.5708 380 0.1848 0.8191 0.8168
1.6122 390 0.1568 0.8171 0.8159
1.6536 400 0.1621 0.8234 0.8227
1.6949 410 0.1069 0.8255 0.8248
1.7363 420 0.1998 0.8295 0.8286
1.7777 430 0.1594 0.8318 0.8290
1.8190 440 0.159 0.8325 0.8305
1.8604 450 0.2151 0.8315 0.8295
1.9018 460 0.163 0.8317 0.8291
1.9431 470 0.1548 0.8290 0.8273
1.9845 480 0.1294 0.8312 0.8285
2.0248 490 0.1532 0.8342 0.8324
2.0662 500 0.1163 0.8405 0.8401
2.1075 510 0.1144 0.8425 0.8422
2.1489 520 0.0943 0.8369 0.8359
2.1903 530 0.0795 0.8397 0.8389
2.2316 540 0.1113 0.8390 0.8382
2.2730 550 0.0692 0.8424 0.8409
2.3144 560 0.0408 0.8437 0.8421
2.3557 570 0.0917 0.8411 0.8415
2.3971 580 0.099 0.8412 0.8421
2.4385 590 0.0722 0.8457 0.8472
2.4798 600 0.125 0.8486 0.8496
2.5212 610 0.0712 0.8495 0.8503
2.5626 620 0.1116 0.8500 0.8505
2.6039 630 0.0451 0.8475 0.8495
2.6453 640 0.057 0.8487 0.8501
2.6867 650 0.0602 0.8497 0.8496
2.7280 660 0.0652 0.8512 0.8517
2.7694 670 0.059 0.8545 0.8537
2.8108 680 0.0393 0.8556 0.8561
2.8521 690 0.0715 0.8559 0.8565
2.8935 700 0.0944 0.8580 0.8572
2.9349 710 0.0229 0.8567 0.8565
2.9762 720 0.0753 0.8579 0.8582
3.0165 730 0.0533 0.8592 0.8591
3.0579 740 0.0494 0.8617 0.8611
3.0993 750 0.0381 0.8641 0.8634
3.1406 760 0.0462 0.8666 0.8658
3.1820 770 0.0351 0.8668 0.8658
3.2234 780 0.0555 0.8639 0.8632
3.2647 790 0.027 0.8605 0.8610
3.3061 800 0.0226 0.8619 0.8629
3.3475 810 0.0312 0.8635 0.8647
3.3888 820 0.0371 0.8635 0.8648
3.4302 830 0.0316 0.8638 0.8651
3.4716 840 0.0337 0.8676 0.8680
3.5129 850 0.0215 0.8693 0.8695
3.5543 860 0.0697 0.8701 0.8713
3.5957 870 0.0163 0.8675 0.8689
3.6370 880 0.0155 0.8682 0.8695
3.6784 890 0.0189 0.8685 0.8695
3.7198 900 0.0185 0.8713 0.8720
3.7611 910 0.019 0.8738 0.8738
3.8025 920 0.0157 0.8735 0.8735
3.8438 930 0.0229 0.8755 0.8745
3.8852 940 0.0417 0.8756 0.8755
3.9266 950 0.0141 0.8763 0.8766
3.9679 960 0.0265 0.8739 0.8737
4.0083 970 0.0119 0.8739 0.8743
4.0496 980 0.0182 0.8775 0.8775
4.0910 990 0.0222 0.8789 0.8783
4.1324 1000 0.0194 0.8796 0.8784
4.1737 1010 0.0201 0.8802 0.8797
4.2151 1020 0.0408 0.8776 0.8782
4.2565 1030 0.0128 0.8769 0.8784
4.2978 1040 0.0065 0.8773 0.8783
4.3392 1050 0.0137 0.8767 0.8784
4.3806 1060 0.0182 0.8743 0.8766
4.4219 1070 0.0123 0.8772 0.8792
4.4633 1080 0.0145 0.8801 0.8820
4.5047 1090 0.0086 0.8799 0.8820
4.5460 1100 0.0362 0.8814 0.8823
4.5874 1110 0.0056 0.8816 0.8825
4.6287 1120 0.0093 0.8806 0.8823
4.6701 1130 0.0078 0.8793 0.8815
4.7115 1140 0.0116 0.8809 0.8837
4.7528 1150 0.0078 0.8845 0.8862
4.7942 1160 0.0091 0.8889 0.8902
4.8356 1170 0.012 0.8897 0.8908
4.8769 1180 0.0111 0.8902 0.8918
4.9183 1190 0.0114 0.8900 0.8913
4.9597 1200 0.0131 0.8883 0.8901
5.0 1210 0.0036 0.8875 0.8877
5.0414 1220 0.0111 0.8857 0.8869
5.0827 1230 0.0056 0.8904 0.8911
5.1241 1240 0.0071 0.8919 0.8928
5.1655 1250 0.0117 0.8925 0.8934
5.2068 1260 0.0266 0.8925 0.8932
5.2482 1270 0.0067 0.8913 0.8917
5.2896 1280 0.0038 0.8901 0.8918
5.3309 1290 0.0056 0.8912 0.8923
5.3723 1300 0.0083 0.8896 0.8911
5.4137 1310 0.0073 0.8904 0.8918
5.4550 1320 0.0047 0.8913 0.8933
5.4964 1330 0.0034 0.8923 0.8932
5.5377 1340 0.0155 0.8924 0.8940
5.5791 1350 0.0028 0.8934 0.8941
5.6205 1360 0.0042 0.8902 0.8905
5.6618 1370 0.0035 0.8897 0.8893
5.7032 1380 0.0043 0.8922 0.8915
5.7446 1390 0.0028 0.8938 0.8951
5.7859 1400 0.0051 0.8958 0.8965
5.8273 1410 0.0045 0.8963 0.8968
5.8687 1420 0.0071 0.8978 0.8987
5.9100 1430 0.0075 0.8987 0.8993
5.9514 1440 0.006 0.8992 0.8992
5.9928 1450 0.0027 0.8973 0.8979
6.0331 1460 0.0045 0.8983 0.8984
6.0745 1470 0.0032 0.8988 0.8995
6.1158 1480 0.0027 0.8992 0.8996
6.1572 1490 0.0047 0.8994 0.9006
6.1986 1500 0.0042 0.9001 0.9002
6.2399 1510 0.0324 0.8991 0.8996
6.2813 1520 0.0018 0.8973 0.8985
6.3226 1530 0.0022 0.8970 0.8976
6.3640 1540 0.003 0.8979 0.8988
6.4054 1550 0.0046 0.8984 0.8997
6.4467 1560 0.0025 0.8988 0.9004
6.4881 1570 0.0032 0.8998 0.9010
6.5295 1580 0.0037 0.8997 0.9005
6.5708 1590 0.0075 0.9004 0.9007
6.6122 1600 0.002 0.8989 0.8995
6.6536 1610 0.0018 0.8977 0.8976
6.6949 1620 0.0019 0.8953 0.8957
6.7363 1630 0.0024 0.8957 0.8964
6.7777 1640 0.0024 0.8968 0.8961
6.8190 1650 0.0029 0.8980 0.8980
6.8604 1660 0.0041 0.8998 0.9003
6.9018 1670 0.0041 0.9016 0.9017
6.9431 1680 0.0017 0.9020 0.9029
6.9845 1690 0.0027 0.9022 0.9024
7.0248 1700 0.0022 0.9005 0.9015
7.0662 1710 0.002 0.8999 0.9013
7.1075 1720 0.0027 0.9011 0.9017
7.1489 1730 0.0026 0.9024 0.9029
7.1903 1740 0.0019 0.9028 0.9033
7.2316 1750 0.0251 0.9028 0.9036
7.2730 1760 0.0017 0.9037 0.9040
7.3144 1770 0.0018 0.9032 0.9037
7.3557 1780 0.0021 0.9023 0.9035
7.3971 1790 0.0025 0.9026 0.9035
7.4385 1800 0.0021 0.9030 0.9033
7.4798 1810 0.0028 0.9022 0.9034
7.5212 1820 0.0021 0.9025 0.9029
7.5626 1830 0.0066 0.9028 0.9038
7.6039 1840 0.0016 0.9033 0.9039
7.6453 1850 0.0011 0.9031 0.9031
7.6867 1860 0.0017 0.9020 0.9024
7.7280 1870 0.0014 0.9016 0.9020
7.7694 1880 0.0025 0.9015 0.9020
7.8108 1890 0.0015 0.9019 0.9020
7.8521 1900 0.0025 0.9017 0.9015
7.8935 1910 0.0033 0.9023 0.9021
7.9349 1920 0.0011 0.9033 0.9030
7.9762 1930 0.0031 0.9034 0.9033
8.0165 1940 0.0016 0.9032 0.9034
8.0579 1950 0.0015 0.9032 0.9035
8.0993 1960 0.0014 0.9030 0.9038
8.1406 1970 0.0022 0.9033 0.9038
8.1820 1980 0.0018 0.9037 0.9037
8.2234 1990 0.0226 0.9038 0.9038
8.2647 2000 0.0017 0.9038 0.9041
8.3061 2010 0.0011 0.9041 0.9046
8.3475 2020 0.0015 0.9037 0.9048
8.3888 2030 0.0021 0.9039 0.9050
8.4302 2040 0.0017 0.9040 0.9048
8.4716 2050 0.0017 0.9037 0.9049
8.5129 2060 0.0017 0.9038 0.9047
8.5543 2070 0.0061 0.9039 0.9050
8.5957 2080 0.0011 0.9039 0.9048
8.6370 2090 0.0011 0.9042 0.9048
8.6784 2100 0.0014 0.9042 0.9046
8.7198 2110 0.0011 0.9040 0.9043
8.7611 2120 0.0031 0.9038 0.9040
8.8025 2130 0.0013 0.9039 0.9039
8.8438 2140 0.0016 0.9038 0.9037
8.8852 2150 0.0026 0.9039 0.9040
8.9266 2160 0.0016 0.9042 0.9042
8.9679 2170 0.0025 0.9041 0.9043
9.0083 2180 0.001 0.9041 0.9044
9.0496 2190 0.0013 0.9040 0.9043
9.0910 2200 0.0014 0.9043 0.9043
9.1324 2210 0.0016 0.9042 0.9045
9.1737 2220 0.0021 0.9045 0.9045
9.2151 2230 0.0236 0.9045 0.9044
9.2565 2240 0.0017 0.9044 0.9045
9.2978 2250 0.001 0.9044 0.9043
9.3392 2260 0.0016 0.9042 0.9046
9.3806 2270 0.0017 0.9042 0.9042
9.4219 2280 0.0015 0.9043 0.9045
9.4633 2290 0.002 0.9042 0.9046
9.5047 2300 0.0012 0.9041 0.9046
9.5460 2310 0.0042 0.9043 0.9044
9.5874 2320 0.0014 0.9043 0.9044
9.6287 2330 0.0014 0.9043 0.9045
9.6701 2340 0.0012 0.9043 0.9044
9.7115 2350 0.0012 0.9044 0.9043
9.7528 2360 0.0011 0.9044 0.9045
9.7942 2370 0.0017 0.9044 0.9044
9.8356 2380 0.0016 0.9044 0.9046
9.8769 2390 0.0018 0.9044 0.9045
9.9183 2400 0.0016 0.9045 0.9045
9.9597 2410 0.0023 0.9044 0.9046
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.0
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
10
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for johnweak132/improve_vibi

Finetuned
(27)
this model

Evaluation results