SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: bkai-foundation-models/vietnamese-bi-encoder
Maximum Sequence Length: 256 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("johnweak132/improve_vibi")
# Run inference
sentences = [
    'Trách nhiệm của Ban Điều hành cấp Trường đối với CTTN là gì?',
    'Điều  5.\tTrách nhiệm của Ban Điều hành cấp Trường\nĐề xuất phương hướng và xét duyệt kế hoạch phát triển CTTN của Trường để trình Ban Giám hiệu trường và BĐH của ĐHQG HCM. \nChuẩn bị các điều kiện cơ sở vật chất; tài chính; chương trình đào tạo; tổ chức xây dựng qui chế quy định liên quan tới việc tuyển chọn và chế độ chính sách phục vụ nhằm đảm bảo cho chương trình hoạt động có hiệu quả.\nTổ chức xét tuyển và triển khai hoạt động của chương trình theo quy định.\nChỉ đạo và theo dõi việc thực hiện chương trình tại các đơn vị.\nĐịnh kỳ báo cáo Ban Giám hiệu về các hoạt động của chương trình.',
    'Điều  3. Quy định về tổ chức đào tạo \n1) Đăng ký học phần\n- Các đối tượng được đăng ký học các lớp học phần mở theo quy định này: \na) Sinh viên chính quy đã quá hạn theo thiết kế chương trình đào tạo;  \nb) Sinh viên chính quy chưa quá hạn theo thiết kế chương trình đào tạo chỉ được phép đăng ký học lại, học cải thiện; ngoại trừ trường hợp với các môn ngoại ngữ thì được phép đăng ký học mới; \nc) Người học không phải sinh viên chính quy của Trường nhưng được Trường cho phép đăng ký học tập để tích lũy kiến thức hoặc để hoàn thành chương trình đào tạo; \nd) Các tình huống đặc biệt khác cần có sự đồng ý của Trưởng phòng Đào tạo Đại học.\n- Dựa trên kết quả đăng ký học phần, các lớp được duyệt mở với số lượng tối thiểu là 15 người học, trường hợp đặc biệt do Hiệu trưởng xem xét, phê duyệt.\n- Các lớp ngoài giờ hành chính có thể được mở nhiều đợt trong năm học.\n- Người học thực hiện đăng ký học phần trên hệ thống phần mềm của Trường. \n2) Hình thức giảng dạy, trách nhiệm của cán bộ giảng dạy\n- Thời gian dạy - học theo khung sau: \n+ 17g45 - 20g30 từ thứ hai đến thứ bảy,\n+ 7g30 – 11g30, 13g00 – 17g00 và 17g45 - 20g30 ngày chủ nhật.\n- Thời khóa biểu mỗi lớp phải đảm bảo đủ thời lượng phân bổ của môn học trong chương trình đào tạo. Phần lý thuyết tổ chức giảng dạy như trong đề cương của môn học. Phần thực hành có thể tổ chức giảng dạy theo hình thức 1 (giảng dạy theo thời khóa biểu) hoặc hình thức 2 (tổ chức ít nhất 3 buổi gặp trực tiếp sinh viên để hướng dẫn và giải đáp thắc mắc của sinh viên trong quá trình thực hiện các nội dung thực hành) tùy theo tính chất của môn học. \n- Hình thức dạy - học có thể là trực tiếp hoặc trực tuyến. Đơn vị quản lý chuyên môn của môn học quyết định hình thức giảng dạy.\n3) Quản lý quá trình học tập\n- Đối với sinh viên đang học của Trường: Các đơn vị liên quan trong Trường thực hiện quản lý như các lớp chính quy học trong giờ hành chính.\n- Đối với người học khác: Trường cấp mã người học cùng các tài khoản liên quan để tham gia học tập. Phòng Đào tạo Đại học có trách nhiệm quản lý chung đối với người học thuộc diện này.\n4) Kiểm tra, đánh giá môn học\n- Việc tổ chức kiểm tra, đánh giá môn học được thực hiện theo những quy định đào tạo đại học hiện hành như áp dụng đối với các lớp chính quy trong giờ hành chính. \n- Dựa trên thời điểm mở lớp và kết thúc lớp, Phòng Đào tạo Đại học quyết định việc tính điểm học phần cho học kỳ nào.\n5) Cấp bảng điểm\n- Người học được quyền yêu cầu cung cấp bảng điểm của học phần đã hoàn thành theo quy định.\n- Các đơn vị chức năng của Trường có trách nhiệm cấp bảng điểm theo yêu cầu của người học.     ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Datasets: dim_768 and dim_512
Evaluated with InformationRetrievalEvaluator

Metric	dim_768	dim_512
cosine_accuracy@1	0.7874	0.7864
cosine_accuracy@3	0.9529	0.9559
cosine_accuracy@5	0.9848	0.9853
cosine_accuracy@10	0.9984	0.9988
cosine_precision@1	0.7874	0.7864
cosine_precision@3	0.3182	0.3192
cosine_precision@5	0.1975	0.1976
cosine_precision@10	0.1001	0.1002
cosine_recall@1	0.7864	0.7855
cosine_recall@3	0.9524	0.9555
cosine_recall@5	0.9847	0.9853
cosine_recall@10	0.9984	0.9988
cosine_ndcg@10	0.9044	0.9046
cosine_mrr@10	0.873	0.873
cosine_map@100	0.8729	0.873

Training Details

Training Dataset

Unnamed Dataset

Size: 7,731 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 8 tokens
mean: 22.29 tokens
max: 82 tokens

min: 24 tokens
mean: 225.39 tokens
max: 256 tokens

	anchor	positive
type	string	string
details	min: 8 tokens mean: 22.29 tokens max: 82 tokens	min: 24 tokens mean: 225.39 tokens max: 256 tokens

Samples:

anchor	positive
`Sinh viên dự bị không trở thành sinh viên chính thức bao nhiêu học kỳ sẽ bị loại khỏi CTTN?`	Điều 9. Tuyển bổ sung và loại ra khỏi chương trình, xét chính thức và dự bị Đối tượng tham gia CTTN là những sinh viên có năng lực xuất sắc, do đó, sau mỗi học kỳ BĐH quyết định việc loại sinh viên khỏi lớp tài năng, tuyển bổ sung sinh viên từ chương trình chuẩn vào lớp tài năng, xét chuyển đổi sinh viên chính thức và dự bị. Đầu mỗi học kỳ, Khoa xét và đề nghị lên BĐH các danh sách sinh viên tuyển bổ sung, bị loại ra khỏi các lớp CTTN hoặc danh sách sinh viên chính thức và dự bị theo các tiêu chuẩn như sau: 1. Loại khỏi chương trình Tại thời điểm xem xét, sinh viên rơi vào một trong các trường hợp sau: - Chưa tốt nghiệp khi đã quá thời gian thiết kế của khóa học và không có lý do đặc biệt. - Không đăng ký học đầy đủ các môn học CTTN bắt buộc trong học kỳ. - ĐTBTL nhỏ hơn 6,5 – tính tương ứng sau học kỳ 1 và sau học kỳ hè (kết quả học tập của học kỳ hè sẽ được tính chung vào kết quả học tập học kỳ 2 của năm học tương ứng). - Số tín chỉ tích lũy (STCTL) so với tiến độ CTĐT nhỏ hơn 80% n...
`Các mức điểm xếp lớp tiếng Anh được Hiệu trưởng quyết định điều chỉnh như thế nào?`	Điều 4. Kiểm tra xếp lớp đầu khóa cho sinh viên thuộc CTC, CTTN, CTTT 1. Vào đầu khóa học, Trường tổ chức kiểm tra tiếng Anh để xếp lớp cho tất cả sinh viên khóa tuyển mới. Đề kiểm tra xếp lớp đầu khóa có dạng thức như đề thi TOEIC 2 kỹ năng (nghe và đọc). Căn cứ vào kết quả kiểm tra tiếng Anh, sinh viên được xếp vào lớp tiếng Anh phù hợp với trình độ của sinh viên theo thông tin xếp lớp đầu khoá. Tùy theo tình hình thực tế, các mức điểm có thể được Hiệu trưởng quyết định điều chỉnh theo đề xuất hợp lý của bộ phận chuyên môn. 2. Xếp lớp đầu khóa Điểm kiểm tra(dạng thức TOEIC nghe và đọc) Dưới 300 điểm sẽ không được học Anh văn 1 (mã môn ENG01), được đăng ký học Anh văn sơ cấp ngoài CTĐT chính quy do Trung tâm Ngoại ngữ phụ trách (không bắt buộc). Từ 300 – 345 điểm sẽ Học Anh Văn 1 (Mã môn ENG01) Từ 350 – 395 điểm sẽ Miễn Anh văn 1 (mã môn ENG01) và Học Anh văn 2 (mã môn ENG02). Từ 400-445 sẽ miễn anh văn 1 (mã môn ENG01), anh văn 2 (mã môn ENG02) và học anh văn 3 ...
`Trình độ tiếng Nhật đạt N mấy mới thì sinh viên CT CLC mới được công nhận xét tốt nghiệp được?`	Điều 5. Chương trình đào tạo CT CLC được xây dựng trên nền chương trình đào tạo đại trà tương ứng và theo quy định xây dựng chương trình đào tạo của Trường ĐHCNTT. CT CLC có sự khác biệt so với chương trình đại trà ở những điểm dưới đây: - Chuẩn đầu ra của CT CLC phải cao hơn chuẩn đầu ra của chương trình đại trà tương ứng về năng lực chuyên môn; năng lực ngoại ngữ; năng lực làm việc nhóm; khả năng thích nghi với môi trường công tác. - Chuẩn đầu ra ngoại ngữ: để được xét tốt nghiệp, sinh viên phải hoàn tất chương trình ngoại ngữ bắt buộc trong chương trình đào tạo và có một trong các chứng chỉ ngoại ngữ đạt trình độ tối thiểu: • Tiếng Anh: bậc 4/6 theo khung năng lực ngoại ngữ 6 bậc dùng cho Việt Nam. Cụ thể mức quy đổi sang các chứng chỉ quốc tế được quy định trong Quy định đào tạo ngoại ngữ hiện hành của Trường. • Tiếng Nhật: tương đương JLPT N3. - Để đảm bảo tính liên thông giữa CT CLC và chương trình đại trà, chương trình đào tạo của CT CL...

Loss: MatryoshkaLoss with these parameters:

{
    "loss": "MultipleNegativesRankingLoss",
    "matryoshka_dims": [
        768,
        512
    ],
    "matryoshka_weights": [
        1,
        1
    ],
    "n_dims_per_step": -1
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_eval_batch_size: 4
gradient_accumulation_steps: 4
learning_rate: 2e-05
num_train_epochs: 10
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: True
load_best_model_at_end: True
optim: adamw_torch_fused
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 8
per_device_eval_batch_size: 4
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 4
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 10
max_steps: -1
lr_scheduler_type: cosine
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs