BERT Amharic Text Embedding Small

This is a sentence-transformers model finetuned from rasyosef/bert-small-amharic on the json dataset. It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: rasyosef/bert-small-amharic
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 512 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/bert-amharic-embed-small-v3")
# Run inference
sentences = [
    'ኦዴፓ የፓርቲውን ሊቀመንበር እና ምክትል ሊቀመንበር መረጠ',
    'የኦሮሞ ዴሞክራሲያዊ ፓርቲ (ኦዴፓ) ዝያካሄደ ባለው\xa0 9ኛው ድርጅታዊ ጉባዔ የፓርቲውን ሊቀመንበር እና ምክትል ሊቀመንበር መርጧል።ፓርቲው በዛሬው እለት ባካሄደው ምርጫ፦1 ዶክተር አብይ አህመድን የፓርቲው ሊቀመንበር2 አቶ ለማ መገርሳን የፓርቲው ምክትል ሊቀመንበር አድርጎ መርጧል።በዚህም መሰረት በዛሬው እለት የተመረጡት ሊቀመንበሩ እና ምክትል ሊቀመንበሩ እስከ ቀጣዩ ጉባዔ ድረስ የኦሮሞ ዴሞክራሲያዊ ፓርቲ (ኦዴፓ) አመራር\xa0 ሆነው እንዲቀጥሎ\xa0 ሾሟል ።በተጨማሪም ጉባኤው የኦዴግ\xa0 ለኢህአዴግ ስራ አስፈፃሚ ኮሚቴ አባላት ምርጫን\xa0 በማካሄድ\xa0 ዘጠኝ\xa0 አባላትን መርጧል ።\xa0',
    'አምስተኛ ቀኑን የያዘው የሴካፋ ከ15 ዓመት በታች ውድድር ዛሬም ሲቀጥል ኤርትራ ሱዳንን በሰፊ ውጤት አሸንፋ የማለፍ ዕድልዋ አለምልማለች። ኬንያ ደግሞ ከብሩንዲ ጋር ነጥብ ተጋርታለች።በስምንት ሰዓት ጨዋታቸውን ያካሄዱት ኬንያ እና ብሩንዲ ሲሆኑ ኬንያ 1-0 እየመራች አመዛኙ የጨዋታው ደቂቃዎች ብትቆይም ብሩንዲ በጨዋታው መገባደጃ አከባቢ ግብ አስቆጥራ ከመሸነፍ ድናለች።የዕለቱ ሁለተኛ ጨዋታ አዘጋጇ ኤርትራን ከ ሱዳን ያገናኘው ሲሆን በርካታ ተመልካችም ተከታትሎታል። በመጀመርያው ጨዋታዋ በደጋፊዋ ፊት ሽንፈት የገጠማት ኤርትራ ግጥሚያውን 6-0 በማሸነፍ ነጥቧን ወደ ሦስት አሳድጋ ወደ ግማሽ ፍፃሜ የማለፍ ተስፋዋን አለምልማለች። አሕመድ አውድ የተባለ ተጫዋች ሦስት ግቦች አስቆጥሮ ሐት-ትሪክ ሲሰራ ተመስገን ተስፋይ የተባለው የመስመር ተጫዋች ደግሞ አንድ ጎል አስቆጥሯል። የተቀሩት ሁለት ግቦች ተያ አሕመድ የተባለ የሱዳን ተከላካይ በራሱ ግብ ላይ የተቆጠሩ ናቸው።ቡድን | ተጫወተ | ልዩነት |\xa0 ነጥብ1) ኬንያ 3 (+6)\xa0 \xa072) ብሩንዲ 3 (+2) 73) ኤርትራ 2 (+5) 34) ሶማልያ 2 (-3) 05) ሱዳን 2\xa0 (-10) 0ውድድሩ ነገም ሲቀጥል ደቡብ ሱዳን ከ ታንዛንያ በ8:00 ፣ ኢትዮጵያ ከሩዋንዳ በ10:30 ይጫወታሉ።',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 512]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_512 dim_256 dim_128
cosine_accuracy@1 0.5516 0.5467 0.5246
cosine_accuracy@3 0.6973 0.6916 0.6764
cosine_accuracy@5 0.7481 0.7399 0.7266
cosine_accuracy@10 0.808 0.7995 0.7914
cosine_precision@1 0.5516 0.5467 0.5246
cosine_precision@3 0.2324 0.2305 0.2255
cosine_precision@5 0.1496 0.148 0.1453
cosine_precision@10 0.0808 0.08 0.0791
cosine_recall@1 0.5516 0.5467 0.5246
cosine_recall@3 0.6973 0.6916 0.6764
cosine_recall@5 0.7481 0.7399 0.7266
cosine_recall@10 0.808 0.7995 0.7914
cosine_ndcg@10 0.6787 0.6716 0.6564
cosine_mrr@10 0.6374 0.6309 0.6135
cosine_map@100 0.643 0.6368 0.6194

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 62,833 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 16.23 tokens
    • max: 91 tokens
    • min: 35 tokens
    • mean: 315.61 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    የ8ኛ እና የ12ኛ ክፍል ተማሪዎች የማካካሻ ትምህርት መማር ጀመሩ። ባሕር ዳር፡ ጥቅምት 10/2013 ዓ.ም (አብመድ) በባሕር ዳር ከተማ አስተዳደር ለሚገኙ የ12ኛ እና የ8ኛ ክፍል ተማሪዎች የማካካሻ ትምህርት መስጠት መጀመሩን መምሪያው አስታውቋል፡፡በባሕር ዳር ከተማ አስተዳደር ለሚገኙ ለ12ኛ እና ለ8ኛ ክፍል ተማሪዎች ሀገራዊና ሀገር አቀፍ ዜና ፈተና ከመወስዳቸው በፊት ለ45 ቀናት የሚቆይ የማካካሻ ትምህርት ከጥቅምት 09/2013 ዓ.ም ጀምሮ መስጠት መጀመሩን የከተማ አስተዳደሩ ትምህርት መምሪያ ምክትል ኃላፊ መላክ ጀመረ ተናግረዋል፡፡“ዛሬ ተቀብለን ማስተማር የጀመርነው የኮሮናቫይረስን ለመከላከል የአፍና የአፍንጫ መሸፈኛ ጭምብል የተጠቀሙ ተማሪዎችን ብቻ ነው፡፡ ከትምህርት ሚኒስቴር የተላከው ጭምብል እስከዛሬ ባይደርሰንም ወላጆች ለልጆቻቸው በገዙት ተጠቅመን ነው ማስተማር የጀመርነው” ብለዋል አቶ መላክ። መማርም ሆነ ማስተማር የሚቻለው ጤና ሲኖር ብቻ ስለሆነ ተማሪዎች ያለማንም ክትትል ጭምብል እንዲጠቀሙም ጥሪ አቅርበዋል፡፡በሚቀጥለው ሳምንት ከ1ኛ ክፍል በስተቀር ሁሉም ትምህርት ቤቶች ለሦስት ሳምንታት የማካካሻ ትምህርት እንደሚወስዱ የተናገሩት ምክትል መምሪያ ኃላፊው ከማካካሻው ትምህርት በኋላ የ2013 ትምህርት ዘመን ሙሉ በሙሉ የመማር ማስተማር ሂደቱ እንደሚቀጥል አስገንዝበዋል፡፡ወረርሽኙን ለመከላከል ሲባል ትምህርት ሚኒስቴር ባስቀመጠው አቅጣጫ መሠረት የመንግሥት ትምህርት ቤቶች ከአንድ እስከ ሦስት ፈረቃ እንዲሁም የግል ትምህርት ቤቶች ደግሞ በአንድ እና ሁለት ፈረቃ ብቻ ማስተማር እንደሚቀጥሉ አቶ መላክ ጠቁመዋል፡፡
    በክልሎች በተፈጠሩ ግጭቶች ላይ ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ ተመሰረተ በተለያዩ ክልሎች በተፈጠሩ ግጭቶች ላይ ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ ተመሰረተ።በ2011 በጀት ዓመት በተለያዩ ክልሎች በተፈጠሩ ግጭቶች ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ መመስረቱን የኢፌዲሪ ጠቅላይ ዐቃቤ ሕግ አስታወቀ፡፡በተፈጠረው ሁከትና ብጥብጥ 1 ሺህ 229 ሰዎች ህይዎት ያለፈ ሲሆን በ1 ሺህ 393 ሰዎች ላይ ደግሞ ቀላልና ከባድ የአካል ጉዳት ሲደርስ በ19 ሰዎች ላይ የግድያ ሙከራ መደረጉን በጠቅላይ ዐቃቤ ሕግ የተደራጁ ድንበር ተሸጋሪ ወንጀሎች ዳይሬክተር የሆኑት አቶ ፍቃዱ ፀጋ ገልፀዋል፡፡በግጭቶቹ ከ2.2 ቢሊዮን ብር በላይ የሚገመት የዜጎች ንብረት የወደመ ሲሆን፤ 1.2 ሚሊዮን ዜጎች ከመኖሪያ ቤታቸውና ከአካባቢያቸው ተፈናቅለዋል፡፡ከተከሳሾቹ መካከል 645 ተጠርጣሪዎች በቁጥጥር ስር ውለው ጉዳያቸው እየታየ ሲሆን 667 የሚሆኑ ተጠርጣሪዎች ደግሞ በቁጥጥር ስር አልዋሉም፡፡የ10 ተጠርጣሪዎች ክስም በምህረት መነሳቱን ዳይሬክተሩ አክለዋል፡፡በመጨረሻም አቶ ፍቃዱ ተጠርጣሪዎችን በቁጥጥር ስር ለማዋል በሚደረግ እንቅስቃሴ ዙሪያ የሚስተዋለው ክፍተት አስመልክቶ መፍትሔ ያሉትን ሀሳብ ሲጠቁሙ ይህንን ችግር ለመቅረፍ ህብረተሰቡና የሚመለከታቸው ባለድርሻ አካላት ከፍትህ አካላት ጎን በመቆምና ተጠርጣሪዎችን አሳልፎ በመስጠት በኩል በጉዳዩ ላይ በባለቤትነት ስሜት ሊሰሩ እንደሚገባ አጽእኖት ሰጥተው መልዕክታቸውን አስተላልፈዋል፡፡በሌላ በኩል በአማራ ክልል በጃዊ ወረዳና በመተክል ዞን፤ በጎንደርና አካባቢው በተፈጠረ ሁከትና ብጥብጥ፤ በሰሜን ሸዋ አስተዳደር እንዲሁም በቤንሻጉል ጉምዝ ክልል ከማሻ ዞን ውስጥ በሚገኙ የተለያዩ ወረዳዎችና ቀበሌዎችና የዚሁ ዞን አጎራባች በሆነው በኦሮሚያ ክልል ምስራቅና ምዕራብ ወለጋ ዞን በተለያዩ ቀ...
    ከሽመና ሥራ ---- እስከ ሚሊየነርነት! “ይቅርታ መጠየቅ ጀግንነት እንጂ ሽንፈት አይደለም”የኮንሶው ተወላጅ አቶ ዱላ ኩሴ፤ቤሳቤስቲን አልነበራቸውም፡፡ ለብዙ ዓመታት በሽመና ስራ ላይ ቆይተዋል፡፡ በብዙ ልፋትና ትጋት፣ወጥተው ወርደው፣ ነው ለስኬት የበቁት፡፡ ዛሬበሚሊዮን ብሮች የሚንቀሳቀሱ የንግድ ድርጅቶች ባለቤት ሆነዋል፡፡ ባለጠጋ ናቸው፡፡ የ50 ዓመቱ ጎልማሳ አቶ ዱላ፤በልጆችም ተንበሽብሸዋል፡፡ የ17 ልጆች አባት ናቸው፡፡ በቅርቡበሚዲያ የሰጡት አንድ አስተያየት የአገሬውን ህዝብ ማስቆጣቱን የሚናገሩት ባለሃብቱ፤አሁን በሽማግሌ እርቅ ለመፍጠር እየተሞከረ መሆኑን ጠቁመዋል፡፡ ባለሃብቱ ከህዝቡ ጋር ቅራኔውስጥ የከተታቸው ጉዳይ ምን ይሆን? የአዲስ አድማስ ጋዜጠኛ ማህሌት ኪዳነወልድ፤ ከአቶ ዱላ ኩሴ ጋር ይሄን ጨምሮ በስኬት ጉዟቸውና በንግድ ሥራቸው ዙሪያ አነጋግራቸዋለች፡፡መቼ ነው የሽመና ሥራ የጀመሩት?በ13 ወይም በ14 ዓመቴ ይመስለኛል፡፡ ለቤተሰቤ አራተኛ ልጅ ነኝ፡፡ ለ10 ዓመታት ያህል በሽመና ስራ ላይ ቆይቻለሁ፡፡ ስራዎቼንም የምሸጠው እዛው በአካባቢው ላሉ ሰዎች ነበር፡፡ ቀጣዩ ሥራዎስ ምን ነበር?ወደ ጅንካ በመሄድ ለ4 ዓመታት ያህል ኦሞ ዞን ጂንካ ከተማ ላይ ሽያጩን ቀጠልኩ፡፡ በኋላም ወደ ወላይታ ተመልሼ፣ ማግና ሰዴቦራ /ብርድ ቦታ የሚለበስ የጋቢ አይነት/ መሸጥ ጀመርኩ፡፡ ለ3 ዓመታትም ቦዲቲ እየወሰድኩ ሸጫለሁ፡፡ እንግዲህ አቅም እየጠነከረ፣ ገንዘብ እየተሰበሰበ ሲመጣ፣ አነስተኛ ሸቀጣ ሸቀጥ ሱቅ ከፈትኩኝ፡፡ የቤት እቃና ልብስ መሸጥ ጀመርኩኝ፡፡ ብዙም ሳልቆይ ወደ ከተማ ወርጄ፣ ወደ ሆቴል ስራ ገባሁ፡፡ ተቀጥረው ነው ወይስ የራስዎን ሆቴል?የራሴን ነው፡፡ ኮንሶ እድገት ሆቴል ይባላል፡፡ በ91 ዓመተ ምህረት ነበር ሆቴሉን አነስ አድርጌ የከፈትኩት፡፡ በኋላም የሸቀጣሸቀጥ ገበያው እየተቀዛቀዘ በ...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            512,
            256,
            128
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 4
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • seed: 16
  • fp16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 16
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_512_cosine_ndcg@10 dim_256_cosine_ndcg@10 dim_128_cosine_ndcg@10
0.0204 10 8.301 - - -
0.0407 20 7.3774 - - -
0.0611 30 5.831 - - -
0.0815 40 4.4463 - - -
0.1018 50 3.584 - - -
0.1222 60 2.906 - - -
0.1426 70 2.4014 - - -
0.1629 80 2.2366 - - -
0.1833 90 1.9941 - - -
0.2037 100 1.9508 - - -
0.2240 110 1.8502 - - -
0.2444 120 1.6742 - - -
0.2648 130 1.6723 - - -
0.2851 140 1.5376 - - -
0.3055 150 1.4867 - - -
0.3259 160 1.2837 - - -
0.3462 170 1.2903 - - -
0.3666 180 1.4295 - - -
0.3870 190 1.2511 - - -
0.4073 200 1.2757 - - -
0.4277 210 1.3485 - - -
0.4481 220 1.2556 - - -
0.4684 230 1.2197 - - -
0.4888 240 1.0948 - - -
0.5092 250 1.2081 - - -
0.5295 260 1.1554 - - -
0.5499 270 1.1607 - - -
0.5703 280 1.1125 - - -
0.5906 290 0.9991 - - -
0.6110 300 1.0303 - - -
0.6314 310 1.1414 - - -
0.6517 320 1.0526 - - -
0.6721 330 1.114 - - -
0.6925 340 1.0484 - - -
0.7128 350 1.0631 - - -
0.7332 360 1.0937 - - -
0.7536 370 1.0012 - - -
0.7739 380 1.0538 - - -
0.7943 390 1.0771 - - -
0.8147 400 0.8804 - - -
0.8350 410 0.9483 - - -
0.8554 420 0.9106 - - -
0.8758 430 0.9554 - - -
0.8961 440 0.9124 - - -
0.9165 450 0.9037 - - -
0.9369 460 0.8972 - - -
0.9572 470 0.9579 - - -
0.9776 480 0.9036 - - -
0.9980 490 1.0663 - - -
1.0 491 - 0.6125 0.6034 0.5799
1.0183 500 0.5728 - - -
1.0387 510 0.6065 - - -
1.0591 520 0.6269 - - -
1.0794 530 0.5891 - - -
1.0998 540 0.6189 - - -
1.1202 550 0.535 - - -
1.1405 560 0.5595 - - -
1.1609 570 0.5872 - - -
1.1813 580 0.5771 - - -
1.2016 590 0.5984 - - -
1.2220 600 0.5671 - - -
1.2424 610 0.6004 - - -
1.2627 620 0.5501 - - -
1.2831 630 0.5353 - - -
1.3035 640 0.496 - - -
1.3238 650 0.583 - - -
1.3442 660 0.6071 - - -
1.3646 670 0.5584 - - -
1.3849 680 0.5878 - - -
1.4053 690 0.5516 - - -
1.4257 700 0.624 - - -
1.4460 710 0.554 - - -
1.4664 720 0.5134 - - -
1.4868 730 0.4964 - - -
1.5071 740 0.497 - - -
1.5275 750 0.54 - - -
1.5479 760 0.5837 - - -
1.5682 770 0.4992 - - -
1.5886 780 0.5742 - - -
1.6090 790 0.5392 - - -
1.6293 800 0.5927 - - -
1.6497 810 0.6107 - - -
1.6701 820 0.5072 - - -
1.6904 830 0.555 - - -
1.7108 840 0.5531 - - -
1.7312 850 0.5121 - - -
1.7515 860 0.4977 - - -
1.7719 870 0.5057 - - -
1.7923 880 0.585 - - -
1.8126 890 0.4449 - - -
1.8330 900 0.4946 - - -
1.8534 910 0.6434 - - -
1.8737 920 0.4512 - - -
1.8941 930 0.5628 - - -
1.9145 940 0.482 - - -
1.9348 950 0.4984 - - -
1.9552 960 0.5858 - - -
1.9756 970 0.5163 - - -
1.9959 980 0.425 - - -
2.0 982 - 0.6552 0.6464 0.6320
2.0163 990 0.3773 - - -
2.0367 1000 0.3196 - - -
2.0570 1010 0.3333 - - -
2.0774 1020 0.3453 - - -
2.0978 1030 0.3501 - - -
2.1181 1040 0.3642 - - -
2.1385 1050 0.3248 - - -
2.1589 1060 0.3489 - - -
2.1792 1070 0.3256 - - -
2.1996 1080 0.2852 - - -
2.2200 1090 0.3656 - - -
2.2403 1100 0.2994 - - -
2.2607 1110 0.3349 - - -
2.2811 1120 0.2885 - - -
2.3014 1130 0.3626 - - -
2.3218 1140 0.42 - - -
2.3422 1150 0.3553 - - -
2.3625 1160 0.3235 - - -
2.3829 1170 0.3549 - - -
2.4033 1180 0.3623 - - -
2.4236 1190 0.3076 - - -
2.4440 1200 0.2679 - - -
2.4644 1210 0.3487 - - -
2.4847 1220 0.3151 - - -
2.5051 1230 0.283 - - -
2.5255 1240 0.3182 - - -
2.5458 1250 0.3163 - - -
2.5662 1260 0.3214 - - -
2.5866 1270 0.3096 - - -
2.6069 1280 0.2923 - - -
2.6273 1290 0.2885 - - -
2.6477 1300 0.2545 - - -
2.6680 1310 0.3501 - - -
2.6884 1320 0.3484 - - -
2.7088 1330 0.2781 - - -
2.7291 1340 0.2921 - - -
2.7495 1350 0.3397 - - -
2.7699 1360 0.2793 - - -
2.7902 1370 0.2944 - - -
2.8106 1380 0.2319 - - -
2.8310 1390 0.309 - - -
2.8513 1400 0.2802 - - -
2.8717 1410 0.32 - - -
2.8921 1420 0.2845 - - -
2.9124 1430 0.2892 - - -
2.9328 1440 0.3825 - - -
2.9532 1450 0.2256 - - -
2.9735 1460 0.3212 - - -
2.9939 1470 0.3064 - - -
3.0 1473 - 0.6756 0.6668 0.6502
3.0143 1480 0.2 - - -
3.0346 1490 0.2461 - - -
3.0550 1500 0.2409 - - -
3.0754 1510 0.2237 - - -
3.0957 1520 0.199 - - -
3.1161 1530 0.2054 - - -
3.1365 1540 0.2212 - - -
3.1568 1550 0.2198 - - -
3.1772 1560 0.2597 - - -
3.1976 1570 0.1927 - - -
3.2179 1580 0.2186 - - -
3.2383 1590 0.2375 - - -
3.2587 1600 0.2464 - - -
3.2790 1610 0.2459 - - -
3.2994 1620 0.2704 - - -
3.3198 1630 0.2434 - - -
3.3401 1640 0.2263 - - -
3.3605 1650 0.2264 - - -
3.3809 1660 0.2278 - - -
3.4012 1670 0.241 - - -
3.4216 1680 0.2438 - - -
3.4420 1690 0.2443 - - -
3.4623 1700 0.2132 - - -
3.4827 1710 0.228 - - -
3.5031 1720 0.2336 - - -
3.5234 1730 0.2788 - - -
3.5438 1740 0.2771 - - -
3.5642 1750 0.229 - - -
3.5845 1760 0.2477 - - -
3.6049 1770 0.2299 - - -
3.6253 1780 0.2596 - - -
3.6456 1790 0.2354 - - -
3.6660 1800 0.2456 - - -
3.6864 1810 0.1981 - - -
3.7067 1820 0.2111 - - -
3.7271 1830 0.2577 - - -
3.7475 1840 0.2522 - - -
3.7678 1850 0.2361 - - -
3.7882 1860 0.226 - - -
3.8086 1870 0.2273 - - -
3.8289 1880 0.212 - - -
3.8493 1890 0.2309 - - -
3.8697 1900 0.2374 - - -
3.8900 1910 0.2688 - - -
3.9104 1920 0.1978 - - -
3.9308 1930 0.2223 - - -
3.9511 1940 0.2195 - - -
3.9715 1950 0.2594 - - -
3.9919 1960 0.2312 - - -
4.0 1964 - 0.6787 0.6716 0.6564
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
10
Safetensors
Model size
27.8M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for yosefw/bert-amharic-embed-small-v3

Finetuned
(5)
this model

Evaluation results