BERT Amharic Text Embedding Small

This is a sentence-transformers model finetuned from rasyosef/bert-small-amharic on the json dataset. It maps sentences & paragraphs to a 512-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: rasyosef/bert-small-amharic
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 512 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 512, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("yosefw/bert-amharic-embed-small-v5")
# Run inference
sentences = [
    'ኤም ቲ ኤን ለአልቃይዳና ታሊባን ጉቦ በመስጠት ተወነጀለ',
    'ኩባንያው ለእነዚህ ቡድኖች ገንዘብ የሰጠው አፍጋኒስታን ውስጥ የሚገኝና ትልቅ ኢንቨስትመንት ያደረገባቸው  የኔትዎርክ ታዎሮች ላይ ጥቃት እንዳይደርስበት ለጥበቃ ነው ተብሏል።\n\nበውንጀላው መቀመጫቸውን አሜሪካ ያደረጉ ሌሎች አምስት ኩባንያዎችም ያሉ ሲሆን ክሱ የቀረበው አፍጋኒስታን ውስጥ በተገደሉ የአሜሪካ ዜጎች ስም ነው።\n\n• ጃዋር ኦሮሞ ፌደራሊስት ኮንግረስን መቀላቀሉ ተረጋገጠ\n\n• ሱዳን በ29 ግለሰቦች ላይ የሞት ፍርድ አስተላለፈች\n\n• "ሙስና ለመጣው ፖለቲካዊ ለውጥ አንድ ምክንያት ነው" \n\nበቀረበው ክስ እንደተባለው ሁለቱ አሸባሪ ቡድኖች ከኤም ቲ ኤን ያገኙትን ገንዘብ እንደ አውሮፓውያኑ ከ2009 እስከ 2017 አፍጋኒስታን ውስጥ ላካሄዷቸው የጥቃት ዘመቻዎች ተጠቅመውበታል።\n\nይህ ደግሞ የአሜሪካን የፀረ ሽብር አዋጅን የሚፃረር ነው፤ ስለዚህም ኤም ቲ ኤን ይህን ህግ ተላልፏል ተብሏል።\n\nኩባንያው ግን በየትኛውም ቦታ ስራውን የሚያካሂደው  ሃላፊነት በተሞላበት መንገድ እንደሆነ ገልጿል።\n\nኤም ቲ ኤን በአፍሪካ ግዙፉ፤ በአለም አቀፍ ደረጃ ደግሞ ከስምንት ትልልቅ ኩባንያዎች አንዱ ነው። ከ240 ሚሊዮን ተጠቃሚዎች በላይም አለው ተብሎ ይታመናል።\n\nበ2015 ያልተመዘገቡ ሲም ካርዶችን ባለመሰረዝ በናይጄሪያ ባለስልጣናት በቀረበበት ክስ 5 ቢሊዮን ዶላር እንዲቀጣ ተፈርዶበት፤ ከረዥም ክርክር በኋላ እንዲሁም የያኔው የደቡብ አፍሪካ ፕሬዝዳንት ጃኮም ዙማ በጉዳዩ ጣልቃ ገብተው ቅጣቱ ወደ 1.7 ቢሊዮን ዶላር እንደወረደለት የሚታወስ ነው።\n\nየዛሬ ዓመትም በኢራን የቀድሞ የደቡብ አፍሪካ አምባሳደር ኤምቲኤን ኢራን ውስጥ እንዲሰራና የ 31.6 ቢሊዮን ዶላር ፕሮጀክት እንዲያሸንፍ ጉቦ ተቀብለዋል በሚል መታሰራቸውም ይታወሳል።\n\n ',
    'ባለፉት 20 አመታት ዴሞክራሲን በማስረፅ ረገድ የህዝቦችን ተሳትፎ የቃኘ ጥናት ይፋ በሆነበት ወቅት እንደተገለፀው፤ በርካታ የሚዲያ ተቋማት የዴሞክራሲ እሴቶችን አጉልቶ በማውጣት ረገድ ሰፊ ውስንነቶች ታተውባቸዋል፡፡ባለፉት ዓመታት\xa0በርካታዎቹ \xa0የስነ-ምግባር መርሆዎችን ሳይጠብቁ \xa0የመዘገብ ዝንባሌ ነበራቸው ተብሏል፡፡በኢትዮጵያ ስራ አመራር ኢኒስቲትዩት በተካሄደውና ከተለያዩ የህብረተሰብ ክፍሎች የተወከሉ ዜጎች በተሳተፉበት አውደ ጥናት በዋናነት በዴሞክራሲ ስርፀት ዙሪያ የዜጎችን ምልከታ፣ አተገባበርና ተፅእኖን በመገምገም መፍትሄን ማመላከት እንደሆነ ተገልጿል፡፡ሙሉ በሙሉ በአዲስ አበባ ከተማ ላይ ትኩረቱን ባደረገው በዚህ ጥናት ፖለቲከኞች ሀገራዊ አጀንዳዎች ላይ በማተኮር ሀሳብ ከማመንጨት ይልቅ በግላዊ ጥቅሞቻቸው ላይ ማተኮራቸው ሀላፊነታቸውን በአግባቡ እንዳይወጡ ማድረጉ ተነስቷል፡፡ዜጎችም ቢሆኑ \xa0ነገሮችን በሰከነ ሁኔታ ከማጤን ይልቅ በስሜታዊነት ወደ አላስፈላጊ ግጭቶች የማምራት ሁኔታ ሲስተዋልባቸው እንደነበር ያመላከተው\xa0ጥናቱ፤ ይህም ዴሞክራሲ ስር እንዳይሰድ የራሱን ተፅዕኖ ማሳደሩን ተነስቷል፡፡በመንግስት በኩል የታዩ ክፍተቶችንም ጥናቱ ያመላከተ ሲሆን፤ በተለይም ለአሰራር ምቹ ያልሆኑ አደረጃጀቶችን ያለመተቸት ችግር፣ በፓርቲዎች የግል አቋም ጣልቃ መግባትን ጨምሮ የዴሞክራሲ ተቋማትን ተናበውና ተቀናጅተው እንዲሰሩ ያለማድረግ ችግሮች ተስተውለዋል፡፡በመሆኑም ሁሉም ባለድርሻ አካላት ለዴሞክራሲ ስርፀጥ ሚናውን በአግባቡ እንዲወጣ በመድረኩ ጥሪ ቀርቧል፡፡',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 512]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_512 dim_256 dim_128
cosine_accuracy@1 0.5561 0.5513 0.5383
cosine_accuracy@3 0.6976 0.6925 0.6786
cosine_accuracy@5 0.7536 0.7393 0.7324
cosine_accuracy@10 0.8098 0.808 0.7944
cosine_precision@1 0.5561 0.5513 0.5383
cosine_precision@3 0.2325 0.2308 0.2262
cosine_precision@5 0.1507 0.1479 0.1465
cosine_precision@10 0.081 0.0808 0.0794
cosine_recall@1 0.5561 0.5513 0.5383
cosine_recall@3 0.6976 0.6925 0.6786
cosine_recall@5 0.7536 0.7393 0.7324
cosine_recall@10 0.8098 0.808 0.7944
cosine_ndcg@10 0.681 0.6755 0.6627
cosine_mrr@10 0.6399 0.6336 0.6209
cosine_map@100 0.6457 0.6392 0.6269

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 62,833 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 16.23 tokens
    • max: 91 tokens
    • min: 35 tokens
    • mean: 315.61 tokens
    • max: 512 tokens
  • Samples:
    anchor positive
    የ8ኛ እና የ12ኛ ክፍል ተማሪዎች የማካካሻ ትምህርት መማር ጀመሩ። ባሕር ዳር፡ ጥቅምት 10/2013 ዓ.ም (አብመድ) በባሕር ዳር ከተማ አስተዳደር ለሚገኙ የ12ኛ እና የ8ኛ ክፍል ተማሪዎች የማካካሻ ትምህርት መስጠት መጀመሩን መምሪያው አስታውቋል፡፡በባሕር ዳር ከተማ አስተዳደር ለሚገኙ ለ12ኛ እና ለ8ኛ ክፍል ተማሪዎች ሀገራዊና ሀገር አቀፍ ዜና ፈተና ከመወስዳቸው በፊት ለ45 ቀናት የሚቆይ የማካካሻ ትምህርት ከጥቅምት 09/2013 ዓ.ም ጀምሮ መስጠት መጀመሩን የከተማ አስተዳደሩ ትምህርት መምሪያ ምክትል ኃላፊ መላክ ጀመረ ተናግረዋል፡፡“ዛሬ ተቀብለን ማስተማር የጀመርነው የኮሮናቫይረስን ለመከላከል የአፍና የአፍንጫ መሸፈኛ ጭምብል የተጠቀሙ ተማሪዎችን ብቻ ነው፡፡ ከትምህርት ሚኒስቴር የተላከው ጭምብል እስከዛሬ ባይደርሰንም ወላጆች ለልጆቻቸው በገዙት ተጠቅመን ነው ማስተማር የጀመርነው” ብለዋል አቶ መላክ። መማርም ሆነ ማስተማር የሚቻለው ጤና ሲኖር ብቻ ስለሆነ ተማሪዎች ያለማንም ክትትል ጭምብል እንዲጠቀሙም ጥሪ አቅርበዋል፡፡በሚቀጥለው ሳምንት ከ1ኛ ክፍል በስተቀር ሁሉም ትምህርት ቤቶች ለሦስት ሳምንታት የማካካሻ ትምህርት እንደሚወስዱ የተናገሩት ምክትል መምሪያ ኃላፊው ከማካካሻው ትምህርት በኋላ የ2013 ትምህርት ዘመን ሙሉ በሙሉ የመማር ማስተማር ሂደቱ እንደሚቀጥል አስገንዝበዋል፡፡ወረርሽኙን ለመከላከል ሲባል ትምህርት ሚኒስቴር ባስቀመጠው አቅጣጫ መሠረት የመንግሥት ትምህርት ቤቶች ከአንድ እስከ ሦስት ፈረቃ እንዲሁም የግል ትምህርት ቤቶች ደግሞ በአንድ እና ሁለት ፈረቃ ብቻ ማስተማር እንደሚቀጥሉ አቶ መላክ ጠቁመዋል፡፡
    በክልሎች በተፈጠሩ ግጭቶች ላይ ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ ተመሰረተ በተለያዩ ክልሎች በተፈጠሩ ግጭቶች ላይ ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ ተመሰረተ።በ2011 በጀት ዓመት በተለያዩ ክልሎች በተፈጠሩ ግጭቶች ተሳትፈዋል በተባሉ 1 ሺህ 323 ተጠርጣሪዎች ላይ ክስ መመስረቱን የኢፌዲሪ ጠቅላይ ዐቃቤ ሕግ አስታወቀ፡፡በተፈጠረው ሁከትና ብጥብጥ 1 ሺህ 229 ሰዎች ህይዎት ያለፈ ሲሆን በ1 ሺህ 393 ሰዎች ላይ ደግሞ ቀላልና ከባድ የአካል ጉዳት ሲደርስ በ19 ሰዎች ላይ የግድያ ሙከራ መደረጉን በጠቅላይ ዐቃቤ ሕግ የተደራጁ ድንበር ተሸጋሪ ወንጀሎች ዳይሬክተር የሆኑት አቶ ፍቃዱ ፀጋ ገልፀዋል፡፡በግጭቶቹ ከ2.2 ቢሊዮን ብር በላይ የሚገመት የዜጎች ንብረት የወደመ ሲሆን፤ 1.2 ሚሊዮን ዜጎች ከመኖሪያ ቤታቸውና ከአካባቢያቸው ተፈናቅለዋል፡፡ከተከሳሾቹ መካከል 645 ተጠርጣሪዎች በቁጥጥር ስር ውለው ጉዳያቸው እየታየ ሲሆን 667 የሚሆኑ ተጠርጣሪዎች ደግሞ በቁጥጥር ስር አልዋሉም፡፡የ10 ተጠርጣሪዎች ክስም በምህረት መነሳቱን ዳይሬክተሩ አክለዋል፡፡በመጨረሻም አቶ ፍቃዱ ተጠርጣሪዎችን በቁጥጥር ስር ለማዋል በሚደረግ እንቅስቃሴ ዙሪያ የሚስተዋለው ክፍተት አስመልክቶ መፍትሔ ያሉትን ሀሳብ ሲጠቁሙ ይህንን ችግር ለመቅረፍ ህብረተሰቡና የሚመለከታቸው ባለድርሻ አካላት ከፍትህ አካላት ጎን በመቆምና ተጠርጣሪዎችን አሳልፎ በመስጠት በኩል በጉዳዩ ላይ በባለቤትነት ስሜት ሊሰሩ እንደሚገባ አጽእኖት ሰጥተው መልዕክታቸውን አስተላልፈዋል፡፡በሌላ በኩል በአማራ ክልል በጃዊ ወረዳና በመተክል ዞን፤ በጎንደርና አካባቢው በተፈጠረ ሁከትና ብጥብጥ፤ በሰሜን ሸዋ አስተዳደር እንዲሁም በቤንሻጉል ጉምዝ ክልል ከማሻ ዞን ውስጥ በሚገኙ የተለያዩ ወረዳዎችና ቀበሌዎችና የዚሁ ዞን አጎራባች በሆነው በኦሮሚያ ክልል ምስራቅና ምዕራብ ወለጋ ዞን በተለያዩ ቀ...
    ከሽመና ሥራ ---- እስከ ሚሊየነርነት! “ይቅርታ መጠየቅ ጀግንነት እንጂ ሽንፈት አይደለም”የኮንሶው ተወላጅ አቶ ዱላ ኩሴ፤ቤሳቤስቲን አልነበራቸውም፡፡ ለብዙ ዓመታት በሽመና ስራ ላይ ቆይተዋል፡፡ በብዙ ልፋትና ትጋት፣ወጥተው ወርደው፣ ነው ለስኬት የበቁት፡፡ ዛሬበሚሊዮን ብሮች የሚንቀሳቀሱ የንግድ ድርጅቶች ባለቤት ሆነዋል፡፡ ባለጠጋ ናቸው፡፡ የ50 ዓመቱ ጎልማሳ አቶ ዱላ፤በልጆችም ተንበሽብሸዋል፡፡ የ17 ልጆች አባት ናቸው፡፡ በቅርቡበሚዲያ የሰጡት አንድ አስተያየት የአገሬውን ህዝብ ማስቆጣቱን የሚናገሩት ባለሃብቱ፤አሁን በሽማግሌ እርቅ ለመፍጠር እየተሞከረ መሆኑን ጠቁመዋል፡፡ ባለሃብቱ ከህዝቡ ጋር ቅራኔውስጥ የከተታቸው ጉዳይ ምን ይሆን? የአዲስ አድማስ ጋዜጠኛ ማህሌት ኪዳነወልድ፤ ከአቶ ዱላ ኩሴ ጋር ይሄን ጨምሮ በስኬት ጉዟቸውና በንግድ ሥራቸው ዙሪያ አነጋግራቸዋለች፡፡መቼ ነው የሽመና ሥራ የጀመሩት?በ13 ወይም በ14 ዓመቴ ይመስለኛል፡፡ ለቤተሰቤ አራተኛ ልጅ ነኝ፡፡ ለ10 ዓመታት ያህል በሽመና ስራ ላይ ቆይቻለሁ፡፡ ስራዎቼንም የምሸጠው እዛው በአካባቢው ላሉ ሰዎች ነበር፡፡ ቀጣዩ ሥራዎስ ምን ነበር?ወደ ጅንካ በመሄድ ለ4 ዓመታት ያህል ኦሞ ዞን ጂንካ ከተማ ላይ ሽያጩን ቀጠልኩ፡፡ በኋላም ወደ ወላይታ ተመልሼ፣ ማግና ሰዴቦራ /ብርድ ቦታ የሚለበስ የጋቢ አይነት/ መሸጥ ጀመርኩ፡፡ ለ3 ዓመታትም ቦዲቲ እየወሰድኩ ሸጫለሁ፡፡ እንግዲህ አቅም እየጠነከረ፣ ገንዘብ እየተሰበሰበ ሲመጣ፣ አነስተኛ ሸቀጣ ሸቀጥ ሱቅ ከፈትኩኝ፡፡ የቤት እቃና ልብስ መሸጥ ጀመርኩኝ፡፡ ብዙም ሳልቆይ ወደ ከተማ ወርጄ፣ ወደ ሆቴል ስራ ገባሁ፡፡ ተቀጥረው ነው ወይስ የራስዎን ሆቴል?የራሴን ነው፡፡ ኮንሶ እድገት ሆቴል ይባላል፡፡ በ91 ዓመተ ምህረት ነበር ሆቴሉን አነስ አድርጌ የከፈትኩት፡፡ በኋላም የሸቀጣሸቀጥ ገበያው እየተቀዛቀዘ በ...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            512,
            256,
            128
        ],
        "matryoshka_weights": [
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 5
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_512_cosine_ndcg@10 dim_256_cosine_ndcg@10 dim_128_cosine_ndcg@10
0.0204 10 8.5099 - - -
0.0407 20 7.5508 - - -
0.0611 30 6.0747 - - -
0.0815 40 4.8277 - - -
0.1018 50 4.1868 - - -
0.1222 60 3.0626 - - -
0.1426 70 2.9647 - - -
0.1629 80 2.3808 - - -
0.1833 90 2.1637 - - -
0.2037 100 2.0235 - - -
0.2240 110 2.0617 - - -
0.2444 120 1.7025 - - -
0.2648 130 1.7932 - - -
0.2851 140 1.706 - - -
0.3055 150 1.4933 - - -
0.3259 160 1.5664 - - -
0.3462 170 1.4154 - - -
0.3666 180 1.5204 - - -
0.3870 190 1.3972 - - -
0.4073 200 1.3655 - - -
0.4277 210 1.4794 - - -
0.4481 220 1.3696 - - -
0.4684 230 1.2406 - - -
0.4888 240 1.2307 - - -
0.5092 250 1.2954 - - -
0.5295 260 1.3026 - - -
0.5499 270 1.2405 - - -
0.5703 280 1.237 - - -
0.5906 290 1.2187 - - -
0.6110 300 1.0976 - - -
0.6314 310 1.1978 - - -
0.6517 320 1.1269 - - -
0.6721 330 1.0751 - - -
0.6925 340 0.9505 - - -
0.7128 350 1.1134 - - -
0.7332 360 1.0918 - - -
0.7536 370 0.9427 - - -
0.7739 380 1.0422 - - -
0.7943 390 1.0331 - - -
0.8147 400 0.9231 - - -
0.8350 410 0.9498 - - -
0.8554 420 0.9848 - - -
0.8758 430 0.9296 - - -
0.8961 440 1.0072 - - -
0.9165 450 0.8376 - - -
0.9369 460 0.935 - - -
0.9572 470 0.7741 - - -
0.9776 480 0.8884 - - -
0.9980 490 0.8525 - - -
1.0 491 - 0.5987 0.5911 0.5708
1.0183 500 0.732 - - -
1.0387 510 0.6374 - - -
1.0591 520 0.642 - - -
1.0794 530 0.651 - - -
1.0998 540 0.5616 - - -
1.1202 550 0.6751 - - -
1.1405 560 0.5725 - - -
1.1609 570 0.6779 - - -
1.1813 580 0.6126 - - -
1.2016 590 0.6333 - - -
1.2220 600 0.6144 - - -
1.2424 610 0.5795 - - -
1.2627 620 0.6421 - - -
1.2831 630 0.6581 - - -
1.3035 640 0.5602 - - -
1.3238 650 0.5432 - - -
1.3442 660 0.5863 - - -
1.3646 670 0.6106 - - -
1.3849 680 0.5948 - - -
1.4053 690 0.6029 - - -
1.4257 700 0.5935 - - -
1.4460 710 0.4886 - - -
1.4664 720 0.5825 - - -
1.4868 730 0.5732 - - -
1.5071 740 0.4534 - - -
1.5275 750 0.5513 - - -
1.5479 760 0.5679 - - -
1.5682 770 0.6028 - - -
1.5886 780 0.5002 - - -
1.6090 790 0.5362 - - -
1.6293 800 0.5899 - - -
1.6497 810 0.5807 - - -
1.6701 820 0.4952 - - -
1.6904 830 0.5656 - - -
1.7108 840 0.5707 - - -
1.7312 850 0.5203 - - -
1.7515 860 0.5939 - - -
1.7719 870 0.447 - - -
1.7923 880 0.493 - - -
1.8126 890 0.4972 - - -
1.8330 900 0.5028 - - -
1.8534 910 0.6546 - - -
1.8737 920 0.5032 - - -
1.8941 930 0.5613 - - -
1.9145 940 0.4963 - - -
1.9348 950 0.512 - - -
1.9552 960 0.5305 - - -
1.9756 970 0.5705 - - -
1.9959 980 0.4803 - - -
2.0 982 - 0.6536 0.6459 0.6266
2.0163 990 0.3358 - - -
2.0367 1000 0.2909 - - -
2.0570 1010 0.3514 - - -
2.0774 1020 0.3245 - - -
2.0978 1030 0.2989 - - -
2.1181 1040 0.3315 - - -
2.1385 1050 0.3156 - - -
2.1589 1060 0.3156 - - -
2.1792 1070 0.2989 - - -
2.1996 1080 0.2878 - - -
2.2200 1090 0.327 - - -
2.2403 1100 0.3278 - - -
2.2607 1110 0.3013 - - -
2.2811 1120 0.3342 - - -
2.3014 1130 0.2753 - - -
2.3218 1140 0.3339 - - -
2.3422 1150 0.3394 - - -
2.3625 1160 0.3122 - - -
2.3829 1170 0.3322 - - -
2.4033 1180 0.3354 - - -
2.4236 1190 0.2837 - - -
2.4440 1200 0.3303 - - -
2.4644 1210 0.3136 - - -
2.4847 1220 0.2824 - - -
2.5051 1230 0.3052 - - -
2.5255 1240 0.3075 - - -
2.5458 1250 0.3123 - - -
2.5662 1260 0.3347 - - -
2.5866 1270 0.2738 - - -
2.6069 1280 0.3219 - - -
2.6273 1290 0.3354 - - -
2.6477 1300 0.3056 - - -
2.6680 1310 0.3494 - - -
2.6884 1320 0.3286 - - -
2.7088 1330 0.2915 - - -
2.7291 1340 0.3158 - - -
2.7495 1350 0.3012 - - -
2.7699 1360 0.2816 - - -
2.7902 1370 0.2399 - - -
2.8106 1380 0.2449 - - -
2.8310 1390 0.3156 - - -
2.8513 1400 0.2994 - - -
2.8717 1410 0.335 - - -
2.8921 1420 0.33 - - -
2.9124 1430 0.2825 - - -
2.9328 1440 0.2933 - - -
2.9532 1450 0.2607 - - -
2.9735 1460 0.3466 - - -
2.9939 1470 0.3064 - - -
3.0 1473 - 0.6750 0.6674 0.6555
3.0143 1480 0.2303 - - -
3.0346 1490 0.207 - - -
3.0550 1500 0.2116 - - -
3.0754 1510 0.2179 - - -
3.0957 1520 0.204 - - -
3.1161 1530 0.1995 - - -
3.1365 1540 0.2077 - - -
3.1568 1550 0.2089 - - -
3.1772 1560 0.2135 - - -
3.1976 1570 0.2098 - - -
3.2179 1580 0.181 - - -
3.2383 1590 0.2247 - - -
3.2587 1600 0.2053 - - -
3.2790 1610 0.2124 - - -
3.2994 1620 0.231 - - -
3.3198 1630 0.189 - - -
3.3401 1640 0.2111 - - -
3.3605 1650 0.2238 - - -
3.3809 1660 0.1892 - - -
3.4012 1670 0.2265 - - -
3.4216 1680 0.2129 - - -
3.4420 1690 0.1952 - - -
3.4623 1700 0.1961 - - -
3.4827 1710 0.1774 - - -
3.5031 1720 0.205 - - -
3.5234 1730 0.2328 - - -
3.5438 1740 0.2092 - - -
3.5642 1750 0.2347 - - -
3.5845 1760 0.1783 - - -
3.6049 1770 0.2023 - - -
3.6253 1780 0.1829 - - -
3.6456 1790 0.2084 - - -
3.6660 1800 0.2091 - - -
3.6864 1810 0.2172 - - -
3.7067 1820 0.1661 - - -
3.7271 1830 0.1854 - - -
3.7475 1840 0.1963 - - -
3.7678 1850 0.2228 - - -
3.7882 1860 0.216 - - -
3.8086 1870 0.1956 - - -
3.8289 1880 0.2019 - - -
3.8493 1890 0.1932 - - -
3.8697 1900 0.2192 - - -
3.8900 1910 0.2275 - - -
3.9104 1920 0.1971 - - -
3.9308 1930 0.1662 - - -
3.9511 1940 0.1979 - - -
3.9715 1950 0.1531 - - -
3.9919 1960 0.223 - - -
4.0 1964 - 0.6803 0.6742 0.6616
4.0122 1970 0.1989 - - -
4.0326 1980 0.164 - - -
4.0530 1990 0.1588 - - -
4.0733 2000 0.1683 - - -
4.0937 2010 0.1672 - - -
4.1141 2020 0.1677 - - -
4.1344 2030 0.1603 - - -
4.1548 2040 0.1973 - - -
4.1752 2050 0.147 - - -
4.1955 2060 0.1718 - - -
4.2159 2070 0.1647 - - -
4.2363 2080 0.1818 - - -
4.2566 2090 0.1762 - - -
4.2770 2100 0.1645 - - -
4.2974 2110 0.1407 - - -
4.3177 2120 0.1444 - - -
4.3381 2130 0.1721 - - -
4.3585 2140 0.175 - - -
4.3788 2150 0.1755 - - -
4.3992 2160 0.1959 - - -
4.4196 2170 0.1908 - - -
4.4399 2180 0.1834 - - -
4.4603 2190 0.155 - - -
4.4807 2200 0.1551 - - -
4.5010 2210 0.1785 - - -
4.5214 2220 0.1305 - - -
4.5418 2230 0.1573 - - -
4.5621 2240 0.1659 - - -
4.5825 2250 0.1622 - - -
4.6029 2260 0.1529 - - -
4.6232 2270 0.1792 - - -
4.6436 2280 0.1764 - - -
4.6640 2290 0.1327 - - -
4.6843 2300 0.1463 - - -
4.7047 2310 0.1783 - - -
4.7251 2320 0.175 - - -
4.7454 2330 0.156 - - -
4.7658 2340 0.1682 - - -
4.7862 2350 0.1815 - - -
4.8065 2360 0.1829 - - -
4.8269 2370 0.1742 - - -
4.8473 2380 0.1425 - - -
4.8676 2390 0.1565 - - -
4.8880 2400 0.1941 - - -
4.9084 2410 0.1721 - - -
4.9287 2420 0.1767 - - -
4.9491 2430 0.166 - - -
4.9695 2440 0.1776 - - -
4.9898 2450 0.1628 - - -
5.0 2455 - 0.681 0.6755 0.6627
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.4.1
  • Transformers: 4.49.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.2.1
  • Datasets: 3.3.2
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
2
Safetensors
Model size
27.8M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for yosefw/bert-amharic-embed-small-v5

Finetuned
(5)
this model

Evaluation results