SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2

This is a sentence-transformers model finetuned from sentence-transformers/all-MiniLM-L6-v2 on the json dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: sentence-transformers/all-MiniLM-L6-v2
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("GbrlOl/finetune-embedding-all-MiniLM-L6-v2-geotechnical-test-v4")
# Run inference
sentences = [
    '¿Cuál es el factor de seguridad mínimo para el corto plazo en caso de falla superficial estática en el botadero Sur?',
    'Plan de Cierre - Faena Minera Salares Norte |   95 \n \nTabla 8-13: Criterios para el Análisis de Estabilidad del Botadero Sur \nCondición FS Mínimo \nCorto Plazo \n(operacional) \nFalla Superficial  Estático 1,0 \nSísmico (1) \nFalla Profunda  Estático 1,5 \nSísmico 1,2 \nLargo Plazo \n(post-cierre) \nFalla Superficial  Estático 1,1 \nSísmico (1) \nFalla Profunda  Estático 1,5 \nSísmico 1,1 \n(1): El material es depositado me diante volteo de camiones y queda con su ángulo de reposo. Las fallas \nsuperficiales pueden ocurrir, pero las bermas de seguridad evitarán mayores deslizamientos de material.  \nPara los análisis que involucren al depósito de relaves filtrados, ya sea por si solo o junto al botadero Sur, el factor \nde seguridad mínimo para el corto plazo es de 1,5 para casos estáticos y 1,2 para la condición sísmica. Para el largo \nplazo, en tanto, el factor de seguridad mínimo para la condición sísmica es de 1,1. \nLos factores de seguridad obtenidos de los análisis de estabilidad son presentados en la Tabla 8-14 y en la Tabla 8-15. \nTodos los análisis indican que; tanto el diseño del botadero Sur, como el diseño del depósito de relaves filtrados, por \nsí solos como en conjunto, cumplen con los diseños de criterios d e los factores de seguridad.  \nLos análisis de fallas profundas han incorporado la determinación del factor de seguridad mínimo para fallas que \nimplican la totalidad del depósito, así como fallas que involucran 2 o 3 bancos, que pueden ser más críticos que \naquellos que involucran la totalidad del depósito.',
    'Sin perjuicio de ello, en este \nplan de cierre temporal se ha hecho un análisis a nive l de juicio experto respecto de los riesgos \nque se indican en la siguiente tabla.  \nTabla 3-3: Riesgos evaluados Instalaciones Complementarias y Auxiliares. \nInstalación Riesgos evaluados \nInstalaciones \nComplementarias \ny Auxiliares \nIA.1) Caída de Personas o animales a desnivel \nIA.2) Caída de objetos o materiales sobre personas o animales \nIA.3) Afectación a la salud de las personas por estructuras, \nmateriales y/o suelos contaminados \nFuente: Elaborado por MYMA, 2019 \n3.1 Evaluación de Riesgos \na) Evaluación de Riesgos previo a la definición de las medidas de cierre \nUna vez establecida la probabilidad de ocurrencia de los eventos y la severidad de las \nconsecuencias para las personas y el medio ambiente, se debe catalogar el límite de aceptabilidad \ndel riesgo.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.5694
spearman_cosine 0.5456
pearson_euclidean 0.574
spearman_euclidean 0.5456
pearson_manhattan 0.5797
spearman_manhattan 0.5534
pearson_dot 0.5694
spearman_dot 0.5456
pearson_max 0.5797
spearman_max 0.5534

Binary Classification

Metric Value
cosine_accuracy 0.7938
cosine_accuracy_threshold 0.5779
cosine_f1 0.696
cosine_f1_threshold 0.5187
cosine_precision 0.7016
cosine_recall 0.6905
cosine_ap 0.807
euclidean_accuracy 0.6154
euclidean_accuracy_threshold -1.2038
euclidean_f1 0.5556
euclidean_f1_threshold -0.5825
euclidean_precision 0.3858
euclidean_recall 0.9921
euclidean_ap 0.2644
manhattan_accuracy 0.6154
manhattan_accuracy_threshold -18.6887
manhattan_f1 0.5556
manhattan_f1_threshold -9.1288
manhattan_precision 0.3858
manhattan_recall 0.9921
manhattan_ap 0.2632
dot_accuracy 0.7938
dot_accuracy_threshold 0.5779
dot_f1 0.696
dot_f1_threshold 0.5187
dot_precision 0.7016
dot_recall 0.6905
dot_ap 0.807
max_accuracy 0.7938
max_accuracy_threshold 0.5779
max_f1 0.696
max_f1_threshold 0.5187
max_precision 0.7016
max_recall 0.9921
max_ap 0.807

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 1,622 training samples
  • Columns: query, sentence, and label
  • Approximate statistics based on the first 1000 samples:
    query sentence label
    type string string int
    details
    • min: 9 tokens
    • mean: 25.34 tokens
    • max: 69 tokens
    • min: 54 tokens
    • mean: 233.59 tokens
    • max: 256 tokens
    • 0: ~59.70%
    • 1: ~40.30%
  • Samples:
    query sentence label
    Indica si se utiliza Proctor Modificado, o Normal o Estándar para compactar el relave filtrado, y cuál es el nivel de compactación PLAN DE CIERRE TEMPO RAL – FAENA MINERA EL TOQUI
    Sociedad Contractual Minera El Toqui
    Capítulo 7 – Análisis de las Instalaciones


    REVISIÓN [ 0]
    7-107

    Figura 7-38: Ubicación Parque Eólico

    Fuente: SCMET, 2018
    - Red de Abastecimiento de Energía : Está compuesta por todas las instalaciones utilizadas
    para la distribución de la energía hacia todos los sectores de la faena, se compone de:
    o Líneas de alta tensión: 30.000 metros lineales.
    o Líneas de baja tensión: 2.000 metros lineales.
    o Estaciones de combustible: Las minas que cuentan con estaciones de combustible
    corresponden a Concordia, Estatuas, Doña Rosa.
    o Subestaciones eléctricas: A continuación se presenta una tabla con las
    subestaciones significativas y sus características.
    o Sala eléctrica de la Planta de Procesos
    o Subestación eléctrica TDR Confluencia (fue desmantelada).
    0
    ¿Cuál es la ubicación del Pozo Monitoreos? 64
    Figura 5.42: Caminos internos de acceso (2) . 64
    Figura 5.43: Patio de RISES . 65
    Figura 5.44: Bodega de almacenamiento temporal de residuos peligrosos . 66
    Figura 5.45: Bodega de almacenamiento de residuos domésticos . 67
    Figura 5.46: Ubicación Pozo Monitoreos . 100
    Figura 5.47: Caminos internos Planta Catemu . 107

    ANEXOS

    ANEXO A : . ANTECEDENTES LEGALES
    ANEXO B : . RESOLUCIONES
    ANEXO C: . PROPIEDAD MINERA
    ANEXO D: . INFORME DE VIDA ÚTIL
    ANEXO E: . PLANOS
    ANEXO F: . EVALUACIÓN DE RIESGOS
    ANEXO G: . PLANILLA DE VALORIZACIÓN
    ANEXO H: . RESPALDO DE PRECIOS UNITARIOS
    ANEXO I: . GARANTÍA FINANCIERA
    1
    se especifican antecedentes geofísicos? Hay numerosas comunidades edáficas, una
    de las cuales es el bosque de arrayán (Luma apiculata), de las orillas de ríos y lagos.
    Considerando la clasificación de la vegetación natural de Chile de Gajardo (1993), las instalaciones
    en cuestión se ubican en la formación del Bosque caducifolio de Aysén, que engloba básicamente
    a bosques de lenga (Nothofagus pumilio), los que pueden encontrarse desde el sur de la X Región,
    pero están representados en su forma característica en la XI Región. Son relativamente
    homogéneos en composición florística y en su estructura, distribuyéndose en un ambiente con un
    fuerte gradiente de precipitación de oeste a este, sobre un relieve de grandes variaciones en la
    altitud. Ha sido muy afectado por la intervención humana, persistiendo su condición original
    solamente en sectores locales.
    Con relación a las especies de flora terrestre en categoría de conservación, en la undécima región
    existen 2 especies que se encuentran incluidas en el listado naci...
    0
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 100
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 100
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss sts_dev_spearman_max quora_duplicates_dev_max_ap
0 0 - 0.5534 0.8070
2.3902 100 4.6587 - -
4.7805 200 2.3234 - -
7.1463 300 0.869 - -
9.5366 400 0.2738 - -
11.9268 500 0.328 - -
14.2927 600 0.1296 - -
16.6829 700 0.1233 - -
19.0488 800 0.1024 - -
21.4390 900 0.0337 - -
23.8293 1000 0.0033 - -
26.1951 1100 0.0508 - -
28.5854 1200 0.0221 - -
30.9756 1300 0.0167 - -
33.3415 1400 0.0003 - -
35.7317 1500 0.0 - -
38.0976 1600 0.0 - -
40.4878 1700 0.0 - -
42.8780 1800 0.0 - -
45.2439 1900 0.0 - -
47.6341 2000 0.0 - -
50.0244 2100 0.0 - -
52.3902 2200 0.0 - -
54.7805 2300 0.0 - -
57.1463 2400 0.0 - -
59.5366 2500 0.0 - -
61.9268 2600 0.0 - -
64.2927 2700 0.0 - -
66.6829 2800 0.0 - -
69.0488 2900 0.0 - -
71.4390 3000 0.0 - -
73.8293 3100 0.0 - -
76.1951 3200 0.0 - -
78.5854 3300 0.0 - -
80.9756 3400 0.0 - -
83.3415 3500 0.0 - -
85.7317 3600 0.0 - -
88.0976 3700 0.0 - -
90.4878 3800 0.0 - -
92.8780 3900 0.0 - -
95.2439 4000 0.0 - -
97.6341 4100 0.0 - -

Framework Versions

  • Python: 3.10.16
  • Sentence Transformers: 3.3.1
  • Transformers: 4.48.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CoSENTLoss

@online{kexuefm-8847,
    title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
    author={Su Jianlin},
    year={2022},
    month={Jan},
    url={https://kexue.fm/archives/8847},
}
Downloads last month
2
Safetensors
Model size
22.7M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for GbrlOl/finetune-embedding-all-MiniLM-L6-v2-geotechnical-test-v4

Finetuned
(218)
this model

Evaluation results