prodriguezg01 commited on
Commit
ff64071
·
verified ·
1 Parent(s): 1c18f5e

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 384,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,495 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:421
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: intfloat/multilingual-e5-small
10
+ widget:
11
+ - source_sentence: IIIC no armonizadas
12
+ sentences:
13
+ - non-UCITS
14
+ - Es un tipo de interés teórico a un año, que permite establecer comparaciones entre
15
+ activos con distintos plazos de vencimiento y condiciones contractuales. Mediante
16
+ una fórmula matemática, se obtiene el tipo anual que, en un momento dado, igualaría
17
+ el valor de la inversión con el valor actual de todos los flujos previstos de
18
+ cobros y pagos (cupones, amortización del principal, etc).
19
+ - Es una propuesta de negociación, gestionada en última instancia por un miembro
20
+ del mercado, que se realiza bien a solicitud del inversor (cuenta de terceros)
21
+ o por cuenta propia de una entidad. Debe especificar como mínimo el valor sobre
22
+ el que se opera, el tipo de transacción (compra o venta), la cantidad y el precio.
23
+ - source_sentence: Utilities
24
+ sentences:
25
+ - Denominación genérica de aquellas compañías que ofrecen servicios públicos como
26
+ electricidad, gas, agua o autopistas.
27
+ - El código CFI está compuesto por seis caracteres alfabéticos y permite diferenciar
28
+ valores e instrumentos financieros atendiendo a sus principales características.
29
+ Está pensado para que los procesos informáticos tengan la posibilidad de clasificar
30
+ valores e instrumentos financieros de forma automática. En España, los códigos
31
+ CFI son asignados por la Agencia Nacional de Codificación de Valores, dependiente
32
+ de la Comisión Nacional del Mercado de Valores (CNMV).
33
+ - Es el efecto que se produce en los mercados cuando los inversores compran o venden
34
+ un activo (haciendo que su precio suba o baje), debido a las expectativas conocidas
35
+ en relación con algún acontecimiento o noticia que aún no ha sucedido. Si al final
36
+ ese hecho ocurre efectivamente, en teoría no debería tener efecto en los precios
37
+ porque los mercados ya lo han ´descontado´.
38
+ - source_sentence: Tasa interna de rentabilidad
39
+ sentences:
40
+ - Fecha en la que expira un contrato financiero o en la que se devuelve el principal
41
+ de un valor.
42
+ - Estimación de la solvencia de una compañía, realizada por entidades especializadas.
43
+ Tal valoración se plasma en el rating, que permite a los inversores evaluar el
44
+ riesgo de las emisiones y de la propia empresa, generalmente distinguiendo entre
45
+ las emisiones a corto y a largo plazo. Ver agencia de calificación creditica y
46
+ Rating.
47
+ - TIR
48
+ - source_sentence: Lock-up
49
+ sentences:
50
+ - Posibilidad que tienen los partícipes de un fondo de inversión de reembolsar sus
51
+ participaciones sin abonar comisión de reembolso, durante un plazo determinado.
52
+ La gestora ha de comunicar a los partícipes el otorgamiento de este derecho cuando
53
+ se produzcan determinadas modificaciones sustanciales en las características del
54
+ fondo o en los derechos del inversor (cambios en la política de inversión, elevación
55
+ de comisiones, etc.).
56
+ - Es el resultado de una sociedad (obtenido por diferencia entre ingresos y gastos),
57
+ antes de restar las amortizaciones y los impuestos.
58
+ - Periodo durante el cual no es posible realizar una determinada operación. Los
59
+ motivos y características de estos “periodos de cierre” varían según el tipo de
60
+ producto. Por ejemplo, en las ofertas públicas de venta (OPV) algunos accionistas
61
+ pueden firman un compromiso de lock-up, por el que se obligan a mantener sus acciones
62
+ durante un periodo determinado; el objetivo es facilitar la colocación entre el
63
+ público, eliminando la incertidumbre y el descenso de precios que se produciría
64
+ si algún accionista significativo optara por deshacerse de sus acciones. En el
65
+ ámbito de los fondos de inversión, el lock-up es el periodo durante el que se
66
+ impide la entrada de nuevos partícipes o la realización de inversiones adicionales
67
+ en un fondo (situación que suele darse en los fondos de inversión libre o hedge
68
+ funds, si así lo establece el folleto); el motivo del cierre es que el fondo ya
69
+ habría alcanzado el volumen de patrimonio idóneo para una gestión eficiente y
70
+ un aumento del mismo podría suponer, a juicio del gestor, una menor expectativa
71
+ de rentabilidad para los partícipes.
72
+ - source_sentence: Riesgo de liquidez
73
+ sentences:
74
+ - Adquisición regular de acciones de una empresa, por el procedimiento de suscribir
75
+ acciones en todas las ampliaciones de capital.
76
+ - Hacer efectivas las ganancias o pérdidas acumuladas con una inversión, mediante
77
+ la venta de los valores. Mientras no se deshaga la inversión las plusvalías o
78
+ minusvalías permanecen latentes, pero con la venta los resultados (positivos o
79
+ negativos) se materializan y se convierten en definitivos, desplegando los correspondientes
80
+ efectos fiscales.
81
+ - Posible penalización en el precio de un valor, en caso de que se necesite deshacer
82
+ la inversión para recuperar el capital con rapidez. Con carácter general, puede
83
+ decirse que los valores cotizados son más líquidos que los que no cotizan, ya
84
+ que hay más posibilidades de encontrar contrapartidas a un precio razonable (en
85
+ ocasiones los no cotizados incorporan algún tipo de cláusula o garantía de liquidez
86
+ por parte del emisor o un tercero, aunque no existe transparencia en cuanto al
87
+ precio). Cuanto menos líquido es un valor, mayor es la disminución en el precio
88
+ que debe aceptar el inversor para vender sus valores. En casos de iliquidez extrema,
89
+ puede llegar a resultar imposible recuperar la inversión en el momento deseado.
90
+ datasets:
91
+ - prodriguezg01/embedding-finetuning-glosario
92
+ pipeline_tag: sentence-similarity
93
+ library_name: sentence-transformers
94
+ metrics:
95
+ - cosine_accuracy
96
+ model-index:
97
+ - name: SentenceTransformer based on intfloat/multilingual-e5-small
98
+ results:
99
+ - task:
100
+ type: triplet
101
+ name: Triplet
102
+ dataset:
103
+ name: validacionCNMV
104
+ type: validacionCNMV
105
+ metrics:
106
+ - type: cosine_accuracy
107
+ value: 0.9814814925193787
108
+ name: Cosine Accuracy
109
+ - type: cosine_accuracy
110
+ value: 0.9814814925193787
111
+ name: Cosine Accuracy
112
+ - type: cosine_accuracy
113
+ value: 0.9615384340286255
114
+ name: Cosine Accuracy
115
+ ---
116
+
117
+ # SentenceTransformer based on intfloat/multilingual-e5-small
118
+
119
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) on the [embedding-finetuning-glosario](https://huggingface.co/datasets/prodriguezg01/embedding-finetuning-glosario) dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
120
+
121
+ ## Model Details
122
+
123
+ ### Model Description
124
+ - **Model Type:** Sentence Transformer
125
+ - **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) <!-- at revision c007d7ef6fd86656326059b28395a7a03a7c5846 -->
126
+ - **Maximum Sequence Length:** 512 tokens
127
+ - **Output Dimensionality:** 384 dimensions
128
+ - **Similarity Function:** Cosine Similarity
129
+ - **Training Dataset:**
130
+ - [embedding-finetuning-glosario](https://huggingface.co/datasets/prodriguezg01/embedding-finetuning-glosario)
131
+ <!-- - **Language:** Unknown -->
132
+ <!-- - **License:** Unknown -->
133
+
134
+ ### Model Sources
135
+
136
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
137
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
138
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
139
+
140
+ ### Full Model Architecture
141
+
142
+ ```
143
+ SentenceTransformer(
144
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
145
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
146
+ (2): Normalize()
147
+ )
148
+ ```
149
+
150
+ ## Usage
151
+
152
+ ### Direct Usage (Sentence Transformers)
153
+
154
+ First install the Sentence Transformers library:
155
+
156
+ ```bash
157
+ pip install -U sentence-transformers
158
+ ```
159
+
160
+ Then you can load this model and run inference.
161
+ ```python
162
+ from sentence_transformers import SentenceTransformer
163
+
164
+ # Download from the 🤗 Hub
165
+ model = SentenceTransformer("prodriguezg01/multilingual-e5-smallV2_2")
166
+ # Run inference
167
+ sentences = [
168
+ 'Riesgo de liquidez',
169
+ 'Posible penalización en el precio de un valor, en caso de que se necesite deshacer la inversión para recuperar el capital con rapidez. Con carácter general, puede decirse que los valores cotizados son más líquidos que los que no cotizan, ya que hay más posibilidades de encontrar contrapartidas a un precio razonable (en ocasiones los no cotizados incorporan algún tipo de cláusula o garantía de liquidez por parte del emisor o un tercero, aunque no existe transparencia en cuanto al precio). Cuanto menos líquido es un valor, mayor es la disminución en el precio que debe aceptar el inversor para vender sus valores. En casos de iliquidez extrema, puede llegar a resultar imposible recuperar la inversión en el momento deseado.',
170
+ 'Adquisición regular de acciones de una empresa, por el procedimiento de suscribir acciones en todas las ampliaciones de capital.',
171
+ ]
172
+ embeddings = model.encode(sentences)
173
+ print(embeddings.shape)
174
+ # [3, 384]
175
+
176
+ # Get the similarity scores for the embeddings
177
+ similarities = model.similarity(embeddings, embeddings)
178
+ print(similarities.shape)
179
+ # [3, 3]
180
+ ```
181
+
182
+ <!--
183
+ ### Direct Usage (Transformers)
184
+
185
+ <details><summary>Click to see the direct usage in Transformers</summary>
186
+
187
+ </details>
188
+ -->
189
+
190
+ <!--
191
+ ### Downstream Usage (Sentence Transformers)
192
+
193
+ You can finetune this model on your own dataset.
194
+
195
+ <details><summary>Click to expand</summary>
196
+
197
+ </details>
198
+ -->
199
+
200
+ <!--
201
+ ### Out-of-Scope Use
202
+
203
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
204
+ -->
205
+
206
+ ## Evaluation
207
+
208
+ ### Metrics
209
+
210
+ #### Triplet
211
+
212
+ * Dataset: `validacionCNMV`
213
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
214
+
215
+ | Metric | Value |
216
+ |:--------------------|:-----------|
217
+ | **cosine_accuracy** | **0.9815** |
218
+
219
+ #### Triplet
220
+
221
+ * Dataset: `validacionCNMV`
222
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
223
+
224
+ | Metric | Value |
225
+ |:--------------------|:-----------|
226
+ | **cosine_accuracy** | **0.9815** |
227
+
228
+ #### Triplet
229
+
230
+ * Dataset: `validacionCNMV`
231
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
232
+
233
+ | Metric | Value |
234
+ |:--------------------|:-----------|
235
+ | **cosine_accuracy** | **0.9615** |
236
+
237
+ <!--
238
+ ## Bias, Risks and Limitations
239
+
240
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
241
+ -->
242
+
243
+ <!--
244
+ ### Recommendations
245
+
246
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
247
+ -->
248
+
249
+ ## Training Details
250
+
251
+ ### Training Dataset
252
+
253
+ #### embedding-finetuning-glosario
254
+
255
+ * Dataset: [embedding-finetuning-glosario](https://huggingface.co/datasets/prodriguezg01/embedding-finetuning-glosario) at [6fb9e1c](https://huggingface.co/datasets/prodriguezg01/embedding-finetuning-glosario/tree/6fb9e1c9f3c665b748dfeb3b29c9d10c765bec07)
256
+ * Size: 421 training samples
257
+ * Columns: <code>Termino</code>, <code>Definicion</code>, and <code>Def_Neg</code>
258
+ * Approximate statistics based on the first 421 samples:
259
+ | | Termino | Definicion | Def_Neg |
260
+ |:--------|:---------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
261
+ | type | string | string | string |
262
+ | details | <ul><li>min: 3 tokens</li><li>mean: 6.39 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 77.24 tokens</li><li>max: 340 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 79.65 tokens</li><li>max: 340 tokens</li></ul> |
263
+ * Samples:
264
+ | Termino | Definicion | Def_Neg |
265
+ |:----------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
266
+ | <code>Orden de ejecutar o anular</code> | <code>Orden bursátil que se ejecuta de forma instantánea por la cantidad que resulte posible, según los precios del mercado; el sistema rechaza el resto del volumen de la orden. Ver Orden bursátil.</code> | <code>Fondos y sociedades de inversión, domiciliadas en un Estado miembro de la Unión Europea y sujetas a la Directiva europea que regula las instituciones de inversión colectiva. Pueden comercializarse en España entre los inversores particulares, previa inscripción en los registros de la CNMV y a través de entidades comercializadoras también registradas en este organismo.</code> |
267
+ | <code>ROA</code> | <code>Ratio que indica la rentabilidad de una empresa en relación con su activo total; indica el rendimiento que se está obteniendo de los activos. Se calcula dividiendo el beneficio neto entre el activo total.</code> | <code>Contratos en los que un inversor y una entidad financiera acuerdan intercambiarse la diferencia entre el precio de compra y el precio de venta de un determinado activo subyacente (valores negociables, índices, divisas…). En esta operativa no es necesario desembolsar la totalidad del capital que se necesitaría para comprar o vender directamente el activo subyacente, por lo que la inversión presentará un determinado nivel de apalancamiento (que dependerá del importe que los inversores deban depositar en concepto de garantía para cada operación).Además, suele decirse que los CFD no tienen vencimiento, ya que si bien se liquidan cada día, el inversor tiene la posibilidad de prorrogar la posición abierta los días que desee. En caso de que se opte por esta posibilidad, es habitual que la entidad exija el pago de unos intereses por las posiciones compradas (en concepto de financiación) y cabe la posibilidad de que retribuya las posiciones vendidas (generalmente a un tipo de interés menor). Po...</code> |
268
+ | <code>Acción rescatable</code> | <code>Poco habituales en el mercado español. Son aquellas acciones que pueden ser amortizadas por la sociedad emisora a iniciativa de ésta, de los accionistas o de ambos. En los acuerdos de emisión se fijan las condiciones para el ejercicio del rescate. En el caso de que sólo el emisor tenga el derecho de rescate, éste no podrá ejercitarse sino a partir de los tres años de la emisión de las acciones. Las acciones rescatables deberán ser íntegramente desembolsadas en el momento de la suscripción.</code> | <code>OPV</code> |
269
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
270
+ ```json
271
+ {
272
+ "scale": 20.0,
273
+ "similarity_fct": "cos_sim"
274
+ }
275
+ ```
276
+
277
+ ### Evaluation Dataset
278
+
279
+ #### embedding-finetuning-glosario
280
+
281
+ * Dataset: [embedding-finetuning-glosario](https://huggingface.co/datasets/prodriguezg01/embedding-finetuning-glosario) at [6fb9e1c](https://huggingface.co/datasets/prodriguezg01/embedding-finetuning-glosario/tree/6fb9e1c9f3c665b748dfeb3b29c9d10c765bec07)
282
+ * Size: 54 evaluation samples
283
+ * Columns: <code>Termino</code>, <code>Definicion</code>, and <code>Def_Neg</code>
284
+ * Approximate statistics based on the first 54 samples:
285
+ | | Termino | Definicion | Def_Neg |
286
+ |:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
287
+ | type | string | string | string |
288
+ | details | <ul><li>min: 3 tokens</li><li>mean: 7.11 tokens</li><li>max: 19 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 78.2 tokens</li><li>max: 236 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 72.33 tokens</li><li>max: 209 tokens</li></ul> |
289
+ * Samples:
290
+ | Termino | Definicion | Def_Neg |
291
+ |:--------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
292
+ | <code>TAE</code> | <code>Es un tipo de interés teórico a un año, que permite establecer comparaciones entre activos con distintos plazos de vencimiento y condiciones contractuales. Mediante una fórmula matemática, se obtiene el tipo anual que, en un momento dado, igualaría el valor de la inversión con el valor actual de todos los flujos previstos de cobros y pagos (cupones, amortización del principal, etc).</code> | <code>Término con el que se hace referencia al cumplimiento de una orden bursátil de compra o venta.</code> |
293
+ | <code>Contratos tipo</code> | <code>Son los modelos de contrato que han de utilizar las empresas que prestan servicios de inversión para formalizar las relaciones con sus clientes, en determinadas operaciones que por su carácter habitual alcanzan una difusión masiva.</code> | <code>Reducción del valor de un bien. En el caso de elementos físicos, suele deberse al paso del tiempo o a los efectos del uso (por ejemplo, la maquinaria de una fábrica).</code> |
294
+ | <code>Operación acordeón</code> | <code>Operación societaria especial, que consiste en una reducción y ampliación de capital simultáneas, con el fin de sanear económicamente una sociedad. En primer lugar, el capital social se reduce a cero, o por debajo de la cifra mínima legal, y al mismo tiempo se incrementa hasta una cifra igual o superior a dicha cifra mínima. No es obligatorio alcanzar el volumen previo a la reducción. Estas operaciones suelen estar vinculadas a un nuevo proyecto, de manera que, tras adaptar la cifra de capital social a las pérdidas registradas, se espera disponer de nuevos recursos financieros, como consecuencia de la ampliación.</code> | <code>Son aquellos instrumentos financieros cuyo precio no sólo varía en función de parámetros como riesgo, plazo, etc, sino que también depende de la cotización que alcance en el mercado otro activo, al que se denomina subyacente. El inversor apuesta por una determinada evolución de dicho subyacente (al alza o a la baja) en los mercados de valores. Puede consultar sobre el apartado de productos derivados de la Sección del Inversor.</code> |
295
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
296
+ ```json
297
+ {
298
+ "scale": 20.0,
299
+ "similarity_fct": "cos_sim"
300
+ }
301
+ ```
302
+
303
+ ### Training Hyperparameters
304
+ #### Non-Default Hyperparameters
305
+
306
+ - `eval_strategy`: steps
307
+ - `per_device_train_batch_size`: 32
308
+ - `per_device_eval_batch_size`: 32
309
+ - `learning_rate`: 0.0001
310
+ - `num_train_epochs`: 5
311
+ - `warmup_ratio`: 0.1
312
+ - `auto_find_batch_size`: True
313
+
314
+ #### All Hyperparameters
315
+ <details><summary>Click to expand</summary>
316
+
317
+ - `overwrite_output_dir`: False
318
+ - `do_predict`: False
319
+ - `eval_strategy`: steps
320
+ - `prediction_loss_only`: True
321
+ - `per_device_train_batch_size`: 32
322
+ - `per_device_eval_batch_size`: 32
323
+ - `per_gpu_train_batch_size`: None
324
+ - `per_gpu_eval_batch_size`: None
325
+ - `gradient_accumulation_steps`: 1
326
+ - `eval_accumulation_steps`: None
327
+ - `torch_empty_cache_steps`: None
328
+ - `learning_rate`: 0.0001
329
+ - `weight_decay`: 0.0
330
+ - `adam_beta1`: 0.9
331
+ - `adam_beta2`: 0.999
332
+ - `adam_epsilon`: 1e-08
333
+ - `max_grad_norm`: 1.0
334
+ - `num_train_epochs`: 5
335
+ - `max_steps`: -1
336
+ - `lr_scheduler_type`: linear
337
+ - `lr_scheduler_kwargs`: {}
338
+ - `warmup_ratio`: 0.1
339
+ - `warmup_steps`: 0
340
+ - `log_level`: passive
341
+ - `log_level_replica`: warning
342
+ - `log_on_each_node`: True
343
+ - `logging_nan_inf_filter`: True
344
+ - `save_safetensors`: True
345
+ - `save_on_each_node`: False
346
+ - `save_only_model`: False
347
+ - `restore_callback_states_from_checkpoint`: False
348
+ - `no_cuda`: False
349
+ - `use_cpu`: False
350
+ - `use_mps_device`: False
351
+ - `seed`: 42
352
+ - `data_seed`: None
353
+ - `jit_mode_eval`: False
354
+ - `use_ipex`: False
355
+ - `bf16`: False
356
+ - `fp16`: False
357
+ - `fp16_opt_level`: O1
358
+ - `half_precision_backend`: auto
359
+ - `bf16_full_eval`: False
360
+ - `fp16_full_eval`: False
361
+ - `tf32`: None
362
+ - `local_rank`: 0
363
+ - `ddp_backend`: None
364
+ - `tpu_num_cores`: None
365
+ - `tpu_metrics_debug`: False
366
+ - `debug`: []
367
+ - `dataloader_drop_last`: False
368
+ - `dataloader_num_workers`: 0
369
+ - `dataloader_prefetch_factor`: None
370
+ - `past_index`: -1
371
+ - `disable_tqdm`: False
372
+ - `remove_unused_columns`: True
373
+ - `label_names`: None
374
+ - `load_best_model_at_end`: False
375
+ - `ignore_data_skip`: False
376
+ - `fsdp`: []
377
+ - `fsdp_min_num_params`: 0
378
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
379
+ - `fsdp_transformer_layer_cls_to_wrap`: None
380
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
381
+ - `deepspeed`: None
382
+ - `label_smoothing_factor`: 0.0
383
+ - `optim`: adamw_torch
384
+ - `optim_args`: None
385
+ - `adafactor`: False
386
+ - `group_by_length`: False
387
+ - `length_column_name`: length
388
+ - `ddp_find_unused_parameters`: None
389
+ - `ddp_bucket_cap_mb`: None
390
+ - `ddp_broadcast_buffers`: False
391
+ - `dataloader_pin_memory`: True
392
+ - `dataloader_persistent_workers`: False
393
+ - `skip_memory_metrics`: True
394
+ - `use_legacy_prediction_loop`: False
395
+ - `push_to_hub`: False
396
+ - `resume_from_checkpoint`: None
397
+ - `hub_model_id`: None
398
+ - `hub_strategy`: every_save
399
+ - `hub_private_repo`: None
400
+ - `hub_always_push`: False
401
+ - `gradient_checkpointing`: False
402
+ - `gradient_checkpointing_kwargs`: None
403
+ - `include_inputs_for_metrics`: False
404
+ - `include_for_metrics`: []
405
+ - `eval_do_concat_batches`: True
406
+ - `fp16_backend`: auto
407
+ - `push_to_hub_model_id`: None
408
+ - `push_to_hub_organization`: None
409
+ - `mp_parameters`:
410
+ - `auto_find_batch_size`: True
411
+ - `full_determinism`: False
412
+ - `torchdynamo`: None
413
+ - `ray_scope`: last
414
+ - `ddp_timeout`: 1800
415
+ - `torch_compile`: False
416
+ - `torch_compile_backend`: None
417
+ - `torch_compile_mode`: None
418
+ - `dispatch_batches`: None
419
+ - `split_batches`: None
420
+ - `include_tokens_per_second`: False
421
+ - `include_num_input_tokens_seen`: False
422
+ - `neftune_noise_alpha`: None
423
+ - `optim_target_modules`: None
424
+ - `batch_eval_metrics`: False
425
+ - `eval_on_start`: False
426
+ - `use_liger_kernel`: False
427
+ - `eval_use_gather_object`: False
428
+ - `average_tokens_across_devices`: False
429
+ - `prompts`: None
430
+ - `batch_sampler`: batch_sampler
431
+ - `multi_dataset_batch_sampler`: proportional
432
+
433
+ </details>
434
+
435
+ ### Training Logs
436
+ | Epoch | Step | validacionCNMV_cosine_accuracy |
437
+ |:-----:|:----:|:------------------------------:|
438
+ | -1 | -1 | 0.9615 |
439
+
440
+
441
+ ### Framework Versions
442
+ - Python: 3.11.11
443
+ - Sentence Transformers: 3.4.1
444
+ - Transformers: 4.48.3
445
+ - PyTorch: 2.5.1+cu124
446
+ - Accelerate: 1.3.0
447
+ - Datasets: 3.3.2
448
+ - Tokenizers: 0.21.0
449
+
450
+ ## Citation
451
+
452
+ ### BibTeX
453
+
454
+ #### Sentence Transformers
455
+ ```bibtex
456
+ @inproceedings{reimers-2019-sentence-bert,
457
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
458
+ author = "Reimers, Nils and Gurevych, Iryna",
459
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
460
+ month = "11",
461
+ year = "2019",
462
+ publisher = "Association for Computational Linguistics",
463
+ url = "https://arxiv.org/abs/1908.10084",
464
+ }
465
+ ```
466
+
467
+ #### MultipleNegativesRankingLoss
468
+ ```bibtex
469
+ @misc{henderson2017efficient,
470
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
471
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
472
+ year={2017},
473
+ eprint={1705.00652},
474
+ archivePrefix={arXiv},
475
+ primaryClass={cs.CL}
476
+ }
477
+ ```
478
+
479
+ <!--
480
+ ## Glossary
481
+
482
+ *Clearly define terms in order to be accessible across audiences.*
483
+ -->
484
+
485
+ <!--
486
+ ## Model Card Authors
487
+
488
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
489
+ -->
490
+
491
+ <!--
492
+ ## Model Card Contact
493
+
494
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
495
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-small",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.1,
10
+ "hidden_size": 384,
11
+ "initializer_range": 0.02,
12
+ "intermediate_size": 1536,
13
+ "layer_norm_eps": 1e-12,
14
+ "max_position_embeddings": 512,
15
+ "model_type": "bert",
16
+ "num_attention_heads": 12,
17
+ "num_hidden_layers": 12,
18
+ "pad_token_id": 0,
19
+ "position_embedding_type": "absolute",
20
+ "tokenizer_class": "XLMRobertaTokenizer",
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.48.3",
23
+ "type_vocab_size": 2,
24
+ "use_cache": true,
25
+ "vocab_size": 250037
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.48.3",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:85574156810c17c31ad07bcbc3cdbe44ae1590f5ab969d12854cb8fd5a3d6ae3
3
+ size 470637416
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ef04f2b385d1514f500e779207ace0f53e30895ce37563179e29f4022d28ca38
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 512,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "sp_model_kwargs": {},
54
+ "tokenizer_class": "XLMRobertaTokenizer",
55
+ "unk_token": "<unk>"
56
+ }