davhin commited on
Commit
4a2f63c
·
verified ·
1 Parent(s): c0b95d6

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,464 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:2232
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: chkla/parlbert-german-v1
10
+ widget:
11
+ - source_sentence: 'Ihr Koalitionsvertrag ist voller solcher Leistungsversprechen
12
+ ohne Preisschild. Es reicht in der Rentenpolitik eben nicht aus, die Beitragsentwicklung
13
+ allein in dieser Wahlperiode im Blick zu haben. So bleibt Verlässlichkeit im Generationenvertrag
14
+ auf der Strecke. Zudem fällt auf: Es fehlt bei Ihnen ein klares Bekenntnis zur
15
+ Stabilität der Sozialversicherungsbeiträge. Steigende Beiträge aber gefährden
16
+ Arbeitsplätze und belasten gerade die Bezieher kleinerer Einkommen. Damit möchte
17
+ ich auch eine Bemerkung zum Thema Mindestlohn machen: Auch wir – das sei klar
18
+ hier festgestellt – haben nichts gegen einen spürbaren Anstieg des Mindestlohns.
19
+ Ja, es gibt gute Gründe dafür.'
20
+ sentences:
21
+ - Koalitionsvertrag Leistungsversprechen Preisschild
22
+ - Asylrecht Außengrenzen Schlupflöcher
23
+ - Rentenpolitik Beitragsentwicklung Generationenvertrag
24
+ - source_sentence: 'Nur um mal eine Zahl zu nennen: Die Ukraine braucht an einem Tag
25
+ so viel Munition, wie in Deutschland in sechs Monaten hergestellt werden könnte.
26
+ Die Firmen, die Fahrzeuge liefern könnten, die Firmen, die Munition produzieren
27
+ könnten, melden sich mittlerweile reihenweise bei uns und unseren Wahlkreisabgeordneten
28
+ und beklagen sich darüber, dass sie keine Aufträge bekommen, dass die Zahlungsziele
29
+ nicht eingehalten werden und damit keine Planungssicherheit seitens der Bundesregierung
30
+ besteht. Herr Bundeskanzler, so kann man auch mit den Bündnisverpflichtungen nicht
31
+ umgehen.'
32
+ sentences:
33
+ - Ukraine Munitionsbedarf Deutschland
34
+ - Munitionsbestellung Bundesregierung
35
+ - R+V Studie Spaltung
36
+ - source_sentence: Eine solche Festlegung hätte massive Auswirkungen auf die Versorgungssicherheit
37
+ in Deutschland mit sich gebracht. Auch bei der kleinen Wasserkraft ist die Ampel
38
+ auf unsere Position eingeschwenkt. Diese soll zukünftig wie alle erneuerbaren
39
+ Energien im überragenden öffentlichen Interesse sein und wie bisher gefördert
40
+ werden. Leider fehlt uns jedoch die Einbeziehung der Vor-Ort Stromnetze unter
41
+ 110 kV in das überragende öffentliche Interesse. So wird es weiterhin Realität
42
+ bleiben, dass der so wichtige grüne Strom zwar produziert wird, aber das Netz
43
+ bzw. die Verteilung des Stroms hinterherhinken. Mehr Mut zur Veränderung hätten
44
+ wir uns auch bei den kleinen Solaranlagen auf Dächern gewünscht.
45
+ sentences:
46
+ - Vor-Ort Stromnetze 110 kV
47
+ - Austausch im Bundestag
48
+ - kleine Wasserkraft öffentliche Interesse
49
+ - source_sentence: Das ist ein Punkt, den der Bundesrechnungshof angesprochen und
50
+ gerügt hat und den auch ich schon in den letzten Debatten angesprochen habe. Darüber
51
+ müssen wir in den kommenden Wochen noch mal deutlich sprechen. Seit 2022 werben
52
+ Sie für dieses Programm. Bisher kennen wir Strategiepapiere in Hochglanzform mit
53
+ Problembeschreibungen. Konkrete Förderrichtlinien oder in Förderrichtlinien gegossene
54
+ Lösungsansätze halten sich aber in Grenzen, auch wenn jetzt das eine oder andere
55
+ Programm aufgelegt worden ist. Frau Ministerin, Sie kündigen viel an, bewegen
56
+ sich aber dabei im Schneckentempo.
57
+ sentences:
58
+ - Ministerin Kritik Schneckentempo
59
+ - KFOR Mission Kosovo Bedeutung
60
+ - Förderrichtlinien fehlen Kritik
61
+ - source_sentence: Das ist keine vernünftige Haushaltspolitik. Gerade im Bereich Luft-
62
+ und Raumfahrt finden derzeit unglaublich viele Innovationen für eine klimaneutrale
63
+ Mobilität statt. So entwickelt Airbus Flugzeuge mit Wasserstoffantrieb, und in
64
+ Leipzig wird mit der Neuentwicklung der Dornier 328 ein Regionalflugzeug gebaut,
65
+ welches mit klimaneutralen E-Fuels betrieben werden kann.
66
+ sentences:
67
+ - AfD Aufarbeitung Spaltung
68
+ - Airbus Wasserstoffantrieb Flugzeuge
69
+ - Ukrainekrieg Luftfahrt
70
+ datasets:
71
+ - davhin/parl-synthetic-queries-v3
72
+ pipeline_tag: sentence-similarity
73
+ library_name: sentence-transformers
74
+ metrics:
75
+ - cosine_accuracy
76
+ model-index:
77
+ - name: SentenceTransformer based on chkla/parlbert-german-v1
78
+ results:
79
+ - task:
80
+ type: triplet
81
+ name: Triplet
82
+ dataset:
83
+ name: parlsearch test before training
84
+ type: parlsearch-test-before-training
85
+ metrics:
86
+ - type: cosine_accuracy
87
+ value: 0.5465949773788452
88
+ name: Cosine Accuracy
89
+ - task:
90
+ type: triplet
91
+ name: Triplet
92
+ dataset:
93
+ name: parlsearch test after training
94
+ type: parlsearch-test-after-training
95
+ metrics:
96
+ - type: cosine_accuracy
97
+ value: 0.5465949773788452
98
+ name: Cosine Accuracy
99
+ ---
100
+
101
+ # SentenceTransformer based on chkla/parlbert-german-v1
102
+
103
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [chkla/parlbert-german-v1](https://huggingface.co/chkla/parlbert-german-v1) on the [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
104
+
105
+ ## Model Details
106
+
107
+ ### Model Description
108
+ - **Model Type:** Sentence Transformer
109
+ - **Base model:** [chkla/parlbert-german-v1](https://huggingface.co/chkla/parlbert-german-v1) <!-- at revision 5c5324e8a1431d289c4f18eaeb368e9edd76ece1 -->
110
+ - **Maximum Sequence Length:** 512 tokens
111
+ - **Output Dimensionality:** 768 dimensions
112
+ - **Similarity Function:** Cosine Similarity
113
+ - **Training Dataset:**
114
+ - [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3)
115
+ <!-- - **Language:** Unknown -->
116
+ <!-- - **License:** Unknown -->
117
+
118
+ ### Model Sources
119
+
120
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
121
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
122
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
123
+
124
+ ### Full Model Architecture
125
+
126
+ ```
127
+ SentenceTransformer(
128
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
129
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
130
+ )
131
+ ```
132
+
133
+ ## Usage
134
+
135
+ ### Direct Usage (Sentence Transformers)
136
+
137
+ First install the Sentence Transformers library:
138
+
139
+ ```bash
140
+ pip install -U sentence-transformers
141
+ ```
142
+
143
+ Then you can load this model and run inference.
144
+ ```python
145
+ from sentence_transformers import SentenceTransformer
146
+
147
+ # Download from the 🤗 Hub
148
+ model = SentenceTransformer("davhin/parlbert-german-search-v3")
149
+ # Run inference
150
+ sentences = [
151
+ 'Das ist keine vernünftige Haushaltspolitik. Gerade im Bereich Luft- und Raumfahrt finden derzeit unglaublich viele Innovationen für eine klimaneutrale Mobilität statt. So entwickelt Airbus Flugzeuge mit Wasserstoffantrieb, und in Leipzig wird mit der Neuentwicklung der Dornier 328 ein Regionalflugzeug gebaut, welches mit klimaneutralen E-Fuels betrieben werden kann.',
152
+ 'Airbus Wasserstoffantrieb Flugzeuge',
153
+ 'Ukrainekrieg Luftfahrt',
154
+ ]
155
+ embeddings = model.encode(sentences)
156
+ print(embeddings.shape)
157
+ # [3, 768]
158
+
159
+ # Get the similarity scores for the embeddings
160
+ similarities = model.similarity(embeddings, embeddings)
161
+ print(similarities.shape)
162
+ # [3, 3]
163
+ ```
164
+
165
+ <!--
166
+ ### Direct Usage (Transformers)
167
+
168
+ <details><summary>Click to see the direct usage in Transformers</summary>
169
+
170
+ </details>
171
+ -->
172
+
173
+ <!--
174
+ ### Downstream Usage (Sentence Transformers)
175
+
176
+ You can finetune this model on your own dataset.
177
+
178
+ <details><summary>Click to expand</summary>
179
+
180
+ </details>
181
+ -->
182
+
183
+ <!--
184
+ ### Out-of-Scope Use
185
+
186
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
187
+ -->
188
+
189
+ ## Evaluation
190
+
191
+ ### Metrics
192
+
193
+ #### Triplet
194
+
195
+ * Datasets: `parlsearch-test-before-training` and `parlsearch-test-after-training`
196
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
197
+
198
+ | Metric | parlsearch-test-before-training | parlsearch-test-after-training |
199
+ |:--------------------|:--------------------------------|:-------------------------------|
200
+ | **cosine_accuracy** | **0.5466** | **0.5466** |
201
+
202
+ <!--
203
+ ## Bias, Risks and Limitations
204
+
205
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
206
+ -->
207
+
208
+ <!--
209
+ ### Recommendations
210
+
211
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
212
+ -->
213
+
214
+ ## Training Details
215
+
216
+ ### Training Dataset
217
+
218
+ #### parl-synthetic-queries-v3
219
+
220
+ * Dataset: [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3) at [afdb8d3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3/tree/afdb8d32ac3e1e84d9a113d96d21e51f270083bd)
221
+ * Size: 2,232 training samples
222
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
223
+ * Approximate statistics based on the first 1000 samples:
224
+ | | anchor | positive | negative |
225
+ |:--------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
226
+ | type | string | string | string |
227
+ | details | <ul><li>min: 33 tokens</li><li>mean: 114.11 tokens</li><li>max: 130 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.3 tokens</li><li>max: 15 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.23 tokens</li><li>max: 16 tokens</li></ul> |
228
+ * Samples:
229
+ | anchor | positive | negative |
230
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------|:-----------------------------------------------|
231
+ | <code>Aber Deutschland – und übrigens auch der Rest Europas – muss die Realität anerkennen, dass es günstigen Strom zu unterschiedlichen Tageszeiten gibt. Darauf muss der Markt reagieren – der Markt, den Herr Linnemann und die Union eigentlich so hoch schätzen. Dass wir dessen Signale wirken lassen wollen, was dann zu günstigen Preisen führt, dürfte ich der Union eigentlich nicht erklären müssen. Das ist traurig. Es ist traurig, dass Sie diese neuen Konzepte nicht annehmen. Gleichzeitig hoffe ich, dass in der Regierung bei dem Konzept, den Markt wirken zu lassen, noch mehr passiert.</code> | <code>günstiger Strom Tageszeiten Deutschland</code> | <code>Lastprofil Unternehmen Entlastung</code> |
232
+ | <code>Wenn Sie die Menschen vor Ort fragen, sagen alle: Diese Planungen sind vollkommen überdimensioniert.– Dazu muss man ins Verhältnis setzen, dass wir bundesweit eigentlich 8 000 Brücken ersetzen müssen. Bei uns in Leverkusen haben wir schon eine neue Brücke, aber jetzt bekommen wir noch eine zweite. Wir können es uns schlichtweg nicht mehr leisten, den Bundesverkehrswegeplan als Wünsch-dir-was-Liste anzusehen, in der sich jeder Abgeordnete mit einer eigenen Autobahnausfahrt verewigt.</code> | <code>Autobahnausfahrt Abgeordnete</code> | <code>Bundesverkehrswegeplan Kritik</code> |
233
+ | <code>Es geht nicht nur um die Bürgerinnen und Bürger, die bei einer Langen Nacht der Wissenschaften unterwegs sind, die sich vielleicht an einem Citizen-Science-Projekt beteiligen, sondern es geht auch darum, dass wissenschaftliche Erkenntnisse in der Politik verwendet werden, dass sie auch dort reflektiert werden, dass sie auch dort verstanden werden.</code> | <code>wissenschaftliche Erkenntnisse Politik</code> | <code>Citizen Science Projekte</code> |
234
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
235
+ ```json
236
+ {
237
+ "scale": 20.0,
238
+ "similarity_fct": "cos_sim"
239
+ }
240
+ ```
241
+
242
+ ### Evaluation Dataset
243
+
244
+ #### parl-synthetic-queries-v3
245
+
246
+ * Dataset: [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3) at [afdb8d3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3/tree/afdb8d32ac3e1e84d9a113d96d21e51f270083bd)
247
+ * Size: 2,232 evaluation samples
248
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
249
+ * Approximate statistics based on the first 1000 samples:
250
+ | | anchor | positive | negative |
251
+ |:--------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
252
+ | type | string | string | string |
253
+ | details | <ul><li>min: 56 tokens</li><li>mean: 113.8 tokens</li><li>max: 130 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.23 tokens</li><li>max: 16 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.21 tokens</li><li>max: 13 tokens</li></ul> |
254
+ * Samples:
255
+ | anchor | positive | negative |
256
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------|:------------------------------------------------|
257
+ | <code>Es wurde ausgerechnet, unter anderem vom Bundesgerichtshof, dass mit diesem Verfahren beim Dieselabgasskandal circa zwei Jahre Zeit bis zu einer höchstrichterlichen Entscheidung hätten eingespart werden können. Das wäre für die Richterinnen und Richter wichtig gewesen. Beim nächsten Massenverfahren wird es möglich sein, Zeit einzusparen. Von daher ist es gut, dass wir die Justiz mit diesem Gesetz entlasten. Weil die Länge und die Dauer der Verhandlungen angesprochen worden sind, lassen Sie mich noch ein paar Sätze zu anderen möglichen Verfahrensformen sagen, mit denen man Massenverfahren besser bewältigen kann.</code> | <code>Massenverfahren Justiz Entlastung</code> | <code>Dieselabgasskandal Verfahrensdauer</code> |
258
+ | <code>Welchen Sinn macht die Fortschreibung einer Blockade und eines Selbstbetruges? Keinen Sinn. Deshalb ist dieser Moment durchaus ein historischer. Deshalb bin ich ausgesprochen dankbar für den Gesetzentwurf der Ministerin. Wir als Koalition werden diesen Gesetzentwurf durchbringen und damit endlich ein Gesetz des gesunden Menschenverstandes durchsetzen; denn darum geht es hier. Die Menschen, um die es geht, haben keine großen migrationspolitischen Fragen oder Open Borders oder sonst etwas auf der Agenda. Ihre Agenda ist ihr eigenes Leben. Sie wollen hier einfach vernünftig leben können; denn sie sind Mitglieder dieser Gesellschaft. Aber bisher dürfen sie es nicht sein.</code> | <code>Gesetz des gesunden Menschenverstandes</code> | <code>Abschaffung EEG-Umlage</code> |
259
+ | <code>Wir bieten ein Framework an, auf dem die Wirtschaft aufsetzen kann und mit dem sie zuarbeiten kann, wodurch Innovationen, die die Wirtschaft bereitstellt, auch der Verwaltung zugutekommen können. Und andersrum: Die Verwaltung ist ein Treiber von Innovationen. Denn der öffentliche Dienst ist der größte Auftraggeber in der IT-Branche. Wenn wir da mehr kooperieren, haben beide Seiten was davon. Das bringt uns Wohlstand. Das bringt uns einfach eine breitere Perspektive. Deswegen ist dieses Gesetz auch ein Wirtschaftsförderungsgesetz. Es wurde sehr viel über das alte OZG 1.0 gelästert.</code> | <code>OZG 1.0 Kritik</code> | <code>Innovationen Verwaltung Wirtschaft</code> |
260
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
261
+ ```json
262
+ {
263
+ "scale": 20.0,
264
+ "similarity_fct": "cos_sim"
265
+ }
266
+ ```
267
+
268
+ ### Training Hyperparameters
269
+ #### Non-Default Hyperparameters
270
+
271
+ - `eval_strategy`: steps
272
+ - `per_device_train_batch_size`: 16
273
+ - `per_device_eval_batch_size`: 16
274
+ - `learning_rate`: 2e-05
275
+ - `num_train_epochs`: 1
276
+ - `warmup_ratio`: 0.1
277
+ - `use_mps_device`: True
278
+ - `bf16`: True
279
+ - `batch_sampler`: no_duplicates
280
+
281
+ #### All Hyperparameters
282
+ <details><summary>Click to expand</summary>
283
+
284
+ - `overwrite_output_dir`: False
285
+ - `do_predict`: False
286
+ - `eval_strategy`: steps
287
+ - `prediction_loss_only`: True
288
+ - `per_device_train_batch_size`: 16
289
+ - `per_device_eval_batch_size`: 16
290
+ - `per_gpu_train_batch_size`: None
291
+ - `per_gpu_eval_batch_size`: None
292
+ - `gradient_accumulation_steps`: 1
293
+ - `eval_accumulation_steps`: None
294
+ - `torch_empty_cache_steps`: None
295
+ - `learning_rate`: 2e-05
296
+ - `weight_decay`: 0.0
297
+ - `adam_beta1`: 0.9
298
+ - `adam_beta2`: 0.999
299
+ - `adam_epsilon`: 1e-08
300
+ - `max_grad_norm`: 1.0
301
+ - `num_train_epochs`: 1
302
+ - `max_steps`: -1
303
+ - `lr_scheduler_type`: linear
304
+ - `lr_scheduler_kwargs`: {}
305
+ - `warmup_ratio`: 0.1
306
+ - `warmup_steps`: 0
307
+ - `log_level`: passive
308
+ - `log_level_replica`: warning
309
+ - `log_on_each_node`: True
310
+ - `logging_nan_inf_filter`: True
311
+ - `save_safetensors`: True
312
+ - `save_on_each_node`: False
313
+ - `save_only_model`: False
314
+ - `restore_callback_states_from_checkpoint`: False
315
+ - `no_cuda`: False
316
+ - `use_cpu`: False
317
+ - `use_mps_device`: True
318
+ - `seed`: 42
319
+ - `data_seed`: None
320
+ - `jit_mode_eval`: False
321
+ - `use_ipex`: False
322
+ - `bf16`: True
323
+ - `fp16`: False
324
+ - `fp16_opt_level`: O1
325
+ - `half_precision_backend`: auto
326
+ - `bf16_full_eval`: False
327
+ - `fp16_full_eval`: False
328
+ - `tf32`: None
329
+ - `local_rank`: 0
330
+ - `ddp_backend`: None
331
+ - `tpu_num_cores`: None
332
+ - `tpu_metrics_debug`: False
333
+ - `debug`: []
334
+ - `dataloader_drop_last`: False
335
+ - `dataloader_num_workers`: 0
336
+ - `dataloader_prefetch_factor`: None
337
+ - `past_index`: -1
338
+ - `disable_tqdm`: False
339
+ - `remove_unused_columns`: True
340
+ - `label_names`: None
341
+ - `load_best_model_at_end`: False
342
+ - `ignore_data_skip`: False
343
+ - `fsdp`: []
344
+ - `fsdp_min_num_params`: 0
345
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
346
+ - `fsdp_transformer_layer_cls_to_wrap`: None
347
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
348
+ - `deepspeed`: None
349
+ - `label_smoothing_factor`: 0.0
350
+ - `optim`: adamw_torch
351
+ - `optim_args`: None
352
+ - `adafactor`: False
353
+ - `group_by_length`: False
354
+ - `length_column_name`: length
355
+ - `ddp_find_unused_parameters`: None
356
+ - `ddp_bucket_cap_mb`: None
357
+ - `ddp_broadcast_buffers`: False
358
+ - `dataloader_pin_memory`: True
359
+ - `dataloader_persistent_workers`: False
360
+ - `skip_memory_metrics`: True
361
+ - `use_legacy_prediction_loop`: False
362
+ - `push_to_hub`: False
363
+ - `resume_from_checkpoint`: None
364
+ - `hub_model_id`: None
365
+ - `hub_strategy`: every_save
366
+ - `hub_private_repo`: None
367
+ - `hub_always_push`: False
368
+ - `gradient_checkpointing`: False
369
+ - `gradient_checkpointing_kwargs`: None
370
+ - `include_inputs_for_metrics`: False
371
+ - `include_for_metrics`: []
372
+ - `eval_do_concat_batches`: True
373
+ - `fp16_backend`: auto
374
+ - `push_to_hub_model_id`: None
375
+ - `push_to_hub_organization`: None
376
+ - `mp_parameters`:
377
+ - `auto_find_batch_size`: False
378
+ - `full_determinism`: False
379
+ - `torchdynamo`: None
380
+ - `ray_scope`: last
381
+ - `ddp_timeout`: 1800
382
+ - `torch_compile`: False
383
+ - `torch_compile_backend`: None
384
+ - `torch_compile_mode`: None
385
+ - `dispatch_batches`: None
386
+ - `split_batches`: None
387
+ - `include_tokens_per_second`: False
388
+ - `include_num_input_tokens_seen`: False
389
+ - `neftune_noise_alpha`: None
390
+ - `optim_target_modules`: None
391
+ - `batch_eval_metrics`: False
392
+ - `eval_on_start`: False
393
+ - `use_liger_kernel`: False
394
+ - `eval_use_gather_object`: False
395
+ - `average_tokens_across_devices`: False
396
+ - `prompts`: None
397
+ - `batch_sampler`: no_duplicates
398
+ - `multi_dataset_batch_sampler`: proportional
399
+
400
+ </details>
401
+
402
+ ### Training Logs
403
+ | Epoch | Step | Training Loss | Validation Loss | parlsearch-test-before-training_cosine_accuracy | parlsearch-test-after-training_cosine_accuracy |
404
+ |:------:|:----:|:-------------:|:---------------:|:-----------------------------------------------:|:----------------------------------------------:|
405
+ | -1 | -1 | - | - | 0.5269 | - |
406
+ | 0.9524 | 100 | 1.7259 | 1.3180 | 0.5466 | - |
407
+ | -1 | -1 | - | - | - | 0.5466 |
408
+
409
+
410
+ ### Framework Versions
411
+ - Python: 3.12.8
412
+ - Sentence Transformers: 3.4.0
413
+ - Transformers: 4.48.1
414
+ - PyTorch: 2.5.1
415
+ - Accelerate: 1.3.0
416
+ - Datasets: 3.2.0
417
+ - Tokenizers: 0.21.0
418
+
419
+ ## Citation
420
+
421
+ ### BibTeX
422
+
423
+ #### Sentence Transformers
424
+ ```bibtex
425
+ @inproceedings{reimers-2019-sentence-bert,
426
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
427
+ author = "Reimers, Nils and Gurevych, Iryna",
428
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
429
+ month = "11",
430
+ year = "2019",
431
+ publisher = "Association for Computational Linguistics",
432
+ url = "https://arxiv.org/abs/1908.10084",
433
+ }
434
+ ```
435
+
436
+ #### MultipleNegativesRankingLoss
437
+ ```bibtex
438
+ @misc{henderson2017efficient,
439
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
440
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
441
+ year={2017},
442
+ eprint={1705.00652},
443
+ archivePrefix={arXiv},
444
+ primaryClass={cs.CL}
445
+ }
446
+ ```
447
+
448
+ <!--
449
+ ## Glossary
450
+
451
+ *Clearly define terms in order to be accessible across audiences.*
452
+ -->
453
+
454
+ <!--
455
+ ## Model Card Authors
456
+
457
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
458
+ -->
459
+
460
+ <!--
461
+ ## Model Card Contact
462
+
463
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
464
+ -->
config.json ADDED
@@ -0,0 +1,25 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "chkla/parlbert-german-v1",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.1,
10
+ "hidden_size": 768,
11
+ "initializer_range": 0.02,
12
+ "intermediate_size": 3072,
13
+ "layer_norm_eps": 1e-12,
14
+ "max_position_embeddings": 512,
15
+ "model_type": "bert",
16
+ "num_attention_heads": 12,
17
+ "num_hidden_layers": 12,
18
+ "pad_token_id": 0,
19
+ "position_embedding_type": "absolute",
20
+ "torch_dtype": "float32",
21
+ "transformers_version": "4.48.1",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 30000
25
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.0",
4
+ "transformers": "4.48.1",
5
+ "pytorch": "2.5.1"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:69a24a2dd2b62376ef2d7a21d71c075f77bc1283b3175a31735b7e712a80be77
3
+ size 436347736
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "2": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "3": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "4": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "5": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": false,
45
+ "cls_token": "[CLS]",
46
+ "do_lower_case": false,
47
+ "extra_special_tokens": {},
48
+ "mask_token": "[MASK]",
49
+ "model_max_length": 512,
50
+ "pad_token": "[PAD]",
51
+ "sep_token": "[SEP]",
52
+ "strip_accents": null,
53
+ "tokenize_chinese_chars": true,
54
+ "tokenizer_class": "BertTokenizer",
55
+ "unk_token": "[UNK]"
56
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff