Add new SentenceTransformer model
Browse files- 1_Pooling/config.json +10 -0
- README.md +464 -0
- config.json +25 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +37 -0
- tokenizer.json +0 -0
- tokenizer_config.json +56 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,464 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:2232
|
8 |
+
- loss:MultipleNegativesRankingLoss
|
9 |
+
base_model: chkla/parlbert-german-v1
|
10 |
+
widget:
|
11 |
+
- source_sentence: 'Ihr Koalitionsvertrag ist voller solcher Leistungsversprechen
|
12 |
+
ohne Preisschild. Es reicht in der Rentenpolitik eben nicht aus, die Beitragsentwicklung
|
13 |
+
allein in dieser Wahlperiode im Blick zu haben. So bleibt Verlässlichkeit im Generationenvertrag
|
14 |
+
auf der Strecke. Zudem fällt auf: Es fehlt bei Ihnen ein klares Bekenntnis zur
|
15 |
+
Stabilität der Sozialversicherungsbeiträge. Steigende Beiträge aber gefährden
|
16 |
+
Arbeitsplätze und belasten gerade die Bezieher kleinerer Einkommen. Damit möchte
|
17 |
+
ich auch eine Bemerkung zum Thema Mindestlohn machen: Auch wir – das sei klar
|
18 |
+
hier festgestellt – haben nichts gegen einen spürbaren Anstieg des Mindestlohns.
|
19 |
+
Ja, es gibt gute Gründe dafür.'
|
20 |
+
sentences:
|
21 |
+
- Koalitionsvertrag Leistungsversprechen Preisschild
|
22 |
+
- Asylrecht Außengrenzen Schlupflöcher
|
23 |
+
- Rentenpolitik Beitragsentwicklung Generationenvertrag
|
24 |
+
- source_sentence: 'Nur um mal eine Zahl zu nennen: Die Ukraine braucht an einem Tag
|
25 |
+
so viel Munition, wie in Deutschland in sechs Monaten hergestellt werden könnte.
|
26 |
+
Die Firmen, die Fahrzeuge liefern könnten, die Firmen, die Munition produzieren
|
27 |
+
könnten, melden sich mittlerweile reihenweise bei uns und unseren Wahlkreisabgeordneten
|
28 |
+
und beklagen sich darüber, dass sie keine Aufträge bekommen, dass die Zahlungsziele
|
29 |
+
nicht eingehalten werden und damit keine Planungssicherheit seitens der Bundesregierung
|
30 |
+
besteht. Herr Bundeskanzler, so kann man auch mit den Bündnisverpflichtungen nicht
|
31 |
+
umgehen.'
|
32 |
+
sentences:
|
33 |
+
- Ukraine Munitionsbedarf Deutschland
|
34 |
+
- Munitionsbestellung Bundesregierung
|
35 |
+
- R+V Studie Spaltung
|
36 |
+
- source_sentence: Eine solche Festlegung hätte massive Auswirkungen auf die Versorgungssicherheit
|
37 |
+
in Deutschland mit sich gebracht. Auch bei der kleinen Wasserkraft ist die Ampel
|
38 |
+
auf unsere Position eingeschwenkt. Diese soll zukünftig wie alle erneuerbaren
|
39 |
+
Energien im überragenden öffentlichen Interesse sein und wie bisher gefördert
|
40 |
+
werden. Leider fehlt uns jedoch die Einbeziehung der Vor-Ort Stromnetze unter
|
41 |
+
110 kV in das überragende öffentliche Interesse. So wird es weiterhin Realität
|
42 |
+
bleiben, dass der so wichtige grüne Strom zwar produziert wird, aber das Netz
|
43 |
+
bzw. die Verteilung des Stroms hinterherhinken. Mehr Mut zur Veränderung hätten
|
44 |
+
wir uns auch bei den kleinen Solaranlagen auf Dächern gewünscht.
|
45 |
+
sentences:
|
46 |
+
- Vor-Ort Stromnetze 110 kV
|
47 |
+
- Austausch im Bundestag
|
48 |
+
- kleine Wasserkraft öffentliche Interesse
|
49 |
+
- source_sentence: Das ist ein Punkt, den der Bundesrechnungshof angesprochen und
|
50 |
+
gerügt hat und den auch ich schon in den letzten Debatten angesprochen habe. Darüber
|
51 |
+
müssen wir in den kommenden Wochen noch mal deutlich sprechen. Seit 2022 werben
|
52 |
+
Sie für dieses Programm. Bisher kennen wir Strategiepapiere in Hochglanzform mit
|
53 |
+
Problembeschreibungen. Konkrete Förderrichtlinien oder in Förderrichtlinien gegossene
|
54 |
+
Lösungsansätze halten sich aber in Grenzen, auch wenn jetzt das eine oder andere
|
55 |
+
Programm aufgelegt worden ist. Frau Ministerin, Sie kündigen viel an, bewegen
|
56 |
+
sich aber dabei im Schneckentempo.
|
57 |
+
sentences:
|
58 |
+
- Ministerin Kritik Schneckentempo
|
59 |
+
- KFOR Mission Kosovo Bedeutung
|
60 |
+
- Förderrichtlinien fehlen Kritik
|
61 |
+
- source_sentence: Das ist keine vernünftige Haushaltspolitik. Gerade im Bereich Luft-
|
62 |
+
und Raumfahrt finden derzeit unglaublich viele Innovationen für eine klimaneutrale
|
63 |
+
Mobilität statt. So entwickelt Airbus Flugzeuge mit Wasserstoffantrieb, und in
|
64 |
+
Leipzig wird mit der Neuentwicklung der Dornier 328 ein Regionalflugzeug gebaut,
|
65 |
+
welches mit klimaneutralen E-Fuels betrieben werden kann.
|
66 |
+
sentences:
|
67 |
+
- AfD Aufarbeitung Spaltung
|
68 |
+
- Airbus Wasserstoffantrieb Flugzeuge
|
69 |
+
- Ukrainekrieg Luftfahrt
|
70 |
+
datasets:
|
71 |
+
- davhin/parl-synthetic-queries-v3
|
72 |
+
pipeline_tag: sentence-similarity
|
73 |
+
library_name: sentence-transformers
|
74 |
+
metrics:
|
75 |
+
- cosine_accuracy
|
76 |
+
model-index:
|
77 |
+
- name: SentenceTransformer based on chkla/parlbert-german-v1
|
78 |
+
results:
|
79 |
+
- task:
|
80 |
+
type: triplet
|
81 |
+
name: Triplet
|
82 |
+
dataset:
|
83 |
+
name: parlsearch test before training
|
84 |
+
type: parlsearch-test-before-training
|
85 |
+
metrics:
|
86 |
+
- type: cosine_accuracy
|
87 |
+
value: 0.5465949773788452
|
88 |
+
name: Cosine Accuracy
|
89 |
+
- task:
|
90 |
+
type: triplet
|
91 |
+
name: Triplet
|
92 |
+
dataset:
|
93 |
+
name: parlsearch test after training
|
94 |
+
type: parlsearch-test-after-training
|
95 |
+
metrics:
|
96 |
+
- type: cosine_accuracy
|
97 |
+
value: 0.5465949773788452
|
98 |
+
name: Cosine Accuracy
|
99 |
+
---
|
100 |
+
|
101 |
+
# SentenceTransformer based on chkla/parlbert-german-v1
|
102 |
+
|
103 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [chkla/parlbert-german-v1](https://huggingface.co/chkla/parlbert-german-v1) on the [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
104 |
+
|
105 |
+
## Model Details
|
106 |
+
|
107 |
+
### Model Description
|
108 |
+
- **Model Type:** Sentence Transformer
|
109 |
+
- **Base model:** [chkla/parlbert-german-v1](https://huggingface.co/chkla/parlbert-german-v1) <!-- at revision 5c5324e8a1431d289c4f18eaeb368e9edd76ece1 -->
|
110 |
+
- **Maximum Sequence Length:** 512 tokens
|
111 |
+
- **Output Dimensionality:** 768 dimensions
|
112 |
+
- **Similarity Function:** Cosine Similarity
|
113 |
+
- **Training Dataset:**
|
114 |
+
- [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3)
|
115 |
+
<!-- - **Language:** Unknown -->
|
116 |
+
<!-- - **License:** Unknown -->
|
117 |
+
|
118 |
+
### Model Sources
|
119 |
+
|
120 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
121 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
122 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
123 |
+
|
124 |
+
### Full Model Architecture
|
125 |
+
|
126 |
+
```
|
127 |
+
SentenceTransformer(
|
128 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
129 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
130 |
+
)
|
131 |
+
```
|
132 |
+
|
133 |
+
## Usage
|
134 |
+
|
135 |
+
### Direct Usage (Sentence Transformers)
|
136 |
+
|
137 |
+
First install the Sentence Transformers library:
|
138 |
+
|
139 |
+
```bash
|
140 |
+
pip install -U sentence-transformers
|
141 |
+
```
|
142 |
+
|
143 |
+
Then you can load this model and run inference.
|
144 |
+
```python
|
145 |
+
from sentence_transformers import SentenceTransformer
|
146 |
+
|
147 |
+
# Download from the 🤗 Hub
|
148 |
+
model = SentenceTransformer("davhin/parlbert-german-search-v3")
|
149 |
+
# Run inference
|
150 |
+
sentences = [
|
151 |
+
'Das ist keine vernünftige Haushaltspolitik. Gerade im Bereich Luft- und Raumfahrt finden derzeit unglaublich viele Innovationen für eine klimaneutrale Mobilität statt. So entwickelt Airbus Flugzeuge mit Wasserstoffantrieb, und in Leipzig wird mit der Neuentwicklung der Dornier 328 ein Regionalflugzeug gebaut, welches mit klimaneutralen E-Fuels betrieben werden kann.',
|
152 |
+
'Airbus Wasserstoffantrieb Flugzeuge',
|
153 |
+
'Ukrainekrieg Luftfahrt',
|
154 |
+
]
|
155 |
+
embeddings = model.encode(sentences)
|
156 |
+
print(embeddings.shape)
|
157 |
+
# [3, 768]
|
158 |
+
|
159 |
+
# Get the similarity scores for the embeddings
|
160 |
+
similarities = model.similarity(embeddings, embeddings)
|
161 |
+
print(similarities.shape)
|
162 |
+
# [3, 3]
|
163 |
+
```
|
164 |
+
|
165 |
+
<!--
|
166 |
+
### Direct Usage (Transformers)
|
167 |
+
|
168 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
169 |
+
|
170 |
+
</details>
|
171 |
+
-->
|
172 |
+
|
173 |
+
<!--
|
174 |
+
### Downstream Usage (Sentence Transformers)
|
175 |
+
|
176 |
+
You can finetune this model on your own dataset.
|
177 |
+
|
178 |
+
<details><summary>Click to expand</summary>
|
179 |
+
|
180 |
+
</details>
|
181 |
+
-->
|
182 |
+
|
183 |
+
<!--
|
184 |
+
### Out-of-Scope Use
|
185 |
+
|
186 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
187 |
+
-->
|
188 |
+
|
189 |
+
## Evaluation
|
190 |
+
|
191 |
+
### Metrics
|
192 |
+
|
193 |
+
#### Triplet
|
194 |
+
|
195 |
+
* Datasets: `parlsearch-test-before-training` and `parlsearch-test-after-training`
|
196 |
+
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
|
197 |
+
|
198 |
+
| Metric | parlsearch-test-before-training | parlsearch-test-after-training |
|
199 |
+
|:--------------------|:--------------------------------|:-------------------------------|
|
200 |
+
| **cosine_accuracy** | **0.5466** | **0.5466** |
|
201 |
+
|
202 |
+
<!--
|
203 |
+
## Bias, Risks and Limitations
|
204 |
+
|
205 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
206 |
+
-->
|
207 |
+
|
208 |
+
<!--
|
209 |
+
### Recommendations
|
210 |
+
|
211 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
212 |
+
-->
|
213 |
+
|
214 |
+
## Training Details
|
215 |
+
|
216 |
+
### Training Dataset
|
217 |
+
|
218 |
+
#### parl-synthetic-queries-v3
|
219 |
+
|
220 |
+
* Dataset: [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3) at [afdb8d3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3/tree/afdb8d32ac3e1e84d9a113d96d21e51f270083bd)
|
221 |
+
* Size: 2,232 training samples
|
222 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
223 |
+
* Approximate statistics based on the first 1000 samples:
|
224 |
+
| | anchor | positive | negative |
|
225 |
+
|:--------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
|
226 |
+
| type | string | string | string |
|
227 |
+
| details | <ul><li>min: 33 tokens</li><li>mean: 114.11 tokens</li><li>max: 130 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.3 tokens</li><li>max: 15 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.23 tokens</li><li>max: 16 tokens</li></ul> |
|
228 |
+
* Samples:
|
229 |
+
| anchor | positive | negative |
|
230 |
+
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------|:-----------------------------------------------|
|
231 |
+
| <code>Aber Deutschland – und übrigens auch der Rest Europas – muss die Realität anerkennen, dass es günstigen Strom zu unterschiedlichen Tageszeiten gibt. Darauf muss der Markt reagieren – der Markt, den Herr Linnemann und die Union eigentlich so hoch schätzen. Dass wir dessen Signale wirken lassen wollen, was dann zu günstigen Preisen führt, dürfte ich der Union eigentlich nicht erklären müssen. Das ist traurig. Es ist traurig, dass Sie diese neuen Konzepte nicht annehmen. Gleichzeitig hoffe ich, dass in der Regierung bei dem Konzept, den Markt wirken zu lassen, noch mehr passiert.</code> | <code>günstiger Strom Tageszeiten Deutschland</code> | <code>Lastprofil Unternehmen Entlastung</code> |
|
232 |
+
| <code>Wenn Sie die Menschen vor Ort fragen, sagen alle: Diese Planungen sind vollkommen überdimensioniert.– Dazu muss man ins Verhältnis setzen, dass wir bundesweit eigentlich 8 000 Brücken ersetzen müssen. Bei uns in Leverkusen haben wir schon eine neue Brücke, aber jetzt bekommen wir noch eine zweite. Wir können es uns schlichtweg nicht mehr leisten, den Bundesverkehrswegeplan als Wünsch-dir-was-Liste anzusehen, in der sich jeder Abgeordnete mit einer eigenen Autobahnausfahrt verewigt.</code> | <code>Autobahnausfahrt Abgeordnete</code> | <code>Bundesverkehrswegeplan Kritik</code> |
|
233 |
+
| <code>Es geht nicht nur um die Bürgerinnen und Bürger, die bei einer Langen Nacht der Wissenschaften unterwegs sind, die sich vielleicht an einem Citizen-Science-Projekt beteiligen, sondern es geht auch darum, dass wissenschaftliche Erkenntnisse in der Politik verwendet werden, dass sie auch dort reflektiert werden, dass sie auch dort verstanden werden.</code> | <code>wissenschaftliche Erkenntnisse Politik</code> | <code>Citizen Science Projekte</code> |
|
234 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
235 |
+
```json
|
236 |
+
{
|
237 |
+
"scale": 20.0,
|
238 |
+
"similarity_fct": "cos_sim"
|
239 |
+
}
|
240 |
+
```
|
241 |
+
|
242 |
+
### Evaluation Dataset
|
243 |
+
|
244 |
+
#### parl-synthetic-queries-v3
|
245 |
+
|
246 |
+
* Dataset: [parl-synthetic-queries-v3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3) at [afdb8d3](https://huggingface.co/datasets/davhin/parl-synthetic-queries-v3/tree/afdb8d32ac3e1e84d9a113d96d21e51f270083bd)
|
247 |
+
* Size: 2,232 evaluation samples
|
248 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
|
249 |
+
* Approximate statistics based on the first 1000 samples:
|
250 |
+
| | anchor | positive | negative |
|
251 |
+
|:--------|:------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
|
252 |
+
| type | string | string | string |
|
253 |
+
| details | <ul><li>min: 56 tokens</li><li>mean: 113.8 tokens</li><li>max: 130 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.23 tokens</li><li>max: 16 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 7.21 tokens</li><li>max: 13 tokens</li></ul> |
|
254 |
+
* Samples:
|
255 |
+
| anchor | positive | negative |
|
256 |
+
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------|:------------------------------------------------|
|
257 |
+
| <code>Es wurde ausgerechnet, unter anderem vom Bundesgerichtshof, dass mit diesem Verfahren beim Dieselabgasskandal circa zwei Jahre Zeit bis zu einer höchstrichterlichen Entscheidung hätten eingespart werden können. Das wäre für die Richterinnen und Richter wichtig gewesen. Beim nächsten Massenverfahren wird es möglich sein, Zeit einzusparen. Von daher ist es gut, dass wir die Justiz mit diesem Gesetz entlasten. Weil die Länge und die Dauer der Verhandlungen angesprochen worden sind, lassen Sie mich noch ein paar Sätze zu anderen möglichen Verfahrensformen sagen, mit denen man Massenverfahren besser bewältigen kann.</code> | <code>Massenverfahren Justiz Entlastung</code> | <code>Dieselabgasskandal Verfahrensdauer</code> |
|
258 |
+
| <code>Welchen Sinn macht die Fortschreibung einer Blockade und eines Selbstbetruges? Keinen Sinn. Deshalb ist dieser Moment durchaus ein historischer. Deshalb bin ich ausgesprochen dankbar für den Gesetzentwurf der Ministerin. Wir als Koalition werden diesen Gesetzentwurf durchbringen und damit endlich ein Gesetz des gesunden Menschenverstandes durchsetzen; denn darum geht es hier. Die Menschen, um die es geht, haben keine großen migrationspolitischen Fragen oder Open Borders oder sonst etwas auf der Agenda. Ihre Agenda ist ihr eigenes Leben. Sie wollen hier einfach vernünftig leben können; denn sie sind Mitglieder dieser Gesellschaft. Aber bisher dürfen sie es nicht sein.</code> | <code>Gesetz des gesunden Menschenverstandes</code> | <code>Abschaffung EEG-Umlage</code> |
|
259 |
+
| <code>Wir bieten ein Framework an, auf dem die Wirtschaft aufsetzen kann und mit dem sie zuarbeiten kann, wodurch Innovationen, die die Wirtschaft bereitstellt, auch der Verwaltung zugutekommen können. Und andersrum: Die Verwaltung ist ein Treiber von Innovationen. Denn der öffentliche Dienst ist der größte Auftraggeber in der IT-Branche. Wenn wir da mehr kooperieren, haben beide Seiten was davon. Das bringt uns Wohlstand. Das bringt uns einfach eine breitere Perspektive. Deswegen ist dieses Gesetz auch ein Wirtschaftsförderungsgesetz. Es wurde sehr viel über das alte OZG 1.0 gelästert.</code> | <code>OZG 1.0 Kritik</code> | <code>Innovationen Verwaltung Wirtschaft</code> |
|
260 |
+
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
|
261 |
+
```json
|
262 |
+
{
|
263 |
+
"scale": 20.0,
|
264 |
+
"similarity_fct": "cos_sim"
|
265 |
+
}
|
266 |
+
```
|
267 |
+
|
268 |
+
### Training Hyperparameters
|
269 |
+
#### Non-Default Hyperparameters
|
270 |
+
|
271 |
+
- `eval_strategy`: steps
|
272 |
+
- `per_device_train_batch_size`: 16
|
273 |
+
- `per_device_eval_batch_size`: 16
|
274 |
+
- `learning_rate`: 2e-05
|
275 |
+
- `num_train_epochs`: 1
|
276 |
+
- `warmup_ratio`: 0.1
|
277 |
+
- `use_mps_device`: True
|
278 |
+
- `bf16`: True
|
279 |
+
- `batch_sampler`: no_duplicates
|
280 |
+
|
281 |
+
#### All Hyperparameters
|
282 |
+
<details><summary>Click to expand</summary>
|
283 |
+
|
284 |
+
- `overwrite_output_dir`: False
|
285 |
+
- `do_predict`: False
|
286 |
+
- `eval_strategy`: steps
|
287 |
+
- `prediction_loss_only`: True
|
288 |
+
- `per_device_train_batch_size`: 16
|
289 |
+
- `per_device_eval_batch_size`: 16
|
290 |
+
- `per_gpu_train_batch_size`: None
|
291 |
+
- `per_gpu_eval_batch_size`: None
|
292 |
+
- `gradient_accumulation_steps`: 1
|
293 |
+
- `eval_accumulation_steps`: None
|
294 |
+
- `torch_empty_cache_steps`: None
|
295 |
+
- `learning_rate`: 2e-05
|
296 |
+
- `weight_decay`: 0.0
|
297 |
+
- `adam_beta1`: 0.9
|
298 |
+
- `adam_beta2`: 0.999
|
299 |
+
- `adam_epsilon`: 1e-08
|
300 |
+
- `max_grad_norm`: 1.0
|
301 |
+
- `num_train_epochs`: 1
|
302 |
+
- `max_steps`: -1
|
303 |
+
- `lr_scheduler_type`: linear
|
304 |
+
- `lr_scheduler_kwargs`: {}
|
305 |
+
- `warmup_ratio`: 0.1
|
306 |
+
- `warmup_steps`: 0
|
307 |
+
- `log_level`: passive
|
308 |
+
- `log_level_replica`: warning
|
309 |
+
- `log_on_each_node`: True
|
310 |
+
- `logging_nan_inf_filter`: True
|
311 |
+
- `save_safetensors`: True
|
312 |
+
- `save_on_each_node`: False
|
313 |
+
- `save_only_model`: False
|
314 |
+
- `restore_callback_states_from_checkpoint`: False
|
315 |
+
- `no_cuda`: False
|
316 |
+
- `use_cpu`: False
|
317 |
+
- `use_mps_device`: True
|
318 |
+
- `seed`: 42
|
319 |
+
- `data_seed`: None
|
320 |
+
- `jit_mode_eval`: False
|
321 |
+
- `use_ipex`: False
|
322 |
+
- `bf16`: True
|
323 |
+
- `fp16`: False
|
324 |
+
- `fp16_opt_level`: O1
|
325 |
+
- `half_precision_backend`: auto
|
326 |
+
- `bf16_full_eval`: False
|
327 |
+
- `fp16_full_eval`: False
|
328 |
+
- `tf32`: None
|
329 |
+
- `local_rank`: 0
|
330 |
+
- `ddp_backend`: None
|
331 |
+
- `tpu_num_cores`: None
|
332 |
+
- `tpu_metrics_debug`: False
|
333 |
+
- `debug`: []
|
334 |
+
- `dataloader_drop_last`: False
|
335 |
+
- `dataloader_num_workers`: 0
|
336 |
+
- `dataloader_prefetch_factor`: None
|
337 |
+
- `past_index`: -1
|
338 |
+
- `disable_tqdm`: False
|
339 |
+
- `remove_unused_columns`: True
|
340 |
+
- `label_names`: None
|
341 |
+
- `load_best_model_at_end`: False
|
342 |
+
- `ignore_data_skip`: False
|
343 |
+
- `fsdp`: []
|
344 |
+
- `fsdp_min_num_params`: 0
|
345 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
346 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
347 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
348 |
+
- `deepspeed`: None
|
349 |
+
- `label_smoothing_factor`: 0.0
|
350 |
+
- `optim`: adamw_torch
|
351 |
+
- `optim_args`: None
|
352 |
+
- `adafactor`: False
|
353 |
+
- `group_by_length`: False
|
354 |
+
- `length_column_name`: length
|
355 |
+
- `ddp_find_unused_parameters`: None
|
356 |
+
- `ddp_bucket_cap_mb`: None
|
357 |
+
- `ddp_broadcast_buffers`: False
|
358 |
+
- `dataloader_pin_memory`: True
|
359 |
+
- `dataloader_persistent_workers`: False
|
360 |
+
- `skip_memory_metrics`: True
|
361 |
+
- `use_legacy_prediction_loop`: False
|
362 |
+
- `push_to_hub`: False
|
363 |
+
- `resume_from_checkpoint`: None
|
364 |
+
- `hub_model_id`: None
|
365 |
+
- `hub_strategy`: every_save
|
366 |
+
- `hub_private_repo`: None
|
367 |
+
- `hub_always_push`: False
|
368 |
+
- `gradient_checkpointing`: False
|
369 |
+
- `gradient_checkpointing_kwargs`: None
|
370 |
+
- `include_inputs_for_metrics`: False
|
371 |
+
- `include_for_metrics`: []
|
372 |
+
- `eval_do_concat_batches`: True
|
373 |
+
- `fp16_backend`: auto
|
374 |
+
- `push_to_hub_model_id`: None
|
375 |
+
- `push_to_hub_organization`: None
|
376 |
+
- `mp_parameters`:
|
377 |
+
- `auto_find_batch_size`: False
|
378 |
+
- `full_determinism`: False
|
379 |
+
- `torchdynamo`: None
|
380 |
+
- `ray_scope`: last
|
381 |
+
- `ddp_timeout`: 1800
|
382 |
+
- `torch_compile`: False
|
383 |
+
- `torch_compile_backend`: None
|
384 |
+
- `torch_compile_mode`: None
|
385 |
+
- `dispatch_batches`: None
|
386 |
+
- `split_batches`: None
|
387 |
+
- `include_tokens_per_second`: False
|
388 |
+
- `include_num_input_tokens_seen`: False
|
389 |
+
- `neftune_noise_alpha`: None
|
390 |
+
- `optim_target_modules`: None
|
391 |
+
- `batch_eval_metrics`: False
|
392 |
+
- `eval_on_start`: False
|
393 |
+
- `use_liger_kernel`: False
|
394 |
+
- `eval_use_gather_object`: False
|
395 |
+
- `average_tokens_across_devices`: False
|
396 |
+
- `prompts`: None
|
397 |
+
- `batch_sampler`: no_duplicates
|
398 |
+
- `multi_dataset_batch_sampler`: proportional
|
399 |
+
|
400 |
+
</details>
|
401 |
+
|
402 |
+
### Training Logs
|
403 |
+
| Epoch | Step | Training Loss | Validation Loss | parlsearch-test-before-training_cosine_accuracy | parlsearch-test-after-training_cosine_accuracy |
|
404 |
+
|:------:|:----:|:-------------:|:---------------:|:-----------------------------------------------:|:----------------------------------------------:|
|
405 |
+
| -1 | -1 | - | - | 0.5269 | - |
|
406 |
+
| 0.9524 | 100 | 1.7259 | 1.3180 | 0.5466 | - |
|
407 |
+
| -1 | -1 | - | - | - | 0.5466 |
|
408 |
+
|
409 |
+
|
410 |
+
### Framework Versions
|
411 |
+
- Python: 3.12.8
|
412 |
+
- Sentence Transformers: 3.4.0
|
413 |
+
- Transformers: 4.48.1
|
414 |
+
- PyTorch: 2.5.1
|
415 |
+
- Accelerate: 1.3.0
|
416 |
+
- Datasets: 3.2.0
|
417 |
+
- Tokenizers: 0.21.0
|
418 |
+
|
419 |
+
## Citation
|
420 |
+
|
421 |
+
### BibTeX
|
422 |
+
|
423 |
+
#### Sentence Transformers
|
424 |
+
```bibtex
|
425 |
+
@inproceedings{reimers-2019-sentence-bert,
|
426 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
427 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
428 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
429 |
+
month = "11",
|
430 |
+
year = "2019",
|
431 |
+
publisher = "Association for Computational Linguistics",
|
432 |
+
url = "https://arxiv.org/abs/1908.10084",
|
433 |
+
}
|
434 |
+
```
|
435 |
+
|
436 |
+
#### MultipleNegativesRankingLoss
|
437 |
+
```bibtex
|
438 |
+
@misc{henderson2017efficient,
|
439 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
440 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
441 |
+
year={2017},
|
442 |
+
eprint={1705.00652},
|
443 |
+
archivePrefix={arXiv},
|
444 |
+
primaryClass={cs.CL}
|
445 |
+
}
|
446 |
+
```
|
447 |
+
|
448 |
+
<!--
|
449 |
+
## Glossary
|
450 |
+
|
451 |
+
*Clearly define terms in order to be accessible across audiences.*
|
452 |
+
-->
|
453 |
+
|
454 |
+
<!--
|
455 |
+
## Model Card Authors
|
456 |
+
|
457 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
458 |
+
-->
|
459 |
+
|
460 |
+
<!--
|
461 |
+
## Model Card Contact
|
462 |
+
|
463 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
464 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,25 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "chkla/parlbert-german-v1",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"hidden_act": "gelu",
|
9 |
+
"hidden_dropout_prob": 0.1,
|
10 |
+
"hidden_size": 768,
|
11 |
+
"initializer_range": 0.02,
|
12 |
+
"intermediate_size": 3072,
|
13 |
+
"layer_norm_eps": 1e-12,
|
14 |
+
"max_position_embeddings": 512,
|
15 |
+
"model_type": "bert",
|
16 |
+
"num_attention_heads": 12,
|
17 |
+
"num_hidden_layers": 12,
|
18 |
+
"pad_token_id": 0,
|
19 |
+
"position_embedding_type": "absolute",
|
20 |
+
"torch_dtype": "float32",
|
21 |
+
"transformers_version": "4.48.1",
|
22 |
+
"type_vocab_size": 2,
|
23 |
+
"use_cache": true,
|
24 |
+
"vocab_size": 30000
|
25 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.4.0",
|
4 |
+
"transformers": "4.48.1",
|
5 |
+
"pytorch": "2.5.1"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": "cosine"
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:69a24a2dd2b62376ef2d7a21d71c075f77bc1283b3175a31735b7e712a80be77
|
3 |
+
size 436347736
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": {
|
3 |
+
"content": "[CLS]",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"mask_token": {
|
10 |
+
"content": "[MASK]",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"pad_token": {
|
17 |
+
"content": "[PAD]",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"sep_token": {
|
24 |
+
"content": "[SEP]",
|
25 |
+
"lstrip": false,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"unk_token": {
|
31 |
+
"content": "[UNK]",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
}
|
37 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,56 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[PAD]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"2": {
|
12 |
+
"content": "[UNK]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"3": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"4": {
|
28 |
+
"content": "[SEP]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"5": {
|
36 |
+
"content": "[MASK]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"clean_up_tokenization_spaces": false,
|
45 |
+
"cls_token": "[CLS]",
|
46 |
+
"do_lower_case": false,
|
47 |
+
"extra_special_tokens": {},
|
48 |
+
"mask_token": "[MASK]",
|
49 |
+
"model_max_length": 512,
|
50 |
+
"pad_token": "[PAD]",
|
51 |
+
"sep_token": "[SEP]",
|
52 |
+
"strip_accents": null,
|
53 |
+
"tokenize_chinese_chars": true,
|
54 |
+
"tokenizer_class": "BertTokenizer",
|
55 |
+
"unk_token": "[UNK]"
|
56 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|