aleynahukmet commited on
Commit
b9ff967
·
verified ·
1 Parent(s): 67fcb5e

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,627 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:287204
8
+ - loss:MSELoss
9
+ base_model: BAAI/bge-m3
10
+ widget:
11
+ - source_sentence: Sorunuzdaki gibi gübre üretiminde kullanılan hammaddelerin KDV
12
+ oranlarının tamamının kükürt ile aynı olduğunu söylemek doğru olmaz. Kükürt,
13
+ Gıda, Tarım ve Hayvancılık Bakanlığı tarafından tescil edilen gübrelerin üretiminde
14
+ kullanılması durumunda, belirli bir tarih aralığında %1 KDV oranına tabi tutulmuş,
15
+ daha sonra ise KDV'den istisna edilmiştir. Ancak diğer hammaddeler için bu durum
16
+ geçerli olmayabilir. Her bir hammaddenin KDV oranı, maddenin kendisine ve Gıda,
17
+ Tarım ve Hayvancılık Bakanlığı tarafından yayınlanan ilgili mevzuata bağlı olarak
18
+ değişir. Dolayısıyla, her bir hammaddenin KDV oranını belirlemek için ilgili
19
+ mevzuat ve Bakanlığın güncel tescil listelerine bakılması gerekmektedir.
20
+ sentences:
21
+ - '**3. Diğer Destekler:**
22
+
23
+
24
+ * **Olay Yeri İncelemesi:** Sigorta şirketi, olay yerini inceleyerek olayla ilgili
25
+ bilgi ve delil toplayabilir.
26
+
27
+ * **Şahitlerle Görüşmeler:** Olayı gören kişilerle görüşülerek bilgi toplanabilir.
28
+
29
+ * **Uzman Danışmanları:** Gerektiğinde, olayı değerlendirmek için uzmanların
30
+ görüşüne başvurulabilir.
31
+
32
+
33
+
34
+ **Önemli Notlar:**'
35
+ - '#### Özelge: İşletmeye dahil edilmeyen otomobile ait giderler ticari kazancın
36
+ tespitinde indirim konusu olamaz.
37
+
38
+
39
+ Sayı: B.07.0.GEL.0.44/4405-1380/6984Tarih: 20/02/2004
40
+
41
+
42
+ **T.C.**
43
+
44
+
45
+ **MALİYE BAKANLIĞI**
46
+
47
+
48
+ **Gelirler Genel Müdürlüğü**
49
+
50
+
51
+ **SAYI     :** B.07.0.GEL.0.44/4405-1380/6984 \* 20.02.2004
52
+
53
+
54
+ KONU  :
55
+
56
+
57
+ .................... BAKANLIĞINA
58
+
59
+
60
+ Emniyet Genel Müdürlüğü
61
+
62
+
63
+ **İLGİ:** .................... tarih ve .................... sayılı yazınız.
64
+
65
+
66
+ Yazınızda  bir şirketin elektronik yetkili servisi faaliyetinden dolayı İstanbul
67
+ ........ Vergi Dairesinin  ...........sicil numarasında kayıtlı  mükellefi ............
68
+ tarafından Bakanlığınıza verilen bir örneği yazınıza ekli dilekçesinde, müşteri
69
+ evinde arızalı cihaz onarmak, gerektiğinde  cihazı işyerine getirmek ve onarımını
70
+ yapıp eve teslim etmek için hususi aracını  kullanmak  istediğini belirterek bu
71
+ konuda Bakanlığınızdan izin  talep ettiği belirtilerek konu hakkında görüşümüzün
72
+ bildirilmesi istenilmektedir.'
73
+ - 'Söz konusu Kanunun **"Muafiyetler"** başlıklı 65 inci maddesinde ise " Esnaf
74
+ ve sanatkârlar meslek kuruluşlarının, kuruluş amaçlarını gerçekleştirmek ve bu
75
+ amaçlarına uygun olarak kullanılmak üzere iktisap ettikleri ve edecekleri gayrimenkuller
76
+ ile bu kuruluşların görevleri dolayısıyla elde ettikleri gelirler, katma değer
77
+ vergisi ve emlak vergisi hariç her türlü vergi, resim ve harçtan müstesnadır."hükmü
78
+ yer almaktadır.
79
+
80
+
81
+ **BELEDİYE GELİRLERİ KANUNU YÖNÜNDEN**
82
+
83
+
84
+ 2464 sayılı Belediye Gelirleri Kanununun 52 nci maddesinde, belediye sınırları
85
+ içinde bulunan; pazar veya panayır kurulan yerlerin, meydanların, mezat yerlerinin
86
+ her türlü mal ve hayvan satıcıları tarafından satış yapmak, yol, meydan, pazar,
87
+ iskele, köprü gibi umuma ait yerlerden bir kısmının herhangi bir maksat için yetkili
88
+ mercilerden usulüne uygun izin alınarak geçici olarak işgal edilmesinin, işgal
89
+ harcına tabi olacağı hükme bağlanmıştır.'
90
+ - source_sentence: 'Eksiklik giderilmezse, istinaf mahkemesi aşağıdaki kararları verebilir:
91
+
92
+
93
+ * **İstinaf dilekçesinin reddine karar vermek:** Eksiklik giderilmesi için verilen
94
+ süre içinde eksiklik giderilmezse, istinaf mahkemesi dilekçeyi reddedebilir. Bu
95
+ durumda, istinaf yolu kapanır ve ilk derece mahkemesinin kararı kesinleşir.
96
+
97
+ * **İstinaf dilekçesinin işleme alınmamasına karar vermek:** Bu karar, eksikliğin
98
+ çok ciddi veya giderilemez nitelikte olması durumunda verilebilir. Reddedilme
99
+ kararıyla benzer sonuçlar doğurur.
100
+
101
+ * **Yeni bir süre tanımak:** Mahkeme, ilk verilen sürenin yeterli olmadığını
102
+ düşünürse, eksikliğin giderilmesi için yeni bir süre daha tanıyabilir.
103
+
104
+
105
+ Eksikliğin giderilmesi için verilen süre içerisinde ilgili taraf eksikliği giderirse,
106
+ istinaf mahkemesi dosyayı esasına göre incelemeye alır ve kararını verir. Bu
107
+ inceleme sonucunda istinaf mahkemesi, ilk derece mahkemesinin kararını onaylayabilir,
108
+ bozabilir veya değiştirebilir.'
109
+ sentences:
110
+ - 'Kanuna bağlı (4) sayılı tarifenin 3/a fıkrasında, terekeye dahil taşınmaz malların
111
+ kanuni ve atanmış mirasçılar arasında aynen veya ifrazen yapılacak taksiminde
112
+ kayıtlı değer üzerinden harç alınacağı, 13/a fıkrasında, arsa ve arazi üzerine
113
+ inşa olunacak bina vesair tesislerin tescilinde ( her bir bağımsız bölüm vesair
114
+ tesis için), 13/c fıkrasında da, (a) fıkrası dışında kalan her nevi cins ve kayıt
115
+ tashihinde (her bir işlem için) harç alınacağı hükme bağlanmıştır.
116
+
117
+
118
+ Özelge talep formu ve eki Perşembe Asliye Hukuk Mahkemesinin 10/5/2016 tarihli
119
+ ve Esas No:…, Karar No:… sayılı kararının incelenmesinden, Ordu 3. Noterliğinin
120
+ 15/5/2003 tarih ve … yevmiye numaralı vasiyetnamesinin davacı … yönünden tenfizi
121
+ ile kararda bahsi geçen, tapu kayıtlarına göre iştirak halinde mülkiyete konu
122
+ Perşembe İlçesi, … Mahallesinde bulunan gayrimenkul tapularının iptaline ve hissedarların
123
+ hisse oranlarının yeniden belirlenmesine karar verildiği  anlaşılmıştır.'
124
+ - '**Savunmanın muhtemel argümanları:** Savunma muhtemelen, Seki''nin suçun işlenmesinde
125
+ herhangi bir rol oynamadığını, ilişkilerinin suçlarla bağlantılı olmadığını veya
126
+ yardımının suçun işlenmesinde önemli bir etkisi olmadığını savunmuştur. Ayrıca,
127
+ delillerin yetersizliğini, delillerin güvenilirliğini sorgulamayı ve iddianamenin
128
+ eksik yönlerini vurgulamayı amaçlayabilir.
129
+
130
+
131
+ **Hukuki Değerlendirme:** Davada, mahkeme delilleri dikkatlice değerlendirerek,
132
+ Seki''nin eylemlerinin TCK''daki suça iştirak hükümlerine uygun olup olmadığını
133
+ tespit etmiştir. Suçun işlenmesindeki rolünün önemi, niyeti ve suçun oluşmasına
134
+ katkısı değerlendirilmiştir. Bu değerlendirmede, tanık ifadeleri, telefon kayıtları, mali
135
+ kayıtlar ve diğer deliller önemli rol oynamıştır. Mahkeme, bu delillere dayanarak, Seki''nin
136
+ suça iştirakten suçlu olup olmadığına karar vermiştir.'
137
+ - Aynı Kanunun "Vergi Tevkifatı" başlıklı 94 üncü maddesinde; *"Kamu idare ve müesseseleri,
138
+ iktisadî kamu müesseseleri, sair kurumlar, ticaret şirketleri, iş ortaklıkları,
139
+ dernekler, vakıflar, dernek ve vakıfların iktisadî işletmeleri, kooperatifler,
140
+ yatırım fonu yönetenler, gerçek gelirlerini beyan etmeye mecbur olan ticaret ve
141
+ serbest meslek erbabı, zirai kazançlarını bilanço veya ziraî işletme hesabı esasına
142
+ göre tespit eden çiftçiler aşağıdaki bentlerde sayılan ödemeleri (avans olarak
143
+ ödenenler dahil) nakden veya hesaben yaptıkları sırada, istihkak sahiplerinin
144
+ gelir vergilerine mahsuben tevkifat yapmaya mecburdurlar."* hükmüne yer verilmiş
145
+ olup, aynı maddenin 5/a bendinde de 70 inci maddede yazılı mal ve hakların kiralanması
146
+ karşılığı yapılan ödemelerden %20 oranında gelir vergisi tevkifatı yapılacağı
147
+ hükme bağlanmıştır.
148
+ - source_sentence: Bu yasakların gerekçeleri, genel olarak, demokrasinin temel ilkelerini
149
+ korumak, kamu düzenini sağlamak ve siyasi süreçlerin adil ve şeffaf bir şekilde
150
+ işlemesini temin etmektir. Ancak, bu yasakların uygulanması ve kapsamı, her ülkenin
151
+ iç hukukunda belirlenir ve farklılık gösterebilir. Yasakların uygulanmasında,
152
+ kişilerin haklarının korunmasına ve adil yargılama ilkelerine dikkat edilmesi
153
+ büyük önem taşır. Belirli bir kişinin siyasi parti üyeliğinin yasaklı olup olmadığı
154
+ ancak ilgili ülkenin mevzuatı ve mahkeme kararları incelenerek belirlenecektir.
155
+ sentences:
156
+ - '488 sayılı Damga Vergisi Kanununun (6728 sayılı Kanunun 27 nci maddesi ile değişik)
157
+ ek 2 nci maddesinin birinci fıkrasında, ihracat ve ihracata ilişkin işlemler;
158
+ ikinci fıkrasında ise diğer döviz kazandırıcı faaliyetler sayılmıştır.
159
+
160
+
161
+ Özelge talep formunuz ekinde yer alan Türk İşbirliği ve Koordinasyon Ajansı Başkanlığı
162
+ (TİKA) ile Şirketiniz arasında düzenlenen …/…/2018 tarihli sözleşmenin incelenmesinden,
163
+ sözleşmenin konusunun İdarenin ihtiyacı olan ve miktarı belirtilen ve teknik özellikleri
164
+ teknik şartnamede düzenlenen, "… Donanım, Malzeme Ve Mobilya Alım İşi"ne ait ihale
165
+ dokümanı ile bu sözleşmede belirlenen şartlar dahilinde yüklenici tarafından temini
166
+ ve idareye teslimi işi olduğu anlaşılmaktadır.'
167
+ - Anılan Kanunun uygulanmasına ilişkin açıklamalar içeren 1 Seri No.lu Kurumlar
168
+ Vergisi Genel Tebliğinin (2.3.1.) bölümünde iktisadi kamu kuruluşunun ticari,
169
+ sınai veya zirai bir işletme oluşturup oluşturmadığı hususunda, Tebliğin (2.4.)
170
+ bölümünde yapılan açıklamaların dikkate alınması gerektiği belirtilmiştir.
171
+ - sonra tüm resmi işlemlerde bu adın kullanılması bir zorunluluktur. Davacının 1989
172
+ yılında evlenmesi sonucu gittiği koca hanesine baba adının H.N. Olarak yazılması
173
+ gerektiği halde yanlışlıkla “H.İ.” olarak yazılmıştır. Bu durum karşısında Nüfus
174
+ Hizmetleri Yasasının 35. Maddesinin birinci bendinde yer alan “kesinleşmiş mahkeme
175
+ hükmü olmadıkça nüfus kütüklerinin bir kaydı düzeltilemez” hükmü de dikkate alınarak
176
+ mahkemece kanıtlanan davanın kabulüne karar verilmesi gerekirken hukuki olmayan
177
+ gerekçelerle davanın reddi doğru görülmemiştir. Bu itibarla yukarıda açıklanan
178
+ esaslar göz önünde tutulmaksızın yazılı şekilde hüküm tesisi isabetsiz, temyiz
179
+ itirazları bu nedenlerle yerinde olduğundan kabulü ile hükmün HUMK'un 428. Maddesi
180
+ gereğince
181
+ - source_sentence: hizmetini hastane yönetiminin tahsis ettiği bir bölümde, firmanıza
182
+ ait cihazlarla yapılacağı ancak kanın alınması, tahlil edilmesi ve raporlanması
183
+ bölümünde hiç bir elemanınızın hizmet vermeyeceğini belirterek KDV tevkifatı uygulanıp
184
+ uygulanmayacağı hususlarında Defterdarlığımızdan görüş talep edilmektedir.
185
+ sentences:
186
+ - 'Ancak, dürüst kullanım savunmasının başarılı olması için, bilgilerin kullanımı
187
+ aşağıdaki şartları sağlamalıdır:
188
+
189
+
190
+ * **Kullanımın kapsamının makul olması:** Kullanılan bilgilerin miktarı ve türü,
191
+ kamu yararının gerektirdiği kadarıyla sınırlı olmalıdır.
192
+
193
+ * **Kullanımın adil olması:** Kullanım, marka sahibinin meşru çıkarlarını aşırı
194
+ derecede etkilememelidir.
195
+
196
+ * **Kullanımın iyi niyetli olması:** Kullanım, marka sahibine zarar vermeyi veya
197
+ marka hakkını kötüye kullanmayı amaçlamamalıdır.'
198
+ - 'İşçi, feshin başka bir sebebe dayandığını iddia ettiği takdirde, bu iddiasını
199
+ ispatla yükümlüdür. Somut olayda, davacının işyeri kurallarına uymadığı, amirlerince
200
+ yapılan uyarılara aldırmadığı, özellikle kadın müşterilere ve çalışanlara gereğinden
201
+ fazla ilgi göstermesinin rahatsızlıklara ve yakınmalara sebebiyet verdiği, davacının
202
+ davranışlarının işyerinde işin görülmesini önemli ölçüde olumsuz etkileyen, sözleşmeye
203
+ aykırı davranışlar olduğu davacının olumsuz davranışları sebebiyle işverence usulüne
204
+ uygun olarak savunması alındıktan sonra kıdem ve ihbar tazminatları ödenmek suretiyle
205
+ işçinin davranışlarından kaynaklanan geçerli sebeple iş sözleşmesinin feshedildiği,
206
+ dosya içerisinde mevcut belgeler ve davalı tanıklarının beyanlarıyla usulünce
207
+ kanıtlandığından davanın reddi gerekirken kabulü hatalıdır. Belirtilen nedenlerle,
208
+ 4857 Sayılı Kanun''un 20. maddesinin 3. fıkrası uyarınca, hükmün bozulmak suretiyle
209
+ ortadan kaldırılması ve aşağıdaki gibi karar verilmesi gerekmiştir. HÜKÜM:'
210
+ - İktisadi işletmenin elde ettiği karın derneğe aktarılmasında hangi vergi uygulamaları
211
+ geçerlidir?
212
+ - source_sentence: 'Buna göre, yeniden düzenlenen kesin izin taahhüt senetleri ve
213
+ ek taahhütnamenin, söz konusu kağıtlarda yer alan arazi izin bedeli ile atıf yapılan
214
+ ilk kesin izin taahhüt senetlerinde yer alan arazi izin bedeli arasındaki farkın
215
+ kalan izin süresiyle çarpımı sonucu bulunacak tutar ile artan teminat bedeli mukayese
216
+ edilerek en yüksek vergi alınmasını gerektiren tutar üzerinden, 488 sayılı Kanuna
217
+ ekli (1) sayılı tablonun I/A-1 fıkrasına göre damga vergisine, 492 sayılı Kanuna
218
+ bağlı (2) sayılı tarifenin I/1 fıkrası gereğince harca tabi tutulması gerekmektedir.
219
+
220
+
221
+ Bilgi edinilmesini rica ederim.'
222
+ sentences:
223
+ - Uluslararası sözleşmelerde velayet hakları, özellikle çocukların menfaatlerini
224
+ gözeterek karmaşık bir şekilde düzenlenir. Ana çerçeveyi, 1980 tarihli Çocuk
225
+ Haklarına Dair Sözleşme (ÇHS) oluşturur. ÇHS, çocuğun üstün yararını temel prensip
226
+ olarak kabul eder ve devletleri, çocuğun fiziksel ve ruhsal iyiliğini korumaya, ayrıca
227
+ uygun olduğu durumlarda ebeveynlerin her ikisiyle de ilişkisini sürdürme hakkını
228
+ sağlamaya çağırır. Ancak, ÇHS, velayet düzenlemelerinde kesin bir model öngörmez;
229
+ bu, devletlerin kendi iç hukuklarına ve kültürel bağlamlarına göre düzenleme yapmalarına
230
+ olanak tanır.
231
+ - '(**\*\***)   İnceleme, yargı ya da uzlaşmada olduğu halde bu konuya ilişkin olarak
232
+ yanlış bilgi verilmiş ise bu özelge geçersizdir.
233
+
234
+
235
+ (\*\*\*) Talebiniz üzerine tayin edilmiş olan bu özelgeye uygun işlem yapmanız
236
+ hâlinde, bu fiilleriniz dolayısıyla vergi tarh edilmesi icap ederse, tarafınıza
237
+ vergi cezası kesilmeyecek ve tarh edilen vergi için gecikme faizi hesaplanmayacaktır.'
238
+ - Velayetin kaldırılması, çocuğun hayatını derinden etkileyen bir karardır ve yalnızca
239
+ çocuğun güvenliği ve iyiliği için gerekli olduğunda alınır. Bu süreçte çocuğun
240
+ hakları korunur ve mahkeme, çocuğun en iyi çıkarlarını gözeterek karar verir. Her
241
+ vaka kendine özgüdür ve kararlar, vakanın özel koşullarına göre verilir. Dolayısıyla,
242
+ bu bilgiler genel bir rehber niteliğindedir ve özel bir hukuki danışma yerine
243
+ geçmez.
244
+ pipeline_tag: sentence-similarity
245
+ library_name: sentence-transformers
246
+ metrics:
247
+ - negative_mse
248
+ model-index:
249
+ - name: SentenceTransformer based on BAAI/bge-m3
250
+ results:
251
+ - task:
252
+ type: knowledge-distillation
253
+ name: Knowledge Distillation
254
+ dataset:
255
+ name: mse dev
256
+ type: mse-dev
257
+ metrics:
258
+ - type: negative_mse
259
+ value: -0.17572467913851142
260
+ name: Negative Mse
261
+ - task:
262
+ type: knowledge-distillation
263
+ name: Knowledge Distillation
264
+ dataset:
265
+ name: mse test
266
+ type: mse-test
267
+ metrics:
268
+ - type: negative_mse
269
+ value: -0.17576932441443205
270
+ name: Negative Mse
271
+ ---
272
+
273
+ # SentenceTransformer based on BAAI/bge-m3
274
+
275
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
276
+
277
+ ## Model Details
278
+
279
+ ### Model Description
280
+ - **Model Type:** Sentence Transformer
281
+ - **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
282
+ - **Maximum Sequence Length:** 8192 tokens
283
+ - **Output Dimensionality:** 1024 dimensions
284
+ - **Similarity Function:** Cosine Similarity
285
+ <!-- - **Training Dataset:** Unknown -->
286
+ <!-- - **Language:** Unknown -->
287
+ <!-- - **License:** Unknown -->
288
+
289
+ ### Model Sources
290
+
291
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
292
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
293
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
294
+
295
+ ### Full Model Architecture
296
+
297
+ ```
298
+ SentenceTransformer(
299
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
300
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
301
+ (2): Normalize()
302
+ )
303
+ ```
304
+
305
+ ## Usage
306
+
307
+ ### Direct Usage (Sentence Transformers)
308
+
309
+ First install the Sentence Transformers library:
310
+
311
+ ```bash
312
+ pip install -U sentence-transformers
313
+ ```
314
+
315
+ Then you can load this model and run inference.
316
+ ```python
317
+ from sentence_transformers import SentenceTransformer
318
+
319
+ # Download from the 🤗 Hub
320
+ model = SentenceTransformer("aleynahukmet/bge-m3-8-layers")
321
+ # Run inference
322
+ sentences = [
323
+ 'Buna göre, yeniden düzenlenen kesin izin taahhüt senetleri ve ek taahhütnamenin, söz konusu kağıtlarda yer alan arazi izin bedeli ile atıf yapılan ilk kesin izin taahhüt senetlerinde yer alan arazi izin bedeli arasındaki farkın kalan izin süresiyle çarpımı sonucu bulunacak tutar ile artan teminat bedeli mukayese edilerek en yüksek vergi alınmasını gerektiren tutar üzerinden, 488 sayılı Kanuna ekli (1) sayılı tablonun I/A-1 fıkrasına göre damga vergisine, 492 sayılı Kanuna bağlı (2) sayılı tarifenin I/1 fıkrası gereğince harca tabi tutulması gerekmektedir.\n\nBilgi edinilmesini rica ederim.',
324
+ 'Velayetin kaldırılması, çocuğun hayatını derinden etkileyen bir karardır ve yalnızca çocuğun güvenliği ve iyiliği için gerekli olduğunda alınır. Bu süreçte çocuğun hakları korunur ve mahkeme, çocuğun en iyi çıkarlarını gözeterek karar verir. Her vaka kendine özgüdür ve kararlar, vakanın özel koşullarına göre verilir. Dolayısıyla, bu bilgiler genel bir rehber niteliğindedir ve özel bir hukuki danışma yerine geçmez.',
325
+ '(**\\*\\***)\xa0\xa0 İnceleme, yargı ya da uzlaşmada olduğu halde bu konuya ilişkin olarak yanlış bilgi verilmiş ise bu özelge geçersizdir.\n\n(\\*\\*\\*) Talebiniz üzerine tayin edilmiş olan bu özelgeye uygun işlem yapmanız hâlinde, bu fiilleriniz dolayısıyla vergi tarh edilmesi icap ederse, tarafınıza vergi cezası kesilmeyecek ve tarh edilen vergi için gecikme faizi hesaplanmayacaktır.',
326
+ ]
327
+ embeddings = model.encode(sentences)
328
+ print(embeddings.shape)
329
+ # [3, 1024]
330
+
331
+ # Get the similarity scores for the embeddings
332
+ similarities = model.similarity(embeddings, embeddings)
333
+ print(similarities.shape)
334
+ # [3, 3]
335
+ ```
336
+
337
+ <!--
338
+ ### Direct Usage (Transformers)
339
+
340
+ <details><summary>Click to see the direct usage in Transformers</summary>
341
+
342
+ </details>
343
+ -->
344
+
345
+ <!--
346
+ ### Downstream Usage (Sentence Transformers)
347
+
348
+ You can finetune this model on your own dataset.
349
+
350
+ <details><summary>Click to expand</summary>
351
+
352
+ </details>
353
+ -->
354
+
355
+ <!--
356
+ ### Out-of-Scope Use
357
+
358
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
359
+ -->
360
+
361
+ ## Evaluation
362
+
363
+ ### Metrics
364
+
365
+ #### Knowledge Distillation
366
+
367
+ * Datasets: `mse-dev` and `mse-test`
368
+ * Evaluated with [<code>MSEEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.MSEEvaluator)
369
+
370
+ | Metric | mse-dev | mse-test |
371
+ |:-----------------|:------------|:------------|
372
+ | **negative_mse** | **-0.1757** | **-0.1758** |
373
+
374
+ <!--
375
+ ## Bias, Risks and Limitations
376
+
377
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
378
+ -->
379
+
380
+ <!--
381
+ ### Recommendations
382
+
383
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
384
+ -->
385
+
386
+ ## Training Details
387
+
388
+ ### Training Dataset
389
+
390
+ #### Unnamed Dataset
391
+
392
+
393
+ * Size: 287,204 training samples
394
+ * Columns: <code>sentence</code> and <code>label</code>
395
+ * Approximate statistics based on the first 1000 samples:
396
+ | | sentence | label |
397
+ |:--------|:------------------------------------------------------------------------------------|:--------------------------------------|
398
+ | type | string | list |
399
+ | details | <ul><li>min: 7 tokens</li><li>mean: 160.09 tokens</li><li>max: 341 tokens</li></ul> | <ul><li>size: 1024 elements</li></ul> |
400
+ * Samples:
401
+ | sentence | label |
402
+ |:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------|
403
+ | <code>-"*İstisnanın Uygulanması*" başlıklı (II/E-4.2.) ayrımında,<br><br>"*İstisna, münhasıran söz konusu yatırımlar kapsamındaki inşaat taahhüt işi, nakliye, hafriyat ve benzeri inşa işlerine ilişkindir. Yatırımı yapanların söz konusu inşaat işlerinde kullanılan mal alımları da bu kapsamda değerlendirilir. Dolayısıyla söz konusu istisna inşaat işlerine ilişkin olmak koşuluyla hem hizmet hem de mal alımlarını kapsamaktadır.*<br><br>..."<br><br>açıklamaları yer almaktadır.<br><br>Buna göre, yatırım teşvik belgeniz kapsamındaki sabit yatırımınıza yönelik inşaat işleri dolayısıyla yapılan zemin etüdü gideri, proje çizim gideri, zemin araştırma-temel etüd hizmet giderleri nedeniyle yüklenmiş olduğunuz KDV'lerin, KDV Kanununun geçici 30 uncu maddesi kapsamında iadesi mümkün bulunmaktadır.<br><br>Bilgi edinilmesini rica ederim.<br><br>(**\***)     Bu Özelge 213 sayılı Vergi Usul Kanununun 413.maddesine dayanılarak verilmiştir.</code> | <code>[-0.009974503889679909, 0.036509882658720016, 0.03562415763735771, -0.00381448189727962, 0.01367136649787426, ...]</code> |
404
+ | <code>Anılan Kanunun 231 inci maddesinin 5 numaralı bendinde, faturanın malın teslimi veya hizmetin yapıldığı tarihten itibaren azami yedi gün içinde düzenleneceği, bu süre içerisinde düzenlenmeyen faturaların hiç düzenlenmemiş sayılacağı; 232 nci maddesinde ise, birinci ve ikinci sınıf tüccarlarla, kazancı basit usulde tespit edilenler ve defter tutmak mecburiyetinde olan çiftçilerin sattıkları emtia veya yaptıkları iş için fatura vermek, satın aldıkları emtia ve hizmetler için de fatura istemek ve almak zorunda oldukları hükmü yer almaktadır.</code> | <code>[-0.004749941639602184, 0.029555343091487885, 0.033180367201566696, 0.0038023695815354586, 0.007536270655691624, ...]</code> |
405
+ | <code>kabulünü gerektirmez. Vade farkı faturasının davalıya tebliğ edilip itiraza <br>uğramamış olması da temel dayanağı bulunmayan bu faturanın tek başına vade farkı <br>talep edilebilmesine olanak sağlayamayacağı da kuşkusuzdur. Hal böyle olunca <br>taraflar arasında sözleşme ilişkisi bulunup bulunmadığının araştırılması gerekir. Davalı tarafça davacıya gönderilen faks mesajında vade farkına ilişkin hükümler mevcuttur. Davalının çektiği bu faks mesajının davacı tarafça teyit edilmesi, başka bir ifade ile tarafların anılan faks mesajında yer alan hususlar konusunda mutabık olduklarının saptanması halinde taraflar arasında bu yönde sözleşme ilişkisi kurulduğunun kabulü gerekecektir. Bu durumda mahkemece belirtilen yönler üzerinde durulup tartışılarak yeterli araştırma ve inceleme yapıldıktan sonra tüm deliller birlikte değerlendirilmek suretiyle uygun sonuç dairesinde bir karar verilmesi gerekirken eksik inceleme ile yazılı şekilde hüküm kurulması doğru görülmemiştir.</code> | <code>[-0.007021570112556219, 0.03200509026646614, 0.02259155362844467, -0.003074771026149392, 0.006905834656208754, ...]</code> |
406
+ * Loss: [<code>MSELoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#mseloss)
407
+
408
+ ### Evaluation Dataset
409
+
410
+ #### Unnamed Dataset
411
+
412
+
413
+ * Size: 5,000 evaluation samples
414
+ * Columns: <code>sentence</code> and <code>label</code>
415
+ * Approximate statistics based on the first 1000 samples:
416
+ | | sentence | label |
417
+ |:--------|:------------------------------------------------------------------------------------|:--------------------------------------|
418
+ | type | string | list |
419
+ | details | <ul><li>min: 7 tokens</li><li>mean: 157.25 tokens</li><li>max: 368 tokens</li></ul> | <ul><li>size: 1024 elements</li></ul> |
420
+ * Samples:
421
+ | sentence | label |
422
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------|
423
+ | <code>karar verilmesine, 4 aylık ücret ve 8 aylık ücreti tutarında tazminat ödenmesine karar verilmesini istemiştir. Davalı, davacının toplu iş sözleşmesinin 69/2 maddesine aykırı davranışı nedeni ile iş akdinin bildirimsiz olarak feshedildiğini, feshin haklı olduğunu savunarak davanın reddini dilemiştir. Mahkemece, iş mahkemesi tarafından verilen ve temyiz edilmeksizin kesinleşen görevsizlik kararı gereğince yapılan yargılama sonunda, feshin geçersizliği ile, davacının. işe iadesine, ve iş kanununun 21. maddesine göre diğer haklarının davalıdan tahsiline karar verilmiş; hüküm, davalı tarafından temyiz edilmiştir. 1    -Davacının hava taşıma işinde çalıştığından iş kanununun 4/a maddesi gereğince iş kanunu hükümlerine tabi olmadığı ancak Hava İş Sendikas ı üyesi olduğundan işyerinde uygulanan 19. dönem toplu iş sözleşmesi hükümlerinden yararlandığı ve Teftiş kurulu Başkanlığının 8.2/2005 tarihli soruşturma raporu doğrultusunda, davacının ortaklık ve ortaklık personeli hakkında şeref ve.</code> | <code>[-0.00802378449589014, 0.03146154806017876, 0.039876192808151245, -0.002182986354455352, 0.009204964153468609, ...]</code> |
424
+ | <code>#### Belediye ve mücavir alan dışındaki köylerde bulunan taşınmalara ilişkin zamanında emlak vergisi bildirimi verilmemesi halinde ceza uygulaması hk.<br><br>Sayı: 85373914-175.01[66.01.04]-100Tarih: 07/09/2015<br><br>| **T.C.** **GELİR İDARESİ BAŞKANLIĞI** **MANİSA VERGİ DAİRESİ BAŞKANLIĞI** **Mükellef Hizmetleri Grup Müdürlüğü** | | | | |<br>| --- | --- | --- | --- | --- |<br>| | | | | |<br>| Sayı | : | 85373914-175.01[66.01.04]-100 | | 07/09/2015 |<br>| Konu | : | Emlak Vergisi Kanunu | | |<br>| | | | | |<br><br>İlgide kayıtlı özelge talep formunuzda, Belediyeniz yetki alanında bulunan;<br><br> <br><br><br>- köylerde yer alan, emlak vergisine tabi tutulmayan gayrimenkullerin veraset yoluyla intikali üzerine varisler tarafından süresinde veya bu gayrimenkullerin 2014 yılından önce mülk edinilmeleri nedeniyle mülk edinen mükellefler tarafından taşınmazın edinildiği yıl içerisinde bildirimde bulunulmaması durumlarında Belediyenizce ceza uygulamasında bulunulup bulunmayacağı,</code> | <code>[-0.008330251090228558, 0.029900941997766495, 0.024914998561143875, -0.0007786178612150252, -0.0014259261079132557, ...]</code> |
425
+ | <code>Öte yandan, Gelir Vergisi Kanununun 65 inci maddesinde, "*Her türlü serbest meslek faaliyetinden doğan kazançlar serbest meslek kazancıdır.*<br><br>*Serbest meslek faaliyeti; sermayeden ziyade şahsi mesaiye, ilmi veya mesleki bilgiye veya ihtisasa dayanan ve ticari mahiyette olmıyan işlerin işverene tabi olmaksızın şahsi sorumluluk altında kendi nam ve hesabına yapılmasıdır...*" hükmüne yer verilmiştir.</code> | <code>[-0.005017167888581753, 0.02980973944067955, 0.0245507825165987, 0.002575532766059041, 0.01661611907184124, ...]</code> |
426
+ * Loss: [<code>MSELoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#mseloss)
427
+
428
+ ### Training Hyperparameters
429
+ #### Non-Default Hyperparameters
430
+
431
+ - `eval_strategy`: steps
432
+ - `per_device_train_batch_size`: 64
433
+ - `per_device_eval_batch_size`: 64
434
+ - `learning_rate`: 0.0001
435
+ - `num_train_epochs`: 1
436
+ - `warmup_ratio`: 0.1
437
+ - `bf16`: True
438
+ - `load_best_model_at_end`: True
439
+
440
+ #### All Hyperparameters
441
+ <details><summary>Click to expand</summary>
442
+
443
+ - `overwrite_output_dir`: False
444
+ - `do_predict`: False
445
+ - `eval_strategy`: steps
446
+ - `prediction_loss_only`: True
447
+ - `per_device_train_batch_size`: 64
448
+ - `per_device_eval_batch_size`: 64
449
+ - `per_gpu_train_batch_size`: None
450
+ - `per_gpu_eval_batch_size`: None
451
+ - `gradient_accumulation_steps`: 1
452
+ - `eval_accumulation_steps`: None
453
+ - `torch_empty_cache_steps`: None
454
+ - `learning_rate`: 0.0001
455
+ - `weight_decay`: 0.0
456
+ - `adam_beta1`: 0.9
457
+ - `adam_beta2`: 0.999
458
+ - `adam_epsilon`: 1e-08
459
+ - `max_grad_norm`: 1.0
460
+ - `num_train_epochs`: 1
461
+ - `max_steps`: -1
462
+ - `lr_scheduler_type`: linear
463
+ - `lr_scheduler_kwargs`: {}
464
+ - `warmup_ratio`: 0.1
465
+ - `warmup_steps`: 0
466
+ - `log_level`: passive
467
+ - `log_level_replica`: warning
468
+ - `log_on_each_node`: True
469
+ - `logging_nan_inf_filter`: True
470
+ - `save_safetensors`: True
471
+ - `save_on_each_node`: False
472
+ - `save_only_model`: False
473
+ - `restore_callback_states_from_checkpoint`: False
474
+ - `no_cuda`: False
475
+ - `use_cpu`: False
476
+ - `use_mps_device`: False
477
+ - `seed`: 42
478
+ - `data_seed`: None
479
+ - `jit_mode_eval`: False
480
+ - `use_ipex`: False
481
+ - `bf16`: True
482
+ - `fp16`: False
483
+ - `fp16_opt_level`: O1
484
+ - `half_precision_backend`: auto
485
+ - `bf16_full_eval`: False
486
+ - `fp16_full_eval`: False
487
+ - `tf32`: None
488
+ - `local_rank`: 0
489
+ - `ddp_backend`: None
490
+ - `tpu_num_cores`: None
491
+ - `tpu_metrics_debug`: False
492
+ - `debug`: []
493
+ - `dataloader_drop_last`: False
494
+ - `dataloader_num_workers`: 0
495
+ - `dataloader_prefetch_factor`: None
496
+ - `past_index`: -1
497
+ - `disable_tqdm`: False
498
+ - `remove_unused_columns`: True
499
+ - `label_names`: None
500
+ - `load_best_model_at_end`: True
501
+ - `ignore_data_skip`: False
502
+ - `fsdp`: []
503
+ - `fsdp_min_num_params`: 0
504
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
505
+ - `fsdp_transformer_layer_cls_to_wrap`: None
506
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
507
+ - `deepspeed`: None
508
+ - `label_smoothing_factor`: 0.0
509
+ - `optim`: adamw_torch
510
+ - `optim_args`: None
511
+ - `adafactor`: False
512
+ - `group_by_length`: False
513
+ - `length_column_name`: length
514
+ - `ddp_find_unused_parameters`: None
515
+ - `ddp_bucket_cap_mb`: None
516
+ - `ddp_broadcast_buffers`: False
517
+ - `dataloader_pin_memory`: True
518
+ - `dataloader_persistent_workers`: False
519
+ - `skip_memory_metrics`: True
520
+ - `use_legacy_prediction_loop`: False
521
+ - `push_to_hub`: False
522
+ - `resume_from_checkpoint`: None
523
+ - `hub_model_id`: None
524
+ - `hub_strategy`: every_save
525
+ - `hub_private_repo`: None
526
+ - `hub_always_push`: False
527
+ - `gradient_checkpointing`: False
528
+ - `gradient_checkpointing_kwargs`: None
529
+ - `include_inputs_for_metrics`: False
530
+ - `include_for_metrics`: []
531
+ - `eval_do_concat_batches`: True
532
+ - `fp16_backend`: auto
533
+ - `push_to_hub_model_id`: None
534
+ - `push_to_hub_organization`: None
535
+ - `mp_parameters`:
536
+ - `auto_find_batch_size`: False
537
+ - `full_determinism`: False
538
+ - `torchdynamo`: None
539
+ - `ray_scope`: last
540
+ - `ddp_timeout`: 1800
541
+ - `torch_compile`: False
542
+ - `torch_compile_backend`: None
543
+ - `torch_compile_mode`: None
544
+ - `dispatch_batches`: None
545
+ - `split_batches`: None
546
+ - `include_tokens_per_second`: False
547
+ - `include_num_input_tokens_seen`: False
548
+ - `neftune_noise_alpha`: None
549
+ - `optim_target_modules`: None
550
+ - `batch_eval_metrics`: False
551
+ - `eval_on_start`: False
552
+ - `use_liger_kernel`: False
553
+ - `eval_use_gather_object`: False
554
+ - `average_tokens_across_devices`: False
555
+ - `prompts`: None
556
+ - `batch_sampler`: batch_sampler
557
+ - `multi_dataset_batch_sampler`: proportional
558
+
559
+ </details>
560
+
561
+ ### Training Logs
562
+ | Epoch | Step | Training Loss | mse-dev_negative_mse | mse-test_negative_mse |
563
+ |:------:|:----:|:-------------:|:--------------------:|:---------------------:|
564
+ | 0 | 0 | - | -0.1757 | - |
565
+ | 0.2228 | 1000 | 0.0001 | - | - |
566
+ | 0.4456 | 2000 | 0.0001 | - | - |
567
+ | 0.6684 | 3000 | 0.0 | - | - |
568
+ | 0.8913 | 4000 | 0.0 | - | - |
569
+ | 1.0 | 4488 | - | - | -0.1758 |
570
+
571
+
572
+ ### Framework Versions
573
+ - Python: 3.12.4
574
+ - Sentence Transformers: 3.3.1
575
+ - Transformers: 4.48.0
576
+ - PyTorch: 2.4.1+cu121
577
+ - Accelerate: 1.0.1
578
+ - Datasets: 2.19.0
579
+ - Tokenizers: 0.21.0
580
+
581
+ ## Citation
582
+
583
+ ### BibTeX
584
+
585
+ #### Sentence Transformers
586
+ ```bibtex
587
+ @inproceedings{reimers-2019-sentence-bert,
588
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
589
+ author = "Reimers, Nils and Gurevych, Iryna",
590
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
591
+ month = "11",
592
+ year = "2019",
593
+ publisher = "Association for Computational Linguistics",
594
+ url = "https://arxiv.org/abs/1908.10084",
595
+ }
596
+ ```
597
+
598
+ #### MSELoss
599
+ ```bibtex
600
+ @inproceedings{reimers-2020-multilingual-sentence-bert,
601
+ title = "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation",
602
+ author = "Reimers, Nils and Gurevych, Iryna",
603
+ booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing",
604
+ month = "11",
605
+ year = "2020",
606
+ publisher = "Association for Computational Linguistics",
607
+ url = "https://arxiv.org/abs/2004.09813",
608
+ }
609
+ ```
610
+
611
+ <!--
612
+ ## Glossary
613
+
614
+ *Clearly define terms in order to be accessible across audiences.*
615
+ -->
616
+
617
+ <!--
618
+ ## Model Card Authors
619
+
620
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
621
+ -->
622
+
623
+ <!--
624
+ ## Model Card Contact
625
+
626
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
627
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "BAAI/bge-m3",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 8,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.48.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.48.0",
5
+ "pytorch": "2.4.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e8a19fc41423eae812cf356c1854a0b7cf87e022c5b376c7e3efdba46c2853ea
3
+ size 1464876232
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4f7e21bec3fb0044ca0bb2d50eb5d4d8c596273c422baef84466d2c73748b9c
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 8192,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "sp_model_kwargs": {},
54
+ "tokenizer_class": "XLMRobertaTokenizer",
55
+ "unk_token": "<unk>"
56
+ }