Add new SentenceTransformer model
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +743 -0
- config.json +28 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,743 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- dataset_size:451949
|
8 |
+
- loss:MatryoshkaLoss
|
9 |
+
- loss:MultipleNegativesRankingLoss
|
10 |
+
base_model: BAAI/bge-m3
|
11 |
+
widget:
|
12 |
+
- source_sentence: 관리하는 범죄에 대해 어떤 경찰의 검거율이 매우 높은 수준이니?
|
13 |
+
sentences:
|
14 |
+
- 우리나라의 경우 무죄율은, 다른 국가들과 비교할 때 매우 낮은 편에 속하는 등 운영 면에 있어서 상당한 고효율을 보여주고 있으며, 제1심 형사공판사건
|
15 |
+
무죄율을 살펴보더라도 공판중심주의를 강조한 2006년 이래 상승세를 보이고 있으나(2016년 3.72% 기록), 전술(前述)한 영미법계 국가보다는
|
16 |
+
매우 낮은 무죄율을 보여주고 있다. 따라서 검찰과 경찰의 관계에 대하여 상당히 뿌리 깊은 논쟁이 계속 남아 있고 경우에 따라서는 권력기관 상호간의
|
17 |
+
감정적인 분쟁으로까지 비화되고 있으나, 검/경 수사권조정 문제는 무엇보다도 국민의 기본권을 최대한으로 존중해야 한다는 기본입장에서 검토되지
|
18 |
+
않으면 안 된다. 즉 수사지휘권의 문제를 국가기관 간의 권한 대립의 문제로 볼 것이 아니라 과연 검사의 사법경찰에 대한 지휘ㆍ감독이 국민의
|
19 |
+
인권보호에 기여하는가 또한 형사사법정의의 실현에 유익한 것인가라는 측면에서 논의되어야 할 것이다.
|
20 |
+
- 서울시는 11월부터 공영주차 요금을 5분 단위로 부과하도록 한 '주차장 설치 및 관리 조례 개정안'을 공포했다고 30일 밝혔다. 개정 조례안에
|
21 |
+
따르면 서울시 공영주차장 1급지 기준으로 기존에는 5분 내로 주차했을 경우 1000원을 내야했지만 11월부터는 절반인 500원만 내면 된다.
|
22 |
+
이와 함께 시는 이날 주차장 설치 및 관리 기준이 되는 자동차의 범위에 '이륜자동차'를 포함하고 주차장 건설 융자대상을 5면 이상의 소규모
|
23 |
+
주차장까지 확대하는 내용의 조례 개정안을 입법 예고했다. 또 기존 '여행주차장' 명칭을 '여성우선주차장'으로 변경하고 여성우선주차장을 확장형
|
24 |
+
주차구획에 우선 설치하도록 했다. '도로명주소법'이 시행됨에 따라 조례에 규정된 기존 도로명을 새주소도로명으로 정비하고 시장이 주차요금을 조정할
|
25 |
+
수 있는 범위를 30%에서 50%로 확대해 주차수요를 지역 여건 및 환경변화에 따라 탄력적으로 관리할 수 있도록 할 예정이다. 이번 개정안은
|
26 |
+
부서 협의, 법제심사, 조례규칙심의회 의결, 시의회 의결 등 입법 절차를 거쳐 시행된다.
|
27 |
+
- 해양경찰이 관할하는 범죄에 대한 검거율은 매우 높은 수준으로 2011년 98.9%, 2012년 검거율 98.8%에 이르고 있어 거의 모든 범죄자가
|
28 |
+
검거되는 것을 알 수 있다. 이례적인 것은 범죄발생건수에 비해 검거인원이 30%가 되지 않는데 이는 동일인이 여러 건의 범죄를 저지렀기 때문으로
|
29 |
+
볼 수 있다. 해양범죄는 육상범죄와는 달리 같은 범죄 또는 비슷한 범죄를 반복으로 행하는 경우가 많다. 수산업법 위반의 경우를 예로 들면 동일한
|
30 |
+
사람이 금지된 행위를 반복하여 행하거나, 한 사람이 여러 가지를 동시에 위반하는 경우가 많다. 범죄가 반복적으로 이루어지는 경우가 많기 때문에
|
31 |
+
범죄발생건수에 비해 검거인원이 적은 것으로 볼 수 있다. 구속자는 매우 적은 것으로 나타나고 있는데 이는 불구속수사의 원칙이 해양경찰에서 철저히
|
32 |
+
지켜지고 있음을 보여주고 있다.
|
33 |
+
- source_sentence: 정수기 성능검사기준에서 유기중금속을 시험하는 항목은 어떤 필터에 적용되니?
|
34 |
+
sentences:
|
35 |
+
- '정수기 성능검사기준 강화
|
36 |
+
|
37 |
+
□ 정수기에 대한 관리를 강화하기 위하여 “먹는물관리법”에 근거한 “정수기의 기준․규격 및 검사기관 지정고시”를 11월 24일부로 개정․시행한다.
|
38 |
+
○ 이번 고시 개정은 현행 정수기관리제도의 문제점을 개선하기 위하여 2003년에 「먹는물 관련기기 개선방안」에 대한 연구사업을 추진하였고,
|
39 |
+
금년에는 전문가 토론회, 자문회의, 세미나 등을 개최하여 관련 학계, 소비자, 전문가의 다양한 의견을 수렴하여 추진되었다. □ 이번에 개정․시행되는
|
40 |
+
주요 개선내용은 다음과 같다. ○ 정수기 성능검사의 내실화를 기하기 위하여
|
41 |
+
|
42 |
+
- 기존에는 일반성능 항목(냄새, 맛, 색도, 탁도, 일반세균 등 5항목)과 특수성능 항목(총트리할로메탄 등 43항목)에 대해 조제수(일반세균제외)를
|
43 |
+
사용하여 성능을 검사하고, 기타 수질기준 항목에 대해서는 먹는물수질기준 적합여부만을 검사하였으나,
|
44 |
+
|
45 |
+
⇒ 일반성능 검사항목 중 조제수로 사용하는 수돗물에서는 대부분 일반세균이 검출되지 않으므로 동 항목을 수돗물에서 검출빈도가 높은 소독부산물인
|
46 |
+
‘클로로포름’으로 대체하고,
|
47 |
+
|
48 |
+
⇒ 일반성능 및 특수성능 검사항목 이외의 항목 중 건강상 유해영향 물질과 소독부산물질(페놀 등 33항목)은 정수기 유출수가 유입수 함유농도를
|
49 |
+
초과하는지 여부를 의무적으로 검사토록 하였으며,
|
50 |
+
|
51 |
+
⇒ 정수성능 저하에 따른 소비자들의 불만을 해소하기 위해 성능검사 제거율을 냄새․맛․탁도 항목은 기존 80%에서 90%로, 색도는 70%에서
|
52 |
+
80%로 상향 조정하였으며, 클로로포름의 제거율 기준을 80%로 신설하였다. ※ 간이정수기(유효정수량 500ℓ이하)는 현행대로 성능검사를 실시하되,
|
53 |
+
표시사항에 “간이정수기”를 표기하도록 의무화
|
54 |
+
|
55 |
+
○ 또한, 시중에 판매되는 정수기의 유통관리를 강화하기 위하여
|
56 |
+
|
57 |
+
- 기존에는 연간 1회 표본을 추출하여 수거검사를 실시하였으나
|
58 |
+
|
59 |
+
⇒ 앞으로는 시중에 유통되는 모든 정수기 제품을 모델별로 수거하여 검사를 실시하고, 최초 검사시에 비해 정수성능이 현저히 떨어지는 제품을 제조․수입․판매한
|
60 |
+
자에 대하여는 먹는물 관리법에 따라 영업장폐쇄 등 행정처분을 실시할 계획이다. - 기존에는 정수기 필터의 원산지, 제조원 등 표시기준이 정해져있지
|
61 |
+
않아 불량필터가 시중에 유통되어 정수기의 품질을 떨어뜨리는 주요인이 됨에 따라
|
62 |
+
|
63 |
+
⇒ 정수기 품질검사 신청시 필터의 원산지 증명서류를 제출토록하는 한편, 필터의 원산지, 제조원, 교체시기 등을 반드시 표시하도록 정수기 필터의
|
64 |
+
표시기준을 신설하였다. ※ 정수기 필터의 표시기준 규정은 고시일로부터 6개월 이후부터 시행
|
65 |
+
|
66 |
+
- 소규모 정수기 제조업체가 도산 등의 사유로 부품공급과 A/S가 불가능하게 되어 소비자가 피해를 입는 것을 방지하기 위하여
|
67 |
+
|
68 |
+
⇒ 정수기 품질검사기관 내에 소비자보호센터를 설치하여 소비자상담, 부품공급, A/S 등 소비자 보호활동을 실시하도록 하였다.'
|
69 |
+
- '정수기 성능검사기준 강화<br>□ 정수기필터 규격화 및 성능기준 설정계획안<br>○ 필터 표준규격, 시험방법을 마련하고, 필터의 특성․기능에
|
70 |
+
따라 검사항목 제정 및 인증제 실시 <table><tbody><tr><td>필터종류</td><td>특징 및 기능</td><td>시험항목 및
|
71 |
+
방법</td></tr><tr><td> 한외여과 필터</td><td> 0.1 ~ 0.01 μm 미립자, 대장균, 세균류 제거</td><td>부유물질미생물
|
72 |
+
: 대장균군, 일반세균</td></tr><tr><td> 역삼투막 필터</td><td> 0.0001 μm 유․무기화합물, 미생물</td><td>유해중금속
|
73 |
+
: 납, 비소, 수은, 6가크롬,카드뮴, 세레늄, 망간, 철, 알루미늄, 아연, 구리무기물 : 경도, 암모니아성질소, 황산이온, 시안, 불소,
|
74 |
+
염소이온, 질산성질소미생물 : 대장균군, 일반세균</td></tr><tr><td> 이온교환수지 필터</td><td> 양이온 또는 음이온 제거</td><td>
|
75 |
+
이온성 물질(양이온, 음이온)</td></tr><tr><td> 활성탄 필터</td><td> 잔류염소, 유기물 제거 맛, 냄새 제거</td><td>
|
76 |
+
소독제 및 소독 부산물</td></tr></tbody></table>'
|
77 |
+
- 백퍼센트 상훈이 '드림팀' 최고 에이스로 등극했다. 7일 오전 방송된 KBS 2TV '출발드림팀2'에 출연한 상훈은 장애물 경기 첫 출연과
|
78 |
+
동시에 우승을 차지해 '최강운동돌'의 탄생을 알렸다. 이날 상훈은 통계청 직원들을 상대로 종합장애물 5종 경기에 나서면서 뛰어난 집중력과 균형성을
|
79 |
+
자랑했다. 상훈은 1단계부터 5단계까지 차분하면서도 타고난 순발력으로 경기를 이끌어갔다. 특히 상훈은 1단계에서는빠른 스피드로 최고기록을 냈으며,
|
80 |
+
3단계에서는 엄청난 집념과 발 힘으로 영화 같은 한 장면을 연출하며, 5단계까지 완주해 현장에 응원하러 와 준 수많은 팬들뿐만 아니라 '드림팀'과
|
81 |
+
'통계청' 직원들의뜨거운 박수와 호응을 이끌어냈다. 상훈은 소속사를 통해 "완주가 목표였는데 내가 유일한 완주자였다"며 "이번에 백퍼센트 앨범을위해서
|
82 |
+
몸을 만들었던 게 도움이 된 것 같다"고 전했다.& lt;연예부>
|
83 |
+
- source_sentence: 어떤 사람이 공시 규정을 따랐을 때 P2P 플랫폼에 관한 기본 데이터를 줘야 하는 거야?
|
84 |
+
sentences:
|
85 |
+
- '□ (공시규제: 실적 정보) 동등 계층간 통신망(P2P) 플랫폼으로 하여금 과거 또는 미래의 실적에 대한 정보를 COBS 4.6에 따라 공개하도록
|
86 |
+
함. ○ 과거 실적정보(과거 6개월 동안의 부도율 등)를 공시할 때에는 이러한 실적이 반복되지 않을 수 있다는 경고를 해야 하고, 좋은 실적만을
|
87 |
+
공시하는 것을 예방하기 위해 과거 1년간의 실적은 반드시 포함되어야 하고 더불어 과거 5년간의 실적 정보도 포함되어야 함. ○ 미래의 실적에
|
88 |
+
대한 추정은 합리적인 가정과 객관적인 데이터에 기반해야 하고 수수료 및 다른 비용이 실적에 미치는 영향에 대해서도 공시해야 함. □ (공시규제:
|
89 |
+
담보 등 안전장치) 동등 계층간 통신망(P2P) 업체는 ‘보증(guaranteed)’, ‘보호(protected)’, ‘안전(secure)’하다는
|
90 |
+
문구를 사용할 경우 공정하고, 명확하며, 오해의 소지가 없게 공시하도록 함. ○ 업체는 소비자가 명확하게 이해할 수 있도록 정보를 제공해야
|
91 |
+
하고, 이러한 장치에 한계가 있다면 이를 설명해야 함.'
|
92 |
+
- 한국항로표지기술원(원장 박계각) 국립등대박물관은 코로나19로 위축된 국민의 문화향유 증진을 위해 등대 만들기 키트와 컬러링 북으로 구성된 교구재
|
93 |
+
드림 이벤트를 진행중이라고 12일 밝혔다. 이번 이벤트는 집콕 생활의 답답함과 무료함을 느끼는 아이들을 대상으로 봄 꽃 같은 설렘을 느낄 수
|
94 |
+
있도록 준비했으며, 등대박물관에서 운영 중인 등대스탬프 투어 커뮤니티 ‘안녕, 등대’(cafe.naver.com/lighthousetour)에서
|
95 |
+
참여가 가능하다. 누구나 참여할 수 있으며 ‘안녕, 등대’ 커뮤니티에 ‘등대와 아이가 함께 나온 사진’을 이벤트 게시판에 올리고 참여댓글을
|
96 |
+
달면 된다. 선착순 100세트 한정으로 진행되는 이번 이벤트는 사진에 나온 아이의 수만큼 교구재 꾸러미가 지급되며 상품 소진 시까지 진행된다.
|
97 |
+
국립등대박물관 관계자는 ‘코로나19로 지친 아이들에게 교구재 꾸러미를 통해 즐거움과 재미를 느낄 수 있는 기회가 되길 바란다’고 말했다.
|
98 |
+
- '□ (공시규제: 기본원칙) 공시규제의 핵심은 동등 계층간 통신망(P2P) 업체로부터의 모든 정보는 공정하고(fair), 명확하며(clear),
|
99 |
+
오해의 소지가 없도록(notmisleading) 공시되어야 한다는 것임. (PRIN 7, COBS 4.2.1R(1))
|
100 |
+
|
101 |
+
○ 이를 통해 소비자에게 제공되는 모든 정보는 정확하고 소비자의 니즈에 충분히 부합하는 정보가 제공되어야 함. ○ 실제 금융감독청(FCA)에서
|
102 |
+
시장조사를 한 바에 따르면 여러 플랫폼들이 리스크에 대한 경고는 줄이고 수익만을 강조하거나, 오해의 소지가 있거나 비현실적으로 낙관적인 인상을
|
103 |
+
주는 정보를 제공하거나, 중요한 정보를 경시하는 경향이 있었음. ○ 예를 들면, 웹사이트 배너(banner)에 있는 수익률은 수수료 등 비용,
|
104 |
+
부도율, 세금 등의 영향에 대한 설명 없이 제공되었고, 상품과 연관된 리스크에 대한 정보는 찾기 어려운 곳에 배치하는 등의 문제가 발견되었음.
|
105 |
+
○ 또한 예금이자율과 비교하여 마치 투자자가 예금자로 오판할 수 있도록 하는 경우도 있었음. □ (공시규제: P2P 플랫폼 정보) P2P 플랫폼에
|
106 |
+
대한 기본 정보를 투자자에게 제공하도록 함. ○ 플랫폼의 세부 연락처, 인가(full authorisation) 증서, 투자자에게 제공되는
|
107 |
+
실적리포트의 세부사항, 플랫폼의 이해상충 관련 내부정책(policy), 비용 및 수수료에 관한 정보, 고객 자금 보호장치에 관한 세부 내용
|
108 |
+
등이 제공되어야 함. ○ 또한 플랫폼과 투자자간 핵심적인 권리와 의무를 규정한 계약서가 거래가 발생하기 전 적정한 시간 내에 제공되어야 함.'
|
109 |
+
- source_sentence: 어떤 전공을 하는 의료인이 강원대병원 소속이면서 일주일에 한 번 화천군에 파견돼?
|
110 |
+
sentences:
|
111 |
+
- 국회 국토교통위원회 소속 김은혜 국민의힘 의원이 청년에 대한 주택담보비율(LTV) 완화를 촉구했다. 김 의원은 13일 페이스북에 글을 올려
|
112 |
+
“민주당이 발표한 ‘누구나 집 프로젝트’를 봤다. 격려를 해주고 싶지만, 의문점이 가시지 않는다”며 “결론적으로는 집을 살 수 있게 해주는
|
113 |
+
정책이 아니라 사는 걸 불가능하게 만드는 정책”이라고 지적했다. 그는 “10년 살고 내 집 마련 하는 정책이 지금까지 없지 않았다. 근데 10년
|
114 |
+
공공임대 주민들은 왜 힘들어했을까”라며 “정부는 정부대로 ‘내 집 마련’ 홍보하면서 주민들에겐 정교한 설계 없는 분양가 혹은 감정평가액이라는
|
115 |
+
자의적인 기준에 혹사당하게 했기 때문”이라고 말했다. 이어 “시장경제 200년 역사상 공짜 점심은 없다”며 만일 주택 가격이 오르면 입주자들이
|
116 |
+
원리금 부담 때문에, 떨어지면 사업자가 입주자들의 분양 포기로 피해를 �� 것이라고 주장했다. 김 의원은 “현재의 부동산 규제, 옥죄는 대출을
|
117 |
+
보면 현금 부자에게만 집을 살 수 있도록 하고 있다”며 “집을 사고 싶다는데 정부가 팔 걷고 나서 ‘대출 안 된다’ 개입하고 40~60% 선
|
118 |
+
긋는 나라, 찾기 어렵다”고 비판했다. 그러면서 “문재인 정부 분들은 진작 빚내서 집 사놓고선 청년들에겐 월급은커녕 대출로도 집값을 충당할
|
119 |
+
수 없도록 자산 양극화의 수렁에 내몰고 있다”며 “갚을 능력이 있는 청년의 생애 최초 집 마련에 LTV를 90% 이상 풀어주는 각오 없이 절망의
|
120 |
+
고리를 끊을 수 없다”고 강조했다. 아울러 “대출의 상환 기간 또한 30년 이상으로 늘려 주택 구입 부담을 줄일 방법을 논의해 달라”고 촉구했다.
|
121 |
+
- 속보=강원도내 예방접종센터가 2차 접종과 6개 시·군에서의 추가 신규 개소를 앞두고 인력난에 비상이 걸렸다. 20일 오전 찾은 춘천시 예방접종센터,
|
122 |
+
최근 80대 고령자가 하루 사이 주사를 두 번 맞은 사고(본보 지난 19일자 1면 보도)가 일어난 뒤 근로자를 임시 채용하고 필수 확인 장소에
|
123 |
+
보건소 직원을 배치하는 등 안전한 접종을 위해 안간힘을 쓰고 있는 모습을 보였다. 그러나 여전히 인력이 충분치 않아 자원봉사자와 예방접종 외
|
124 |
+
업무를 맡고 있는 공무원들이 자발적으로 안내를 맡지 않으면 원활한 진행이 어려운 상황이었다. 더욱이 춘천뿐 아니라 원주, 강릉, 삼척시가 22일부터
|
125 |
+
시작되는 화이자 백신 2차 접종을 앞두고 어려움을 겪고 있다. 원주는 공무원뿐 아니라 자원봉사자에 지역 군부대 인력까지 동원해야 하는 상황이다.
|
126 |
+
강릉은 시청에서 근무하는 행정직 공무원을 하루 13명씩 차출하고, 자원봉사자를 모집하는 등 인력 마련을 서두르고 있지만 한번에 많은 인원이
|
127 |
+
들이닥칠 경우 안전한 접종이 가능할지는 미지수다. 접종을 아직 시작하지 않은 군단위 지역은 상황이 더욱 심각하다. 특히 최근 코로나19 환자가
|
128 |
+
급증하면서 역학조사, 환자 관리, 예방접종 업무가 모두 가중돼 보건소의 인력난은 세 배가 됐다. 양구군은 29일부터 시작되는 예방접종에 보건소
|
129 |
+
전 직원을 총동원하겠다는 방침이지만 당장 코로나19 환자가 발생할 경우 인력 공백이 발생할 수밖에 없다. 지난 16일부터 접종을 시작한 인제군도
|
130 |
+
군청 직원 등 분야를 가리지 않고 공공기관 근로자들이 예방접종 업무에 투입되고 있는 실정이다. 강원도는 안전한 예방접종을 위해 예산 지원을
|
131 |
+
지속적으로 요청하고, 일선 시·군 인력난 해소에 적극 나서기로 했다. 도 관계자는 “인력 지원을 위해 2억5,000만원의 예산을 최근 확보했다”며
|
132 |
+
“지원을 신청한 시·군에 우선 분배하고 지속적으로 수요를 파악할 계획”이라고 말했다.
|
133 |
+
- 【화천】화천군보건의료원의 산부인과 진료에 차질이 우려된다. 군보건의료원은 그간 산부인과 진료를 하던 공중보건의가 15일 소집해제되지만 후임
|
134 |
+
공중보건의를 확보하지 못해 당분간 임시진료체제로 운영하기로 했다. 우선 강원대병원 산부인과 교수를 초빙해 20일부터 5월 말까지 주 1회,
|
135 |
+
매주 화요일에만 임시진료를 실시하기로 하면서 지역 임산부들의 불편이 예상되고 있다. 의료원은 그간 공중보건의를 배치받아 산부인과를 운영했으나
|
136 |
+
올해는 산부인과 공중보건의를 확보받지 못해 현재 산부인과 전문의 채용 공고를 게시한 상태다. 그러나 연봉 2억원대를 제시해도 농촌지역 근무를
|
137 |
+
선호하는 전문의가 많지 않아 채용공고 기간 지원자가 있을지는 장담하지 못하고 있다. 또 힘들게 전문의를 채용하더라도 인건비에 대한 국비 지원이
|
138 |
+
없고 도비(30%)와 군비(70%)로만 부담해야 하는 어려움도 안고 있다. 지역에서는 농촌에서 공중보건의의 비중이 큰 만큼 이들이 떠난 빈자리를
|
139 |
+
채우는 대책을 정부 차원에서 마련, 의료공백이 발생하지 않도록 조치해야 한다는 지적이 나오고 있다. 특히 공중보건의 수급이 불분명한데도 정부
|
140 |
+
지원이 없어 농촌 주민들만 불이익을 받고 의료 사각지대에 내몰리고 있다는 불만이 커지고 있다. 이재성 화천군보건의료원장은 “농촌의 빈약한 의료환경은
|
141 |
+
주민들의 이탈 또는 출산율 저하와 무관하지 않은 만큼 정부차원에서 의료복지행정의 폭을 확대해야 한다”고 말했다.
|
142 |
+
- source_sentence: 어떤 사람의 연금 수령액을 증가시키면 연금재정이 어려워져?
|
143 |
+
sentences:
|
144 |
+
- '특허청장, 이차전지 조립장비 강소기업 현장방문
|
145 |
+
|
146 |
+
□ 특허청은 2006년부터 모태펀드 특허계정에 출자하여 벤처캐피탈이 우수한 특허를 보유한 기업을 발굴하여 투자할 수 있도록 지원하는 역할을
|
147 |
+
수행하고 있다. * 특허청(출자) → 모태펀드(출자) → 벤처캐피탈(투자) → 우수특허 중소·벤처기업
|
148 |
+
|
149 |
+
** 예산 1,900억원 출자, 47개 子조합 결성(총 결성액 1조 1,165억원), 총 668개 기업에 9,878억원 투자(2019.6월
|
150 |
+
누계)
|
151 |
+
|
152 |
+
ㅇ 투자자인 대덕인베스트먼트㈜는 2013년 모태펀드(특허계정)에서 60억원을 출자받아 펀드를 결성하였고, ㈜엠플러스가 보유한 우수한 특허를
|
153 |
+
높이 평가하여 2016년 20억원을 투자한 후 코스닥 상장을 통해 회수에 성공했다. □ 박원주 특허청장은 “부품·소재·장비 분야에서 일본 등
|
154 |
+
선도국의 기술을 대체하고 신기술을 개발하여 특허로 보호받을 수 있는 강소 기업이 지속적으로 나와야 한다.”면서 “앞으로도 엠플러스와 같은 소재·부품·장비
|
155 |
+
기업들이 특허를 바탕으로 자금을 조달하여 성장할 수 있도록 지식재산 금융 지원을 계속해서 확대해 나가겠다.”
|
156 |
+
|
157 |
+
고 밝혔다.'
|
158 |
+
- 한편, 제19대국회에서는 소득대체율을 높이지 않는 대신, 연금급여산식의 기준이 되는 기준소득월액의 상ㆍ하한액을 인상함으로써 가입자 전체의 소득평균을
|
159 |
+
높여 보험급여를 인상하는 방안도 논의되었다. 이 방안은 소득재분배 부문에 해당하는 국민연금의 A값을 상향하여 소득재분배 기능을 강화하는 장점을
|
160 |
+
가진 반면, 보험료가 인상되는 저소득층 가입자와 영세사업장, 그리고 고소득 사업장가입자와 사업장의 연금보험료 부담이 증가하기 때문에, 경제
|
161 |
+
및 산업계의 반발로 이어질 가능성도 있다. 또한 고소득 가입자들의 연급수급액의 증가는 시간의 경과에 따라 연금재정에 추가적인 부담을 주게 된다는
|
162 |
+
것이다.
|
163 |
+
- 다. 재정<br>□ 저출산·고령화의 진전으로 세원이 되는 생산가능인구의 비중은 줄어들고, 연금급여 및 의료비 지출 등은 늘어남에 따라 재정수지
|
164 |
+
부담은 가중될 전망<br>― 출산율이 하락하면 전체 인구 중 생산가능인구의 비율이 감소하고 따라서 세수 감소로 이어질 가능성<br>― 반면,
|
165 |
+
고령화로 인해 연금수급자가 증가하면 연금 및 의료비 등의 재정지출 확대로 이어질 가능성<br>― 국민연금 가입자 중 노령연금 수급율은 인구감소
|
166 |
+
및 은퇴자 증가에 따라 2010년 13.3%, 2030년 41.9%, 2050년 88.5%로 급증할 전망<br>□ IMF에 따르면 GDP 대비
|
167 |
+
재정수지는 생산가능인구비율 1% 증가 시 0.06%p 개선되는 반면, 노인인구 1% 증가시 0.46%p 악화<br>― 또한, OECD는 고령화로
|
168 |
+
인해 노인관련 재정지출이 급증해 주요국의 2050년 재정수지가 적자를 기록할 것으로 전망
|
169 |
+
pipeline_tag: sentence-similarity
|
170 |
+
library_name: sentence-transformers
|
171 |
+
---
|
172 |
+
|
173 |
+
# SentenceTransformer based on BAAI/bge-m3
|
174 |
+
|
175 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
176 |
+
|
177 |
+
## Model Details
|
178 |
+
|
179 |
+
### Model Description
|
180 |
+
- **Model Type:** Sentence Transformer
|
181 |
+
- **Base model:** [BAAI/bge-m3](https://huggingface.co/BAAI/bge-m3) <!-- at revision 5617a9f61b028005a4858fdac845db406aefb181 -->
|
182 |
+
- **Maximum Sequence Length:** 1536 tokens
|
183 |
+
- **Output Dimensionality:** 1024 tokens
|
184 |
+
- **Similarity Function:** Cosine Similarity
|
185 |
+
<!-- - **Training Dataset:** Unknown -->
|
186 |
+
<!-- - **Language:** Unknown -->
|
187 |
+
<!-- - **License:** Unknown -->
|
188 |
+
|
189 |
+
### Model Sources
|
190 |
+
|
191 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
192 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
193 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
194 |
+
|
195 |
+
### Full Model Architecture
|
196 |
+
|
197 |
+
```
|
198 |
+
SentenceTransformer(
|
199 |
+
(0): Transformer({'max_seq_length': 1536, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
200 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
201 |
+
(2): Normalize()
|
202 |
+
)
|
203 |
+
```
|
204 |
+
|
205 |
+
## Usage
|
206 |
+
|
207 |
+
### Direct Usage (Sentence Transformers)
|
208 |
+
|
209 |
+
First install the Sentence Transformers library:
|
210 |
+
|
211 |
+
```bash
|
212 |
+
pip install -U sentence-transformers
|
213 |
+
```
|
214 |
+
|
215 |
+
Then you can load this model and run inference.
|
216 |
+
```python
|
217 |
+
from sentence_transformers import SentenceTransformer
|
218 |
+
|
219 |
+
# Download from the 🤗 Hub
|
220 |
+
model = SentenceTransformer("seongil-dn/bge-m3-mrl-264")
|
221 |
+
# Run inference
|
222 |
+
sentences = [
|
223 |
+
'어떤 사람의 연금 수령액을 증가시키면 연금재정이 어려워져?',
|
224 |
+
'한편, 제19대국회에서는 소득대체율을 높이지 않는 대신, 연금급여산식의 기준이 되는 기준소득월액의 상ㆍ하한액을 인상함으로써 가입자 전체의 소득평균을 높여 보험급여를 인상하는 방안도 논의되었다. 이 방안은 소득재분배 부문에 해당하는 국민연금의 A값을 상향하여 소득재분배 기능을 강화하는 장점을 가진 반면, 보험료가 인상되는 저소득층 가입자와 영세사업장, 그리고 고소득 사업장가입자와 사업장의 연금보험료 부담이 증가하기 때문에, 경제 및 산업계의 반발로 이어질 가능성도 있다. 또한 고소득 가입자들의 연급수급액의 증가는 시간의 경과에 따라 연금재정에 추가적인 부담을 주게 된다는 것이다.',
|
225 |
+
'다. 재정<br>□ 저출산·고령화의 진전으로 세원이 되는 생산가능인구의 비중은 줄어들고, 연금급여 및 의료비 지출 등은 늘어남에 따라 재정수지 부담은 가중될 전망<br>― 출산율이 하락하면 전체 인구 중 생산가능인구의 비율이 감소하고 따라서 세수 감소로 이어질 가능성<br>― 반면, 고령화로 인해 연금수급자가 증가하면 연금 및 의료비 등의 재정지출 확대로 이어질 가능성<br>― 국민연금 가입자 중 노령연금 수급율은 인구감소 및 은퇴자 증가에 따라 2010년 13.3%, 2030년 41.9%, 2050년 88.5%로 급증할 전망<br>□ IMF에 따르면 GDP 대비 재정수지는 생산가능인구비율 1% 증가 시 0.06%p 개선되는 반면, 노인인구 1% 증가시 0.46%p 악화<br>― 또한, OECD는 고령화로 인해 노인관련 재정지출이 급증해 주요국의 2050년 재정수지가 적자를 기록할 것으로 전망',
|
226 |
+
]
|
227 |
+
embeddings = model.encode(sentences)
|
228 |
+
print(embeddings.shape)
|
229 |
+
# [3, 1024]
|
230 |
+
|
231 |
+
# Get the similarity scores for the embeddings
|
232 |
+
similarities = model.similarity(embeddings, embeddings)
|
233 |
+
print(similarities.shape)
|
234 |
+
# [3, 3]
|
235 |
+
```
|
236 |
+
|
237 |
+
<!--
|
238 |
+
### Direct Usage (Transformers)
|
239 |
+
|
240 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
241 |
+
|
242 |
+
</details>
|
243 |
+
-->
|
244 |
+
|
245 |
+
<!--
|
246 |
+
### Downstream Usage (Sentence Transformers)
|
247 |
+
|
248 |
+
You can finetune this model on your own dataset.
|
249 |
+
|
250 |
+
<details><summary>Click to expand</summary>
|
251 |
+
|
252 |
+
</details>
|
253 |
+
-->
|
254 |
+
|
255 |
+
<!--
|
256 |
+
### Out-of-Scope Use
|
257 |
+
|
258 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
259 |
+
-->
|
260 |
+
|
261 |
+
<!--
|
262 |
+
## Bias, Risks and Limitations
|
263 |
+
|
264 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
265 |
+
-->
|
266 |
+
|
267 |
+
<!--
|
268 |
+
### Recommendations
|
269 |
+
|
270 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
271 |
+
-->
|
272 |
+
|
273 |
+
## Training Details
|
274 |
+
|
275 |
+
### Training Hyperparameters
|
276 |
+
#### Non-Default Hyperparameters
|
277 |
+
|
278 |
+
- `per_device_train_batch_size`: 32
|
279 |
+
- `gradient_accumulation_steps`: 32
|
280 |
+
- `learning_rate`: 3e-05
|
281 |
+
- `weight_decay`: 0.01
|
282 |
+
- `warmup_ratio`: 0.05
|
283 |
+
- `fp16`: True
|
284 |
+
- `gradient_checkpointing`: True
|
285 |
+
- `gradient_checkpointing_kwargs`: {'use_reentrant': False}
|
286 |
+
- `batch_sampler`: no_duplicates
|
287 |
+
|
288 |
+
#### All Hyperparameters
|
289 |
+
<details><summary>Click to expand</summary>
|
290 |
+
|
291 |
+
- `overwrite_output_dir`: False
|
292 |
+
- `do_predict`: False
|
293 |
+
- `eval_strategy`: no
|
294 |
+
- `prediction_loss_only`: True
|
295 |
+
- `per_device_train_batch_size`: 32
|
296 |
+
- `per_device_eval_batch_size`: 8
|
297 |
+
- `per_gpu_train_batch_size`: None
|
298 |
+
- `per_gpu_eval_batch_size`: None
|
299 |
+
- `gradient_accumulation_steps`: 32
|
300 |
+
- `eval_accumulation_steps`: None
|
301 |
+
- `torch_empty_cache_steps`: None
|
302 |
+
- `learning_rate`: 3e-05
|
303 |
+
- `weight_decay`: 0.01
|
304 |
+
- `adam_beta1`: 0.9
|
305 |
+
- `adam_beta2`: 0.999
|
306 |
+
- `adam_epsilon`: 1e-08
|
307 |
+
- `max_grad_norm`: 1.0
|
308 |
+
- `num_train_epochs`: 3
|
309 |
+
- `max_steps`: -1
|
310 |
+
- `lr_scheduler_type`: linear
|
311 |
+
- `lr_scheduler_kwargs`: {}
|
312 |
+
- `warmup_ratio`: 0.05
|
313 |
+
- `warmup_steps`: 0
|
314 |
+
- `log_level`: passive
|
315 |
+
- `log_level_replica`: warning
|
316 |
+
- `log_on_each_node`: True
|
317 |
+
- `logging_nan_inf_filter`: True
|
318 |
+
- `save_safetensors`: True
|
319 |
+
- `save_on_each_node`: False
|
320 |
+
- `save_only_model`: False
|
321 |
+
- `restore_callback_states_from_checkpoint`: False
|
322 |
+
- `no_cuda`: False
|
323 |
+
- `use_cpu`: False
|
324 |
+
- `use_mps_device`: False
|
325 |
+
- `seed`: 42
|
326 |
+
- `data_seed`: None
|
327 |
+
- `jit_mode_eval`: False
|
328 |
+
- `use_ipex`: False
|
329 |
+
- `bf16`: False
|
330 |
+
- `fp16`: True
|
331 |
+
- `fp16_opt_level`: O1
|
332 |
+
- `half_precision_backend`: auto
|
333 |
+
- `bf16_full_eval`: False
|
334 |
+
- `fp16_full_eval`: False
|
335 |
+
- `tf32`: None
|
336 |
+
- `local_rank`: 0
|
337 |
+
- `ddp_backend`: None
|
338 |
+
- `tpu_num_cores`: None
|
339 |
+
- `tpu_metrics_debug`: False
|
340 |
+
- `debug`: []
|
341 |
+
- `dataloader_drop_last`: True
|
342 |
+
- `dataloader_num_workers`: 0
|
343 |
+
- `dataloader_prefetch_factor`: None
|
344 |
+
- `past_index`: -1
|
345 |
+
- `disable_tqdm`: False
|
346 |
+
- `remove_unused_columns`: True
|
347 |
+
- `label_names`: None
|
348 |
+
- `load_best_model_at_end`: False
|
349 |
+
- `ignore_data_skip`: False
|
350 |
+
- `fsdp`: []
|
351 |
+
- `fsdp_min_num_params`: 0
|
352 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
353 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
354 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
355 |
+
- `deepspeed`: None
|
356 |
+
- `label_smoothing_factor`: 0.0
|
357 |
+
- `optim`: adamw_torch
|
358 |
+
- `optim_args`: None
|
359 |
+
- `adafactor`: False
|
360 |
+
- `group_by_length`: False
|
361 |
+
- `length_column_name`: length
|
362 |
+
- `ddp_find_unused_parameters`: None
|
363 |
+
- `ddp_bucket_cap_mb`: None
|
364 |
+
- `ddp_broadcast_buffers`: False
|
365 |
+
- `dataloader_pin_memory`: True
|
366 |
+
- `dataloader_persistent_workers`: False
|
367 |
+
- `skip_memory_metrics`: True
|
368 |
+
- `use_legacy_prediction_loop`: False
|
369 |
+
- `push_to_hub`: False
|
370 |
+
- `resume_from_checkpoint`: None
|
371 |
+
- `hub_model_id`: None
|
372 |
+
- `hub_strategy`: every_save
|
373 |
+
- `hub_private_repo`: False
|
374 |
+
- `hub_always_push`: False
|
375 |
+
- `gradient_checkpointing`: True
|
376 |
+
- `gradient_checkpointing_kwargs`: {'use_reentrant': False}
|
377 |
+
- `include_inputs_for_metrics`: False
|
378 |
+
- `eval_do_concat_batches`: True
|
379 |
+
- `fp16_backend`: auto
|
380 |
+
- `push_to_hub_model_id`: None
|
381 |
+
- `push_to_hub_organization`: None
|
382 |
+
- `mp_parameters`:
|
383 |
+
- `auto_find_batch_size`: False
|
384 |
+
- `full_determinism`: False
|
385 |
+
- `torchdynamo`: None
|
386 |
+
- `ray_scope`: last
|
387 |
+
- `ddp_timeout`: 1800
|
388 |
+
- `torch_compile`: False
|
389 |
+
- `torch_compile_backend`: None
|
390 |
+
- `torch_compile_mode`: None
|
391 |
+
- `dispatch_batches`: None
|
392 |
+
- `split_batches`: None
|
393 |
+
- `include_tokens_per_second`: False
|
394 |
+
- `include_num_input_tokens_seen`: False
|
395 |
+
- `neftune_noise_alpha`: None
|
396 |
+
- `optim_target_modules`: None
|
397 |
+
- `batch_eval_metrics`: False
|
398 |
+
- `eval_on_start`: False
|
399 |
+
- `eval_use_gather_object`: False
|
400 |
+
- `batch_sampler`: no_duplicates
|
401 |
+
- `multi_dataset_batch_sampler`: proportional
|
402 |
+
|
403 |
+
</details>
|
404 |
+
|
405 |
+
### Training Logs
|
406 |
+
<details><summary>Click to expand</summary>
|
407 |
+
|
408 |
+
| Epoch | Step | Training Loss |
|
409 |
+
|:------:|:----:|:-------------:|
|
410 |
+
| 0.0091 | 1 | 15.81 |
|
411 |
+
| 0.0181 | 2 | 15.9499 |
|
412 |
+
| 0.0272 | 3 | 15.3393 |
|
413 |
+
| 0.0363 | 4 | 15.4563 |
|
414 |
+
| 0.0453 | 5 | 15.5322 |
|
415 |
+
| 0.0544 | 6 | 16.0348 |
|
416 |
+
| 0.0635 | 7 | 15.3445 |
|
417 |
+
| 0.0725 | 8 | 15.7129 |
|
418 |
+
| 0.0816 | 9 | 14.4393 |
|
419 |
+
| 0.0907 | 10 | 13.4846 |
|
420 |
+
| 0.0997 | 11 | 12.5233 |
|
421 |
+
| 0.1088 | 12 | 12.1728 |
|
422 |
+
| 0.1178 | 13 | 11.9232 |
|
423 |
+
| 0.1269 | 14 | 11.5308 |
|
424 |
+
| 0.1360 | 15 | 10.7525 |
|
425 |
+
| 0.1450 | 16 | 10.393 |
|
426 |
+
| 0.1541 | 17 | 9.7346 |
|
427 |
+
| 0.1632 | 18 | 9.4875 |
|
428 |
+
| 0.1722 | 19 | 9.2608 |
|
429 |
+
| 0.1813 | 20 | 8.7966 |
|
430 |
+
| 0.1904 | 21 | 8.5579 |
|
431 |
+
| 0.1994 | 22 | 8.4993 |
|
432 |
+
| 0.2085 | 23 | 8.1505 |
|
433 |
+
| 0.2176 | 24 | 8.5027 |
|
434 |
+
| 0.2266 | 25 | 7.9795 |
|
435 |
+
| 0.2357 | 26 | 7.5782 |
|
436 |
+
| 0.2448 | 27 | 7.68 |
|
437 |
+
| 0.2538 | 28 | 7.539 |
|
438 |
+
| 0.2629 | 29 | 7.5871 |
|
439 |
+
| 0.2720 | 30 | 7.2676 |
|
440 |
+
| 0.2810 | 31 | 6.9613 |
|
441 |
+
| 0.2901 | 32 | 6.89 |
|
442 |
+
| 0.2992 | 33 | 6.7585 |
|
443 |
+
| 0.3082 | 34 | 6.7286 |
|
444 |
+
| 0.3173 | 35 | 6.754 |
|
445 |
+
| 0.3263 | 36 | 6.7466 |
|
446 |
+
| 0.3354 | 37 | 6.6096 |
|
447 |
+
| 0.3445 | 38 | 6.5864 |
|
448 |
+
| 0.3535 | 39 | 6.5235 |
|
449 |
+
| 0.3626 | 40 | 6.5429 |
|
450 |
+
| 0.3717 | 41 | 6.4971 |
|
451 |
+
| 0.3807 | 42 | 6.4463 |
|
452 |
+
| 0.3898 | 43 | 6.332 |
|
453 |
+
| 0.3989 | 44 | 6.1275 |
|
454 |
+
| 0.4079 | 45 | 6.2551 |
|
455 |
+
| 0.4170 | 46 | 6.1372 |
|
456 |
+
| 0.4261 | 47 | 6.1075 |
|
457 |
+
| 0.4351 | 48 | 6.1408 |
|
458 |
+
| 0.4442 | 49 | 6.062 |
|
459 |
+
| 0.4533 | 50 | 5.9831 |
|
460 |
+
| 0.4623 | 51 | 5.9956 |
|
461 |
+
| 0.4714 | 52 | 5.8332 |
|
462 |
+
| 0.4805 | 53 | 5.7447 |
|
463 |
+
| 0.4895 | 54 | 5.9531 |
|
464 |
+
| 0.4986 | 55 | 5.911 |
|
465 |
+
| 0.5076 | 56 | 5.8576 |
|
466 |
+
| 0.5167 | 57 | 5.8116 |
|
467 |
+
| 0.5258 | 58 | 5.6564 |
|
468 |
+
| 0.5348 | 59 | 5.7289 |
|
469 |
+
| 0.5439 | 60 | 5.7514 |
|
470 |
+
| 0.5530 | 61 | 5.5991 |
|
471 |
+
| 0.5620 | 62 | 5.553 |
|
472 |
+
| 0.5711 | 63 | 5.4728 |
|
473 |
+
| 0.5802 | 64 | 5.6212 |
|
474 |
+
| 0.5892 | 65 | 5.6554 |
|
475 |
+
| 0.5983 | 66 | 5.4389 |
|
476 |
+
| 0.6074 | 67 | 5.3669 |
|
477 |
+
| 0.6164 | 68 | 5.5667 |
|
478 |
+
| 0.6255 | 69 | 5.4106 |
|
479 |
+
| 0.6346 | 70 | 5.3122 |
|
480 |
+
| 0.6436 | 71 | 5.4145 |
|
481 |
+
| 0.6527 | 72 | 5.3794 |
|
482 |
+
| 0.6618 | 73 | 5.269 |
|
483 |
+
| 0.6708 | 74 | 5.3583 |
|
484 |
+
| 0.6799 | 75 | 5.311 |
|
485 |
+
| 0.6890 | 76 | 5.2061 |
|
486 |
+
| 0.6980 | 77 | 5.133 |
|
487 |
+
| 0.7071 | 78 | 5.4036 |
|
488 |
+
| 0.7161 | 79 | 5.2761 |
|
489 |
+
| 0.7252 | 80 | 5.0696 |
|
490 |
+
| 0.7343 | 81 | 5.3648 |
|
491 |
+
| 0.7433 | 82 | 5.0591 |
|
492 |
+
| 0.7524 | 83 | 5.074 |
|
493 |
+
| 0.7615 | 84 | 5.1789 |
|
494 |
+
| 0.7705 | 85 | 5.0147 |
|
495 |
+
| 0.7796 | 86 | 5.251 |
|
496 |
+
| 0.7887 | 87 | 5.1282 |
|
497 |
+
| 0.7977 | 88 | 5.1111 |
|
498 |
+
| 0.8068 | 89 | 5.2096 |
|
499 |
+
| 0.8159 | 90 | 5.0734 |
|
500 |
+
| 0.8249 | 91 | 4.9202 |
|
501 |
+
| 0.8340 | 92 | 5.0058 |
|
502 |
+
| 0.8431 | 93 | 5.0928 |
|
503 |
+
| 0.8521 | 94 | 4.9845 |
|
504 |
+
| 0.8612 | 95 | 5.0683 |
|
505 |
+
| 0.8703 | 96 | 5.0267 |
|
506 |
+
| 0.8793 | 97 | 5.0821 |
|
507 |
+
| 0.8884 | 98 | 4.8806 |
|
508 |
+
| 0.8975 | 99 | 5.0043 |
|
509 |
+
| 0.9065 | 100 | 4.888 |
|
510 |
+
| 0.9156 | 101 | 5.0629 |
|
511 |
+
| 0.9246 | 102 | 5.0454 |
|
512 |
+
| 0.9337 | 103 | 4.9619 |
|
513 |
+
| 0.9428 | 104 | 4.9217 |
|
514 |
+
| 0.9518 | 105 | 4.7401 |
|
515 |
+
| 0.9609 | 106 | 4.8068 |
|
516 |
+
| 0.9700 | 107 | 4.8151 |
|
517 |
+
| 0.9790 | 108 | 4.8689 |
|
518 |
+
| 0.9881 | 109 | 5.0193 |
|
519 |
+
| 0.9972 | 110 | 4.706 |
|
520 |
+
| 1.0062 | 111 | 4.8057 |
|
521 |
+
| 1.0153 | 112 | 4.7279 |
|
522 |
+
| 1.0244 | 113 | 4.7721 |
|
523 |
+
| 1.0334 | 114 | 4.7767 |
|
524 |
+
| 1.0425 | 115 | 4.669 |
|
525 |
+
| 1.0516 | 116 | 4.8533 |
|
526 |
+
| 1.0606 | 117 | 4.8634 |
|
527 |
+
| 1.0697 | 118 | 4.9135 |
|
528 |
+
| 1.0788 | 119 | 4.7629 |
|
529 |
+
| 1.0878 | 120 | 4.7479 |
|
530 |
+
| 1.0969 | 121 | 4.743 |
|
531 |
+
| 1.1059 | 122 | 4.5606 |
|
532 |
+
| 1.1150 | 123 | 4.6933 |
|
533 |
+
| 1.1241 | 124 | 4.6659 |
|
534 |
+
| 1.1331 | 125 | 4.7131 |
|
535 |
+
| 1.1422 | 126 | 4.7059 |
|
536 |
+
| 1.1513 | 127 | 4.5701 |
|
537 |
+
| 1.1603 | 128 | 4.4892 |
|
538 |
+
| 1.1694 | 129 | 4.6497 |
|
539 |
+
| 1.1785 | 130 | 4.4814 |
|
540 |
+
| 1.1875 | 131 | 4.2669 |
|
541 |
+
| 1.1966 | 132 | 4.4983 |
|
542 |
+
| 1.2057 | 133 | 4.431 |
|
543 |
+
| 1.2147 | 134 | 4.414 |
|
544 |
+
| 1.2238 | 135 | 4.3975 |
|
545 |
+
| 1.2329 | 136 | 4.3101 |
|
546 |
+
| 1.2419 | 137 | 4.3422 |
|
547 |
+
| 1.2510 | 138 | 4.476 |
|
548 |
+
| 1.2601 | 139 | 4.6629 |
|
549 |
+
| 1.2691 | 140 | 4.3559 |
|
550 |
+
| 1.2782 | 141 | 4.2049 |
|
551 |
+
| 1.2873 | 142 | 4.303 |
|
552 |
+
| 1.2963 | 143 | 4.3053 |
|
553 |
+
| 1.3054 | 144 | 4.2366 |
|
554 |
+
| 1.3144 | 145 | 4.5165 |
|
555 |
+
| 1.3235 | 146 | 4.2634 |
|
556 |
+
| 1.3326 | 147 | 4.4295 |
|
557 |
+
| 1.3416 | 148 | 4.2595 |
|
558 |
+
| 1.3507 | 149 | 4.3753 |
|
559 |
+
| 1.3598 | 150 | 4.3454 |
|
560 |
+
| 1.3688 | 151 | 4.2618 |
|
561 |
+
| 1.3779 | 152 | 4.4016 |
|
562 |
+
| 1.3870 | 153 | 4.2672 |
|
563 |
+
| 1.3960 | 154 | 4.1824 |
|
564 |
+
| 1.4051 | 155 | 4.3268 |
|
565 |
+
| 1.4142 | 156 | 4.091 |
|
566 |
+
| 1.4232 | 157 | 4.3111 |
|
567 |
+
| 1.4323 | 158 | 4.2397 |
|
568 |
+
| 1.4414 | 159 | 4.1694 |
|
569 |
+
| 1.4504 | 160 | 4.2119 |
|
570 |
+
| 1.4595 | 161 | 4.1292 |
|
571 |
+
| 1.4686 | 162 | 4.1154 |
|
572 |
+
| 1.4776 | 163 | 4.1638 |
|
573 |
+
| 1.4867 | 164 | 4.3548 |
|
574 |
+
| 1.4958 | 165 | 4.2137 |
|
575 |
+
| 1.5048 | 166 | 4.1888 |
|
576 |
+
| 1.5139 | 167 | 4.2609 |
|
577 |
+
| 1.5229 | 168 | 4.2644 |
|
578 |
+
| 1.5320 | 169 | 4.2183 |
|
579 |
+
| 1.5411 | 170 | 4.2414 |
|
580 |
+
| 1.5501 | 171 | 4.242 |
|
581 |
+
| 1.5592 | 172 | 4.0547 |
|
582 |
+
| 1.5683 | 173 | 4.1509 |
|
583 |
+
| 1.5773 | 174 | 4.247 |
|
584 |
+
| 1.5864 | 175 | 4.3103 |
|
585 |
+
| 1.5955 | 176 | 4.0845 |
|
586 |
+
| 1.6045 | 177 | 4.0918 |
|
587 |
+
| 1.6136 | 178 | 4.1582 |
|
588 |
+
| 1.6227 | 179 | 4.2982 |
|
589 |
+
| 1.6317 | 180 | 4.0515 |
|
590 |
+
| 1.6408 | 181 | 4.0738 |
|
591 |
+
| 1.6499 | 182 | 4.2416 |
|
592 |
+
| 1.6589 | 183 | 4.1212 |
|
593 |
+
| 1.6680 | 184 | 4.174 |
|
594 |
+
| 1.6771 | 185 | 4.1369 |
|
595 |
+
| 1.6861 | 186 | 3.9908 |
|
596 |
+
| 1.6952 | 187 | 4.1155 |
|
597 |
+
| 1.7042 | 188 | 3.9893 |
|
598 |
+
| 1.7133 | 189 | 4.2362 |
|
599 |
+
| 1.7224 | 190 | 4.074 |
|
600 |
+
| 1.7314 | 191 | 4.0604 |
|
601 |
+
| 1.7405 | 192 | 4.0065 |
|
602 |
+
| 1.7496 | 193 | 4.0041 |
|
603 |
+
| 1.7586 | 194 | 4.0428 |
|
604 |
+
| 1.7677 | 195 | 4.0094 |
|
605 |
+
| 1.7768 | 196 | 3.962 |
|
606 |
+
| 1.7858 | 197 | 4.1932 |
|
607 |
+
| 1.7949 | 198 | 4.133 |
|
608 |
+
| 1.8040 | 199 | 4.1344 |
|
609 |
+
| 1.8130 | 200 | 4.1004 |
|
610 |
+
| 1.8221 | 201 | 4.0633 |
|
611 |
+
| 1.8312 | 202 | 4.0545 |
|
612 |
+
| 1.8402 | 203 | 4.0434 |
|
613 |
+
| 1.8493 | 204 | 4.0576 |
|
614 |
+
| 1.8584 | 205 | 4.0892 |
|
615 |
+
| 1.8674 | 206 | 4.1945 |
|
616 |
+
| 1.8765 | 207 | 4.0809 |
|
617 |
+
| 1.8856 | 208 | 4.0655 |
|
618 |
+
| 1.8946 | 209 | 4.155 |
|
619 |
+
| 1.9037 | 210 | 4.0801 |
|
620 |
+
| 1.9127 | 211 | 4.0837 |
|
621 |
+
| 1.9218 | 212 | 4.1487 |
|
622 |
+
| 1.9309 | 213 | 4.0574 |
|
623 |
+
| 1.9399 | 214 | 4.0952 |
|
624 |
+
| 1.9490 | 215 | 4.0414 |
|
625 |
+
| 1.9581 | 216 | 3.9645 |
|
626 |
+
| 1.9671 | 217 | 4.0327 |
|
627 |
+
| 1.9762 | 218 | 3.9183 |
|
628 |
+
| 1.9853 | 219 | 4.1204 |
|
629 |
+
| 1.9943 | 220 | 4.0043 |
|
630 |
+
| 2.0034 | 221 | 3.904 |
|
631 |
+
| 2.0125 | 222 | 4.0489 |
|
632 |
+
| 2.0215 | 223 | 4.0316 |
|
633 |
+
| 2.0306 | 224 | 3.9649 |
|
634 |
+
| 2.0397 | 225 | 3.891 |
|
635 |
+
| 2.0487 | 226 | 4.0352 |
|
636 |
+
| 2.0578 | 227 | 4.1811 |
|
637 |
+
| 2.0669 | 228 | 4.1212 |
|
638 |
+
| 2.0759 | 229 | 4.2356 |
|
639 |
+
| 2.0850 | 230 | 4.1295 |
|
640 |
+
| 2.0941 | 231 | 4.0231 |
|
641 |
+
| 2.1031 | 232 | 3.914 |
|
642 |
+
| 2.1122 | 233 | 3.916 |
|
643 |
+
| 2.1212 | 234 | 3.8657 |
|
644 |
+
| 2.1303 | 235 | 4.0986 |
|
645 |
+
| 2.1394 | 236 | 3.9774 |
|
646 |
+
| 2.1484 | 237 | 3.9112 |
|
647 |
+
| 2.1575 | 238 | 3.8232 |
|
648 |
+
| 2.1666 | 239 | 3.85 |
|
649 |
+
| 2.1756 | 240 | 3.8874 |
|
650 |
+
| 2.1847 | 241 | 3.6777 |
|
651 |
+
| 2.1938 | 242 | 3.7898 |
|
652 |
+
| 2.2028 | 243 | 3.8527 |
|
653 |
+
| 2.2119 | 244 | 3.7038 |
|
654 |
+
| 2.2210 | 245 | 3.9404 |
|
655 |
+
| 2.2300 | 246 | 3.7468 |
|
656 |
+
| 2.2391 | 247 | 3.7905 |
|
657 |
+
| 2.2482 | 248 | 3.8356 |
|
658 |
+
| 2.2572 | 249 | 3.9682 |
|
659 |
+
| 2.2663 | 250 | 3.9372 |
|
660 |
+
| 2.2754 | 251 | 3.7579 |
|
661 |
+
| 2.2844 | 252 | 3.6927 |
|
662 |
+
| 2.2935 | 253 | 3.7372 |
|
663 |
+
| 2.3025 | 254 | 3.6125 |
|
664 |
+
| 2.3116 | 255 | 4.0475 |
|
665 |
+
| 2.3207 | 256 | 3.7422 |
|
666 |
+
| 2.3297 | 257 | 3.8646 |
|
667 |
+
| 2.3388 | 258 | 3.6637 |
|
668 |
+
| 2.3479 | 259 | 3.8496 |
|
669 |
+
| 2.3569 | 260 | 3.753 |
|
670 |
+
| 2.3660 | 261 | 3.7632 |
|
671 |
+
| 2.3751 | 262 | 3.7097 |
|
672 |
+
| 2.3841 | 263 | 3.8584 |
|
673 |
+
| 2.3932 | 264 | 3.6547 |
|
674 |
+
|
675 |
+
</details>
|
676 |
+
|
677 |
+
### Framework Versions
|
678 |
+
- Python: 3.10.12
|
679 |
+
- Sentence Transformers: 3.2.1
|
680 |
+
- Transformers: 4.44.2
|
681 |
+
- PyTorch: 2.3.1+cu121
|
682 |
+
- Accelerate: 1.1.1
|
683 |
+
- Datasets: 2.21.0
|
684 |
+
- Tokenizers: 0.19.1
|
685 |
+
|
686 |
+
## Citation
|
687 |
+
|
688 |
+
### BibTeX
|
689 |
+
|
690 |
+
#### Sentence Transformers
|
691 |
+
```bibtex
|
692 |
+
@inproceedings{reimers-2019-sentence-bert,
|
693 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
694 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
695 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
696 |
+
month = "11",
|
697 |
+
year = "2019",
|
698 |
+
publisher = "Association for Computational Linguistics",
|
699 |
+
url = "https://arxiv.org/abs/1908.10084",
|
700 |
+
}
|
701 |
+
```
|
702 |
+
|
703 |
+
#### MatryoshkaLoss
|
704 |
+
```bibtex
|
705 |
+
@misc{kusupati2024matryoshka,
|
706 |
+
title={Matryoshka Representation Learning},
|
707 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
708 |
+
year={2024},
|
709 |
+
eprint={2205.13147},
|
710 |
+
archivePrefix={arXiv},
|
711 |
+
primaryClass={cs.LG}
|
712 |
+
}
|
713 |
+
```
|
714 |
+
|
715 |
+
#### MultipleNegativesRankingLoss
|
716 |
+
```bibtex
|
717 |
+
@misc{henderson2017efficient,
|
718 |
+
title={Efficient Natural Language Response Suggestion for Smart Reply},
|
719 |
+
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
|
720 |
+
year={2017},
|
721 |
+
eprint={1705.00652},
|
722 |
+
archivePrefix={arXiv},
|
723 |
+
primaryClass={cs.CL}
|
724 |
+
}
|
725 |
+
```
|
726 |
+
|
727 |
+
<!--
|
728 |
+
## Glossary
|
729 |
+
|
730 |
+
*Clearly define terms in order to be accessible across audiences.*
|
731 |
+
-->
|
732 |
+
|
733 |
+
<!--
|
734 |
+
## Model Card Authors
|
735 |
+
|
736 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
737 |
+
-->
|
738 |
+
|
739 |
+
<!--
|
740 |
+
## Model Card Contact
|
741 |
+
|
742 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
743 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "/root/models/checkpoint-264",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 8194,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.44.2",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.2.1",
|
4 |
+
"transformers": "4.44.2",
|
5 |
+
"pytorch": "2.3.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4ef54b1b696657aa5d49631e624a3ab2d88d46fbca3edae1c74662bb939e95a1
|
3 |
+
size 2271064456
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 1536,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:cf472ad575b8fd5ebdebd9ecbe1e7e34d82926ae85a2fc543e04569a1dbc5cce
|
3 |
+
size 17083053
|
tokenizer_config.json
ADDED
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"max_length": 1536,
|
50 |
+
"model_max_length": 1536,
|
51 |
+
"pad_to_multiple_of": null,
|
52 |
+
"pad_token": "<pad>",
|
53 |
+
"pad_token_type_id": 0,
|
54 |
+
"padding_side": "right",
|
55 |
+
"sep_token": "</s>",
|
56 |
+
"sp_model_kwargs": {},
|
57 |
+
"stride": 0,
|
58 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
59 |
+
"truncation_side": "right",
|
60 |
+
"truncation_strategy": "longest_first",
|
61 |
+
"unk_token": "<unk>"
|
62 |
+
}
|