Upload folder using huggingface_hub
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +647 -0
- config.json +28 -0
- config_sentence_transformers.json +12 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 1024,
|
3 |
+
"pooling_mode_cls_token": true,
|
4 |
+
"pooling_mode_mean_tokens": false,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,647 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
tags:
|
3 |
+
- sentence-transformers
|
4 |
+
- sentence-similarity
|
5 |
+
- feature-extraction
|
6 |
+
- generated_from_trainer
|
7 |
+
- loss:CachedGISTEmbedLoss
|
8 |
+
base_model: Snowflake/snowflake-arctic-embed-l-v2.0
|
9 |
+
widget:
|
10 |
+
- source_sentence: 'query: 이한구를 포함한 원내대표단이 사퇴한 날짜는 언제야?'
|
11 |
+
sentences:
|
12 |
+
- "아시아계에 대한 증오범죄를 단속하기 위해 사복 차림으로 순찰 중인 경찰관에게 시비를 건 30대 남성이 체포됐다. \n \n뉴욕을 기반으로\
|
13 |
+
\ 한 WABC방송은 현지시간으로 10일 뉴욕경찰(NYPD)이 전날 오후 맨해튼 펜스테이션 역에서 체포한 후비안 로드리게스(35)를 증오범죄\
|
14 |
+
\ 등의 혐의로 기소했다고 이날 보도했다. \n \n보도에 따르면 로드리게스는 펜스테이션 역으로 가는 엘리베이터에 함께 탄 사복 경찰관에게\
|
15 |
+
\ “무덤에 가지 않으려면 중국으로 돌아가라”고 말했다. 그러면서 경찰관에게 얼굴을 흉기로 찌르겠다는 위협까지 했다. \n \n사복 순찰 중이었던\
|
16 |
+
\ 경찰관은 로드리게스를 현장에서 체포했다. 로드리게스는 증오범죄 외에도 약물 소지 혐의로도 기소됐다. NYPD는 최근 급증한 증오범죄에 대응하기\
|
17 |
+
\ 위해 아시아계 거주자가 많은 지역에 아시아계로만 구성된 사복 경찰을 배치했다. \n \n더못 시어 뉴욕경찰 국장은 지난달 25일 “피부색이나\
|
18 |
+
\ 종교, 성적 취향 또는 다른 어떤 것 때문에 표적이 되는 것을 용납하지 않겠다”고 말했다. 이 비밀경찰관들은 뉴욕 시내 지하철역이나 슈퍼마켓\
|
19 |
+
\ 등을 집중적으로 순찰하며 지역사회 활동을 확대하고 있다. \n \n로드리게스를 체포한 경찰관도 2주 전 아시안 증오범죄 태스크포스(TF)에\
|
20 |
+
\ 배치됐다. 사복 순찰 중인 아시아계 경찰관을 위협하다 체포된 사례는 이번이 두 번째다. 올해 NYPD에 접수된 아시아계에 대한 증오범죄는\
|
21 |
+
\ 40건에 달한다."
|
22 |
+
- 한나라당은 4·27 재보선 이후 전당대회 룰(rule)을 놓고 한바탕 소동을 벌였다. 당권-대권 분리규정 폐지를 놓고 친이와 친박이 싸우더니,
|
23 |
+
막판엔 1인1표제와 여론조사 폐지가 논란이 됐다. 친이-친박이 전당대회 룰을 놓고 맞붙은 것은 김무성 전 원내대표를 미는 친이와 이를 반대하는
|
24 |
+
친박간 신경전이 배경이 됐던 것으로 전해진다. 계파가 충돌하는 바람에 또다른 당권주자인 나경원 전 최고위원이 어부지리를 얻었다는 분석이다.
|
25 |
+
당초 친이 김문수 경기도지사와 정몽준 전 대표는 당권-대권 분리규정 폐지를 밀었다. 박근혜 전 대표를 비롯한 대권주자들이 당권주자로 나서 당을
|
26 |
+
위기에서 구하자는 주장이었다. 친박을 싸움판에 끌어내면서 친이 대선주자들이 전면에 나설 기회를 잡으려는 취지로 해석됐다. 하지만 박 전 대표의
|
27 |
+
반대로 무산됐다. 친이는 이번엔 1인1표제와 여론조사 폐지로 급습했다. 명분은 "계파 전당대회를 끝내자"는 것이었다. 비대위 회의에선 적극
|
28 |
+
반발하지 않았던 친박과 소장파는 뒤늦게 이 개정안을 '김무성을 위한 술책'으로 해석했다. 이재오계가 김 전 원내대표를 대표로 밀기 위해 당헌·당규까지
|
29 |
+
고치겠다고 나선 것으로 받아들인 것이다. 이재오계가 여론조사에 취약한 김 전 원내대표를 위해 여론조사 폐지란 무리수를 뒀다는 추정이었다. 이
|
30 |
+
때문에 친박이 뒤늦게 나서 당헌·당규 개정을 막는데 총력을 다했다는 해석이다. 친박 내부에선 박 전 대표와 앙금이 남은 김 전 원내대표가 대표에
|
31 |
+
오르는 건 안된다는 기류가 존재한다. 박 전 대표 측근이 6일 직접 나서 친박의원들에게 "의원총회와 전국위에서 당헌·당규 개정을 뒤집어야 한다"고
|
32 |
+
당부했다는 후문이다. 결과적으로 전국위에서 비대위안은 무산됐고 1인2표제와 여론조사 30% 반영은 그대로 남았다. 비대위안이 무산되면서 친박과
|
33 |
+
소장파 목소리에 더욱 힘이 실렸지만, 실제 당헌·당규 개정논쟁의 최대수혜자는 나경원 전 최고위원이라는 평가가 나온다. 전당대회 출마를 저울질
|
34 |
+
중인 나 전 최고위원은 지난해 전당대회에서 여론조사 1등을 했다. 현재 전당대회 당헌·당규상으론 가장 유리한 고지에 올라서 있는 셈이다. 실제
|
35 |
+
이재오계 내부에선 나 전 최고위원에 부쩍 눈길을 주는 눈치다. 당초 김 전 원내대표와 원희룡 전 사무총장을 유력 후보로 놓고 저울질했지만,
|
36 |
+
최근 들어 나 전 최고위원까지 후보군에 올려놓으면서 최종결정을 미뤘다는 후문이다. 이재오계 수도권 중진의원은 "여론조사에서 1위를 하는 후보가
|
37 |
+
���표를 맡는게 맞다"면서 나 전 최고위원을 적극 추천했다고 한다. 친박에선 '김무성 카드'에 제동을 걸었다는 점에 일단 안도하는 분위기다.
|
38 |
+
다만 친박 전략통들은 나경원 수혜론에 극도의 경계심을 내비치고 있다. 친박 관계자는 "만의 하나 나 전 최고위원이 대표직에 오르면 친박으로선
|
39 |
+
파출소 피하려다 경찰서 만난 꼴"이라고 말했다. 나 전 최고위원은 정치권에서 흔하지않은 여성이자 40대다. 대선에 도전하는 박 전 대표 입장에선
|
40 |
+
같은 여성이자, 세대교체를 연상시키는 나 전 최고위원의 약진이 정치적으로 '마이너스'라는 것이다. 친박 내부에서조차 "명분과 실리, 모두를
|
41 |
+
잃은 꼴"이라는 비판이 나오는 대목이다.
|
42 |
+
- 새누리당 진 영 의원이 한달여만에 정책위의장직에 복귀한다. 진 의원은 28일 "개인적 원칙과 입장을 버리고 당의 뜻에 따르기로 했다"며 "대선이
|
43 |
+
중요한만큼 일단 개인 생각은 접기로 했다"고 말했다. 그는 "당장 오늘은 아니더라도 조만간 정책위의장 업무에 복귀할 것"이라고 덧붙였다. 진
|
44 |
+
의원은 전날 대선 정책공약을 총괄할 국민행복특위 부위원장에 선임됐다. 새누리당 관계자는 "당 지도부가 그동안 다각도로 진 의원에게 정책위의장
|
45 |
+
업무에 복귀할 것을 요청해왔다"면서 "결국 최근 박근혜 대선 후보가 직접 설득해 복귀결정을 내린 것으로 안다"고 말했다. 이한구 원내대표를
|
46 |
+
비롯한 원내대표단은 지난달 11일 정두언 의원 체포동의안 부결의 책임을 지고 사퇴했다가 닷새 만에 업무에 복귀했으나, 진 의원만은 사퇴 의사를
|
47 |
+
굽히지 않아왔다. 당 정책위는 전날 발족한 국민행복특별위원회와 함께 사실상 당과 박 후보의 대선 공약을 총괄 진두지휘하게 될 전망이다.
|
48 |
+
- source_sentence: 'query: 복지가 닿지 않는 곳의 취약 아동들을 발굴해 후원해 주는 천안시의 사업은 뭐지?'
|
49 |
+
sentences:
|
50 |
+
- "익산시가 장애인의 편익 증진을 위해 시각장애인을 위한 점자 주민등록증을 발급한다. \n\n시는 19일 장애등급에 상관없이 모든 시각장애인을\
|
51 |
+
\ 대상으로 하는 점자 주민등록증 발급을 시작했다고 밝혔다. \n\n기존에는 종전 1급~3급까지의 중증 시각장애인만 발급 신청이 가능했으나\
|
52 |
+
\ 지난해 주민등록법이 개정됨에 따라 장애등급에 상관없이 모든 시각장애인이 발급할 수 있도록 대상 범위가 확대됐다. \n\n아울러 점자 주민등록증은\
|
53 |
+
\ 익산에 주소를 둔 시각장애인을 대상으로 본인뿐만 아니라 같은 세대원, 직계혈족 등이 가까운 읍면동 주민센터에서 신청해 수령할 수 있다.\
|
54 |
+
\ \n\n또한, 기존에 일반 주민등록증을 발급받은 시각장애인은 점자 스티커만 별도로 신청할 수 있으며, 발급 수수료는 시에서 부담해 전액\
|
55 |
+
\ 면제된다. \n\n한편, 점자 주민등록증은 주민등록증 명칭, 성명, 주민등록번호, 주민등록증 발급 일자가 투명한 점자 스티커로 제작돼 주민등록증에\
|
56 |
+
\ 부착하는 방식으로 만들어진다."
|
57 |
+
- 홈플러스는 서울 동대문점 옥상에 풋살파크 11호점을 열었다고 24일 밝혔다. 홈플러스 풋살파크는 국제규격에 맞춘 친환경 인조잔디 구장이다.
|
58 |
+
어린이 부상 방지를 위해 각 구장 벽면에 1.5m 높이 세이프 쿠션을 세우고 야간 경기를 돕는 스포츠 LED 조명을 설치했다. 홈플러스는 올해
|
59 |
+
부산, 천안, 창원, 순천 등에 구장을 신설해 풋살파크를 20여개로 확대할 계획이다. 초등학생과 성인들을 위한 국내 최대 규모 아마추어 풋살
|
60 |
+
리그도 준비 중이다. 홈플러스는 옥상 유휴부지를 활용한 체육공간을 확대해 고객 편익 증진과 국민 체육 발전에 기여할 방침이다. 각 지역 프로축구단
|
61 |
+
어린이 축구교실과 연계해 축구 꿈나무 성장을 돕고 풋살파크를 지역 소외계층을 위한 사회공헌활동의 장으로도 활용해 나갈 계획이다. 심희정 기자
|
62 | |
63 |
+
- "충남 천안시드림스타트는 복지사각지대 아동 발굴을 위한 사업 동영상을 제작했다고 4일 밝혔다. \n\n동영상은 드림스타트 사례관리 아동과 보호자,\
|
64 |
+
\ 아동통합사례관리사가 직접 참여해 사업을 설명하는 재능 기부와 생동감 넘치는 캐릭터로 구성돼 있어 누구나 드림스타트 사업에 대해 알기 쉽게\
|
65 |
+
\ 제작됐다. \n\n드림스타트 사례 아동과 보호자들이 자신의 목소리로 꿈을 이야기하며 드림스타트가 아동들이 꿈을 잃지 않고 건강하게 성장할\
|
66 |
+
\ 수 있도록 지원하고 있다는 것을 알리고 있다. \n\n드림스타트�� 0세~만12세의 취약계층 아동에게 사례관리를 통해 맞춤형 사례관리 제공으로\
|
67 |
+
\ 공평한 출발 기회를 보장하고 건강하고 행복한 사회구성원으로 성장할 수 있도록 지원하고 있다. \n\n오은영 드림스타트사업팀장은 \"복지사각지대의\
|
68 |
+
\ 위기 아동에 대한 주변의 지속적인 관심이 절실히 필요한 때이며 적극적인 발굴과 홍보에 힘쓰도록 노력하겠다\"고 말했다."
|
69 |
+
- source_sentence: 'query: 어떤 식이 성분이 개에게 먹이지 않아 개가 죽었나요?'
|
70 |
+
sentences:
|
71 |
+
- 1816년 프랑수아 마겐디는 탄수화물(당), 지방(오리브 오일) 및 물만 먹인 개가 분명히 기아로 사망했지만 단백질도 먹인 개가 생존하여 단백질을
|
72 |
+
필수 식이 성분으로 식별한다는 것을 발견했다.1827년 윌리엄 프로우트는 음식을 탄수화물, 지방, 단백질로 나눈 최초의 사람이다.19세기 동안
|
73 |
+
장밥티스트 두마스와 Justus von Liebig는 동물이 식물에서 직접 단백질을 얻는다는 공통된 믿음(동물과 식물의 단백질은 같고 인간은
|
74 |
+
유기 화합물을 만들지 않는다는 것)에 대해 논쟁했다.당대 최고의 유기농 화학자로 명성을 얻었지만 동물 생리학에 대한 자격이 없는 리비히는 나중에
|
75 |
+
영양가가 의심스러운 것으로 밝혀진 쇠고기 부용 및 유아용 조제분유와 같은 식품 추출물을 만들어 풍부한 성장을 했다.1860년대에 클로드 베르나르는
|
76 |
+
체지방이 탄수화물과 단백질로부터 합성될 수 있다는 것을 발견하여 혈당의 에너지가 지방이나 글리코겐으로 저장될 수 있음을 보여주었다.
|
77 |
+
- 안녕! AC 97는 1997년에 Intel이 만든 오디오 코덱 표준이에요. 이것은 메인보드, 모뎀, 사운드 카드에 사용됩니다. 이 코덱은 오디오
|
78 |
+
신호를 처리하기 위해 사용되는데, 일반적으로 작은 사각형 칩으로 존재합니다. 이 칩들은 두 가지 방식으로 나누어져 있습니다. 첫째, AC97
|
79 |
+
인터페이스와 아날로그 오디오 인터페이스가 있습니다. 이 칩들은 소리를 처리하는 역할을 담당합니다. 둘째, 이 칩들은 다양한 브랜드와 모델로
|
80 |
+
구성되어 있습니다. 예를 들면, ASUS, Realtek, C-Media, ESS, Empia, HMP, National Semiconductor,
|
81 |
+
Philips, Realtek, Silicon Image, TriTech, Yamaha, VIA, Winbond, Wolfson Microelectronics
|
82 |
+
등이 있습니다. 이 칩들은 다양한 목적을 수행하며, 사운드 카드에 사용됩니다.
|
83 |
+
- 가족과 떨어져 3년 이상 해외생활을 하는 북한 노동자들 일부는 외로움을 달래기 위해 조선족 여자를 소개받아 사귀기도 한다. 가족과 떨어져 지내야만
|
84 |
+
하는 상황 탓에 벌어지는 일일 것이다. 북한 노동자들은 러시아 여성을 사귀려면 돈이 많이 들지만 조선족 여성은 말도 잘 통하고 함께 생활도
|
85 |
+
할 수 있으며 밥도 해주기 때문에 훨씬 좋다고 생각한다고 한다. 조선족 여성들은 대부분 시장에서 장사하는 상인들이다. 그러나 사할린의 조선족
|
86 |
+
여성들이 3~4년 전부터 한국으로 이주해 현재 시장에서 장사하는 사람은 20여 명만 남은 것으로 알려져 있다. 북한에서 파견되는 노동자들의
|
87 |
+
연령이 최근 3~4년 사이 계속 낮아지고 있다. 사할린은 섬지역이어서 그동안 탈북이 거의 없었으나 최근 탈북 우려가 커지면서 10년이 넘은
|
88 |
+
노동자들을 귀국시키고 있다. 지난해 말 현재 사할린에 10년 이상 노동자로 일한 사람은 4명뿐이며 사업소 관리자들은 탈북을 막기 위해 하루에
|
89 |
+
3번씩 점검하는 것으로 알려지고 있다.
|
90 |
+
- source_sentence: 'query: 당시 버지니아 대학교는 누구의 이상을 따르고 있었는가?'
|
91 |
+
sentences:
|
92 |
+
- 매일 100-300mg의 아연을 섭취하는 사람들에게 구리 결핍이 유발된다는 증거가 있다.2007년 실험에 따르면 매일 80mg을 복용하는 노인
|
93 |
+
남성은 위약을 복용하는 남성보다 비뇨기 합병증으로 입원하는 경우가 더 많았다.USDA RDA는 남성과 여성의 경우 각각 11mg 및 8mg
|
94 |
+
Zn/일이다.100~300mg 수준은 구리와 철의 이용을 방해하거나 콜레스테롤에 악영향을 미칠 수 있다.토양에서 500ppm을 초과하는 아연
|
95 |
+
수준은 식물이 철 및 망간과 같은 다른 필수 금속을 흡수하는 능력을 방해한다.아연 쉐이크 또는 "아연 칠"이라고 불리는 조건도 있는데, 아연
|
96 |
+
도금 재료의 용접 중에 형성된 새로 형성된 산화 아연의 흡입에 의해 유도될 수 있다.아연은 그램당 17~38mg의 아연을 함유할 수 있는 의치
|
97 |
+
크림의 일반적인 성분이다.이러한 제품의 과도한 사용으로 인해 장애 및 심지어 사망에 대한 주장이 있었다.
|
98 |
+
- 포는 1826년 2월 버지니아 대학교에 등��하여 고대 및 근대 언어를 공부했다. 첫사랑 사라 엘마이라 로이스터를 만난 것은 대학 입학 이전으로
|
99 |
+
생각된다. 개교한 지 얼마 안 된 버지니아 대학교는 창립자 토머스 제퍼슨의 이상을 따르고 있었다. 도박·승마·사격·담배·음주가 모두 엄격히
|
100 |
+
금지되었는데, 대개 학생들은 이를 무시했다. 제퍼슨은 학생자치제도를 도입하여 학생들이 각자 연구주제를 선택하고 각자 기숙 준비를 하게 했고,
|
101 |
+
모든 비행을 교수진에게 보고하도록 했다. 이런 시험적인 시스템은 도입 초기였던 만큼 혼란스러웠고, 학교 중퇴자도 많았다. 포는 대학 재학 중에
|
102 |
+
로이스터와의 연락이 끊어졌고, 도박 빚 때문에 양아버지와의 관계가 소원해졌다. 포는 앨런이 자신에게 충분한 돈을 주지 않아서 등록금·교재비·기숙사
|
103 |
+
가구비 등을 낼 수 없다고 했다. 앨런은 그래서 돈과 옷을 더 보내주었지만 포의 빚은 더 불어났다. 포는 1년 만에 대학을 중퇴하고 리치먼드로
|
104 |
+
돌아갔다. 그러나 사랑하던 로이스터가 알렉산더 셸턴이라는 사람과 결혼했다는 소식을 듣자 낙담하여 보스턴으로 훌쩍 떠났는데 이때가 1827년
|
105 |
+
4월이었다. 포는 점포 계원이나 신문 기고가 같은 낯선 일을 하면서 입에 풀칠했다. 이 시기쯤에 앙리 르 르네(Henri Le Rennet)라는
|
106 |
+
필명을 사용하기 시작했다.
|
107 |
+
- 허위자백에 대한 관심은 1930년대 미국에서 발견된다. Edwin Borchard는 1932년 그의 저서 “Convicting the Innocent”를
|
108 |
+
통해 죄 없는 사람이 잘못 기소되어 유죄판결을 받고 수감된 65건의 사례를 소개했다. 이것은 미국의 형사사법시스템 내에서는 결코 무고한 사람이
|
109 |
+
유죄판결을 받을 리 없다는 전통적 관념을 깨버리는 것이었다. 그러나 아쉽게도 연구는 허위자백이 포함된 오심사례들에 대한 간단한 고찰 내지 소개에
|
110 |
+
그쳤고, 허위자백을 보다 체계적으로 계량화하거나 연구를 심화하려는 시도가 없었다. 그리고 이후 수십 년간 Borchard의 한계를 벗어나지
|
111 |
+
못하고 이를 답습하는 유사한 연구가 진행되었다. 오심과 허위자백에 대한 연구의 도약은 1987년에 이루어졌다. Hugo Bedau와 Michael
|
112 |
+
Radelet은 그들의 논문에서 1900년부터 1987년까지 미국에서 350건의 오심사례(사형에 처해질 가능성 있는 사례들)를 분석하여 그
|
113 |
+
중 49건(14%)이 허위자백으로 인한 것임을 발표하였다. 이 결과는 미국사회에 큰 충격을 주었고, 많은 사람들이 오판에 대한 관심을 갖고
|
114 |
+
사례를 모으거나 분석하는 작업을 하도록 자극 하였다. 이 과정에서 허위자백에 대한 관심도 역시 확대되어 갔다.
|
115 |
+
- source_sentence: 'query: 기술적으로 집단에너지시설에 대해 규정한 법의 상위법은 뭐야?'
|
116 |
+
sentences:
|
117 |
+
- 이러한 의견 불일치에도 불구하고, 위 전문가들이 지적했듯이 경찰과 아동보호전문기관의 협업은 아동학대범죄의 신고 및 조사 단계에서 매우 핵심적인
|
118 |
+
부분이다. 또한 한 사건을 각각 수사와 피해자 보호라는 관점에서 보완적으로 보기 때문에 의견의 불일치에도 불구, 결과적으로 피학대아동의 온전한
|
119 |
+
지원을 위해 필요한 부분이기도 하다. 그러나 향후 예상되는 두 직책간의 의견불일치와 범위 침해 문제 등을 개선하기 위해서는 이 부분에 있어서는
|
120 |
+
아동보호전문기관의 소관부서인 보건복지부와 경찰이 실무자들에게 적용될 수 있는 가이드라인을 어느 정도 만들어주는 것이 필요해 보인다. 현재 일각에서는
|
121 |
+
아동보호전문기관의 신고 조사기능과 서비스 제공 및 사후관리기능을 분리하여 공적기관에서 신고 조사기능을 담당하고 아동보호전문기관은 서비스제공
|
122 |
+
및 사후관리를 담당하도록 하자는 주장도 제기되고 있다. 그러나 특례법 시행 초기단계인 현 시점에 기능을 분리하여 경찰에서 신고 조사기능을 전담하게
|
123 |
+
되면 자칫 피해아동보호에 소홀해질 가능성도 있으므로 현 단계에서는 역할을 좀 더 명확하게 구분해주는 중앙부처차원의 가이드라인 설정이 좀 더
|
124 |
+
적절해 보인다.
|
125 |
+
- 'Ⅲ. 지역난방 사용자 설비의 법적 지위와 역할
|
126 |
+
|
127 |
+
1. 지역난방 사용자 설비의 법적 지위
|
128 |
+
|
129 |
+
지역난방 사용자 설비의 운영, 유지, 보수, 교체, 계량 및 리모델링 정책규제체계는 중앙정부의 법령, 지자체의 조례 또는 규약, 공급사의 규정을
|
130 |
+
기반으로 한다. 지역난방 사용자 설비의 관리를 규율하는 중앙정부의 법적 기반은 에너지이용합리화법, 집단에너지사업법 등 관련 에너지 ���령을 비롯해
|
131 |
+
주택, 공동주택, 건축, 녹색건축물, 계량, 기계설비, 환경, 기후변화, 수도 관련 법령이다. 1980년 에너지이용합리화법이 제정되고, 1985년
|
132 |
+
지역난방 보급이 서울시를 시작으로 이루어진 이후 에너지효율화와 재생에너지의 중요성이 증가함에 따라 에너지, 주택, 건축물 등 관련법이 제·개정을
|
133 |
+
거듭하며 분화, 발전되어 오고 있다. 지역난방 사용자 설비를 규율하는 중앙정부의 법적 기반은 ‘에너지이용합리화법’과 ‘집단에너지사업법’이다.
|
134 |
+
‘에너지이용합리화법’을 상위법으로 ‘집단에너지사업법’이 집단에너지시설의 기술 수준을 규정하고 있다.'
|
135 |
+
- '환경부, 전국 폐수종말처리시설 운영·관리실태 평가결과 발표
|
136 |
+
|
137 |
+
2011년 폐수종말처리시설 운영 및 관리실태 평가결과
|
138 |
+
|
139 |
+
Ⅲ. 문제점 및 개선방안
|
140 |
+
|
141 |
+
< 평가 점수 상·하향 조정 >
|
142 |
+
|
143 |
+
□ 폐수유입률 배점 상향 조정
|
144 |
+
|
145 |
+
○ 폐수유입률 저조에 대하여 국회 등에서 지속적으로 제기되고 있어, 폐수유입률 제고를 위해 배점 상향 조정이 필요
|
146 |
+
|
147 |
+
☞ 폐수유입률 : 10점 → 15점
|
148 |
+
|
149 |
+
□ 폐수배출업소 관리 시스템 및 수질분석 배점 상향 조정
|
150 |
+
|
151 |
+
○ 특정수질유해물질의 처리장 유입 관리 강화 및 비정상 가동에 따른 폐수무단방류 등의 사전 예방기능을 강화하기 위해 배점 상향 조정
|
152 |
+
|
153 |
+
○ 폐수종말처리시설의 유입수 및 방류수 분석기능 강화를 통해 폐수 배출업소에 대한 견제기능 강화와 처리장의 적정관리 유도
|
154 |
+
|
155 |
+
☞ 배출업소관리시스템 : 5점 → 10점, 수질분석 : 5점 → 10점
|
156 |
+
|
157 |
+
□ 폐수처리 효율 및 오염불질 유입률 배점 하향 조정
|
158 |
+
|
159 |
+
○ 폐수처리효율 및 오염물질 유입률 항목은 배점이 높은 반면 시설간 점수의 편차가 크지 않아(변별력 저조) 배점 하향 조정 필요
|
160 |
+
|
161 |
+
☞ 폐수처리 효율 : 15점 → 10점, 오염물질 유입률 : 10점 → 5점
|
162 |
+
|
163 |
+
□ 폐수 재이용률 배점 하향 조정
|
164 |
+
|
165 |
+
○ 폐수내 특정수질유해물질의 혼입, 하수처리장과 비교할 때 방류 폐수량이 미미하여 폐수 재이용률에는 한계가 있어 하향 조정
|
166 |
+
|
167 |
+
○ 또한, 폐수 재이용을 위한 추가설비가 필요함에 따라 처리장 운영만으로는 재이용에는 한계가 있음
|
168 |
+
|
169 |
+
※ 폐수 재이용시설은 BTO로 사업을 추진해야 하나 시설용량의 소규모로 인해 경제성이 떨어짐
|
170 |
+
|
171 |
+
☞ 폐수 재이용률 : 10점 → 5점'
|
172 |
+
|
173 |
+
---
|
174 |
+
|
175 |
+
# SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0
|
176 |
+
|
177 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) on the clustered datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search.
|
178 |
+
|
179 |
+
The **Snowflake/snowflake-arctic-embed-l-v2.0** model has been further trained with Korean data to enhance its performance in **Korean retrieval tasks**. It is a powerful model that achieves **state-of-the-art (SOTA) performance across multiple retrieval benchmarks**.
|
180 |
+
|
181 |
+
|
182 |
+
|
183 |
+
## Model Details
|
184 |
+
|
185 |
+
### Model Description
|
186 |
+
- **Model Type:** Sentence Transformer
|
187 |
+
- **Base model:** [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) <!-- at revision 7f311bb640ad3babc0a4e3a8873240dcba44c9d2 -->
|
188 |
+
- **Maximum Sequence Length:** 8192 tokens
|
189 |
+
- **Output Dimensionality:** 1024 dimensions
|
190 |
+
- **Similarity Function:** Cosine Similarity
|
191 |
+
- **Training Datasets:**
|
192 |
+
- AI Hub 데이터 셋
|
193 |
+
- 행정 문서 대상 기계 독해
|
194 |
+
- 기계 독해
|
195 |
+
- 뉴스 기사 기계독해
|
196 |
+
- 도서 자료 기계독해
|
197 |
+
- 숫자 연산 기계독해
|
198 |
+
- 금융 법률 문서 기계독해
|
199 |
+
- **Language:** Korean, English
|
200 |
+
|
201 |
+
|
202 |
+
### Model Sources
|
203 |
+
|
204 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
205 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
206 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
207 |
+
|
208 |
+
### Full Model Architecture
|
209 |
+
|
210 |
+
```
|
211 |
+
SentenceTransformer(
|
212 |
+
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
|
213 |
+
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
214 |
+
(2): Normalize()
|
215 |
+
)
|
216 |
+
```
|
217 |
+
|
218 |
+
|
219 |
+
## Usage
|
220 |
+
|
221 |
+
### Direct Usage (Sentence Transformers)
|
222 |
+
|
223 |
+
First install the Sentence Transformers library and xformers library
|
224 |
+
|
225 |
+
```bash
|
226 |
+
pip install -U sentence-transformers
|
227 |
+
|
228 |
+
pip install xformers
|
229 |
+
|
230 |
+
```
|
231 |
+
|
232 |
+
|
233 |
+
Then you can load this model and run inference.
|
234 |
+
## Usage
|
235 |
+
|
236 |
+
### Using Sentence Transformers
|
237 |
+
|
238 |
+
```python
|
239 |
+
from sentence_transformers import SentenceTransformer
|
240 |
+
|
241 |
+
# Load the model
|
242 |
+
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
|
243 |
+
model = SentenceTransformer(model_name)
|
244 |
+
|
245 |
+
# Define the queries and documents
|
246 |
+
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
|
247 |
+
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
|
248 |
+
|
249 |
+
# Compute embeddings: use `prompt_name="query"` to encode queries!
|
250 |
+
query_embeddings = model.encode(queries, prompt_name="query")
|
251 |
+
document_embeddings = model.encode(documents)
|
252 |
+
|
253 |
+
# Compute cosine similarity scores
|
254 |
+
scores = model.similarity(query_embeddings, document_embeddings)
|
255 |
+
|
256 |
+
# Output the results
|
257 |
+
for query, query_scores in zip(queries, scores):
|
258 |
+
doc_score_pairs = list(zip(documents, query_scores))
|
259 |
+
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
|
260 |
+
print("Query:", query)
|
261 |
+
for document, score in doc_score_pairs:
|
262 |
+
print(score, document)
|
263 |
+
|
264 |
+
```
|
265 |
+
|
266 |
+
### Using Huggingface Transformers
|
267 |
+
|
268 |
+
|
269 |
+
You can use the transformers package to use Snowflake's arctic-embed model, as shown below. For optimal retrieval quality, use the CLS token to embed each text portion and use the query prefix below (just on the query).
|
270 |
+
|
271 |
+
```python
|
272 |
+
|
273 |
+
import torch
|
274 |
+
from transformers import AutoModel, AutoTokenizer
|
275 |
+
|
276 |
+
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
|
277 |
+
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
278 |
+
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
|
279 |
+
model.eval()
|
280 |
+
|
281 |
+
query_prefix = 'query: '
|
282 |
+
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
|
283 |
+
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
|
284 |
+
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)
|
285 |
+
|
286 |
+
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
|
287 |
+
document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)
|
288 |
+
|
289 |
+
# Compute token embeddings
|
290 |
+
with torch.no_grad():
|
291 |
+
query_embeddings = model(**query_tokens)[0][:, 0]
|
292 |
+
document_embeddings = model(**document_tokens)[0][:, 0]
|
293 |
+
|
294 |
+
# Normalize embeddings
|
295 |
+
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
|
296 |
+
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)
|
297 |
+
|
298 |
+
scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
|
299 |
+
|
300 |
+
for query, query_scores in zip(queries, scores):
|
301 |
+
doc_score_pairs = list(zip(documents, query_scores))
|
302 |
+
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
|
303 |
+
# Output passages & scores
|
304 |
+
print("Query:", query)
|
305 |
+
for document, score in doc_score_pairs:
|
306 |
+
print(score, document)
|
307 |
+
|
308 |
+
```
|
309 |
+
|
310 |
+
<!--
|
311 |
+
### Direct Usage (Transformers)
|
312 |
+
|
313 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
314 |
+
|
315 |
+
</details>
|
316 |
+
-->
|
317 |
+
|
318 |
+
<!--
|
319 |
+
### Downstream Usage (Sentence Transformers)
|
320 |
+
|
321 |
+
You can finetune this model on your own dataset.
|
322 |
+
|
323 |
+
<details><summary>Click to expand</summary>
|
324 |
+
|
325 |
+
</details>
|
326 |
+
-->
|
327 |
+
|
328 |
+
<!--
|
329 |
+
### Out-of-Scope Use
|
330 |
+
|
331 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
332 |
+
-->
|
333 |
+
|
334 |
+
## Evaluation
|
335 |
+
|
336 |
+
- This Evaluation references the KURE GitHub repository. (https://github.com/nlpai-lab/KURE)
|
337 |
+
|
338 |
+
### MTEB-ko-retrieval Leaderboard
|
339 |
+
[MTEB](https://github.com/embeddings-benchmark/mteb)에 등록된 모든 Korean Retrieval Benchmark에 대한 평가를 진행하였습니다.
|
340 |
+
### Korean Retrieval Benchmark
|
341 |
+
- [Ko-StrategyQA](https://huggingface.co/datasets/taeminlee/Ko-StrategyQA): 한국어 ODQA multi-hop 검색 데이터셋 (StrategyQA 번역)
|
342 |
+
- [AutoRAGRetrieval](https://huggingface.co/datasets/yjoonjang/markers_bm): 금융, 공공, 의료, 법률, 커머스 5개 분야에 대해, pdf를 파싱하여 구성한 한국어 문서 검색 데이터셋
|
343 |
+
- [MIRACLRetrieval](https://huggingface.co/datasets/miracl/miracl): Wikipedia 기반의 한국어 문서 검색 데이터셋
|
344 |
+
- [PublicHealthQA](https://huggingface.co/datasets/xhluca/publichealth-qa): 의료 및 공중보건 도메인에 대한 한국어 문서 검색 데이터셋
|
345 |
+
- [BelebeleRetrieval](https://huggingface.co/datasets/facebook/belebele): FLORES-200 기반의 한국어 문서 검색 데이터셋
|
346 |
+
- [MrTidyRetrieval](https://huggingface.co/datasets/mteb/mrtidy): Wikipedia 기반의 한국어 문서 검색 데이터셋
|
347 |
+
- [MultiLongDocRetrieval](https://huggingface.co/datasets/Shitao/MLDR): 다양한 도메인의 한국어 장문 검색 데이터셋
|
348 |
+
- [XPQARetrieval](https://huggingface.co/datasets/jinaai/xpqa): 다양한 도메인의 한국어 문서 검색 데이터셋
|
349 |
+
|
350 |
+
### Metrics
|
351 |
+
|
352 |
+
* Standard metric : NDCG@10
|
353 |
+
|
354 |
+
#### Information Retrieval
|
355 |
+
|
356 |
+
- Achieves state-of-the-art (SOTA) performance on most benchmarks.
|
357 |
+
|
358 |
+
|
359 |
+
| Model | MrTidyRetrieval | MIRACLRetrieval | XPQARetrieval | BelebeleRetrieval | PublicHealthQA | AutoRAGRetrieval | Ko-StrategyQA | Average |
|
360 |
+
|:-------------------------------------------------------------------------------------------------|:------------------|:------------------|:----------------|:--------------------|:-----------------|:-------------------|:----------------|:-------------|
|
361 |
+
| dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.57121 | 0.66846 | **0.4436** | **0.95177** | 0.83374 | **0.90927** | _0.80498_ | **0.740433** |
|
362 |
+
| dragonkue/BGE-m3-ko | 0.60992 | 0.68331 | 0.38131 | _0.95027_ | 0.81545 | _0.87379_ | 0.7959 | _0.729993_ |
|
363 |
+
| nlpai-lab/KURE-v1 | 0.59092 | 0.68157 | 0.38158 | 0.95019 | 0.81925 | 0.87076 | 0.7999 | 0.727739 |
|
364 |
+
| BAAI/bge-m3 | **0.64708** | _0.70146_ | 0.36075 | 0.93164 | 0.80412 | 0.83008 | 0.79405 | 0.724169 |
|
365 |
+
| Snowflake/snowflake-arctic-embed-l-v2.0 | 0.59071 | 0.66077 | _0.43018_ | 0.9271 | 0.81679 | 0.83863 | 0.80455 | 0.724104 |
|
366 |
+
| intfloat/multilingual-e5-large | _0.64211_ | 0.66486 | 0.3571 | 0.94499 | 0.82534 | 0.81337 | 0.80348 | 0.721607 |
|
367 |
+
| nlpai-lab/KoE5 | 0.58411 | 0.62347 | 0.35086 | 0.94251 | 0.83507 | 0.84339 | 0.80008 | 0.711356 |
|
368 |
+
| BAAI/bge-multilingual-gemma2 | 0.47521 | **0.70315** | 0.37446 | 0.95001 | _0.87102_ | 0.76535 | 0.79072 | 0.704274 |
|
369 |
+
| jinaai/jina-embeddings-v3 | 0.55759 | 0.63716 | 0.41272 | 0.91203 | 0.83059 | 0.76104 | 0.79807 | 0.701314 |
|
370 |
+
| intfloat/multilingual-e5-large-instruct | 0.52877 | 0.59914 | 0.39712 | 0.936 | 0.84967 | 0.77996 | 0.79793 | 0.69837 |
|
371 |
+
| nomic-ai/nomic-embed-text-v2-moe | 0.53766 | 0.65913 | 0.36871 | 0.93636 | 0.78448 | 0.80682 | 0.76325 | 0.693773 |
|
372 |
+
| intfloat/multilingual-e5-base | 0.58082 | 0.6227 | 0.3607 | 0.92868 | 0.77203 | 0.79752 | 0.76355 | 0.689429 |
|
373 |
+
| intfloat/e5-mistral-7b-instruct | 0.52444 | 0.58709 | 0.39159 | 0.92403 | **0.88733** | 0.67849 | 0.79317 | 0.683734 |
|
374 |
+
| Alibaba-NLP/gte-Qwen2-7B-instruct | 0.46571 | 0.53375 | 0.37866 | 0.94808 | 0.85844 | 0.76682 | **0.8108** | 0.680323 |
|
375 |
+
| Alibaba-NLP/gte-multilingual-base | 0.56464 | 0.62697 | 0.30702 | 0.8796 | 0.74584 | 0.77108 | 0.75121 | 0.663766 |
|
376 |
+
| openai/text-embedding-3-large | 0.44728 | 0.56248 | 0.37423 | 0.89451 | 0.85617 | 0.76466 | 0.73634 | 0.662239 |
|
377 |
+
| upskyy/bge-m3-korean | 0.55011 | 0.59892 | 0.31695 | 0.8731 | 0.77559 | 0.72946 | 0.75277 | 0.6567 |
|
378 |
+
| Salesforce/SFR-Embedding-2_R | 0.40347 | 0.55798 | 0.37371 | 0.91747 | 0.8605 | 0.70782 | 0.77042 | 0.65591 |
|
379 |
+
| ibm-granite/granite-embedding-278m-multilingual | nan | 0.59216 | 0.23058 | 0.83231 | 0.77668 | 0.70226 | 0.71762 | 0.641935 |
|
380 |
+
| jhgan/ko-sroberta-multitask | 0.29475 | 0.36698 | 0.27961 | 0.81636 | 0.69212 | 0.58332 | 0.65097 | 0.526301 |
|
381 |
+
|
382 |
+
|
383 |
+
#### Capabilities Beyond Benchmarks
|
384 |
+
|
385 |
+
This model is designed to handle various retrieval scenarios that are not directly measured in benchmarks:
|
386 |
+
|
387 |
+
1. Supports phrase-based queries in addition to full-sentence queries.
|
388 |
+
|
389 |
+
Example: "What products does Samsung sell?" or "Samsung's products"
|
390 |
+
|
391 |
+
2. Trained to handle diverse query formats, regardless of phrasing variations.
|
392 |
+
|
393 |
+
Example: "Tell me about Samsung.", "I'm curious about Samsung.", "What is Samsung?"
|
394 |
+
|
395 |
+
3. Optimized for Markdown table search, allowing retrieval of answers embedded within tables when present in documents.
|
396 |
+
|
397 |
+
4. Efficient clustering without hard negatives:
|
398 |
+
|
399 |
+
- Samples within the same batch are clustered together.
|
400 |
+
- Uses efficient embedding formation for clustering by truncating embeddings from the Snowflake/snowflake-arctic-embed-l-v2.0 model to 256 dimensions.
|
401 |
+
- The clustering approach is inspired by the findings in the following papers:
|
402 |
+
- *Embedding And Clustering Your Data Can Improve Contrastive Pretraining*
|
403 |
+
- *CONTEXTUAL DOCUMENT EMBEDDINGS*
|
404 |
+
|
405 |
+
5. Strong performance across different domains:
|
406 |
+
|
407 |
+
- The *Arctic-Embed 2.0: Multilingual Retrieval Without Compromise* paper states:
|
408 |
+
*"While models like mE5, mGTE, and BGE-M3 excel on MIRACL, their performance on CLEF is notably weaker compared to ours and closed-source offerings, suggesting the potential of overfitting to MIRACL or its Wikipedia-based domain."*
|
409 |
+
- Based on my own experience, **Snowflake/snowflake-arctic-embed-l-v2.0** has consistently outperformed **BGE-M3** in different domains, further validating this observation.
|
410 |
+
|
411 |
+
|
412 |
+
## Bias, Risks and Limitations
|
413 |
+
|
414 |
+
To prevent excessive GPU usage costs, the model was trained with a maximum sequence length of 1300 tokens. As a result, its performance may degrade on benchmarks like MultiLongDocRetrieval (MLDR).
|
415 |
+
|
416 |
+
The previous model, **BGE-m3-ko**, was trained with a token length of **1024**, which imposed limitations on its MLDR benchmark performance.
|
417 |
+
|
418 |
+
In the case of **snowflake-arctic-embed-l-v2.0-ko**, if the document length exceeds 1300 tokens or approximately 2500 characters, it is recommended to consider the following models instead.
|
419 |
+
|
420 |
+
|
421 |
+
|
422 |
+
| Model | MultiLongDocRetrieval |
|
423 |
+
|:-------------------------------------------------------------------------------------------------|------------------------:|
|
424 |
+
| Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base | 0.48402 |
|
425 |
+
| nlpai-lab/KURE-v1/nlpai-lab_KURE-v1 | 0.47528 |
|
426 |
+
| dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.4459 |
|
427 |
+
| BAAI/bge-m3/BAAI_bge-m3 | 0.43011 |
|
428 |
+
| Snowflake/snowflake-arctic-embed-l-v2.0 | 0.40401 |
|
429 |
+
| dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko | 0.40135 |
|
430 |
+
| openai/text-embedding-3-large | 0.31108 |
|
431 |
+
| BAAI/bge-multilingual-gemma2 | 0.31021 |
|
432 |
+
| nlpai-lab/KoE5 | 0.30869 |
|
433 |
+
| jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3 | 0.30512 |
|
434 |
+
| Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct | 0.30313 |
|
435 |
+
| intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct | 0.27973 |
|
436 |
+
| nomic-ai/nomic-embed-text-v2-moe | 0.27135 |
|
437 |
+
| intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct | 0.2583 |
|
438 |
+
| intfloat/multilingual-e5-large/intfloat__multilingual-e5-large | 0.24596 |
|
439 |
+
| Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R | 0.24346 |
|
440 |
+
| intfloat/multilingual-e5-base/intfloat__multilingual-e5-base | 0.23766 |
|
441 |
+
| upskyy/bge-m3-korean/upskyy__bge-m3-korean | 0.21968 |
|
442 |
+
| ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual | 0.20781 |
|
443 |
+
| jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask | 0.20416 |
|
444 |
+
|
445 |
+
|
446 |
+
<!--
|
447 |
+
### Recommendations
|
448 |
+
|
449 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
450 |
+
-->
|
451 |
+
|
452 |
+
## Training Details
|
453 |
+
|
454 |
+
* Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters:
|
455 |
+
|
456 |
+
|
457 |
+
|
458 |
+
### Training Hyperparameters
|
459 |
+
#### Non-Default Hyperparameters
|
460 |
+
|
461 |
+
- `eval_strategy`: steps
|
462 |
+
- `per_device_train_batch_size`: 20000
|
463 |
+
- `per_device_eval_batch_size`: 4096
|
464 |
+
- `learning_rate`: 2e-05
|
465 |
+
- `num_train_epochs`: 2
|
466 |
+
- `lr_scheduler_type`: warmup_stable_decay
|
467 |
+
- `lr_scheduler_kwargs`: {'num_decay_steps': 160}
|
468 |
+
- `warmup_ratio`: 0.05
|
469 |
+
- `bf16`: True
|
470 |
+
- `batch_sampler`: no_duplicates
|
471 |
+
|
472 |
+
#### All Hyperparameters
|
473 |
+
<details><summary>Click to expand</summary>
|
474 |
+
|
475 |
+
- `overwrite_output_dir`: False
|
476 |
+
- `do_predict`: False
|
477 |
+
- `eval_strategy`: steps
|
478 |
+
- `prediction_loss_only`: True
|
479 |
+
- `per_device_train_batch_size`: 10000
|
480 |
+
- `per_device_eval_batch_size`: 4096
|
481 |
+
- `per_gpu_train_batch_size`: None
|
482 |
+
- `per_gpu_eval_batch_size`: None
|
483 |
+
- `gradient_accumulation_steps`: 1
|
484 |
+
- `eval_accumulation_steps`: None
|
485 |
+
- `torch_empty_cache_steps`: None
|
486 |
+
- `learning_rate`: 2e-05
|
487 |
+
- `weight_decay`: 0.0
|
488 |
+
- `adam_beta1`: 0.9
|
489 |
+
- `adam_beta2`: 0.999
|
490 |
+
- `adam_epsilon`: 1e-08
|
491 |
+
- `max_grad_norm`: 1.0
|
492 |
+
- `num_train_epochs`: 2
|
493 |
+
- `max_steps`: -1
|
494 |
+
- `lr_scheduler_type`: warmup_stable_decay
|
495 |
+
- `lr_scheduler_kwargs`: {'num_decay_steps': 160}
|
496 |
+
- `warmup_ratio`: 0.05
|
497 |
+
- `warmup_steps`: 0
|
498 |
+
- `log_level`: passive
|
499 |
+
- `log_level_replica`: warning
|
500 |
+
- `log_on_each_node`: True
|
501 |
+
- `logging_nan_inf_filter`: True
|
502 |
+
- `save_safetensors`: True
|
503 |
+
- `save_on_each_node`: False
|
504 |
+
- `save_only_model`: False
|
505 |
+
- `restore_callback_states_from_checkpoint`: False
|
506 |
+
- `no_cuda`: False
|
507 |
+
- `use_cpu`: False
|
508 |
+
- `use_mps_device`: False
|
509 |
+
- `seed`: 42
|
510 |
+
- `data_seed`: None
|
511 |
+
- `jit_mode_eval`: False
|
512 |
+
- `use_ipex`: False
|
513 |
+
- `bf16`: True
|
514 |
+
- `fp16`: False
|
515 |
+
- `fp16_opt_level`: O1
|
516 |
+
- `half_precision_backend`: auto
|
517 |
+
- `bf16_full_eval`: False
|
518 |
+
- `fp16_full_eval`: False
|
519 |
+
- `tf32`: None
|
520 |
+
- `local_rank`: 0
|
521 |
+
- `ddp_backend`: None
|
522 |
+
- `tpu_num_cores`: None
|
523 |
+
- `tpu_metrics_debug`: False
|
524 |
+
- `debug`: []
|
525 |
+
- `dataloader_drop_last`: True
|
526 |
+
- `dataloader_num_workers`: 0
|
527 |
+
- `dataloader_prefetch_factor`: None
|
528 |
+
- `past_index`: -1
|
529 |
+
- `disable_tqdm`: False
|
530 |
+
- `remove_unused_columns`: True
|
531 |
+
- `label_names`: None
|
532 |
+
- `load_best_model_at_end`: False
|
533 |
+
- `ignore_data_skip`: False
|
534 |
+
- `fsdp`: []
|
535 |
+
- `fsdp_min_num_params`: 0
|
536 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
537 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
538 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
539 |
+
- `deepspeed`: None
|
540 |
+
- `label_smoothing_factor`: 0.0
|
541 |
+
- `optim`: adamw_torch
|
542 |
+
- `optim_args`: None
|
543 |
+
- `adafactor`: False
|
544 |
+
- `group_by_length`: False
|
545 |
+
- `length_column_name`: length
|
546 |
+
- `ddp_find_unused_parameters`: None
|
547 |
+
- `ddp_bucket_cap_mb`: None
|
548 |
+
- `ddp_broadcast_buffers`: False
|
549 |
+
- `dataloader_pin_memory`: True
|
550 |
+
- `dataloader_persistent_workers`: False
|
551 |
+
- `skip_memory_metrics`: True
|
552 |
+
- `use_legacy_prediction_loop`: False
|
553 |
+
- `push_to_hub`: False
|
554 |
+
- `resume_from_checkpoint`: None
|
555 |
+
- `hub_model_id`: None
|
556 |
+
- `hub_strategy`: every_save
|
557 |
+
- `hub_private_repo`: None
|
558 |
+
- `hub_always_push`: False
|
559 |
+
- `gradient_checkpointing`: False
|
560 |
+
- `gradient_checkpointing_kwargs`: None
|
561 |
+
- `include_inputs_for_metrics`: False
|
562 |
+
- `include_for_metrics`: []
|
563 |
+
- `eval_do_concat_batches`: True
|
564 |
+
- `fp16_backend`: auto
|
565 |
+
- `push_to_hub_model_id`: None
|
566 |
+
- `push_to_hub_organization`: None
|
567 |
+
- `mp_parameters`:
|
568 |
+
- `auto_find_batch_size`: False
|
569 |
+
- `full_determinism`: False
|
570 |
+
- `torchdynamo`: None
|
571 |
+
- `ray_scope`: last
|
572 |
+
- `ddp_timeout`: 1800
|
573 |
+
- `torch_compile`: False
|
574 |
+
- `torch_compile_backend`: None
|
575 |
+
- `torch_compile_mode`: None
|
576 |
+
- `dispatch_batches`: None
|
577 |
+
- `split_batches`: None
|
578 |
+
- `include_tokens_per_second`: False
|
579 |
+
- `include_num_input_tokens_seen`: False
|
580 |
+
- `neftune_noise_alpha`: None
|
581 |
+
- `optim_target_modules`: None
|
582 |
+
- `batch_eval_metrics`: False
|
583 |
+
- `eval_on_start`: False
|
584 |
+
- `use_liger_kernel`: False
|
585 |
+
- `eval_use_gather_object`: False
|
586 |
+
- `average_tokens_across_devices`: False
|
587 |
+
- `prompts`: None
|
588 |
+
- `batch_sampler`: no_duplicates
|
589 |
+
- `multi_dataset_batch_sampler`: proportional
|
590 |
+
|
591 |
+
</details>
|
592 |
+
|
593 |
+
|
594 |
+
### Framework Versions
|
595 |
+
- Python: 3.10.12
|
596 |
+
- Sentence Transformers: 3.4.1
|
597 |
+
- Transformers: 4.49.0
|
598 |
+
- PyTorch: 2.6.0+cu124
|
599 |
+
- Accelerate: 1.4.0
|
600 |
+
- Datasets: 3.3.2
|
601 |
+
- Tokenizers: 0.21.0
|
602 |
+
|
603 |
+
## Citation
|
604 |
+
|
605 |
+
### BibTeX
|
606 |
+
|
607 |
+
#### Sentence Transformers
|
608 |
+
```bibtex
|
609 |
+
@inproceedings{reimers-2019-sentence-bert,
|
610 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
611 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
612 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
613 |
+
month = "11",
|
614 |
+
year = "2019",
|
615 |
+
publisher = "Association for Computational Linguistics",
|
616 |
+
url = "https://arxiv.org/abs/1908.10084",
|
617 |
+
},
|
618 |
+
@misc{KURE,
|
619 |
+
publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
|
620 |
+
year = {2024},
|
621 |
+
url = {https://github.com/nlpai-lab/KURE}
|
622 |
+
}
|
623 |
+
```
|
624 |
+
|
625 |
+
## License
|
626 |
+
|
627 |
+
Arctic is licensed under the Apache-2. The released models can be used for commercial purposes free of charge.
|
628 |
+
|
629 |
+
|
630 |
+
|
631 |
+
<!--
|
632 |
+
## Glossary
|
633 |
+
|
634 |
+
*Clearly define terms in order to be accessible across audiences.*
|
635 |
+
-->
|
636 |
+
|
637 |
+
<!--
|
638 |
+
## Model Card Authors
|
639 |
+
|
640 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
641 |
+
-->
|
642 |
+
|
643 |
+
<!--
|
644 |
+
## Model Card Contact
|
645 |
+
|
646 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
647 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,28 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "/workspace/sbert/script/models/arctic_m3_v1/checkpoint-210",
|
3 |
+
"architectures": [
|
4 |
+
"XLMRobertaModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"bos_token_id": 0,
|
8 |
+
"classifier_dropout": null,
|
9 |
+
"eos_token_id": 2,
|
10 |
+
"hidden_act": "gelu",
|
11 |
+
"hidden_dropout_prob": 0.1,
|
12 |
+
"hidden_size": 1024,
|
13 |
+
"initializer_range": 0.02,
|
14 |
+
"intermediate_size": 4096,
|
15 |
+
"layer_norm_eps": 1e-05,
|
16 |
+
"max_position_embeddings": 8194,
|
17 |
+
"model_type": "xlm-roberta",
|
18 |
+
"num_attention_heads": 16,
|
19 |
+
"num_hidden_layers": 24,
|
20 |
+
"output_past": true,
|
21 |
+
"pad_token_id": 1,
|
22 |
+
"position_embedding_type": "absolute",
|
23 |
+
"torch_dtype": "float32",
|
24 |
+
"transformers_version": "4.49.0",
|
25 |
+
"type_vocab_size": 1,
|
26 |
+
"use_cache": true,
|
27 |
+
"vocab_size": 250002
|
28 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,12 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.4.1",
|
4 |
+
"transformers": "4.49.0",
|
5 |
+
"pytorch": "2.6.0+cu124"
|
6 |
+
},
|
7 |
+
"prompts": {
|
8 |
+
"query": "query: "
|
9 |
+
},
|
10 |
+
"default_prompt_name": null,
|
11 |
+
"similarity_fn_name": "cosine"
|
12 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:0b874517f0fd02dd9510fa2733aacaad1def6086387c88d1a21f4041351e15b0
|
3 |
+
size 2271064456
|
modules.json
ADDED
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
},
|
14 |
+
{
|
15 |
+
"idx": 2,
|
16 |
+
"name": "2",
|
17 |
+
"path": "2_Normalize",
|
18 |
+
"type": "sentence_transformers.models.Normalize"
|
19 |
+
}
|
20 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 8192,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": false,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": false,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": false,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": false,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": false,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": false,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": false,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:4ef9c709965de0840efe65586a59cca46029c7a3c04a67b7c418566cf48ddf38
|
3 |
+
size 17083053
|
tokenizer_config.json
ADDED
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"250001": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": true,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"bos_token": "<s>",
|
45 |
+
"clean_up_tokenization_spaces": true,
|
46 |
+
"cls_token": "<s>",
|
47 |
+
"eos_token": "</s>",
|
48 |
+
"extra_special_tokens": {},
|
49 |
+
"mask_token": "<mask>",
|
50 |
+
"max_length": 512,
|
51 |
+
"model_max_length": 8192,
|
52 |
+
"pad_to_multiple_of": null,
|
53 |
+
"pad_token": "<pad>",
|
54 |
+
"pad_token_type_id": 0,
|
55 |
+
"padding_side": "right",
|
56 |
+
"sep_token": "</s>",
|
57 |
+
"stride": 0,
|
58 |
+
"tokenizer_class": "XLMRobertaTokenizerFast",
|
59 |
+
"truncation_side": "right",
|
60 |
+
"truncation_strategy": "longest_first",
|
61 |
+
"unk_token": "<unk>"
|
62 |
+
}
|