dragonkue commited on
Commit
3693ce4
·
verified ·
1 Parent(s): cc05f67

Upload folder using huggingface_hub

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,647 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - loss:CachedGISTEmbedLoss
8
+ base_model: Snowflake/snowflake-arctic-embed-l-v2.0
9
+ widget:
10
+ - source_sentence: 'query: 이한구를 포함한 원내대표단이 사퇴한 날짜는 언제야?'
11
+ sentences:
12
+ - "아시아계에 대한 증오범죄를 단속하기 위해 사복 차림으로 순찰 중인 경찰관에게 시비를 건 30대 남성이 체포됐다. \n \n뉴욕을 기반으로\
13
+ \ 한 WABC방송은 현지시간으로 10일 뉴욕경찰(NYPD)이 전날 오후 맨해튼 펜스테이션 역에서 체포한 후비안 로드리게스(35)를 증오범죄\
14
+ \ 등의 혐의로 기소했다고 이날 보도했다. \n \n보도에 따르면 로드리게스는 펜스테이션 역으로 가는 엘리베이터에 함께 탄 사복 경찰관에게\
15
+ \ “무덤에 가지 않으려면 중국으로 돌아가라”고 말했다. 그러면서 경찰관에게 얼굴을 흉기로 찌르겠다는 위협까지 했다. \n \n사복 순찰 중이었던\
16
+ \ 경찰관은 로드리게스를 현장에서 체포했다. 로드리게스는 증오범죄 외에도 약물 소지 혐의로도 기소됐다. NYPD는 최근 급증한 증오범죄에 대응하기\
17
+ \ 위해 아시아계 거주자가 많은 지역에 아시아계로만 구성된 사복 경찰을 배치했다. \n \n더못 시어 뉴욕경찰 국장은 지난달 25일 “피부색이나\
18
+ \ 종교, 성적 취향 또는 다른 어떤 것 때문에 표적이 되는 것을 용납하지 않겠다”고 말했다. 이 비밀경찰관들은 뉴욕 시내 지하철역이나 슈퍼마켓\
19
+ \ 등을 집중적으로 순찰하며 지역사회 활동을 확대하고 있다. \n \n로드리게스를 체포한 경찰관도 2주 전 아시안 증오범죄 태스크포스(TF)에\
20
+ \ 배치됐다. 사복 순찰 중인 아시아계 경찰관을 위협하다 체포된 사례는 이번이 두 번째다. 올해 NYPD에 접수된 아시아계에 대한 증오범죄는\
21
+ \ 40건에 달한다."
22
+ - 한나라당은 4·27 재보선 이후 전당대회 룰(rule)을 놓고 한바탕 소동을 벌였다. 당권-대권 분리규정 폐지를 놓고 친이와 친박이 싸우더니,
23
+ 막판엔 1인1표제와 여론조사 폐지가 논란이 됐다. 친이-친박이 전당대회 룰을 놓고 맞붙은 것은 김무성 전 원내대표를 미는 친이와 이를 반대하는
24
+ 친박간 신경전이 배경이 됐던 것으로 전해진다. 계파가 충돌하는 바람에 또다른 당권주자인 나경원 전 최고위원이 어부지리를 얻었다는 분석이다.
25
+ 당초 친이 김문수 경기도지사와 정몽준 전 대표는 당권-대권 분리규정 폐지를 밀었다. 박근혜 전 대표를 비롯한 대권주자들이 당권주자로 나서 당을
26
+ 위기에서 구하자는 주장이었다. 친박을 싸움판에 끌어내면서 친이 대선주자들이 전면에 나설 기회를 잡으려는 취지로 해석됐다. 하지만 박 전 대표의
27
+ 반대로 무산됐다. 친이는 이번엔 1인1표제와 여론조사 폐지로 급습했다. 명분은 "계파 전당대회를 끝내자"는 것이었다. 비대위 회의에선 적극
28
+ 반발하지 않았던 친박과 소장파는 뒤늦게 이 개정안을 '김무성을 위한 술책'으로 해석했다. 이재오계가 김 전 원내대표를 대표로 밀기 위해 당헌·당규까지
29
+ 고치겠다고 나선 것으로 받아들인 것이다. 이재오계가 여론조사에 취약한 김 전 원내대표를 위해 여론조사 폐지란 무리수를 뒀다는 추정이었다. 이
30
+ 때문에 친박이 뒤늦게 나서 당헌·당규 개정을 막는데 총력을 다했다는 해석이다. 친박 내부에선 박 전 대표와 앙금이 남은 김 전 원내대표가 대표에
31
+ 오르는 건 안된다는 기류가 존재한다. 박 전 대표 측근이 6일 직접 나서 친박의원들에게 "의원총회와 전국위에서 당헌·당규 개정을 뒤집어야 한다"고
32
+ 당부했다는 후문이다. 결과적으로 전국위에서 비대위안은 무산됐고 1인2표제와 여론조사 30% 반영은 그대로 남았다. 비대위안이 무산되면서 친박과
33
+ 소장파 목소리에 더욱 힘이 실렸지만, 실제 당헌·당규 개정논쟁의 최대수혜자는 나경원 전 최고위원이라는 평가가 나온다. 전당대회 출마를 저울질
34
+ 중인 나 전 최고위원은 지난해 전당대회에서 여론조사 1등을 했다. 현재 전당대회 당헌·당규상으론 가장 유리한 고지에 올라서 있는 셈이다. 실제
35
+ 이재오계 내부에선 나 전 최고위원에 부쩍 눈길을 주는 눈치다. 당초 김 전 원내대표와 원희룡 전 사무총장을 유력 후보로 놓고 저울질했지만,
36
+ 최근 들어 나 전 최고위원까지 후보군에 올려놓으면서 최종결정을 미뤘다는 후문이다. 이재오계 수도권 중진의원은 "여론조사에서 1위를 하는 후보가
37
+ ���표를 맡는게 맞다"면서 나 전 최고위원을 적극 추천했다고 한다. 친박에선 '김무성 카드'에 제동을 걸었다는 점에 일단 안도하는 분위기다.
38
+ 다만 친박 전략통들은 나경원 수혜론에 극도의 경계심을 내비치고 있다. 친박 관계자는 "만의 하나 나 전 최고위원이 대표직에 오르면 친박으로선
39
+ 파출소 피하려다 경찰서 만난 꼴"이라고 말했다. 나 전 최고위원은 정치권에서 흔하지않은 여성이자 40대다. 대선에 도전하는 박 전 대표 입장에선
40
+ 같은 여성이자, 세대교체를 연상시키는 나 전 최고위원의 약진이 정치적으로 '마이너스'라는 것이다. 친박 내부에서조차 "명분과 실리, 모두를
41
+ 잃은 꼴"이라는 비판이 나오는 대목이다.
42
+ - 새누리당 진 영 의원이 한달여만에 정책위의장직에 복귀한다. 진 의원은 28일 "개인적 원칙과 입장을 버리고 당의 뜻에 따르기로 했다"며 "대선이
43
+ 중요한만큼 일단 개인 생각은 접기로 했다"고 말했다. 그는 "당장 오늘은 아니더라도 조만간 정책위의장 업무에 복귀할 것"이라고 덧붙였다. 진
44
+ 의원은 전날 대선 정책공약을 총괄할 국민행복특위 부위원장에 선임됐다. 새누리당 관계자는 "당 지도부가 그동안 다각도로 진 의원에게 정책위의장
45
+ 업무에 복귀할 것을 요청해왔다"면서 "결국 최근 박근혜 대선 후보가 직접 설득해 복귀결정을 내린 것으로 안다"고 말했다. 이한구 원내대표를
46
+ 비롯한 원내대표단은 지난달 11일 정두언 의원 체포동의안 부결의 책임을 지고 사퇴했다가 닷새 만에 업무에 복귀했으나, 진 의원만은 사퇴 의사를
47
+ 굽히지 않아왔다. 당 정책위는 전날 발족한 국민행복특별위원회와 함께 사실상 당과 박 후보의 대선 공약을 총괄 진두지휘하게 될 전망이다.
48
+ - source_sentence: 'query: 복지가 닿지 않는 곳의 취약 아동들을 발굴해 후원해 주는 천안시의 사업은 뭐지?'
49
+ sentences:
50
+ - "익산시가 장애인의 편익 증진을 위해 시각장애인을 위한 점자 주민등록증을 발급한다. \n\n시는 19일 장애등급에 상관없이 모든 시각장애인을\
51
+ \ 대상으로 하는 점자 주민등록증 발급을 시작했다고 밝혔다. \n\n기존에는 종전 1급~3급까지의 중증 시각장애인만 발급 신청이 가능했으나\
52
+ \ 지난해 주민등록법이 개정됨에 따라 장애등급에 상관없이 모든 시각장애인이 발급할 수 있도록 대상 범위가 확대됐다. \n\n아울러 점자 주민등록증은\
53
+ \ 익산에 주소를 둔 시각장애인을 대상으로 본인뿐만 아니라 같은 세대원, 직계혈족 등이 가까운 읍면동 주민센터에서 신청해 수령할 수 있다.\
54
+ \ \n\n또한, 기존에 일반 주민등록증을 발급받은 시각장애인은 점자 스티커만 별도로 신청할 수 있으며, 발급 수수료는 시에서 부담해 전액\
55
+ \ 면제된다. \n\n한편, 점자 주민등록증은 주민등록증 명칭, 성명, 주민등록번호, 주민등록증 발급 일자가 투명한 점자 스티커로 제작돼 주민등록증에\
56
+ \ 부착하는 방식으로 만들어진다."
57
+ - 홈플러스는 서울 동대문점 옥상에 풋살파크 11호점을 열었다고 24일 밝혔다. 홈플러스 풋살파크는 국제규격에 맞춘 친환경 인조잔디 구장이다.
58
+ 어린이 부상 방지를 위해 각 구장 벽면에 1.5m 높이 세이프 쿠션을 세우고 야간 경기를 돕는 스포츠 LED 조명을 설치했다. 홈플러스는 올해
59
+ 부산, 천안, 창원, 순천 등에 구장을 신설해 풋살파크를 20여개로 확대할 계획이다. 초등학생과 성인들을 위한 국내 최대 규모 아마추어 풋살
60
+ 리그도 준비 중이다. 홈플러스는 옥상 유휴부지를 활용한 체육공간을 확대해 고객 편익 증진과 국민 체육 발전에 기여할 방침이다. 각 지역 프로축구단
61
+ 어린이 축구교실과 연계해 축구 꿈나무 성장을 돕고 풋살파크를 지역 소외계층을 위한 사회공헌활동의 장으로도 활용해 나갈 계획이다. 심희정 기자
62
63
+ - "충남 천안시드림스타트는 복지사각지대 아동 발굴을 위한 사업 동영상을 제작했다고 4일 밝혔다. \n\n동영상은 드림스타트 사례관리 아동과 보호자,\
64
+ \ 아동통합사례관리사가 직접 참여해 사업을 설명하는 재능 기부와 생동감 넘치는 캐릭터로 구성돼 있어 누구나 드림스타트 사업에 대해 알기 쉽게\
65
+ \ 제작됐다. \n\n드림스타트 사례 아동과 보호자들이 자신의 목소리로 꿈을 이야기하며 드림스타트가 아동들이 꿈을 잃지 않고 건강하게 성장할\
66
+ \ 수 있도록 지원하고 있다는 것을 알리고 있다. \n\n드림스타트�� 0세~만12세의 취약계층 아동에게 사례관리를 통해 맞춤형 사례관리 제공으로\
67
+ \ 공평한 출발 기회를 보장하고 건강하고 행복한 사회구성원으로 성장할 수 있도록 지원하고 있다. \n\n오은영 드림스타트사업팀장은 \"복지사각지대의\
68
+ \ 위기 아동에 대한 주변의 지속적인 관심이 절실히 필요한 때이며 적극적인 발굴과 홍보에 힘쓰도록 노력하겠다\"고 말했다."
69
+ - source_sentence: 'query: 어떤 식이 성분이 개에게 먹이지 않아 개가 죽었나요?'
70
+ sentences:
71
+ - 1816년 프랑수아 마겐디는 탄수화물(당), 지방(오리브 오일) 및 물만 먹인 개가 분명히 기아로 사망했지만 단백질도 먹인 개가 생존하여 단백질을
72
+ 필수 식이 성분으로 식별한다는 것을 발견했다.1827년 윌리엄 프로우트는 음식을 탄수화물, 지방, 단백질로 나눈 최초의 사람이다.19세기 동안
73
+ 장밥티스트 두마스와 Justus von Liebig는 동물이 식물에서 직접 단백질을 얻는다는 공통된 믿음(동물과 식물의 단백질은 같고 인간은
74
+ 유기 화합물을 만들지 않는다는 것)에 대해 논쟁했다.당대 최고의 유기농 화학자로 명성을 얻었지만 동물 생리학에 대한 자격이 없는 리비히는 나중에
75
+ 영양가가 의심스러운 것으로 밝혀진 쇠고기 부용 및 유아용 조제분유와 같은 식품 추출물을 만들어 풍부한 성장을 했다.1860년대에 클로드 베르나르는
76
+ 체지방이 탄수화물과 단백질로부터 합성될 수 있다는 것을 발견하여 혈당의 에너지가 지방이나 글리코겐으로 저장될 수 있음을 보여주었다.
77
+ - 안녕! AC 97는 1997년에 Intel이 만든 오디오 코덱 표준이에요. 이것은 메인보드, 모뎀, 사운드 카드에 사용됩니다. 이 코덱은 오디오
78
+ 신호를 처리하기 위해 사용되는데, 일반적으로 작은 사각형 칩으로 존재합니다. 이 칩들은 두 가지 방식으로 나누어져 있습니다. 첫째, AC97
79
+ 인터페이스와 아날로그 오디오 인터페이스가 있습니다. 이 칩들은 소리를 처리하는 역할을 담당합니다. 둘째, 이 칩들은 다양한 브랜드와 모델로
80
+ 구성되어 있습니다. 예를 들면, ASUS, Realtek, C-Media, ESS, Empia, HMP, National Semiconductor,
81
+ Philips, Realtek, Silicon Image, TriTech, Yamaha, VIA, Winbond, Wolfson Microelectronics
82
+ 등이 있습니다. 이 칩들은 다양한 목적을 수행하며, 사운드 카드에 사용됩니다.
83
+ - 가족과 떨어져 3년 이상 해외생활을 하는 북한 노동자들 일부는 외로움을 달래기 위해 조선족 여자를 소개받아 사귀기도 한다. 가족과 떨어져 지내야만
84
+ 하는 상황 탓에 벌어지는 일일 것이다. 북한 노동자들은 러시아 여성을 사귀려면 돈이 많이 들지만 조선족 여성은 말도 잘 통하고 함께 생활도
85
+ 할 수 있으며 밥도 해주기 때문에 훨씬 좋다고 생각한다고 한다. 조선족 여성들은 대부분 시장에서 장사하는 상인들이다. 그러나 사할린의 조선족
86
+ 여성들이 3~4년 전부터 한국으로 이주해 현재 시장에서 장사하는 사람은 20여 명만 남은 것으로 알려져 있다. 북한에서 파견되는 노동자들의
87
+ 연령이 최근 3~4년 사이 계속 낮아지고 있다. 사할린은 섬지역이어서 그동안 탈북이 거의 없었으나 최근 탈북 우려가 커지면서 10년이 넘은
88
+ 노동자들을 귀국시키고 있다. 지난해 말 현재 사할린에 10년 이상 노동자로 일한 사람은 4명뿐이며 사업소 관리자들은 탈북을 막기 위해 하루에
89
+ 3번씩 점검하는 것으로 알려지고 있다.
90
+ - source_sentence: 'query: 당시 버지니아 대학교는 누구의 이상을 따르고 있었는가?'
91
+ sentences:
92
+ - 매일 100-300mg의 아연을 섭취하는 사람들에게 구리 결핍이 유발된다는 증거가 있다.2007년 실험에 따르면 매일 80mg을 복용하는 노인
93
+ 남성은 위약을 복용하는 남성보다 비뇨기 합병증으로 입원하는 경우가 더 많았다.USDA RDA는 남성과 여성의 경우 각각 11mg 및 8mg
94
+ Zn/일이다.100~300mg 수준은 구리와 철의 이용을 방해하거나 콜레스테롤에 악영향을 미칠 수 있다.토양에서 500ppm을 초과하는 아연
95
+ 수준은 식물이 철 및 망간과 같은 다른 필수 금속을 흡수하는 능력을 방해한다.아연 쉐이크 또는 "아연 칠"이라고 불리는 조건도 있는데, 아연
96
+ 도금 재료의 용접 중에 형성된 새로 형성된 산화 아연의 흡입에 의해 유도될 수 있다.아연은 그램당 17~38mg의 아연을 함유할 수 있는 의치
97
+ 크림의 일반적인 성분이다.이러한 제품의 과도한 사용으로 인해 장애 및 심지어 사망에 대한 주장이 있었다.
98
+ - 포는 1826년 2월 버지니아 대학교에 등��하여 고대 및 근대 언어를 공부했다. 첫사랑 사라 엘마이라 로이스터를 만난 것은 대학 입학 이전으로
99
+ 생각된다. 개교한 지 얼마 안 된 버지니아 대학교는 창립자 토머스 제퍼슨의 이상을 따르고 있었다. 도박·승마·사격·담배·음주가 모두 엄격히
100
+ 금지되었는데, 대개 학생들은 이를 무시했다. 제퍼슨은 학생자치제도를 도입하여 학생들이 각자 연구주제를 선택하고 각자 기숙 준비를 하게 했고,
101
+ 모든 비행을 교수진에게 보고하도록 했다. 이런 시험적인 시스템은 도입 초기였던 만큼 혼란스러웠고, 학교 중퇴자도 많았다. 포는 대학 재학 중에
102
+ 로이스터와의 연락이 끊어졌고, 도박 빚 때문에 양아버지와의 관계가 소원해졌다. 포는 앨런이 자신에게 충분한 돈을 주지 않아서 등록금·교재비·기숙사
103
+ 가구비 등을 낼 수 없다고 했다. 앨런은 그래서 돈과 옷을 더 보내주었지만 포의 빚은 더 불어났다. 포는 1년 만에 대학을 중퇴하고 리치먼드로
104
+ 돌아갔다. 그러나 사랑하던 로이스터가 알렉산더 셸턴이라는 사람과 결혼했다는 소식을 듣자 낙담하여 보스턴으로 훌쩍 떠났는데 이때가 1827년
105
+ 4월이었다. 포는 점포 계원이나 신문 기고가 같은 낯선 일을 하면서 입에 풀칠했다. 이 시기쯤에 앙리 르 르네(Henri Le Rennet)라는
106
+ 필명을 사용하기 시작했다.
107
+ - 허위자백에 대한 관심은 1930년대 미국에서 발견된다. Edwin Borchard는 1932년 그의 저서 “Convicting the Innocent”를
108
+ 통해 죄 없는 사람이 잘못 기소되어 유죄판결을 받고 수감된 65건의 사례를 소개했다. 이것은 미국의 형사사법시스템 내에서는 결코 무고한 사람이
109
+ 유죄판결을 받을 리 없다는 전통적 관념을 깨버리는 것이었다. 그러나 아쉽게도 연구는 허위자백이 포함된 오심사례들에 대한 간단한 고찰 내지 소개에
110
+ 그쳤고, 허위자백을 보다 체계적으로 계량화하거나 연구를 심화하려는 시도가 없었다. 그리고 이후 수십 년간 Borchard의 한계를 벗어나지
111
+ 못하고 이를 답습하는 유사한 연구가 진행되었다. 오심과 허위자백에 대한 연구의 도약은 1987년에 이루어졌다. Hugo Bedau와 Michael
112
+ Radelet은 그들의 논문에서 1900년부터 1987년까지 미국에서 350건의 오심사례(사형에 처해질 가능성 있는 사례들)를 분석하여 그
113
+ 중 49건(14%)이 허위자백으로 인한 것임을 발표하였다. 이 결과는 미국사회에 큰 충격을 주었고, 많은 사람들이 오판에 대한 관심을 갖고
114
+ 사례를 모으거나 분석하는 작업을 하도록 자극 하였다. 이 과정에서 허위자백에 대한 관심도 역시 확대되어 갔다.
115
+ - source_sentence: 'query: 기술적으로 집단에너지시설에 대해 규정한 법의 상위법은 뭐야?'
116
+ sentences:
117
+ - 이러한 의견 불일치에도 불구하고, 위 전문가들이 지적했듯이 경찰과 아동보호전문기관의 협업은 아동학대범죄의 신고 및 조사 단계에서 매우 핵심적인
118
+ 부분이다. 또한 한 사건을 각각 수사와 피해자 보호라는 관점에서 보완적으로 보기 때문에 의견의 불일치에도 불구, 결과적으로 피학대아동의 온전한
119
+ 지원을 위해 필요한 부분이기도 하다. 그러나 향후 예상되는 두 직책간의 의견불일치와 범위 침해 문제 등을 개선하기 위해서는 이 부분에 있어서는
120
+ 아동보호전문기관의 소관부서인 보건복지부와 경찰이 실무자들에게 적용될 수 있는 가이드라인을 어느 정도 만들어주는 것이 필요해 보인다. 현재 일각에서는
121
+ 아동보호전문기관의 신고 조사기능과 서비스 제공 및 사후관리기능을 분리하여 공적기관에서 신고 조사기능을 담당하고 아동보호전문기관은 서비스제공
122
+ 및 사후관리를 담당하도록 하자는 주장도 제기되고 있다. 그러나 특례법 시행 초기단계인 현 시점에 기능을 분리하여 경찰에서 신고 조사기능을 전담하게
123
+ 되면 자칫 피해아동보호에 소홀해질 가능성도 있으므로 현 단계에서는 역할을 좀 더 명확하게 구분해주는 중앙부처차원의 가이드라인 설정이 좀 더
124
+ 적절해 보인다.
125
+ - 'Ⅲ. 지역난방 사용자 설비의 법적 지위와 역할
126
+
127
+ 1. 지역난방 사용자 설비의 법적 지위
128
+
129
+ 지역난방 사용자 설비의 운영, 유지, 보수, 교체, 계량 및 리모델링 정책규제체계는 중앙정부의 법령, 지자체의 조례 또는 규약, 공급사의 규정을
130
+ 기반으로 한다. 지역난방 사용자 설비의 관리를 규율하는 중앙정부의 법적 기반은 에너지이용합리화법, 집단에너지사업법 등 관련 에너지 ���령을 비롯해
131
+ 주택, 공동주택, 건축, 녹색건축물, 계량, 기계설비, 환경, 기후변화, 수도 관련 법령이다. 1980년 에너지이용합리화법이 제정되고, 1985년
132
+ 지역난방 보급이 서울시를 시작으로 이루어진 이후 에너지효율화와 재생에너지의 중요성이 증가함에 따라 에너지, 주택, 건축물 등 관련법이 제·개정을
133
+ 거듭하며 분화, 발전되어 오고 있다. 지역난방 사용자 설비를 규율하는 중앙정부의 법적 기반은 ‘에너지이용합리화법’과 ‘집단에너지사업법’이다.
134
+ ‘에너지이용합리화법’을 상위법으로 ‘집단에너지사업법’이 집단에너지시설의 기술 수준을 규정하고 있다.'
135
+ - '환경부, 전국 폐수종말처리시설 운영·관리실태 평가결과 발표
136
+
137
+ 2011년 폐수종말처리시설 운영 및 관리실태 평가결과
138
+
139
+ Ⅲ. 문제점 및 개선방안
140
+
141
+ < 평가 점수 상·하향 조정 >
142
+
143
+ □ 폐수유입률 배점 상향 조정
144
+
145
+ ○ 폐수유입률 저조에 대하여 국회 등에서 지속적으로 제기되고 있어, 폐수유입률 제고를 위해 배점 상향 조정이 필요
146
+
147
+ ☞ 폐수유입률 : 10점 → 15점
148
+
149
+ □ 폐수배출업소 관리 시스템 및 수질분석 배점 상향 조정
150
+
151
+ ○ 특정수질유해물질의 처리장 유입 관리 강화 및 비정상 가동에 따른 폐수무단방류 등의 사전 예방기능을 강화하기 위해 배점 상향 조정
152
+
153
+ ○ 폐수종말처리시설의 유입수 및 방류수 분석기능 강화를 통해 폐수 배출업소에 대한 견제기능 강화와 처리장의 적정관리 유도
154
+
155
+ ☞ 배출업소관리시스템 : 5점 → 10점, 수질분석 : 5점 → 10점
156
+
157
+ □ 폐수처리 효율 및 오염불질 유입률 배점 하향 조정
158
+
159
+ ○ 폐수처리효율 및 오염물질 유입률 항목은 배점이 높은 반면 시설간 점수의 편차가 크지 않아(변별력 저조) 배점 하향 조정 필요
160
+
161
+ ☞ 폐수처리 효율 : 15점 → 10점, 오염물질 유입률 : 10점 → 5점
162
+
163
+ □ 폐수 재이용률 배점 하향 조정
164
+
165
+ ○ 폐수내 특정수질유해물질의 혼입, 하수처리장과 비교할 때 방류 폐수량이 미미하여 폐수 재이용률에는 한계가 있어 하향 조정
166
+
167
+ ○ 또한, 폐수 재이용을 위한 추가설비가 필요함에 따라 처리장 운영만으로는 재이용에는 한계가 있음
168
+
169
+ ※ 폐수 재이용시설은 BTO로 사업을 추진해야 하나 시설용량의 소규모로 인해 경제성이 떨어짐
170
+
171
+ ☞ 폐수 재이용률 : 10점 → 5점'
172
+
173
+ ---
174
+
175
+ # SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0
176
+
177
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) on the clustered datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search.
178
+
179
+ The **Snowflake/snowflake-arctic-embed-l-v2.0** model has been further trained with Korean data to enhance its performance in **Korean retrieval tasks**. It is a powerful model that achieves **state-of-the-art (SOTA) performance across multiple retrieval benchmarks**.
180
+
181
+
182
+
183
+ ## Model Details
184
+
185
+ ### Model Description
186
+ - **Model Type:** Sentence Transformer
187
+ - **Base model:** [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) <!-- at revision 7f311bb640ad3babc0a4e3a8873240dcba44c9d2 -->
188
+ - **Maximum Sequence Length:** 8192 tokens
189
+ - **Output Dimensionality:** 1024 dimensions
190
+ - **Similarity Function:** Cosine Similarity
191
+ - **Training Datasets:**
192
+ - AI Hub 데이터 셋
193
+ - 행정 문서 대상 기계 독해
194
+ - 기계 독해
195
+ - 뉴스 기사 기계독해
196
+ - 도서 자료 기계독해
197
+ - 숫자 연산 기계독해
198
+ - 금융 법률 문서 기계독해
199
+ - **Language:** Korean, English
200
+
201
+
202
+ ### Model Sources
203
+
204
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
205
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
206
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
207
+
208
+ ### Full Model Architecture
209
+
210
+ ```
211
+ SentenceTransformer(
212
+ (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
213
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
214
+ (2): Normalize()
215
+ )
216
+ ```
217
+
218
+
219
+ ## Usage
220
+
221
+ ### Direct Usage (Sentence Transformers)
222
+
223
+ First install the Sentence Transformers library and xformers library
224
+
225
+ ```bash
226
+ pip install -U sentence-transformers
227
+
228
+ pip install xformers
229
+
230
+ ```
231
+
232
+
233
+ Then you can load this model and run inference.
234
+ ## Usage
235
+
236
+ ### Using Sentence Transformers
237
+
238
+ ```python
239
+ from sentence_transformers import SentenceTransformer
240
+
241
+ # Load the model
242
+ model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
243
+ model = SentenceTransformer(model_name)
244
+
245
+ # Define the queries and documents
246
+ queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
247
+ documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
248
+
249
+ # Compute embeddings: use `prompt_name="query"` to encode queries!
250
+ query_embeddings = model.encode(queries, prompt_name="query")
251
+ document_embeddings = model.encode(documents)
252
+
253
+ # Compute cosine similarity scores
254
+ scores = model.similarity(query_embeddings, document_embeddings)
255
+
256
+ # Output the results
257
+ for query, query_scores in zip(queries, scores):
258
+ doc_score_pairs = list(zip(documents, query_scores))
259
+ doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
260
+ print("Query:", query)
261
+ for document, score in doc_score_pairs:
262
+ print(score, document)
263
+
264
+ ```
265
+
266
+ ### Using Huggingface Transformers
267
+
268
+
269
+ You can use the transformers package to use Snowflake's arctic-embed model, as shown below. For optimal retrieval quality, use the CLS token to embed each text portion and use the query prefix below (just on the query).
270
+
271
+ ```python
272
+
273
+ import torch
274
+ from transformers import AutoModel, AutoTokenizer
275
+
276
+ model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
277
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
278
+ model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
279
+ model.eval()
280
+
281
+ query_prefix = 'query: '
282
+ queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
283
+ queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
284
+ query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)
285
+
286
+ documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
287
+ document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)
288
+
289
+ # Compute token embeddings
290
+ with torch.no_grad():
291
+ query_embeddings = model(**query_tokens)[0][:, 0]
292
+ document_embeddings = model(**document_tokens)[0][:, 0]
293
+
294
+ # Normalize embeddings
295
+ query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
296
+ document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)
297
+
298
+ scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
299
+
300
+ for query, query_scores in zip(queries, scores):
301
+ doc_score_pairs = list(zip(documents, query_scores))
302
+ doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
303
+ # Output passages & scores
304
+ print("Query:", query)
305
+ for document, score in doc_score_pairs:
306
+ print(score, document)
307
+
308
+ ```
309
+
310
+ <!--
311
+ ### Direct Usage (Transformers)
312
+
313
+ <details><summary>Click to see the direct usage in Transformers</summary>
314
+
315
+ </details>
316
+ -->
317
+
318
+ <!--
319
+ ### Downstream Usage (Sentence Transformers)
320
+
321
+ You can finetune this model on your own dataset.
322
+
323
+ <details><summary>Click to expand</summary>
324
+
325
+ </details>
326
+ -->
327
+
328
+ <!--
329
+ ### Out-of-Scope Use
330
+
331
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
332
+ -->
333
+
334
+ ## Evaluation
335
+
336
+ - This Evaluation references the KURE GitHub repository. (https://github.com/nlpai-lab/KURE)
337
+
338
+ ### MTEB-ko-retrieval Leaderboard
339
+ [MTEB](https://github.com/embeddings-benchmark/mteb)에 등록된 모든 Korean Retrieval Benchmark에 대한 평가를 진행하였습니다.
340
+ ### Korean Retrieval Benchmark
341
+ - [Ko-StrategyQA](https://huggingface.co/datasets/taeminlee/Ko-StrategyQA): 한국어 ODQA multi-hop 검색 데이터셋 (StrategyQA 번역)
342
+ - [AutoRAGRetrieval](https://huggingface.co/datasets/yjoonjang/markers_bm): 금융, 공공, 의료, 법률, 커머스 5개 분야에 대해, pdf를 파싱하여 구성한 한국어 문서 검색 데이터셋
343
+ - [MIRACLRetrieval](https://huggingface.co/datasets/miracl/miracl): Wikipedia 기반의 한국어 문서 검색 데이터셋
344
+ - [PublicHealthQA](https://huggingface.co/datasets/xhluca/publichealth-qa): 의료 및 공중보건 도메인에 대한 한국어 문서 검색 데이터셋
345
+ - [BelebeleRetrieval](https://huggingface.co/datasets/facebook/belebele): FLORES-200 기반의 한국어 문서 검색 데이터셋
346
+ - [MrTidyRetrieval](https://huggingface.co/datasets/mteb/mrtidy): Wikipedia 기반의 한국어 문서 검색 데이터셋
347
+ - [MultiLongDocRetrieval](https://huggingface.co/datasets/Shitao/MLDR): 다양한 도메인의 한국어 장문 검색 데이터셋
348
+ - [XPQARetrieval](https://huggingface.co/datasets/jinaai/xpqa): 다양한 도메인의 한국어 문서 검색 데이터셋
349
+
350
+ ### Metrics
351
+
352
+ * Standard metric : NDCG@10
353
+
354
+ #### Information Retrieval
355
+
356
+ - Achieves state-of-the-art (SOTA) performance on most benchmarks.
357
+
358
+
359
+ | Model | MrTidyRetrieval | MIRACLRetrieval | XPQARetrieval | BelebeleRetrieval | PublicHealthQA | AutoRAGRetrieval | Ko-StrategyQA | Average |
360
+ |:-------------------------------------------------------------------------------------------------|:------------------|:------------------|:----------------|:--------------------|:-----------------|:-------------------|:----------------|:-------------|
361
+ | dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.57121 | 0.66846 | **0.4436** | **0.95177** | 0.83374 | **0.90927** | _0.80498_ | **0.740433** |
362
+ | dragonkue/BGE-m3-ko | 0.60992 | 0.68331 | 0.38131 | _0.95027_ | 0.81545 | _0.87379_ | 0.7959 | _0.729993_ |
363
+ | nlpai-lab/KURE-v1 | 0.59092 | 0.68157 | 0.38158 | 0.95019 | 0.81925 | 0.87076 | 0.7999 | 0.727739 |
364
+ | BAAI/bge-m3 | **0.64708** | _0.70146_ | 0.36075 | 0.93164 | 0.80412 | 0.83008 | 0.79405 | 0.724169 |
365
+ | Snowflake/snowflake-arctic-embed-l-v2.0 | 0.59071 | 0.66077 | _0.43018_ | 0.9271 | 0.81679 | 0.83863 | 0.80455 | 0.724104 |
366
+ | intfloat/multilingual-e5-large | _0.64211_ | 0.66486 | 0.3571 | 0.94499 | 0.82534 | 0.81337 | 0.80348 | 0.721607 |
367
+ | nlpai-lab/KoE5 | 0.58411 | 0.62347 | 0.35086 | 0.94251 | 0.83507 | 0.84339 | 0.80008 | 0.711356 |
368
+ | BAAI/bge-multilingual-gemma2 | 0.47521 | **0.70315** | 0.37446 | 0.95001 | _0.87102_ | 0.76535 | 0.79072 | 0.704274 |
369
+ | jinaai/jina-embeddings-v3 | 0.55759 | 0.63716 | 0.41272 | 0.91203 | 0.83059 | 0.76104 | 0.79807 | 0.701314 |
370
+ | intfloat/multilingual-e5-large-instruct | 0.52877 | 0.59914 | 0.39712 | 0.936 | 0.84967 | 0.77996 | 0.79793 | 0.69837 |
371
+ | nomic-ai/nomic-embed-text-v2-moe | 0.53766 | 0.65913 | 0.36871 | 0.93636 | 0.78448 | 0.80682 | 0.76325 | 0.693773 |
372
+ | intfloat/multilingual-e5-base | 0.58082 | 0.6227 | 0.3607 | 0.92868 | 0.77203 | 0.79752 | 0.76355 | 0.689429 |
373
+ | intfloat/e5-mistral-7b-instruct | 0.52444 | 0.58709 | 0.39159 | 0.92403 | **0.88733** | 0.67849 | 0.79317 | 0.683734 |
374
+ | Alibaba-NLP/gte-Qwen2-7B-instruct | 0.46571 | 0.53375 | 0.37866 | 0.94808 | 0.85844 | 0.76682 | **0.8108** | 0.680323 |
375
+ | Alibaba-NLP/gte-multilingual-base | 0.56464 | 0.62697 | 0.30702 | 0.8796 | 0.74584 | 0.77108 | 0.75121 | 0.663766 |
376
+ | openai/text-embedding-3-large | 0.44728 | 0.56248 | 0.37423 | 0.89451 | 0.85617 | 0.76466 | 0.73634 | 0.662239 |
377
+ | upskyy/bge-m3-korean | 0.55011 | 0.59892 | 0.31695 | 0.8731 | 0.77559 | 0.72946 | 0.75277 | 0.6567 |
378
+ | Salesforce/SFR-Embedding-2_R | 0.40347 | 0.55798 | 0.37371 | 0.91747 | 0.8605 | 0.70782 | 0.77042 | 0.65591 |
379
+ | ibm-granite/granite-embedding-278m-multilingual | nan | 0.59216 | 0.23058 | 0.83231 | 0.77668 | 0.70226 | 0.71762 | 0.641935 |
380
+ | jhgan/ko-sroberta-multitask | 0.29475 | 0.36698 | 0.27961 | 0.81636 | 0.69212 | 0.58332 | 0.65097 | 0.526301 |
381
+
382
+
383
+ #### Capabilities Beyond Benchmarks
384
+
385
+ This model is designed to handle various retrieval scenarios that are not directly measured in benchmarks:
386
+
387
+ 1. Supports phrase-based queries in addition to full-sentence queries.
388
+
389
+ Example: "What products does Samsung sell?" or "Samsung's products"
390
+
391
+ 2. Trained to handle diverse query formats, regardless of phrasing variations.
392
+
393
+ Example: "Tell me about Samsung.", "I'm curious about Samsung.", "What is Samsung?"
394
+
395
+ 3. Optimized for Markdown table search, allowing retrieval of answers embedded within tables when present in documents.
396
+
397
+ 4. Efficient clustering without hard negatives:
398
+
399
+ - Samples within the same batch are clustered together.
400
+ - Uses efficient embedding formation for clustering by truncating embeddings from the Snowflake/snowflake-arctic-embed-l-v2.0 model to 256 dimensions.
401
+ - The clustering approach is inspired by the findings in the following papers:
402
+ - *Embedding And Clustering Your Data Can Improve Contrastive Pretraining*
403
+ - *CONTEXTUAL DOCUMENT EMBEDDINGS*
404
+
405
+ 5. Strong performance across different domains:
406
+
407
+ - The *Arctic-Embed 2.0: Multilingual Retrieval Without Compromise* paper states:
408
+ *"While models like mE5, mGTE, and BGE-M3 excel on MIRACL, their performance on CLEF is notably weaker compared to ours and closed-source offerings, suggesting the potential of overfitting to MIRACL or its Wikipedia-based domain."*
409
+ - Based on my own experience, **Snowflake/snowflake-arctic-embed-l-v2.0** has consistently outperformed **BGE-M3** in different domains, further validating this observation.
410
+
411
+
412
+ ## Bias, Risks and Limitations
413
+
414
+ To prevent excessive GPU usage costs, the model was trained with a maximum sequence length of 1300 tokens. As a result, its performance may degrade on benchmarks like MultiLongDocRetrieval (MLDR).
415
+
416
+ The previous model, **BGE-m3-ko**, was trained with a token length of **1024**, which imposed limitations on its MLDR benchmark performance.
417
+
418
+ In the case of **snowflake-arctic-embed-l-v2.0-ko**, if the document length exceeds 1300 tokens or approximately 2500 characters, it is recommended to consider the following models instead.
419
+
420
+
421
+
422
+ | Model | MultiLongDocRetrieval |
423
+ |:-------------------------------------------------------------------------------------------------|------------------------:|
424
+ | Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base | 0.48402 |
425
+ | nlpai-lab/KURE-v1/nlpai-lab_KURE-v1 | 0.47528 |
426
+ | dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.4459 |
427
+ | BAAI/bge-m3/BAAI_bge-m3 | 0.43011 |
428
+ | Snowflake/snowflake-arctic-embed-l-v2.0 | 0.40401 |
429
+ | dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko | 0.40135 |
430
+ | openai/text-embedding-3-large | 0.31108 |
431
+ | BAAI/bge-multilingual-gemma2 | 0.31021 |
432
+ | nlpai-lab/KoE5 | 0.30869 |
433
+ | jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3 | 0.30512 |
434
+ | Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct | 0.30313 |
435
+ | intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct | 0.27973 |
436
+ | nomic-ai/nomic-embed-text-v2-moe | 0.27135 |
437
+ | intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct | 0.2583 |
438
+ | intfloat/multilingual-e5-large/intfloat__multilingual-e5-large | 0.24596 |
439
+ | Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R | 0.24346 |
440
+ | intfloat/multilingual-e5-base/intfloat__multilingual-e5-base | 0.23766 |
441
+ | upskyy/bge-m3-korean/upskyy__bge-m3-korean | 0.21968 |
442
+ | ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual | 0.20781 |
443
+ | jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask | 0.20416 |
444
+
445
+
446
+ <!--
447
+ ### Recommendations
448
+
449
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
450
+ -->
451
+
452
+ ## Training Details
453
+
454
+ * Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters:
455
+
456
+
457
+
458
+ ### Training Hyperparameters
459
+ #### Non-Default Hyperparameters
460
+
461
+ - `eval_strategy`: steps
462
+ - `per_device_train_batch_size`: 20000
463
+ - `per_device_eval_batch_size`: 4096
464
+ - `learning_rate`: 2e-05
465
+ - `num_train_epochs`: 2
466
+ - `lr_scheduler_type`: warmup_stable_decay
467
+ - `lr_scheduler_kwargs`: {'num_decay_steps': 160}
468
+ - `warmup_ratio`: 0.05
469
+ - `bf16`: True
470
+ - `batch_sampler`: no_duplicates
471
+
472
+ #### All Hyperparameters
473
+ <details><summary>Click to expand</summary>
474
+
475
+ - `overwrite_output_dir`: False
476
+ - `do_predict`: False
477
+ - `eval_strategy`: steps
478
+ - `prediction_loss_only`: True
479
+ - `per_device_train_batch_size`: 10000
480
+ - `per_device_eval_batch_size`: 4096
481
+ - `per_gpu_train_batch_size`: None
482
+ - `per_gpu_eval_batch_size`: None
483
+ - `gradient_accumulation_steps`: 1
484
+ - `eval_accumulation_steps`: None
485
+ - `torch_empty_cache_steps`: None
486
+ - `learning_rate`: 2e-05
487
+ - `weight_decay`: 0.0
488
+ - `adam_beta1`: 0.9
489
+ - `adam_beta2`: 0.999
490
+ - `adam_epsilon`: 1e-08
491
+ - `max_grad_norm`: 1.0
492
+ - `num_train_epochs`: 2
493
+ - `max_steps`: -1
494
+ - `lr_scheduler_type`: warmup_stable_decay
495
+ - `lr_scheduler_kwargs`: {'num_decay_steps': 160}
496
+ - `warmup_ratio`: 0.05
497
+ - `warmup_steps`: 0
498
+ - `log_level`: passive
499
+ - `log_level_replica`: warning
500
+ - `log_on_each_node`: True
501
+ - `logging_nan_inf_filter`: True
502
+ - `save_safetensors`: True
503
+ - `save_on_each_node`: False
504
+ - `save_only_model`: False
505
+ - `restore_callback_states_from_checkpoint`: False
506
+ - `no_cuda`: False
507
+ - `use_cpu`: False
508
+ - `use_mps_device`: False
509
+ - `seed`: 42
510
+ - `data_seed`: None
511
+ - `jit_mode_eval`: False
512
+ - `use_ipex`: False
513
+ - `bf16`: True
514
+ - `fp16`: False
515
+ - `fp16_opt_level`: O1
516
+ - `half_precision_backend`: auto
517
+ - `bf16_full_eval`: False
518
+ - `fp16_full_eval`: False
519
+ - `tf32`: None
520
+ - `local_rank`: 0
521
+ - `ddp_backend`: None
522
+ - `tpu_num_cores`: None
523
+ - `tpu_metrics_debug`: False
524
+ - `debug`: []
525
+ - `dataloader_drop_last`: True
526
+ - `dataloader_num_workers`: 0
527
+ - `dataloader_prefetch_factor`: None
528
+ - `past_index`: -1
529
+ - `disable_tqdm`: False
530
+ - `remove_unused_columns`: True
531
+ - `label_names`: None
532
+ - `load_best_model_at_end`: False
533
+ - `ignore_data_skip`: False
534
+ - `fsdp`: []
535
+ - `fsdp_min_num_params`: 0
536
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
537
+ - `fsdp_transformer_layer_cls_to_wrap`: None
538
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
539
+ - `deepspeed`: None
540
+ - `label_smoothing_factor`: 0.0
541
+ - `optim`: adamw_torch
542
+ - `optim_args`: None
543
+ - `adafactor`: False
544
+ - `group_by_length`: False
545
+ - `length_column_name`: length
546
+ - `ddp_find_unused_parameters`: None
547
+ - `ddp_bucket_cap_mb`: None
548
+ - `ddp_broadcast_buffers`: False
549
+ - `dataloader_pin_memory`: True
550
+ - `dataloader_persistent_workers`: False
551
+ - `skip_memory_metrics`: True
552
+ - `use_legacy_prediction_loop`: False
553
+ - `push_to_hub`: False
554
+ - `resume_from_checkpoint`: None
555
+ - `hub_model_id`: None
556
+ - `hub_strategy`: every_save
557
+ - `hub_private_repo`: None
558
+ - `hub_always_push`: False
559
+ - `gradient_checkpointing`: False
560
+ - `gradient_checkpointing_kwargs`: None
561
+ - `include_inputs_for_metrics`: False
562
+ - `include_for_metrics`: []
563
+ - `eval_do_concat_batches`: True
564
+ - `fp16_backend`: auto
565
+ - `push_to_hub_model_id`: None
566
+ - `push_to_hub_organization`: None
567
+ - `mp_parameters`:
568
+ - `auto_find_batch_size`: False
569
+ - `full_determinism`: False
570
+ - `torchdynamo`: None
571
+ - `ray_scope`: last
572
+ - `ddp_timeout`: 1800
573
+ - `torch_compile`: False
574
+ - `torch_compile_backend`: None
575
+ - `torch_compile_mode`: None
576
+ - `dispatch_batches`: None
577
+ - `split_batches`: None
578
+ - `include_tokens_per_second`: False
579
+ - `include_num_input_tokens_seen`: False
580
+ - `neftune_noise_alpha`: None
581
+ - `optim_target_modules`: None
582
+ - `batch_eval_metrics`: False
583
+ - `eval_on_start`: False
584
+ - `use_liger_kernel`: False
585
+ - `eval_use_gather_object`: False
586
+ - `average_tokens_across_devices`: False
587
+ - `prompts`: None
588
+ - `batch_sampler`: no_duplicates
589
+ - `multi_dataset_batch_sampler`: proportional
590
+
591
+ </details>
592
+
593
+
594
+ ### Framework Versions
595
+ - Python: 3.10.12
596
+ - Sentence Transformers: 3.4.1
597
+ - Transformers: 4.49.0
598
+ - PyTorch: 2.6.0+cu124
599
+ - Accelerate: 1.4.0
600
+ - Datasets: 3.3.2
601
+ - Tokenizers: 0.21.0
602
+
603
+ ## Citation
604
+
605
+ ### BibTeX
606
+
607
+ #### Sentence Transformers
608
+ ```bibtex
609
+ @inproceedings{reimers-2019-sentence-bert,
610
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
611
+ author = "Reimers, Nils and Gurevych, Iryna",
612
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
613
+ month = "11",
614
+ year = "2019",
615
+ publisher = "Association for Computational Linguistics",
616
+ url = "https://arxiv.org/abs/1908.10084",
617
+ },
618
+ @misc{KURE,
619
+ publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
620
+ year = {2024},
621
+ url = {https://github.com/nlpai-lab/KURE}
622
+ }
623
+ ```
624
+
625
+ ## License
626
+
627
+ Arctic is licensed under the Apache-2. The released models can be used for commercial purposes free of charge.
628
+
629
+
630
+
631
+ <!--
632
+ ## Glossary
633
+
634
+ *Clearly define terms in order to be accessible across audiences.*
635
+ -->
636
+
637
+ <!--
638
+ ## Model Card Authors
639
+
640
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
641
+ -->
642
+
643
+ <!--
644
+ ## Model Card Contact
645
+
646
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
647
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "/workspace/sbert/script/models/arctic_m3_v1/checkpoint-210",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.49.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,12 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.49.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {
8
+ "query": "query: "
9
+ },
10
+ "default_prompt_name": null,
11
+ "similarity_fn_name": "cosine"
12
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0b874517f0fd02dd9510fa2733aacaad1def6086387c88d1a21f4041351e15b0
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 8192,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4ef9c709965de0840efe65586a59cca46029c7a3c04a67b7c418566cf48ddf38
3
+ size 17083053
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 512,
51
+ "model_max_length": 8192,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizerFast",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }