Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

.gitattributes +1 -0
1_Pooling/config.json +10 -0
README.md +647 -0
config.json +28 -0
config_sentence_transformers.json +12 -0
model.safetensors +3 -0
modules.json +20 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +62 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 1024,
+  "pooling_mode_cls_token": true,
+  "pooling_mode_mean_tokens": false,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,647 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- loss:CachedGISTEmbedLoss
+base_model: Snowflake/snowflake-arctic-embed-l-v2.0
+widget:
+- source_sentence: 'query: 이한구를 포함한 원내대표단이 사퇴한 날짜는 언제야?'
+  sentences:
+  - "아시아계에 대한 증오범죄를 단속하기 위해 사복 차림으로 순찰 중인 경찰관에게 시비를 건 30대 남성이 체포됐다. \n \n뉴욕을 기반으로\
+    \ 한 WABC방송은 현지시간으로 10일 뉴욕경찰(NYPD)이 전날 오후 맨해튼 펜스테이션 역에서 체포한 후비안 로드리게스(35)를 증오범죄\
+    \ 등의 혐의로 기소했다고 이날 보도했다. \n \n보도에 따르면 로드리게스는 펜스테이션 역으로 가는 엘리베이터에 함께 탄 사복 경찰관에게\
+    \ “무덤에 가지 않으려면 중국으로 돌아가라”고 말했다. 그러면서 경찰관에게 얼굴을 흉기로 찌르겠다는 위협까지 했다. \n \n사복 순찰 중이었던\
+    \ 경찰관은 로드리게스를 현장에서 체포했다. 로드리게스는 증오범죄 외에도 약물 소지 혐의로도 기소됐다. NYPD는 최근 급증한 증오범죄에 대응하기\
+    \ 위해 아시아계 거주자가 많은 지역에 아시아계로만 구성된 사복 경찰을 배치했다. \n \n더못 시어 뉴욕경찰 국장은 지난달 25일 “피부색이나\
+    \ 종교, 성적 취향 또는 다른 어떤 것 때문에 표적이 되는 것을 용납하지 않겠다”고 말했다. 이 비밀경찰관들은 뉴욕 시내 지하철역이나 슈퍼마켓\
+    \ 등을 집중적으로 순찰하며 지역사회 활동을 확대하고 있다. \n \n로드리게스를 체포한 경찰관도 2주 전 아시안 증오범죄 태스크포스(TF)에\
+    \ 배치됐다. 사복 순찰 중인 아시아계 경찰관을 위협하다 체포된 사례는 이번이 두 번째다. 올해 NYPD에 접수된 아시아계에 대한 증오범죄는\
+    \ 40건에 달한다."
+  - 한나라당은 4·27 재보선 이후 전당대회 룰(rule)을 놓고 한바탕 소동을 벌였다. 당권-대권 분리규정 폐지를 놓고 친이와 친박이 싸우더니,
+    막판엔 1인1표제와 여론조사 폐지가 논란이 됐다. 친이-친박이 전당대회 룰을 놓고 맞붙은 것은 김무성 전 원내대표를 미는 친이와 이를 반대하는
+    친박간 신경전이 배경이 됐던 것으로 전해진다. 계파가 충돌하는 바람에 또다른 당권주자인 나경원 전 최고위원이 어부지리를 얻었다는 분석이다.
+    당초 친이 김문수 경기도지사와 정몽준 전 대표는 당권-대권 분리규정 폐지를 밀었다. 박근혜 전 대표를 비롯한 대권주자들이 당권주자로 나서 당을
+    위기에서 구하자는 주장이었다. 친박을 싸움판에 끌어내면서 친이 대선주자들이 전면에 나설 기회를 잡으려는 취지로 해석됐다. 하지만 박 전 대표의
+    반대로 무산됐다. 친이는 이번엔 1인1표제와 여론조사 폐지로 급습했다. 명분은 "계파 전당대회를 끝내자"는 것이었다. 비대위 회의에선 적극
+    반발하지 않았던 친박과 소장파는 뒤늦게 이 개정안을 '김무성을 위한 술책'으로 해석했다. 이재오계가 김 전 원내대표를 대표로 밀기 위해 당헌·당규까지
+    고치겠다고 나선 것으로 받아들인 것이다. 이재오계가 여론조사에 취약한 김 전 원내대표를 위해 여론조사 폐지란 무리수를 뒀다는 추정이었다. 이
+    때문에 친박이 뒤늦게 나서 당헌·당규 개정을 막는데 총력을 다했다는 해석이다. 친박 내부에선 박 전 대표와 앙금이 남은 김 전 원내대표가 대표에
+    오르는 건 안된다는 기류가 존재한다. 박 전 대표 측근이 6일 직접 나서 친박의원들에게 "의원총회와 전국위에서 당헌·당규 개정을 뒤집어야 한다"고
+    당부했다는 후문이다. 결과적으로 전국위에서 비대위안은 무산됐고 1인2표제와 여론조사 30% 반영은 그대로 남았다. 비대위안이 무산되면서 친박과
+    소장파 목소리에 더욱 힘이 실렸지만, 실제 당헌·당규 개정논쟁의 최대수혜자는 나경원 전 최고위원이라는 평가가 나온다. 전당대회 출마를 저울질
+    중인 나 전 최고위원은 지난해 전당대회에서 여론조사 1등을 했다. 현재 전당대회 당헌·당규상으론 가장 유리한 고지에 올라서 있는 셈이다. 실제
+    이재오계 내부에선 나 전 최고위원에 부쩍 눈길을 주는 눈치다. 당초 김 전 원내대표와 원희룡 전 사무총장을 유력 후보로 놓고 저울질했지만,
+    최근 들어 나 전 최고위원까지 후보군에 올려놓으면서 최종결정을 미뤘다는 후문이다. 이재오계 수도권 중진의원은 "여론조사에서 1위를 하는 후보가
+    ���표를 맡는게 맞다"면서 나 전 최고위원을 적극 추천했다고 한다. 친박에선 '김무성 카드'에 제동을 걸었다는 점에 일단 안도하는 분위기다.
+    다만 친박 전략통들은 나경원 수혜론에 극도의 경계심을 내비치고 있다. 친박 관계자는 "만의 하나 나 전 최고위원이 대표직에 오르면 친박으로선
+    파출소 피하려다 경찰서 만난 꼴"이라고 말했다. 나 전 최고위원은 정치권에서 흔하지않은 여성이자 40대다. 대선에 도전하는 박 전 대표 입장에선
+    같은 여성이자, 세대교체를 연상시키는 나 전 최고위원의 약진이 정치적으로 '마이너스'라는 것이다. 친박 내부에서조차 "명분과 실리, 모두를
+    잃은 꼴"이라는 비판이 나오는 대목이다.
+  - 새누리당 진 영 의원이 한달여만에 정책위의장직에 복귀한다. 진 의원은 28일 "개인적 원칙과 입장을 버리고 당의 뜻에 따르기로 했다"며 "대선이
+    중요한만큼 일단 개인 생각은 접기로 했다"고 말했다. 그는 "당장 오늘은 아니더라도 조만간 정책위의장 업무에 복귀할 것"이라고 덧붙였다. 진
+    의원은 전날 대선 정책공약을 총괄할 국민행복특위 부위원장에 선임됐다. 새누리당 관계자는 "당 지도부가 그동안 다각도로 진 의원에게 정책위의장
+    업무에 복귀할 것을 요청해왔다"면서 "결국 최근 박근혜 대선 후보가 직접 설득해 복귀결정을 내린 것으로 안다"고 말했다. 이한구 원내대표를
+    비롯한 원내대표단은 지난달 11일 정두언 의원 체포동의안 부결의 책임을 지고 사퇴했다가 닷새 만에 업무에 복귀했으나, 진 의원만은 사퇴 의사를
+    굽히지 않아왔다. 당 정책위는 전날 발족한 국민행복특별위원회와 함께 사실상 당과 박 후보의 대선 공약을 총괄 진두지휘하게 될 전망이다.
+- source_sentence: 'query: 복지가 닿지 않는 곳의 취약 아동들을 발굴해 후원해 주는 천안시의 사업은 뭐지?'
+  sentences:
+  - "익산시가 장애인의 편익 증진을 위해 시각장애인을 위한 점자 주민등록증을 발급한다. \n\n시는 19일 장애등급에 상관없이 모든 시각장애인을\
+    \ 대상으로 하는 점자 주민등록증 발급을 시작했다고 밝혔다. \n\n기존에는 종전 1급~3급까지의 중증 시각장애인만 발급 신청이 가능했으나\
+    \ 지난해 주민등록법이 개정됨에 따라 장애등급에 상관없이 모든 시각장애인이 발급할 수 있도록 대상 범위가 확대됐다. \n\n아울러 점자 주민등록증은\
+    \ 익산에 주소를 둔 시각장애인을 대상으로 본인뿐만 아니라 같은 세대원, 직계혈족 등이 가까운 읍면동 주민센터에서 신청해 수령할 수 있다.\
+    \ \n\n또한, 기존에 일반 주민등록증을 발급받은 시각장애인은 점자 스티커만 별도로 신청할 수 있으며, 발급 수수료는 시에서 부담해 전액\
+    \ 면제된다. \n\n한편, 점자 주민등록증은 주민등록증 명칭, 성명, 주민등록번호, 주민등록증 발급 일자가 투명한 점자 스티커로 제작돼 주민등록증에\
+    \ 부착하는 방식으로 만들어진다."
+  - 홈플러스는 서울 동대문점 옥상에 풋살파크 11호점을 열었다고 24일 밝혔다.   홈플러스 풋살파크는 국제규격에 맞춘 친환경 인조잔디 구장이다.
+    어린이 부상 방지를 위해 각 구장 벽면에 1.5m 높이 세이프 쿠션을 세우고 야간 경기를 돕는 스포츠 LED 조명을 설치했다. 홈플러스는 올해
+    부산, 천안, 창원, 순천 등에 구장을 신설해 풋살파크를 20여개로 확대할 계획이다. 초등학생과 성인들을 위한 국내 최대 규모 아마추어 풋살
+    리그도 준비 중이다. 홈플러스는 옥상 유휴부지를 활용한 체육공간을 확대해 고객 편익 증진과 국민 체육 발전에 기여할 방침이다. 각 지역 프로축구단
+    어린이 축구교실과 연계해 축구 꿈나무 성장을 돕고 풋살파크를 지역 소외계층을 위한 사회공헌활동의 장으로도 활용해 나갈 계획이다.  심희정 기자
+    [email protected]
+  - "충남 천안시드림스타트는 복지사각지대 아동 발굴을 위한 사업 동영상을 제작했다고 4일 밝혔다. \n\n동영상은 드림스타트 사례관리 아동과 보호자,\
+    \ 아동통합사례관리사가 직접 참여해 사업을 설명하는 재능 기부와 생동감 넘치는 캐릭터로 구성돼 있어 누구나 드림스타트 사업에 대해 알기 쉽게\
+    \ 제작됐다. \n\n드림스타트 사례 아동과 보호자들이 자신의 목소리로 꿈을 이야기하며 드림스타트가 아동들이 꿈을 잃지 않고 건강하게 성장할\
+    \ 수 있도록 지원하고 있다는 것을 알리고 있다. \n\n드림스타트�� 0세~만12세의 취약계층 아동에게 사례관리를 통해 맞춤형 사례관리 제공으로\
+    \ 공평한 출발 기회를 보장하고 건강하고 행복한 사회구성원으로 성장할 수 있도록 지원하고 있다. \n\n오은영 드림스타트사업팀장은 \"복지사각지대의\
+    \ 위기 아동에 대한 주변의 지속적인 관심이 절실히 필요한 때이며 적극적인 발굴과 홍보에 힘쓰도록 노력하겠다\"고 말했다."
+- source_sentence: 'query: 어떤 식이 성분이 개에게 먹이지 않아 개가 죽었나요?'
+  sentences:
+  - 1816년 프랑수아 마겐디는 탄수화물(당), 지방(오리브 오일) 및 물만 먹인 개가 분명히 기아로 사망했지만 단백질도 먹인 개가 생존하여 단백질을
+    필수 식이 성분으로 식별한다는 것을 발견했다.1827년 윌리엄 프로우트는 음식을 탄수화물, 지방, 단백질로 나눈 최초의 사람이다.19세기 동안
+    장밥티스트 두마스와 Justus von Liebig는 동물이 식물에서 직접 단백질을 얻는다는 공통된 믿음(동물과 식물의 단백질은 같고 인간은
+    유기 화합물을 만들지 않는다는 것)에 대해 논쟁했다.당대 최고의 유기농 화학자로 명성을 얻었지만 동물 생리학에 대한 자격이 없는 리비히는 나중에
+    영양가가 의심스러운 것으로 밝혀진 쇠고기 부용 및 유아용 조제분유와 같은 식품 추출물을 만들어 풍부한 성장을 했다.1860년대에 클로드 베르나르는
+    체지방이 탄수화물과 단백질로부터 합성될 수 있다는 것을 발견하여 혈당의 에너지가 지방이나 글리코겐으로 저장될 수 있음을 보여주었다.
+  - 안녕! AC 97는 1997년에 Intel이 만든 오디오 코덱 표준이에요. 이것은 메인보드, 모뎀, 사운드 카드에 사용됩니다. 이 코덱은 오디오
+    신호를 처리하기 위해 사용되는데, 일반적으로 작은 사각형 칩으로 존재합니다. 이 칩들은 두 가지 방식으로 나누어져 있습니다. 첫째, AC97
+    인터페이스와 아날로그 오디오 인터페이스가 있습니다. 이 칩들은 소리를 처리하는 역할을 담당합니다. 둘째, 이 칩들은 다양한 브랜드와 모델로
+    구성되어 있습니다. 예를 들면, ASUS, Realtek, C-Media, ESS, Empia, HMP, National Semiconductor,
+    Philips, Realtek, Silicon Image, TriTech, Yamaha, VIA, Winbond, Wolfson Microelectronics
+    등이 있습니다. 이 칩들은 다양한 목적을 수행하며, 사운드 카드에 사용됩니다.
+  - 가족과 떨어져 3년 이상 해외생활을 하는 북한 노동자들 일부는 외로움을 달래기 위해 조선족 여자를 소개받아 사귀기도 한다. 가족과 떨어져 지내야만
+    하는 상황 탓에 벌어지는 일일 것이다. 북한 노동자들은 러시아 여성을 사귀려면 돈이 많이 들지만 조선족 여성은 말도 잘 통하고 함께 생활도
+    할 수 있으며 밥도 해주기 때문에 훨씬 좋다고 생각한다고 한다. 조선족 여성들은 대부분 시장에서 장사하는 상인들이다. 그러나 사할린의 조선족
+    여성들이 3~4년 전부터 한국으로 이주해 현재 시장에서 장사하는 사람은 20여 명만 남은 것으로 알려져 있다. 북한에서 파견되는 노동자들의
+    연령이 최근 3~4년 사이 계속 낮아지고 있다. 사할린은 섬지역이어서 그동안 탈북이 거의 없었으나 최근 탈북 우려가 커지면서 10년이 넘은
+    노동자들을 귀국시키고 있다. 지난해 말 현재 사할린에 10년 이상 노동자로 일한 사람은 4명뿐이며 사업소 관리자들은 탈북을 막기 위해 하루에
+    3번씩 점검하는 것으로 알려지고 있다.
+- source_sentence: 'query: 당시 버지니아 대학교는 누구의 이상을 따르고 있었는가?'
+  sentences:
+  - 매일 100-300mg의 아연을 섭취하는 사람들에게 구리 결핍이 유발된다는 증거가 있다.2007년 실험에 따르면 매일 80mg을 복용하는 노인
+    남성은 위약을 복용하는 남성보다 비뇨기 합병증으로 입원하는 경우가 더 많았다.USDA RDA는 남성과 여성의 경우 각각 11mg 및 8mg
+    Zn/일이다.100~300mg 수준은 구리와 철의 이용을 방해하거나 콜레스테롤에 악영향을 미칠 수 있다.토양에서 500ppm을 초과하는 아연
+    수준은 식물이 철 및 망간과 같은 다른 필수 금속을 흡수하는 능력을 방해한다.아연 쉐이크 또는 "아연 칠"이라고 불리는 조건도 있는데, 아연
+    도금 재료의 용접 중에 형성된 새로 형성된 산화 아연의 흡입에 의해 유도될 수 있다.아연은 그램당 17~38mg의 아연을 함유할 수 있는 의치
+    크림의 일반적인 성분이다.이러한 제품의 과도한 사용으로 인해 장애 및 심지어 사망에 대한 주장이 있었다.
+  - 포는 1826년 2월 버지니아 대학교에 등��하여 고대 및 근대 언어를 공부했다. 첫사랑 사라 엘마이라 로이스터를 만난 것은 대학 입학 이전으로
+    생각된다. 개교한 지 얼마 안 된 버지니아 대학교는 창립자 토머스 제퍼슨의 이상을 따르고 있었다. 도박·승마·사격·담배·음주가 모두 엄격히
+    금지되었는데, 대개 학생들은 이를 무시했다. 제퍼슨은 학생자치제도를 도입하여 학생들이 각자 연구주제를 선택하고 각자 기숙 준비를 하게 했고,
+    모든 비행을 교수진에게 보고하도록 했다. 이런 시험적인 시스템은 도입 초기였던 만큼 혼란스러웠고, 학교 중퇴자도 많았다. 포는 대학 재학 중에
+    로이스터와의 연락이 끊어졌고, 도박 빚 때문에 양아버지와의 관계가 소원해졌다. 포는 앨런이 자신에게 충분한 돈을 주지 않아서 등록금·교재비·기숙사
+    가구비 등을 낼 수 없다고 했다. 앨런은 그래서 돈과 옷을 더 보내주었지만 포의 빚은 더 불어났다. 포는 1년 만에 대학을 중퇴하고 리치먼드로
+    돌아갔다. 그러나 사랑하던 로이스터가 알렉산더 셸턴이라는 사람과 결혼했다는 소식을 듣자 낙담하여 보스턴으로 훌쩍 떠났는데 이때가 1827년
+    4월이었다. 포는 점포 계원이나 신문 기고가 같은 낯선 일을 하면서 입에 풀칠했다. 이 시기쯤에 앙리 르 르네(Henri Le Rennet)라는
+    필명을 사용하기 시작했다.
+  - 허위자백에 대한 관심은 1930년대 미국에서 발견된다. Edwin Borchard는 1932년 그의 저서 “Convicting the Innocent”를
+    통해 죄 없는 사람이 잘못 기소되어 유죄판결을 받고 수감된 65건의 사례를 소개했다. 이것은 미국의 형사사법시스템 내에서는 결코 무고한 사람이
+    유죄판결을 받을 리 없다는 전통적 관념을 깨버리는 것이었다. 그러나 아쉽게도 연구는 허위자백이 포함된 오심사례들에 대한 간단한 고찰 내지 소개에
+    그쳤고, 허위자백을 보다 체계적으로 계량화하거나 연구를 심화하려는 시도가 없었다. 그리고 이후 수십 년간 Borchard의 한계를 벗어나지
+    못하고 이를 답습하는 유사한 연구가 진행되었다. 오심과 허위자백에 대한 연구의 도약은 1987년에 이루어졌다. Hugo Bedau와 Michael
+    Radelet은 그들의 논문에서 1900년부터 1987년까지 미국에서 350건의 오심사례(사형에 처해질 가능성 있는 사례들)를 분석하여 그
+    중 49건(14%)이 허위자백으로 인한 것임을 발표하였다. 이 결과는 미국사회에 큰 충격을 주었고, 많은 사람들이 오판에 대한 관심을 갖고
+    사례를 모으거나 분석하는 작업을 하도록 자극 하였다. 이 과정에서 허위자백에 대한 관심도 역시 확대되어 갔다.
+- source_sentence: 'query: 기술적으로 집단에너지시설에 대해 규정한 법의 상위법은 뭐야?'
+  sentences:
+  - 이러한 의견 불일치에도 불구하고, 위 전문가들이 지적했듯이 경찰과 아동보호전문기관의 협업은 아동학대범죄의 신고 및 조사 단계에서 매우 핵심적인
+    부분이다. 또한 한 사건을 각각 수사와 피해자 보호라는 관점에서 보완적으로 보기 때문에 의견의 불일치에도 불구, 결과적으로 피학대아동의 온전한
+    지원을 위해 필요한 부분이기도 하다. 그러나 향후 예상되는 두 직책간의 의견불일치와 범위 침해 문제 등을 개선하기 위해서는 이 부분에 있어서는
+    아동보호전문기관의 소관부서인 보건복지부와 경찰이 실무자들에게 적용될 수 있는 가이드라인을 어느 정도 만들어주는 것이 필요해 보인다. 현재 일각에서는
+    아동보호전문기관의 신고 조사기능과 서비스 제공 및 사후관리기능을 분리하여 공적기관에서 신고 조사기능을 담당하고 아동보호전문기관은 서비스제공
+    및 사후관리를 담당하도록 하자는 주장도 제기되고 있다. 그러나 특례법 시행 초기단계인 현 시점에 기능을 분리하여 경찰에서 신고 조사기능을 전담하게
+    되면 자칫 피해아동보호에 소홀해질 가능성도 있으므로 현 단계에서는 역할을 좀 더 명확하게 구분해주는 중앙부처차원의 가이드라인 설정이 좀 더
+    적절해 보인다.
+  - 'Ⅲ. 지역난방 사용자 설비의 법적 지위와 역할
+    1. 지역난방 사용자 설비의 법적 지위
+    지역난방 사용자 설비의 운영, 유지, 보수, 교체, 계량 및 리모델링 정책규제체계는 중앙정부의 법령, 지자체의 조례 또는 규약, 공급사의 규정을
+    기반으로 한다. 지역난방 사용자 설비의 관리를 규율하는 중앙정부의 법적 기반은 에너지이용합리화법, 집단에너지사업법 등 관련 에너지 ���령을 비롯해
+    주택, 공동주택, 건축, 녹색건축물, 계량, 기계설비, 환경, 기후변화, 수도 관련 법령이다. 1980년 에너지이용합리화법이 제정되고, 1985년
+    지역난방 보급이 서울시를 시작으로 이루어진 이후 에너지효율화와 재생에너지의 중요성이 증가함에 따라 에너지, 주택, 건축물 등 관련법이 제·개정을
+    거듭하며 분화, 발전되어 오고 있다. 지역난방 사용자 설비를 규율하는 중앙정부의 법적 기반은 ‘에너지이용합리화법’과 ‘집단에너지사업법’이다.
+    ‘에너지이용합리화법’을 상위법으로 ‘집단에너지사업법’이 집단에너지시설의 기술 수준을 규정하고 있다.'
+  - '환경부, 전국 폐수종말처리시설 운영·관리실태 평가결과 발표
+    2011년 폐수종말처리시설 운영 및 관리실태 평가결과
+    Ⅲ. 문제점 및 개선방안
+    < 평가 점수 상·하향 조정 >
+    □ 폐수유입률 배점 상향 조정
+    ○ 폐수유입률 저조에 대하여 국회 등에서 지속적으로 제기되고 있어, 폐수유입률 제고를 위해 배점 상향 조정이 필요
+    ☞ 폐수유입률 : 10점 → 15점
+    □ 폐수배출업소 관리 시스템 및 수질분석 배점 상향 조정
+    ○ 특정수질유해물질의 처리장 유입 관리 강화 및 비정상 가동에 따른 폐수무단방류 등의 사전 예방기능을 강화하기 위해 배점 상향 조정
+    ○ 폐수종말처리시설의 유입수 및 방류수 분석기능 강화를 통해 폐수 배출업소에 대한 견제기능 강화와 처리장의 적정관리 유도
+    ☞ 배출업소관리시스템 : 5점 → 10점, 수질분석 : 5점 → 10점
+    □ 폐수처리 효율 및 오염불질 유입률 배점 하향 조정
+    ○ 폐수처리효율 및 오염물질 유입률 항목은 배점이 높은 반면 시설간 점수의 편차가 크지 않아(변별력 저조) 배점 하향 조정 필요
+    ☞ 폐수처리 효율 : 15점 → 10점, 오염물질 유입률 : 10점 → 5점
+    □ 폐수 재이용률 배점 하향 조정
+    ○ 폐수내 특정수질유해물질의 혼입, 하수처리장과 비교할 때 방류 폐수량이 미미하여 폐수 재이용률에는 한계가 있어 하향 조정
+    ○ 또한, 폐수 재이용을 위한 추가설비가 필요함에 따라 처리장 운영만으로는 재이용에는 한계가 있음
+    ※ 폐수 재이용시설은 BTO로 사업을 추진해야 하나 시설용량의 소규모로 인해 경제성이 떨어짐
+    ☞ 폐수 재이용률 : 10점 → 5점'
+---
+# SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) on the clustered datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search.
+The **Snowflake/snowflake-arctic-embed-l-v2.0** model has been further trained with Korean data to enhance its performance in **Korean retrieval tasks**. It is a powerful model that achieves **state-of-the-art (SOTA) performance across multiple retrieval benchmarks**.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) <!-- at revision 7f311bb640ad3babc0a4e3a8873240dcba44c9d2 -->
+- **Maximum Sequence Length:** 8192 tokens
+- **Output Dimensionality:** 1024 dimensions
+- **Similarity Function:** Cosine Similarity
+- **Training Datasets:**
+    - AI Hub 데이터 셋
+      - 행정 문서 대상 기계 독해
+      - 기계 독해
+      - 뉴스 기사 기계독해
+      - 도서 자료 기계독해
+      - 숫자 연산 기계독해
+      - 금융 법률 문서 기계독해
+- **Language:** Korean, English
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library and xformers library
+```bash
+pip install -U sentence-transformers
+pip install xformers
+```
+Then you can load this model and run inference.
+## Usage
+### Using Sentence Transformers
+```python
+from sentence_transformers import SentenceTransformer
+# Load the model
+model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
+model = SentenceTransformer(model_name)
+# Define the queries and documents
+queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
+documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
+# Compute embeddings: use `prompt_name="query"` to encode queries!
+query_embeddings = model.encode(queries, prompt_name="query")
+document_embeddings = model.encode(documents)
+# Compute cosine similarity scores
+scores = model.similarity(query_embeddings, document_embeddings)
+# Output the results
+for query, query_scores in zip(queries, scores):
+    doc_score_pairs = list(zip(documents, query_scores))
+    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
+    print("Query:", query)
+    for document, score in doc_score_pairs:
+        print(score, document)
+```
+### Using Huggingface Transformers
+You can use the transformers package to use Snowflake's arctic-embed model, as shown below. For optimal retrieval quality, use the CLS token to embed each text portion and use the query prefix below (just on the query).
+```python
+import torch
+from transformers import AutoModel, AutoTokenizer
+model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
+model.eval()
+query_prefix = 'query: '
+queries  = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
+queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
+query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)
+documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
+document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)
+# Compute token embeddings
+with torch.no_grad():
+    query_embeddings = model(**query_tokens)[0][:, 0]
+    document_embeddings = model(**document_tokens)[0][:, 0]
+# Normalize embeddings
+query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
+document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)
+scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
+for query, query_scores in zip(queries, scores):
+    doc_score_pairs = list(zip(documents, query_scores))
+    doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
+    # Output passages & scores
+    print("Query:", query)
+    for document, score in doc_score_pairs:
+        print(score, document)
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+## Evaluation
+- This Evaluation references the KURE GitHub repository. (https://github.com/nlpai-lab/KURE)
+### MTEB-ko-retrieval Leaderboard
+[MTEB](https://github.com/embeddings-benchmark/mteb)에 등록된 모든 Korean Retrieval Benchmark에 대한 평가를 진행하였습니다.
+### Korean Retrieval Benchmark
+- [Ko-StrategyQA](https://huggingface.co/datasets/taeminlee/Ko-StrategyQA): 한국어 ODQA multi-hop 검색 데이터셋 (StrategyQA 번역)
+- [AutoRAGRetrieval](https://huggingface.co/datasets/yjoonjang/markers_bm): 금융, 공공, 의료, 법률, 커머스 5개 분야에 대해, pdf를 파싱하여 구성한 한국어 문서 검색 데이터셋
+- [MIRACLRetrieval](https://huggingface.co/datasets/miracl/miracl): Wikipedia 기반의 한국어 문서 검색 데이터셋
+- [PublicHealthQA](https://huggingface.co/datasets/xhluca/publichealth-qa): 의료 및 공중보건 도메인에 대한 한국어 문서 검색 데이터셋
+- [BelebeleRetrieval](https://huggingface.co/datasets/facebook/belebele): FLORES-200 기반의 한국어 문서 검색 데이터셋
+- [MrTidyRetrieval](https://huggingface.co/datasets/mteb/mrtidy): Wikipedia 기반의 한국어 문서 검색 데이터셋
+- [MultiLongDocRetrieval](https://huggingface.co/datasets/Shitao/MLDR): 다양한 도메인의 한국어 장문 검색 데이터셋
+- [XPQARetrieval](https://huggingface.co/datasets/jinaai/xpqa): 다양한 도메인의 한국어 문서 검색 데이터셋
+### Metrics
+* Standard metric : NDCG@10
+#### Information Retrieval
+- Achieves state-of-the-art (SOTA) performance on most benchmarks.
+| Model                                                                                            | MrTidyRetrieval   | MIRACLRetrieval   | XPQARetrieval   | BelebeleRetrieval   | PublicHealthQA   | AutoRAGRetrieval   | Ko-StrategyQA   | Average      |
+|:-------------------------------------------------------------------------------------------------|:------------------|:------------------|:----------------|:--------------------|:-----------------|:-------------------|:----------------|:-------------|
+| dragonkue/snowflake-arctic-embed-l-v2.0-ko                                                       | 0.57121           | 0.66846           | **0.4436**      | **0.95177**         | 0.83374          | **0.90927**        | _0.80498_       | **0.740433** |
+| dragonkue/BGE-m3-ko                                                                              | 0.60992           | 0.68331           | 0.38131         | _0.95027_           | 0.81545          | _0.87379_          | 0.7959          | _0.729993_   |
+| nlpai-lab/KURE-v1                                                                                | 0.59092           | 0.68157           | 0.38158         | 0.95019             | 0.81925          | 0.87076            | 0.7999          | 0.727739     |
+| BAAI/bge-m3                                                                                      | **0.64708**       | _0.70146_         | 0.36075         | 0.93164             | 0.80412          | 0.83008            | 0.79405         | 0.724169     |
+| Snowflake/snowflake-arctic-embed-l-v2.0                                                          | 0.59071           | 0.66077           | _0.43018_       | 0.9271              | 0.81679          | 0.83863            | 0.80455         | 0.724104     |
+| intfloat/multilingual-e5-large                                                                   | _0.64211_         | 0.66486           | 0.3571          | 0.94499             | 0.82534          | 0.81337            | 0.80348         | 0.721607     |
+| nlpai-lab/KoE5                                                                                   | 0.58411           | 0.62347           | 0.35086         | 0.94251             | 0.83507          | 0.84339            | 0.80008         | 0.711356     |
+| BAAI/bge-multilingual-gemma2                                                                     | 0.47521           | **0.70315**       | 0.37446         | 0.95001             | _0.87102_        | 0.76535            | 0.79072         | 0.704274     |
+| jinaai/jina-embeddings-v3                                                                        | 0.55759           | 0.63716           | 0.41272         | 0.91203             | 0.83059          | 0.76104            | 0.79807         | 0.701314     |
+| intfloat/multilingual-e5-large-instruct                                                          | 0.52877           | 0.59914           | 0.39712         | 0.936               | 0.84967          | 0.77996            | 0.79793         | 0.69837      |
+| nomic-ai/nomic-embed-text-v2-moe                                                                 | 0.53766           | 0.65913           | 0.36871         | 0.93636             | 0.78448          | 0.80682            | 0.76325         | 0.693773     |
+| intfloat/multilingual-e5-base                                                                    | 0.58082           | 0.6227            | 0.3607          | 0.92868             | 0.77203          | 0.79752            | 0.76355         | 0.689429     |
+| intfloat/e5-mistral-7b-instruct                                                                  | 0.52444           | 0.58709           | 0.39159         | 0.92403             | **0.88733**      | 0.67849            | 0.79317         | 0.683734     |
+| Alibaba-NLP/gte-Qwen2-7B-instruct                                                                | 0.46571           | 0.53375           | 0.37866         | 0.94808             | 0.85844          | 0.76682            | **0.8108**      | 0.680323     |
+| Alibaba-NLP/gte-multilingual-base                                                                | 0.56464           | 0.62697           | 0.30702         | 0.8796              | 0.74584          | 0.77108            | 0.75121         | 0.663766     |
+| openai/text-embedding-3-large                                                                    | 0.44728           | 0.56248           | 0.37423         | 0.89451             | 0.85617          | 0.76466            | 0.73634         | 0.662239     |
+| upskyy/bge-m3-korean                                                                             | 0.55011           | 0.59892           | 0.31695         | 0.8731              | 0.77559          | 0.72946            | 0.75277         | 0.6567       |
+| Salesforce/SFR-Embedding-2_R                                                                     | 0.40347           | 0.55798           | 0.37371         | 0.91747             | 0.8605           | 0.70782            | 0.77042         | 0.65591      |
+| ibm-granite/granite-embedding-278m-multilingual                                                  | nan               | 0.59216           | 0.23058         | 0.83231             | 0.77668          | 0.70226            | 0.71762         | 0.641935     |
+| jhgan/ko-sroberta-multitask                                                                      | 0.29475           | 0.36698           | 0.27961         | 0.81636             | 0.69212          | 0.58332            | 0.65097         | 0.526301     |
+#### Capabilities Beyond Benchmarks
+This model is designed to handle various retrieval scenarios that are not directly measured in benchmarks:
+1. Supports phrase-based queries in addition to full-sentence queries.
+Example: "What products does Samsung sell?" or "Samsung's products"
+2. Trained to handle diverse query formats, regardless of phrasing variations.
+Example: "Tell me about Samsung.", "I'm curious about Samsung.", "What is Samsung?"
+3. Optimized for Markdown table search, allowing retrieval of answers embedded within tables when present in documents.
+4. Efficient clustering without hard negatives:
+   - Samples within the same batch are clustered together.
+   - Uses efficient embedding formation for clustering by truncating embeddings from the Snowflake/snowflake-arctic-embed-l-v2.0 model to 256 dimensions.
+   - The clustering approach is inspired by the findings in the following papers:
+     - *Embedding And Clustering Your Data Can Improve Contrastive Pretraining*
+     - *CONTEXTUAL DOCUMENT EMBEDDINGS*
+5. Strong performance across different domains:
+    - The *Arctic-Embed 2.0: Multilingual Retrieval Without Compromise* paper states:
+     *"While models like mE5, mGTE, and BGE-M3 excel on MIRACL, their performance on CLEF is notably weaker compared to ours and closed-source offerings, suggesting the potential of overfitting to MIRACL or its Wikipedia-based domain."*
+    - Based on my own experience, **Snowflake/snowflake-arctic-embed-l-v2.0** has consistently outperformed **BGE-M3** in different domains, further validating this observation.
+## Bias, Risks and Limitations
+To prevent excessive GPU usage costs, the model was trained with a maximum sequence length of 1300 tokens. As a result, its performance may degrade on benchmarks like MultiLongDocRetrieval (MLDR).
+The previous model, **BGE-m3-ko**, was trained with a token length of **1024**, which imposed limitations on its MLDR benchmark performance.
+In the case of **snowflake-arctic-embed-l-v2.0-ko**, if the document length exceeds 1300 tokens or approximately 2500 characters, it is recommended to consider the following models instead.
+| Model                                                                                            |   MultiLongDocRetrieval |
+|:-------------------------------------------------------------------------------------------------|------------------------:|
+| Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base                              |                 0.48402 |
+| nlpai-lab/KURE-v1/nlpai-lab_KURE-v1                                                              |                 0.47528 |
+| dragonkue/snowflake-arctic-embed-l-v2.0-ko                                                       |                 0.4459  |
+| BAAI/bge-m3/BAAI_bge-m3                                                                          |                 0.43011 |
+| Snowflake/snowflake-arctic-embed-l-v2.0                                                          |                 0.40401 |
+| dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko                                                          |                 0.40135 |
+| openai/text-embedding-3-large                                                                    |                 0.31108 |
+| BAAI/bge-multilingual-gemma2                                                                     |                 0.31021 |
+| nlpai-lab/KoE5                                                                                   |                 0.30869 |
+| jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3                                             |                 0.30512 |
+| Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct                             |                 0.30313 |
+| intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct                 |                 0.27973 |
+| nomic-ai/nomic-embed-text-v2-moe                                                                 |                 0.27135 |
+| intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct                                 |                 0.2583  |
+| intfloat/multilingual-e5-large/intfloat__multilingual-e5-large                                   |                 0.24596 |
+| Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R                                       |                 0.24346 |
+| intfloat/multilingual-e5-base/intfloat__multilingual-e5-base                                     |                 0.23766 |
+| upskyy/bge-m3-korean/upskyy__bge-m3-korean                                                       |                 0.21968 |
+| ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual |                 0.20781 |
+| jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask                                         |                 0.20416 |
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+* Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters:
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 20000
+- `per_device_eval_batch_size`: 4096
+- `learning_rate`: 2e-05
+- `num_train_epochs`: 2
+- `lr_scheduler_type`: warmup_stable_decay
+- `lr_scheduler_kwargs`: {'num_decay_steps': 160}
+- `warmup_ratio`: 0.05
+- `bf16`: True
+- `batch_sampler`: no_duplicates
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 10000
+- `per_device_eval_batch_size`: 4096
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 2e-05
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 2
+- `max_steps`: -1
+- `lr_scheduler_type`: warmup_stable_decay
+- `lr_scheduler_kwargs`: {'num_decay_steps': 160}
+- `warmup_ratio`: 0.05
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: True
+- `fp16`: False
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: True
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: False
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `dispatch_batches`: None
+- `split_batches`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+</details>
+### Framework Versions
+- Python: 3.10.12
+- Sentence Transformers: 3.4.1
+- Transformers: 4.49.0
+- PyTorch: 2.6.0+cu124
+- Accelerate: 1.4.0
+- Datasets: 3.3.2
+- Tokenizers: 0.21.0
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+},
+@misc{KURE,
+  publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
+  year = {2024},
+  url = {https://github.com/nlpai-lab/KURE}
+}
+```
+## License
+Arctic is licensed under the Apache-2. The released models can be used for commercial purposes free of charge.
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "/workspace/sbert/script/models/arctic_m3_v1/checkpoint-210",
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 8194,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.4.1",
+    "transformers": "4.49.0",
+    "pytorch": "2.6.0+cu124"
+  },
+  "prompts": {
+    "query": "query: "
+  },
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b874517f0fd02dd9510fa2733aacaad1def6086387c88d1a21f4041351e15b0
+size 2271064456

modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 8192,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ef9c709965de0840efe65586a59cca46029c7a3c04a67b7c418566cf48ddf38
+size 17083053

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "max_length": 512,
+  "model_max_length": 8192,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "stride": 0,
+  "tokenizer_class": "XLMRobertaTokenizerFast",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "<unk>"
+}