tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- loss:CachedGISTEmbedLoss
base_model: Snowflake/snowflake-arctic-embed-l-v2.0
widget:
- source_sentence: 'query: 이한구를 포함한 원내대표단이 사퇴한 날짜는 언제야?'
sentences:
- >-
아시아계에 대한 증오범죄를 단속하기 위해 사복 차림으로 순찰 중인 경찰관에게 시비를 건 30대 남성이 체포됐다.
뉴욕을 기반으로 한 WABC방송은 현지시간으로 10일 뉴욕경찰(NYPD)이 전날 오후 맨해튼 펜스테이션 역에서 체포한 후비안
로드리게스(35)를 증오범죄 등의 혐의로 기소했다고 이날 보도했다.
보도에 따르면 로드리게스는 펜스테이션 역으로 가는 엘리베이터에 함께 탄 사복 경찰관에게 “무덤에 가지 않으려면 중국으로
돌아가라”고 말했다. 그러면서 경찰관에게 얼굴을 흉기로 찌르겠다는 위협까지 했다.
사복 순찰 중이었던 경찰관은 로드리게스를 현장에서 체포했다. 로드리게스는 증오범죄 외에도 약물 소지 혐의로도 기소됐다. NYPD는
최근 급증한 증오범죄에 대응하기 위해 아시아계 거주자가 많은 지역에 아시아계로만 구성된 사복 경찰을 배치했다.
더못 시어 뉴욕경찰 국장은 지난달 25일 “피부색이나 종교, 성적 취향 또는 다른 어떤 것 때문에 표적이 되는 것을 용납하지
않겠다”고 말했다. 이 비밀경찰관들은 뉴욕 시내 지하철역이나 슈퍼마켓 등을 집중적으로 순찰하며 지역사회 활동을 확대하고 있다.
로드리게스를 체포한 경찰관도 2주 전 아시안 증오범죄 태스크포스(TF)에 배치됐다. 사복 순찰 중인 아시아계 경찰관을 위협하다
체포된 사례는 이번이 두 번째다. 올해 NYPD에 접수된 아시아계에 대한 증오범죄는 40건에 달한다.
- >-
한나라당은 4·27 재보선 이후 전당대회 룰(rule)을 놓고 한바탕 소동을 벌였다. 당권-대권 분리규정 폐지를 놓고 친이와
친박이 싸우더니, 막판엔 1인1표제와 여론조사 폐지가 논란이 됐다. 친이-친박이 전당대회 룰을 놓고 맞붙은 것은 김무성 전
원내대표를 미는 친이와 이를 반대하는 친박간 신경전이 배경이 됐던 것으로 전해진다. 계파가 충돌하는 바람에 또다른 당권주자인
나경원 전 최고위원이 어부지리를 얻었다는 분석이다. 당초 친이 김문수 경기도지사와 정몽준 전 대표는 당권-대권 분리규정 폐지를
밀었다. 박근혜 전 대표를 비롯한 대권주자들이 당권주자로 나서 당을 위기에서 구하자는 주장이었다. 친박을 싸움판에 끌어내면서 친이
대선주자들이 전면에 나설 기회를 잡으려는 취지로 해석됐다. 하지만 박 전 대표의 반대로 무산됐다. 친이는 이번엔 1인1표제와
여론조사 폐지로 급습했다. 명분은 "계파 전당대회를 끝내자"는 것이었다. 비대위 회의에선 적극 반발하지 않았던 친박과 소장파는
뒤늦게 이 개정안을 '김무성을 위한 술책'으로 해석했다. 이재오계가 김 전 원내대표를 대표로 밀기 위해 당헌·당규까지 고치겠다고
나선 것으로 받아들인 것이다. 이재오계가 여론조사에 취약한 김 전 원내대표를 위해 여론조사 폐지란 무리수를 뒀다는 추정이었다. 이
때문에 친박이 뒤늦게 나서 당헌·당규 개정을 막는데 총력을 다했다는 해석이다. 친박 내부에선 박 전 대표와 앙금이 남은 김 전
원내대표가 대표에 오르는 건 안된다는 기류가 존재한다. 박 전 대표 측근이 6일 직접 나서 친박의원들에게 "의원총회와 전국위에서
당헌·당규 개정을 뒤집어야 한다"고 당부했다는 후문이다. 결과적으로 전국위에서 비대위안은 무산됐고 1인2표제와 여론조사 30%
반영은 그대로 남았다. 비대위안이 무산되면서 친박과 소장파 목소리에 더욱 힘이 실렸지만, 실제 당헌·당규 개정논쟁의 최대수혜자는
나경원 전 최고위원이라는 평가가 나온다. 전당대회 출마를 저울질 중인 나 전 최고위원은 지난해 전당대회에서 여론조사 1등을 했다.
현재 전당대회 당헌·당규상으론 가장 유리한 고지에 올라서 있는 셈이다. 실제 이재오계 내부에선 나 전 최고위원에 부쩍 눈길을 주는
눈치다. 당초 김 전 원내대표와 원희룡 전 사무총장을 유력 후보로 놓고 저울질했지만, 최근 들어 나 전 최고위원까지 후보군에
올려놓으면서 최종결정을 미뤘다는 후문이다. 이재오계 수도권 중진의원은 "여론조사에서 1위를 하는 후보가 대표를 맡는게 맞다"면서
나 전 최고위원을 적극 추천했다고 한다. 친박에선 '김무성 카드'에 제동을 걸었다는 점에 일단 안도하는 분위기다. 다만 친박
전략통들은 나경원 수혜론에 극도의 경계심을 내비치고 있다. 친박 관계자는 "만의 하나 나 전 최고위원이 대표직에 오르면 친박으로선
파출소 피하려다 경찰서 만난 꼴"이라고 말했다. 나 전 최고위원은 정치권에서 흔하지않은 여성이자 40대다. 대선에 도전하는 박 전
대표 입장에선 같은 여성이자, 세대교체를 연상시키는 나 전 최고위원의 약진이 정치적으로 '마이너스'라는 것이다. 친박 내부에서조차
"명분과 실리, 모두를 잃은 꼴"이라는 비판이 나오는 대목이다.
- >-
새누리당 진 영 의원이 한달여만에 정책위의장직에 복귀한다. 진 의원은 28일 "개인적 원칙과 입장을 버리고 당의 뜻에 따르기로
했다"며 "대선이 중요한만큼 일단 개인 생각은 접기로 했다"고 말했다. 그는 "당장 오늘은 아니더라도 조만간 정책위의장 업무에
복귀할 것"이라고 덧붙였다. 진 의원은 전날 대선 정책공약을 총괄할 국민행복특위 부위원장에 선임됐다. 새누리당 관계자는 "당
지도부가 그동안 다각도로 진 의원에게 정책위의장 업무에 복귀할 것을 요청해왔다"면서 "결국 최근 박근혜 대선 후보가 직접 설득해
복귀결정을 내린 것으로 안다"고 말했다. 이한구 원내대표를 비롯한 원내대표단은 지난달 11일 정두언 의원 체포동의안 부결의 책임을
지고 사퇴했다가 닷새 만에 업무에 복귀했으나, 진 의원만은 사퇴 의사를 굽히지 않아왔다. 당 정책위는 전날 발족한
국민행복특별위원회와 함께 사실상 당과 박 후보의 대선 공약을 총괄 진두지휘하게 될 전망이다.
- source_sentence: 'query: 복지가 닿지 않는 곳의 취약 아동들을 발굴해 후원해 주는 천안시의 사업은 뭐지?'
sentences:
- >-
익산시가 장애인의 편익 증진을 위해 시각장애인을 위한 점자 주민등록증을 발급한다.
시는 19일 장애등급에 상관없이 모든 시각장애인을 대상으로 하는 점자 주민등록증 발급을 시작했다고 밝혔다.
기존에는 종전 1급~3급까지의 중증 시각장애인만 발급 신청이 가능했으나 지난해 주민등록법이 개정됨에 따라 장애등급에 상관없이 모든
시각장애인이 발급할 수 있도록 대상 범위가 확대됐다.
아울러 점자 주민등록증은 익산에 주소를 둔 시각장애인을 대상으로 본인뿐만 아니라 같은 세대원, 직계혈족 등이 가까운 읍면동
주민센터에서 신청해 수령할 수 있다.
또한, 기존에 일반 주민등록증을 발급받은 시각장애인은 점자 스티커만 별도로 신청할 수 있으며, 발급 수수료는 시에서 부담해 전액
면제된다.
한편, 점자 주민등록증은 주민등록증 명칭, 성명, 주민등록번호, 주민등록증 발급 일자가 투명한 점자 스티커로 제작돼 주민등록증에
부착하는 방식으로 만들어진다.
- >-
홈플러스는 서울 동대문점 옥상에 풋살파크 11호점을 열었다고 24일 밝혔다. 홈플러스 풋살파크는 국제규격에 맞춘 친환경
인조잔디 구장이다. 어린이 부상 방지를 위해 각 구장 벽면에 1.5m 높이 세이프 쿠션을 세우고 야간 경기를 돕는 스포츠 LED
조명을 설치했다. 홈플러스는 올해 부산, 천안, 창원, 순천 등에 구장을 신설해 풋살파크를 20여개로 확대할 계획이다. 초등학생과
성인들을 위한 국내 최대 규모 아마추어 풋살 리그도 준비 중이다. 홈플러스는 옥상 유휴부지를 활용한 체육공간을 확대해 고객 편익
증진과 국민 체육 발전에 기여할 방침이다. 각 지역 프로축구단 어린이 축구교실과 연계해 축구 꿈나무 성장을 돕고 풋살파크를 지역
소외계층을 위한 사회공헌활동의 장으로도 활용해 나갈 계획이다. 심희정 기자 [email protected]
- >-
충남 천안시드림스타트는 복지사각지대 아동 발굴을 위한 사업 동영상을 제작했다고 4일 밝혔다.
동영상은 드림스타트 사례관리 아동과 보호자, 아동통합사례관리사가 직접 참여해 사업을 설명하는 재능 기부와 생동감 넘치는 캐릭터로
구성돼 있어 누구나 드림스타트 사업에 대해 알기 쉽게 제작됐다.
드림스타트 사례 아동과 보호자들이 자신의 목소리로 꿈을 이야기하며 드림스타트가 아동들이 꿈을 잃지 않고 건강하게 성장할 수 있도록
지원하고 있다는 것을 알리고 있다.
드림스타트는 0세~만12세의 취약계층 아동에게 사례관리를 통해 맞춤형 사례관리 제공으로 공평한 출발 기회를 보장하고 건강하고
행복한 사회구성원으로 성장할 수 있도록 지원하고 있다.
오은영 드림스타트사업팀장은 "복지사각지대의 위기 아동에 대한 주변의 지속적인 관심이 절실히 필요한 때이며 적극적인 발굴과 홍보에
힘쓰도록 노력하겠다"고 말했다.
- source_sentence: 'query: 어떤 식이 성분이 개에게 먹이지 않아 개가 죽었나요?'
sentences:
- >-
1816년 프랑수아 마겐디는 탄수화물(당), 지방(오리브 오일) 및 물만 먹인 개가 분명히 기아로 사망했지만 단백질도 먹인 개가
생존하여 단백질을 필수 식이 성분으로 식별한다는 것을 발견했다.1827년 윌리엄 프로우트는 음식을 탄수화물, 지방, 단백질로 나눈
최초의 사람이다.19세기 동안 장밥티스트 두마스와 Justus von Liebig는 동물이 식물에서 직접 단백질을 얻는다는 공통된
믿음(동물과 식물의 단백질은 같고 인간은 유기 화합물을 만들지 않는다는 것)에 대해 논쟁했다.당대 최고의 유기농 화학자로 명성을
얻었지만 동물 생리학에 대한 자격이 없는 리비히는 나중에 영양가가 의심스러운 것으로 밝혀진 쇠고기 부용 및 유아용 조제분유와 같은
식품 추출물을 만들어 풍부한 성장을 했다.1860년대에 클로드 베르나르는 체지방이 탄수화물과 단백질로부터 합성될 수 있다는 것을
발견하여 혈당의 에너지가 지방이나 글리코겐으로 저장될 수 있음을 보여주었다.
- >-
안녕! AC 97는 1997년에 Intel이 만든 오디오 코덱 표준이에요. 이것은 메인보드, 모뎀, 사운드 카드에 사용됩니다. 이
코덱은 오디오 신호를 처리하기 위해 사용되는데, 일반적으로 작은 사각형 칩으로 존재합니다. 이 칩들은 두 가지 방식으로 나누어져
있습니다. 첫째, AC97 인터페이스와 아날로그 오디오 인터페이스가 있습니다. 이 칩들은 소리를 처리하는 역할을 담당합니다.
둘째, 이 칩들은 다양한 브랜드와 모델로 구성되어 있습니다. 예를 들면, ASUS, Realtek, C-Media, ESS,
Empia, HMP, National Semiconductor, Philips, Realtek, Silicon Image,
TriTech, Yamaha, VIA, Winbond, Wolfson Microelectronics 등이 있습니다. 이 칩들은
다양한 목적을 수행하며, 사운드 카드에 사용됩니다.
- >-
가족과 떨어져 3년 이상 해외생활을 하는 북한 노동자들 일부는 외로움을 달래기 위해 조선족 여자를 소개받아 사귀기도 한다. 가족과
떨어져 지내야만 하는 상황 탓에 벌어지는 일일 것이다. 북한 노동자들은 러시아 여성을 사귀려면 돈이 많이 들지만 조선족 여성은
말도 잘 통하고 함께 생활도 할 수 있으며 밥도 해주기 때문에 훨씬 좋다고 생각한다고 한다. 조선족 여성들은 대부분 시장에서
장사하는 상인들이다. 그러나 사할린의 조선족 여성들이 3~4년 전부터 한국으로 이주해 현재 시장에서 장사하는 사람은 20여 명만
남은 것으로 알려져 있다. 북한에서 파견되는 노동자들의 연령이 최근 3~4년 사이 계속 낮아지고 있다. 사할린은 섬지역이어서
그동안 탈북이 거의 없었으나 최근 탈북 우려가 커지면서 10년이 넘은 노동자들을 귀국시키고 있다. 지난해 말 현재 사할린에 10년
이상 노동자로 일한 사람은 4명뿐이며 사업소 관리자들은 탈북을 막기 위해 하루에 3번씩 점검하는 것으로 알려지고 있다.
- source_sentence: 'query: 당시 버지니아 대학교는 누구의 이상을 따르고 있었는가?'
sentences:
- >-
매일 100-300mg의 아연을 섭취하는 사람들에게 구리 결핍이 유발된다는 증거가 있다.2007년 실험에 따르면 매일 80mg을
복용하는 노인 남성은 위약을 복용하는 남성보다 비뇨기 합병증으로 입원하는 경우가 더 많았다.USDA RDA는 남성과 여성의 경우
각각 11mg 및 8mg Zn/일이다.100~300mg 수준은 구리와 철의 이용을 방해하거나 콜레스테롤에 악영향을 미칠 수
있다.토양에서 500ppm을 초과하는 아연 수준은 식물이 철 및 망간과 같은 다른 필수 금속을 흡수하는 능력을 방해한다.아연
쉐이크 또는 "아연 칠"이라고 불리는 조건도 있는데, 아연 도금 재료의 용접 중에 형성된 새로 형성된 산화 아연의 흡입에 의해
유도될 수 있다.아연은 그램당 17~38mg의 아연을 함유할 수 있는 의치 크림의 일반적인 성분이다.이러한 제품의 과도한 사용으로
인해 장애 및 심지어 사망에 대한 주장이 있었다.
- >-
포는 1826년 2월 버지니아 대학교에 등록하여 고대 및 근대 언어를 공부했다. 첫사랑 사라 엘마이라 로이스터를 만난 것은 대학
입학 이전으로 생각된다. 개교한 지 얼마 안 된 버지니아 대학교는 창립자 토머스 제퍼슨의 이상을 따르고 있었다.
도박·승마·사격·담배·음주가 모두 엄격히 금지되었는데, 대개 학생들은 이를 무시했다. 제퍼슨은 학생자치제도를 도입하여 학생들이
각자 연구주제를 선택하고 각자 기숙 준비를 하게 했고, 모든 비행을 교수진에게 보고하도록 했다. 이런 시험적인 시스템은 도입
초기였던 만큼 혼란스러웠고, 학교 중퇴자도 많았다. 포는 대학 재학 중에 로이스터와의 연락이 끊어졌고, 도박 빚 때문에
양아버지와의 관계가 소원해졌다. 포는 앨런이 자신에게 충분한 돈을 주지 않아서 등록금·교재비·기숙사 가구비 등을 낼 수 없다고
했다. 앨런은 그래서 돈과 옷을 더 보내주었지만 포의 빚은 더 불어났다. 포는 1년 만에 대학을 중퇴하고 리치먼드로 돌아갔다.
그러나 사랑하던 로이스터가 알렉산더 셸턴이라는 사람과 결혼했다는 소식을 듣자 낙담하여 보스턴으로 훌쩍 떠났는데 이때가 1827년
4월이었다. 포는 점포 계원이나 신문 기고가 같은 낯선 일을 하면서 입에 풀칠했다. 이 시기쯤에 앙리 르 르네(Henri Le
Rennet)라는 필명을 사용하기 시작했다.
- >-
허위자백에 대한 관심은 1930년대 미국에서 발견된다. Edwin Borchard는 1932년 그의 저서 “Convicting
the Innocent”를 통해 죄 없는 사람이 잘못 기소되어 유죄판결을 받고 수감된 65건의 사례를 소개했다. 이것은 미국의
형사사법시스템 내에서는 결코 무고한 사람이 유죄판결을 받을 리 없다는 전통적 관념을 깨버리는 것이었다. 그러나 아쉽게도 연구는
허위자백이 포함된 오심사례들에 대한 간단한 고찰 내지 소개에 그쳤고, 허위자백을 보다 체계적으로 계량화하거나 연구를 심화하려는
시도가 없었다. 그리고 이후 수십 년간 Borchard의 한계를 벗어나지 못하고 이를 답습하는 유사한 연구가 진행되었다. 오심과
허위자백에 대한 연구의 도약은 1987년에 이루어졌다. Hugo Bedau와 Michael Radelet은 그들의 논문에서
1900년부터 1987년까지 미국에서 350건의 오심사례(사형에 처해질 가능성 있는 사례들)를 분석하여 그 중 49건(14%)이
허위자백으로 인한 것임을 발표하였다. 이 결과는 미국사회에 큰 충격을 주었고, 많은 사람들이 오판에 대한 관심을 갖고 사례를
모으거나 분석하는 작업을 하도록 자극 하였다. 이 과정에서 허위자백에 대한 관심도 역시 확대되어 갔다.
- source_sentence: 'query: 기술적으로 집단에너지시설에 대해 규정한 법의 상위법은 뭐야?'
sentences:
- >-
이러한 의견 불일치에도 불구하고, 위 전문가들이 지적했듯이 경찰과 아동보호전문기관의 협업은 아동학대범죄의 신고 및 조사 단계에서
매우 핵심적인 부분이다. 또한 한 사건을 각각 수사와 피해자 보호라는 관점에서 보완적으로 보기 때문에 의견의 불일치에도 불구,
결과적으로 피학대아동의 온전한 지원을 위해 필요한 부분이기도 하다. 그러나 향후 예상되는 두 직책간의 의견불일치와 범위 침해 문제
등을 개선하기 위해서는 이 부분에 있어서는 아동보호전문기관의 소관부서인 보건복지부와 경찰이 실무자들에게 적용될 수 있는
가이드라인을 어느 정도 만들어주는 것이 필요해 보인다. 현재 일각에서는 아동보호전문기관의 신고 조사기능과 서비스 제공 및
사후관리기능을 분리하여 공적기관에서 신고 조사기능을 담당하고 아동보호전문기관은 서비스제공 및 사후관리를 담당하도록 하자는 주장도
제기되고 있다. 그러나 특례법 시행 초기단계인 현 시점에 기능을 분리하여 경찰에서 신고 조사기능을 전담하게 되면 자칫
피해아동보호에 소홀해질 가능성도 있으므로 현 단계에서는 역할을 좀 더 명확하게 구분해주는 중앙부처차원의 가이드라인 설정이 좀 더
적절해 보인다.
- >-
Ⅲ. 지역난방 사용자 설비의 법적 지위와 역할
1. 지역난방 사용자 설비의 법적 지위
지역난방 사용자 설비의 운영, 유지, 보수, 교체, 계량 및 리모델링 정책규제체계는 중앙정부의 법령, 지자체의 조례 또는 규약,
공급사의 규정을 기반으로 한다. 지역난방 사용자 설비의 관리를 규율하는 중앙정부의 법적 기반은 에너지이용합리화법, 집단에너지사업법
등 관련 에너지 법령을 비롯해 주택, 공동주택, 건축, 녹색건축물, 계량, 기계설비, 환경, 기후변화, 수도 관련 법령이다.
1980년 에너지이용합리화법이 제정되고, 1985년 지역난방 보급이 서울시를 시작으로 이루어진 이후 에너지효율화와 재생에너지의
중요성이 증가함에 따라 에너지, 주택, 건축물 등 관련법이 제·개정을 거듭하며 분화, 발전되어 오고 있다. 지역난방 사용자 설비를
규율하는 중앙정부의 법적 기반은 ‘에너지이용합리화법’과 ‘집단에너지사업법’이다. ‘에너지이용합리화법’을 상위법으로
‘집단에너지사업법’이 집단에너지시설의 기술 수준을 규정하고 있다.
- >-
환경부, 전국 폐수종말처리시설 운영·관리실태 평가결과 발표
2011년 폐수종말처리시설 운영 및 관리실태 평가결과
Ⅲ. 문제점 및 개선방안
< 평가 점수 상·하향 조정 >
□ 폐수유입률 배점 상향 조정
○ 폐수유입률 저조에 대하여 국회 등에서 지속적으로 제기되고 있어, 폐수유입률 제고를 위해 배점 상향 조정이 필요
☞ 폐수유입률 : 10점 → 15점
□ 폐수배출업소 관리 시스템 및 수질분석 배점 상향 조정
○ 특정수질유해물질의 처리장 유입 관리 강화 및 비정상 가동에 따른 폐수무단방류 등의 사전 예방기능을 강화하기 위해 배점 상향
조정
○ 폐수종말처리시설의 유입수 및 방류수 분석기능 강화를 통해 폐수 배출업소에 대한 견제기능 강화와 처리장의 적정관리 유도
☞ 배출업소관리시스템 : 5점 → 10점, 수질분석 : 5점 → 10점
□ 폐수처리 효율 및 오염불질 유입률 배점 하향 조정
○ 폐수처리효율 및 오염물질 유입률 항목은 배점이 높은 반면 시설간 점수의 편차가 크지 않아(변별력 저조) 배점 하향 조정 필요
☞ 폐수처리 효율 : 15점 → 10점, 오염물질 유입률 : 10점 → 5점
□ 폐수 재이용률 배점 하향 조정
○ 폐수내 특정수질유해물질의 혼입, 하수처리장과 비교할 때 방류 폐수량이 미미하여 폐수 재이용률에는 한계가 있어 하향 조정
○ 또한, 폐수 재이용을 위한 추가설비가 필요함에 따라 처리장 운영만으로는 재이용에는 한계가 있음
※ 폐수 재이용시설은 BTO로 사업을 추진해야 하나 시설용량의 소규모로 인해 경제성이 떨어짐
☞ 폐수 재이용률 : 10점 → 5점
SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0
This is a sentence-transformers model finetuned from Snowflake/snowflake-arctic-embed-l-v2.0 on the clustered datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search.
The Snowflake/snowflake-arctic-embed-l-v2.0 model has been further trained with Korean data to enhance its performance in Korean retrieval tasks. It is a powerful model that achieves state-of-the-art (SOTA) performance across multiple retrieval benchmarks.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: Snowflake/snowflake-arctic-embed-l-v2.0
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
- Training Datasets:
- AI Hub 데이터 셋
- 행정 문서 대상 기계 독해
- 기계 독해
- 뉴스 기사 기계독해
- 도서 자료 기계독해
- 숫자 연산 기계독해
- 금융 법률 문서 기계독해
- AI Hub 데이터 셋
- Language: Korean, English
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library and xformers library
pip install -U sentence-transformers
pip install xformers
Then you can load this model and run inference.
Usage
Using Sentence Transformers
from sentence_transformers import SentenceTransformer
# Load the model
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
model = SentenceTransformer(model_name)
# Define the queries and documents
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
# Compute embeddings: use `prompt_name="query"` to encode queries!
query_embeddings = model.encode(queries, prompt_name="query")
document_embeddings = model.encode(documents)
# Compute cosine similarity scores
scores = model.similarity(query_embeddings, document_embeddings)
# Output the results
for query, query_scores in zip(queries, scores):
doc_score_pairs = list(zip(documents, query_scores))
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
print("Query:", query)
for document, score in doc_score_pairs:
print(score, document)
Using Huggingface Transformers
You can use the transformers package to use Snowflake's arctic-embed model, as shown below. For optimal retrieval quality, use the CLS token to embed each text portion and use the query prefix below (just on the query).
import torch
from transformers import AutoModel, AutoTokenizer
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)
model.eval()
query_prefix = 'query: '
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?']
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries]
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192)
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.']
document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192)
# Compute token embeddings
with torch.no_grad():
query_embeddings = model(**query_tokens)[0][:, 0]
document_embeddings = model(**document_tokens)[0][:, 0]
# Normalize embeddings
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1)
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1)
scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1))
for query, query_scores in zip(queries, scores):
doc_score_pairs = list(zip(documents, query_scores))
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
# Output passages & scores
print("Query:", query)
for document, score in doc_score_pairs:
print(score, document)
Evaluation
- This Evaluation references the KURE GitHub repository. (https://github.com/nlpai-lab/KURE)
MTEB-ko-retrieval Leaderboard
MTEB에 등록된 모든 Korean Retrieval Benchmark에 대한 평가를 진행하였습니다.
Korean Retrieval Benchmark
- Ko-StrategyQA: 한국어 ODQA multi-hop 검색 데이터셋 (StrategyQA 번역)
- AutoRAGRetrieval: 금융, 공공, 의료, 법률, 커머스 5개 분야에 대해, pdf를 파싱하여 구성한 한국어 문서 검색 데이터셋
- MIRACLRetrieval: Wikipedia 기반의 한국어 문서 검색 데이터셋
- PublicHealthQA: 의료 및 공중보건 도메인에 대한 한국어 문서 검색 데이터셋
- BelebeleRetrieval: FLORES-200 기반의 한국어 문서 검색 데이터셋
- MrTidyRetrieval: Wikipedia 기반의 한국어 문서 검색 데이터셋
- MultiLongDocRetrieval: 다양한 도메인의 한국어 장문 검색 데이터셋
- XPQARetrieval: 다양한 도메인의 한국어 문서 검색 데이터셋
Metrics
- Standard metric : NDCG@10
Information Retrieval
- Achieves state-of-the-art (SOTA) performance on most benchmarks.
Model | MrTidyRetrieval | MIRACLRetrieval | XPQARetrieval | BelebeleRetrieval | PublicHealthQA | AutoRAGRetrieval | Ko-StrategyQA | Average |
---|---|---|---|---|---|---|---|---|
dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.57121 | 0.66846 | 0.4436 | 0.95177 | 0.83374 | 0.90927 | 0.80498 | 0.740433 |
dragonkue/BGE-m3-ko | 0.60992 | 0.68331 | 0.38131 | 0.95027 | 0.81545 | 0.87379 | 0.7959 | 0.729993 |
nlpai-lab/KURE-v1 | 0.59092 | 0.68157 | 0.38158 | 0.95019 | 0.81925 | 0.87076 | 0.7999 | 0.727739 |
BAAI/bge-m3 | 0.64708 | 0.70146 | 0.36075 | 0.93164 | 0.80412 | 0.83008 | 0.79405 | 0.724169 |
Snowflake/snowflake-arctic-embed-l-v2.0 | 0.59071 | 0.66077 | 0.43018 | 0.9271 | 0.81679 | 0.83863 | 0.80455 | 0.724104 |
intfloat/multilingual-e5-large | 0.64211 | 0.66486 | 0.3571 | 0.94499 | 0.82534 | 0.81337 | 0.80348 | 0.721607 |
nlpai-lab/KoE5 | 0.58411 | 0.62347 | 0.35086 | 0.94251 | 0.83507 | 0.84339 | 0.80008 | 0.711356 |
BAAI/bge-multilingual-gemma2 | 0.47521 | 0.70315 | 0.37446 | 0.95001 | 0.87102 | 0.76535 | 0.79072 | 0.704274 |
jinaai/jina-embeddings-v3 | 0.55759 | 0.63716 | 0.41272 | 0.91203 | 0.83059 | 0.76104 | 0.79807 | 0.701314 |
intfloat/multilingual-e5-large-instruct | 0.52877 | 0.59914 | 0.39712 | 0.936 | 0.84967 | 0.77996 | 0.79793 | 0.69837 |
nomic-ai/nomic-embed-text-v2-moe | 0.53766 | 0.65913 | 0.36871 | 0.93636 | 0.78448 | 0.80682 | 0.76325 | 0.693773 |
intfloat/multilingual-e5-base | 0.58082 | 0.6227 | 0.3607 | 0.92868 | 0.77203 | 0.79752 | 0.76355 | 0.689429 |
intfloat/e5-mistral-7b-instruct | 0.52444 | 0.58709 | 0.39159 | 0.92403 | 0.88733 | 0.67849 | 0.79317 | 0.683734 |
Alibaba-NLP/gte-Qwen2-7B-instruct | 0.46571 | 0.53375 | 0.37866 | 0.94808 | 0.85844 | 0.76682 | 0.8108 | 0.680323 |
Alibaba-NLP/gte-multilingual-base | 0.56464 | 0.62697 | 0.30702 | 0.8796 | 0.74584 | 0.77108 | 0.75121 | 0.663766 |
openai/text-embedding-3-large | 0.44728 | 0.56248 | 0.37423 | 0.89451 | 0.85617 | 0.76466 | 0.73634 | 0.662239 |
upskyy/bge-m3-korean | 0.55011 | 0.59892 | 0.31695 | 0.8731 | 0.77559 | 0.72946 | 0.75277 | 0.6567 |
Salesforce/SFR-Embedding-2_R | 0.40347 | 0.55798 | 0.37371 | 0.91747 | 0.8605 | 0.70782 | 0.77042 | 0.65591 |
ibm-granite/granite-embedding-278m-multilingual | nan | 0.59216 | 0.23058 | 0.83231 | 0.77668 | 0.70226 | 0.71762 | 0.641935 |
jhgan/ko-sroberta-multitask | 0.29475 | 0.36698 | 0.27961 | 0.81636 | 0.69212 | 0.58332 | 0.65097 | 0.526301 |
Capabilities Beyond Benchmarks
This model is designed to handle various retrieval scenarios that are not directly measured in benchmarks:
- Supports phrase-based queries in addition to full-sentence queries.
Example: "What products does Samsung sell?" or "Samsung's products"
- Trained to handle diverse query formats, regardless of phrasing variations.
Example: "Tell me about Samsung.", "I'm curious about Samsung.", "What is Samsung?"
Optimized for Markdown table search, allowing retrieval of answers embedded within tables when present in documents.
Efficient clustering without hard negatives:
- Samples within the same batch are clustered together.
- Uses efficient embedding formation for clustering by truncating embeddings from the Snowflake/snowflake-arctic-embed-l-v2.0 model to 256 dimensions.
- The clustering approach is inspired by the findings in the following papers:
- Embedding And Clustering Your Data Can Improve Contrastive Pretraining
- CONTEXTUAL DOCUMENT EMBEDDINGS
Strong performance across different domains:
- The Arctic-Embed 2.0: Multilingual Retrieval Without Compromise paper states:
"While models like mE5, mGTE, and BGE-M3 excel on MIRACL, their performance on CLEF is notably weaker compared to ours and closed-source offerings, suggesting the potential of overfitting to MIRACL or its Wikipedia-based domain." - Based on my own experience, Snowflake/snowflake-arctic-embed-l-v2.0 has consistently outperformed BGE-M3 in different domains, further validating this observation.
- The Arctic-Embed 2.0: Multilingual Retrieval Without Compromise paper states:
Bias, Risks and Limitations
To prevent excessive GPU usage costs, the model was trained with a maximum sequence length of 1300 tokens. As a result, its performance may degrade on benchmarks like MultiLongDocRetrieval (MLDR).
The previous model, BGE-m3-ko, was trained with a token length of 1024, which imposed limitations on its MLDR benchmark performance.
In the case of snowflake-arctic-embed-l-v2.0-ko, if the document length exceeds 1300 tokens or approximately 2500 characters, it is recommended to consider the following models instead.
Model | MultiLongDocRetrieval |
---|---|
Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base | 0.48402 |
nlpai-lab/KURE-v1/nlpai-lab_KURE-v1 | 0.47528 |
dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.4459 |
BAAI/bge-m3/BAAI_bge-m3 | 0.43011 |
Snowflake/snowflake-arctic-embed-l-v2.0 | 0.40401 |
dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko | 0.40135 |
openai/text-embedding-3-large | 0.31108 |
BAAI/bge-multilingual-gemma2 | 0.31021 |
nlpai-lab/KoE5 | 0.30869 |
jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3 | 0.30512 |
Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct | 0.30313 |
intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct | 0.27973 |
nomic-ai/nomic-embed-text-v2-moe | 0.27135 |
intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct | 0.2583 |
intfloat/multilingual-e5-large/intfloat__multilingual-e5-large | 0.24596 |
Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R | 0.24346 |
intfloat/multilingual-e5-base/intfloat__multilingual-e5-base | 0.23766 |
upskyy/bge-m3-korean/upskyy__bge-m3-korean | 0.21968 |
ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual | 0.20781 |
jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask | 0.20416 |
Training Details
- Loss:
CachedGISTEmbedLoss
with these parameters:
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 20000per_device_eval_batch_size
: 4096learning_rate
: 2e-05num_train_epochs
: 2lr_scheduler_type
: warmup_stable_decaylr_scheduler_kwargs
: {'num_decay_steps': 160}warmup_ratio
: 0.05bf16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 10000per_device_eval_batch_size
: 4096per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 2max_steps
: -1lr_scheduler_type
: warmup_stable_decaylr_scheduler_kwargs
: {'num_decay_steps': 160}warmup_ratio
: 0.05warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Truedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.4.1
- Transformers: 4.49.0
- PyTorch: 2.6.0+cu124
- Accelerate: 1.4.0
- Datasets: 3.3.2
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
},
@misc{KURE,
publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee},
year = {2024},
url = {https://github.com/nlpai-lab/KURE}
}
License
Arctic is licensed under the Apache-2. The released models can be used for commercial purposes free of charge.