|
--- |
|
tags: |
|
- sentence-transformers |
|
- sentence-similarity |
|
- feature-extraction |
|
- generated_from_trainer |
|
- loss:CachedGISTEmbedLoss |
|
base_model: Snowflake/snowflake-arctic-embed-l-v2.0 |
|
widget: |
|
- source_sentence: 'query: 이한구를 포함한 원내대표단이 사퇴한 날짜는 언제야?' |
|
sentences: |
|
- "아시아계에 대한 증오범죄를 단속하기 위해 사복 차림으로 순찰 중인 경찰관에게 시비를 건 30대 남성이 체포됐다. \n \n뉴욕을 기반으로\ |
|
\ 한 WABC방송은 현지시간으로 10일 뉴욕경찰(NYPD)이 전날 오후 맨해튼 펜스테이션 역에서 체포한 후비안 로드리게스(35)를 증오범죄\ |
|
\ 등의 혐의로 기소했다고 이날 보도했다. \n \n보도에 따르면 로드리게스는 펜스테이션 역으로 가는 엘리베이터에 함께 탄 사복 경찰관에게\ |
|
\ “무덤에 가지 않으려면 중국으로 돌아가라”고 말했다. 그러면서 경찰관에게 얼굴을 흉기로 찌르겠다는 위협까지 했다. \n \n사복 순찰 중이었던\ |
|
\ 경찰관은 로드리게스를 현장에서 체포했다. 로드리게스는 증오범죄 외에도 약물 소지 혐의로도 기소됐다. NYPD는 최근 급증한 증오범죄에 대응하기\ |
|
\ 위해 아시아계 거주자가 많은 지역에 아시아계로만 구성된 사복 경찰을 배치했다. \n \n더못 시어 뉴욕경찰 국장은 지난달 25일 “피부색이나\ |
|
\ 종교, 성적 취향 또는 다른 어떤 것 때문에 표적이 되는 것을 용납하지 않겠다”고 말했다. 이 비밀경찰관들은 뉴욕 시내 지하철역이나 슈퍼마켓\ |
|
\ 등을 집중적으로 순찰하며 지역사회 활동을 확대하고 있다. \n \n로드리게스를 체포한 경찰관도 2주 전 아시안 증오범죄 태스크포스(TF)에\ |
|
\ 배치됐다. 사복 순찰 중인 아시아계 경찰관을 위협하다 체포된 사례는 이번이 두 번째다. 올해 NYPD에 접수된 아시아계에 대한 증오범죄는\ |
|
\ 40건에 달한다." |
|
- 한나라당은 4·27 재보선 이후 전당대회 룰(rule)을 놓고 한바탕 소동을 벌였다. 당권-대권 분리규정 폐지를 놓고 친이와 친박이 싸우더니, |
|
막판엔 1인1표제와 여론조사 폐지가 논란이 됐다. 친이-친박이 전당대회 룰을 놓고 맞붙은 것은 김무성 전 원내대표를 미는 친이와 이를 반대하는 |
|
친박간 신경전이 배경이 됐던 것으로 전해진다. 계파가 충돌하는 바람에 또다른 당권주자인 나경원 전 최고위원이 어부지리를 얻었다는 분석이다. |
|
당초 친이 김문수 경기도지사와 정몽준 전 대표는 당권-대권 분리규정 폐지를 밀었다. 박근혜 전 대표를 비롯한 대권주자들이 당권주자로 나서 당을 |
|
위기에서 구하자는 주장이었다. 친박을 싸움판에 끌어내면서 친이 대선주자들이 전면에 나설 기회를 잡으려는 취지로 해석됐다. 하지만 박 전 대표의 |
|
반대로 무산됐다. 친이는 이번엔 1인1표제와 여론조사 폐지로 급습했다. 명분은 "계파 전당대회를 끝내자"는 것이었다. 비대위 회의에선 적극 |
|
반발하지 않았던 친박과 소장파는 뒤늦게 이 개정안을 '김무성을 위한 술책'으로 해석했다. 이재오계가 김 전 원내대표를 대표로 밀기 위해 당헌·당규까지 |
|
고치겠다고 나선 것으로 받아들인 것이다. 이재오계가 여론조사에 취약한 김 전 원내대표를 위해 여론조사 폐지란 무리수를 뒀다는 추정이었다. 이 |
|
때문에 친박이 뒤늦게 나서 당헌·당규 개정을 막는데 총력을 다했다는 해석이다. 친박 내부에선 박 전 대표와 앙금이 남은 김 전 원내대표가 대표에 |
|
오르는 건 안된다는 기류가 존재한다. 박 전 대표 측근이 6일 직접 나서 친박의원들에게 "의원총회와 전국위에서 당헌·당규 개정을 뒤집어야 한다"고 |
|
당부했다는 후문이다. 결과적으로 전국위에서 비대위안은 무산됐고 1인2표제와 여론조사 30% 반영은 그대로 남았다. 비대위안이 무산되면서 친박과 |
|
소장파 목소리에 더욱 힘이 실렸지만, 실제 당헌·당규 개정논쟁의 최대수혜자는 나경원 전 최고위원이라는 평가가 나온다. 전당대회 출마를 저울질 |
|
중인 나 전 최고위원은 지난해 전당대회에서 여론조사 1등을 했다. 현재 전당대회 당헌·당규상으론 가장 유리한 고지에 올라서 있는 셈이다. 실제 |
|
이재오계 내부에선 나 전 최고위원에 부쩍 눈길을 주는 눈치다. 당초 김 전 원내대표와 원희룡 전 사무총장을 유력 후보로 놓고 저울질했지만, |
|
최근 들어 나 전 최고위원까지 후보군에 올려놓으면서 최종결정을 미뤘다는 후문이다. 이재오계 수도권 중진의원은 "여론조사에서 1위를 하는 후보가 |
|
대표를 맡는게 맞다"면서 나 전 최고위원을 적극 추천했다고 한다. 친박에선 '김무성 카드'에 제동을 걸었다는 점에 일단 안도하는 분위기다. |
|
다만 친박 전략통들은 나경원 수혜론에 극도의 경계심을 내비치고 있다. 친박 관계자는 "만의 하나 나 전 최고위원이 대표직에 오르면 친박으로선 |
|
파출소 피하려다 경찰서 만난 꼴"이라고 말했다. 나 전 최고위원은 정치권에서 흔하지않은 여성이자 40대다. 대선에 도전하는 박 전 대표 입장에선 |
|
같은 여성이자, 세대교체를 연상시키는 나 전 최고위원의 약진이 정치적으로 '마이너스'라는 것이다. 친박 내부에서조차 "명분과 실리, 모두를 |
|
잃은 꼴"이라는 비판이 나오는 대목이다. |
|
- 새누리당 진 영 의원이 한달여만에 정책위의장직에 복귀한다. 진 의원은 28일 "개인적 원칙과 입장을 버리고 당의 뜻에 따르기로 했다"며 "대선이 |
|
중요한만큼 일단 개인 생각은 접기로 했다"고 말했다. 그는 "당장 오늘은 아니더라도 조만간 정책위의장 업무에 복귀할 것"이라고 덧붙였다. 진 |
|
의원은 전날 대선 정책공약을 총괄할 국민행복특위 부위원장에 선임됐다. 새누리당 관계자는 "당 지도부가 그동안 다각도로 진 의원에게 정책위의장 |
|
업무에 복귀할 것을 요청해왔다"면서 "결국 최근 박근혜 대선 후보가 직접 설득해 복귀결정을 내린 것으로 안다"고 말했다. 이한구 원내대표를 |
|
비롯한 원내대표단은 지난달 11일 정두언 의원 체포동의안 부결의 책임을 지고 사퇴했다가 닷새 만에 업무에 복귀했으나, 진 의원만은 사퇴 의사를 |
|
굽히지 않아왔다. 당 정책위는 전날 발족한 국민행복특별위원회와 함께 사실상 당과 박 후보의 대선 공약을 총괄 진두지휘하게 될 전망이다. |
|
- source_sentence: 'query: 복지가 닿지 않는 곳의 취약 아동들을 발굴해 후원해 주는 천안시의 사업은 뭐지?' |
|
sentences: |
|
- "익산시가 장애인의 편익 증진을 위해 시각장애인을 위한 점자 주민등록증을 발급한다. \n\n시는 19일 장애등급에 상관없이 모든 시각장애인을\ |
|
\ 대상으로 하는 점자 주민등록증 발급을 시작했다고 밝혔다. \n\n기존에는 종전 1급~3급까지의 중증 시각장애인만 발급 신청이 가능했으나\ |
|
\ 지난해 주민등록법이 개정됨에 따라 장애등급에 상관없이 모든 시각장애인이 발급할 수 있도록 대상 범위가 확대됐다. \n\n아울러 점자 주민등록증은\ |
|
\ 익산에 주소를 둔 시각장애인을 대상으로 본인뿐만 아니라 같은 세대원, 직계혈족 등이 가까운 읍면동 주민센터에서 신청해 수령할 수 있다.\ |
|
\ \n\n또한, 기존에 일반 주민등록증을 발급받은 시각장애인은 점자 스티커만 별도로 신청할 수 있으며, 발급 수수료는 시에서 부담해 전액\ |
|
\ 면제된다. \n\n한편, 점자 주민등록증은 주민등록증 명칭, 성명, 주민등록번호, 주민등록증 발급 일자가 투명한 점자 스티커로 제작돼 주민등록증에\ |
|
\ 부착하는 방식으로 만들어진다." |
|
- 홈플러스는 서울 동대문점 옥상에 풋살파크 11호점을 열었다고 24일 밝혔다. 홈플러스 풋살파크는 국제규격에 맞춘 친환경 인조잔디 구장이다. |
|
어린이 부상 방지를 위해 각 구장 벽면에 1.5m 높이 세이프 쿠션을 세우고 야간 경기를 돕는 스포츠 LED 조명을 설치했다. 홈플러스는 올해 |
|
부산, 천안, 창원, 순천 등에 구장을 신설해 풋살파크를 20여개로 확대할 계획이다. 초등학생과 성인들을 위한 국내 최대 규모 아마추어 풋살 |
|
리그도 준비 중이다. 홈플러스는 옥상 유휴부지를 활용한 체육공간을 확대해 고객 편익 증진과 국민 체육 발전에 기여할 방침이다. 각 지역 프로축구단 |
|
어린이 축구교실과 연계해 축구 꿈나무 성장을 돕고 풋살파크를 지역 소외계층을 위한 사회공헌활동의 장으로도 활용해 나갈 계획이다. 심희정 기자 |
|
[email protected] |
|
- "충남 천안시드림스타트는 복지사각지대 아동 발굴을 위한 사업 동영상을 제작했다고 4일 밝혔다. \n\n동영상은 드림스타트 사례관리 아동과 보호자,\ |
|
\ 아동통합사례관리사가 직접 참여해 사업을 설명하는 재능 기부와 생동감 넘치는 캐릭터로 구성돼 있어 누구나 드림스타트 사업에 대해 알기 쉽게\ |
|
\ 제작됐다. \n\n드림스타트 사례 아동과 보호자들이 자신의 목소리로 꿈을 이야기하며 드림스타트가 아동들이 꿈을 잃지 않고 건강하게 성장할\ |
|
\ 수 있도록 지원하고 있다는 것을 알리고 있다. \n\n드림스타트는 0세~만12세의 취약계층 아동에게 사례관리를 통해 맞춤형 사례관리 제공으로\ |
|
\ 공평한 출발 기회를 보장하고 건강하고 행복한 사회구성원으로 성장할 수 있도록 지원하고 있다. \n\n오은영 드림스타트사업팀장은 \"복지사각지대의\ |
|
\ 위기 아동에 대한 주변의 지속적인 관심이 절실히 필요한 때이며 적극적인 발굴과 홍보에 힘쓰도록 노력하겠다\"고 말했다." |
|
- source_sentence: 'query: 어떤 식이 성분이 개에게 먹이지 않아 개가 죽었나요?' |
|
sentences: |
|
- 1816년 프랑수아 마겐디는 탄수화물(당), 지방(오리브 오일) 및 물만 먹인 개가 분명히 기아로 사망했지만 단백질도 먹인 개가 생존하여 단백질을 |
|
필수 식이 성분으로 식별한다는 것을 발견했다.1827년 윌리엄 프로우트는 음식을 탄수화물, 지방, 단백질로 나눈 최초의 사람이다.19세기 동안 |
|
장밥티스트 두마스와 Justus von Liebig는 동물이 식물에서 직접 단백질을 얻는다는 공통된 믿음(동물과 식물의 단백질은 같고 인간은 |
|
유기 화합물을 만들지 않는다는 것)에 대해 논쟁했다.당대 최고의 유기농 화학자로 명성을 얻었지만 동물 생리학에 대한 자격이 없는 리비히는 나중에 |
|
영양가가 의심스러운 것으로 밝혀진 쇠고기 부용 및 유아용 조제분유와 같은 식품 추출물을 만들어 풍부한 성장을 했다.1860년대에 클로드 베르나르는 |
|
체지방이 탄수화물과 단백질로부터 합성될 수 있다는 것을 발견하여 혈당의 에너지가 지방이나 글리코겐으로 저장될 수 있음을 보여주었다. |
|
- 안녕! AC 97는 1997년에 Intel이 만든 오디오 코덱 표준이에요. 이것은 메인보드, 모뎀, 사운드 카드에 사용됩니다. 이 코덱은 오디오 |
|
신호를 처리하기 위해 사용되는데, 일반적으로 작은 사각형 칩으로 존재합니다. 이 칩들은 두 가지 방식으로 나누어져 있습니다. 첫째, AC97 |
|
인터페이스와 아날로그 오디오 인터페이스가 있습니다. 이 칩들은 소리를 처리하는 역할을 담당합니다. 둘째, 이 칩들은 다양한 브랜드와 모델로 |
|
구성되어 있습니다. 예를 들면, ASUS, Realtek, C-Media, ESS, Empia, HMP, National Semiconductor, |
|
Philips, Realtek, Silicon Image, TriTech, Yamaha, VIA, Winbond, Wolfson Microelectronics |
|
등이 있습니다. 이 칩들은 다양한 목적을 수행하며, 사운드 카드에 사용됩니다. |
|
- 가족과 떨어져 3년 이상 해외생활을 하는 북한 노동자들 일부는 외로움을 달래기 위해 조선족 여자를 소개받아 사귀기도 한다. 가족과 떨어져 지내야만 |
|
하는 상황 탓에 벌어지는 일일 것이다. 북한 노동자들은 러시아 여성을 사귀려면 돈이 많이 들지만 조선족 여성은 말도 잘 통하고 함께 생활도 |
|
할 수 있으며 밥도 해주기 때문에 훨씬 좋다고 생각한다고 한다. 조선족 여성들은 대부분 시장에서 장사하는 상인들이다. 그러나 사할린의 조선족 |
|
여성들이 3~4년 전부터 한국으로 이주해 현재 시장에서 장사하는 사람은 20여 명만 남은 것으로 알려져 있다. 북한에서 파견되는 노동자들의 |
|
연령이 최근 3~4년 사이 계속 낮아지고 있다. 사할린은 섬지역이어서 그동안 탈북이 거의 없었으나 최근 탈북 우려가 커지면서 10년이 넘은 |
|
노동자들을 귀국시키고 있다. 지난해 말 현재 사할린에 10년 이상 노동자로 일한 사람은 4명뿐이며 사업소 관리자들은 탈북을 막기 위해 하루에 |
|
3번씩 점검하는 것으로 알려지고 있다. |
|
- source_sentence: 'query: 당시 버지니아 대학교는 누구의 이상을 따르고 있었는가?' |
|
sentences: |
|
- 매일 100-300mg의 아연을 섭취하는 사람들에게 구리 결핍이 유발된다는 증거가 있다.2007년 실험에 따르면 매일 80mg을 복용하는 노인 |
|
남성은 위약을 복용하는 남성보다 비뇨기 합병증으로 입원하는 경우가 더 많았다.USDA RDA는 남성과 여성의 경우 각각 11mg 및 8mg |
|
Zn/일이다.100~300mg 수준은 구리와 철의 이용을 방해하거나 콜레스테롤에 악영향을 미칠 수 있다.토양에서 500ppm을 초과하는 아연 |
|
수준은 식물이 철 및 망간과 같은 다른 필수 금속을 흡수하는 능력을 방해한다.아연 쉐이크 또는 "아연 칠"이라고 불리는 조건도 있는데, 아연 |
|
도금 재료의 용접 중에 형성된 새로 형성된 산화 아연의 흡입에 의해 유도될 수 있다.아연은 그램당 17~38mg의 아연을 함유할 수 있는 의치 |
|
크림의 일반적인 성분이다.이러한 제품의 과도한 사용으로 인해 장애 및 심지어 사망에 대한 주장이 있었다. |
|
- 포는 1826년 2월 버지니아 대학교에 등록하여 고대 및 근대 언어를 공부했다. 첫사랑 사라 엘마이라 로이스터를 만난 것은 대학 입학 이전으로 |
|
생각된다. 개교한 지 얼마 안 된 버지니아 대학교는 창립자 토머스 제퍼슨의 이상을 따르고 있었다. 도박·승마·사격·담배·음주가 모두 엄격히 |
|
금지되었는데, 대개 학생들은 이를 무시했다. 제퍼슨은 학생자치제도를 도입하여 학생들이 각자 연구주제를 선택하고 각자 기숙 준비를 하게 했고, |
|
모든 비행을 교수진에게 보고하도록 했다. 이런 시험적인 시스템은 도입 초기였던 만큼 혼란스러웠고, 학교 중퇴자도 많았다. 포는 대학 재학 중에 |
|
로이스터와의 연락이 끊어졌고, 도박 빚 때문에 양아버지와의 관계가 소원해졌다. 포는 앨런이 자신에게 충분한 돈을 주지 않아서 등록금·교재비·기숙사 |
|
가구비 등을 낼 수 없다고 했다. 앨런은 그래서 돈과 옷을 더 보내주었지만 포의 빚은 더 불어났다. 포는 1년 만에 대학을 중퇴하고 리치먼드로 |
|
돌아갔다. 그러나 사랑하던 로이스터가 알렉산더 셸턴이라는 사람과 결혼했다는 소식을 듣자 낙담하여 보스턴으로 훌쩍 떠났는데 이때가 1827년 |
|
4월이었다. 포는 점포 계원이나 신문 기고가 같은 낯선 일을 하면서 입에 풀칠했다. 이 시기쯤에 앙리 르 르네(Henri Le Rennet)라는 |
|
필명을 사용하기 시작했다. |
|
- 허위자백에 대한 관심은 1930년대 미국에서 발견된다. Edwin Borchard는 1932년 그의 저서 “Convicting the Innocent”를 |
|
통해 죄 없는 사람이 잘못 기소되어 유죄판결을 받고 수감된 65건의 사례를 소개했다. 이것은 미국의 형사사법시스템 내에서는 결코 무고한 사람이 |
|
유죄판결을 받을 리 없다는 전통적 관념을 깨버리는 것이었다. 그러나 아쉽게도 연구는 허위자백이 포함된 오심사례들에 대한 간단한 고찰 내지 소개에 |
|
그쳤고, 허위자백을 보다 체계적으로 계량화하거나 연구를 심화하려는 시도가 없었다. 그리고 이후 수십 년간 Borchard의 한계를 벗어나지 |
|
못하고 이를 답습하는 유사한 연구가 진행되었다. 오심과 허위자백에 대한 연구의 도약은 1987년에 이루어졌다. Hugo Bedau와 Michael |
|
Radelet은 그들의 논문에서 1900년부터 1987년까지 미국에서 350건의 오심사례(사형에 처해질 가능성 있는 사례들)를 분석하여 그 |
|
중 49건(14%)이 허위자백으로 인한 것임을 발표하였다. 이 결과는 미국사회에 큰 충격을 주었고, 많은 사람들이 오판에 대한 관심을 갖고 |
|
사례를 모으거나 분석하는 작업을 하도록 자극 하였다. 이 과정에서 허위자백에 대한 관심도 역시 확대되어 갔다. |
|
- source_sentence: 'query: 기술적으로 집단에너지시설에 대해 규정한 법의 상위법은 뭐야?' |
|
sentences: |
|
- 이러한 의견 불일치에도 불구하고, 위 전문가들이 지적했듯이 경찰과 아동보호전문기관의 협업은 아동학대범죄의 신고 및 조사 단계에서 매우 핵심적인 |
|
부분이다. 또한 한 사건을 각각 수사와 피해자 보호라는 관점에서 보완적으로 보기 때문에 의견의 불일치에도 불구, 결과적으로 피학대아동의 온전한 |
|
지원을 위해 필요한 부분이기도 하다. 그러나 향후 예상되는 두 직책간의 의견불일치와 범위 침해 문제 등을 개선하기 위해서는 이 부분에 있어서는 |
|
아동보호전문기관의 소관부서인 보건복지부와 경찰이 실무자들에게 적용될 수 있는 가이드라인을 어느 정도 만들어주는 것이 필요해 보인다. 현재 일각에서는 |
|
아동보호전문기관의 신고 조사기능과 서비스 제공 및 사후관리기능을 분리하여 공적기관에서 신고 조사기능을 담당하고 아동보호전문기관은 서비스제공 |
|
및 사후관리를 담당하도록 하자는 주장도 제기되고 있다. 그러나 특례법 시행 초기단계인 현 시점에 기능을 분리하여 경찰에서 신고 조사기능을 전담하게 |
|
되면 자칫 피해아동보호에 소홀해질 가능성도 있으므로 현 단계에서는 역할을 좀 더 명확하게 구분해주는 중앙부처차원의 가이드라인 설정이 좀 더 |
|
적절해 보인다. |
|
- 'Ⅲ. 지역난방 사용자 설비의 법적 지위와 역할 |
|
|
|
1. 지역난방 사용자 설비의 법적 지위 |
|
|
|
지역난방 사용자 설비의 운영, 유지, 보수, 교체, 계량 및 리모델링 정책규제체계는 중앙정부의 법령, 지자체의 조례 또는 규약, 공급사의 규정을 |
|
기반으로 한다. 지역난방 사용자 설비의 관리를 규율하는 중앙정부의 법적 기반은 에너지이용합리화법, 집단에너지사업법 등 관련 에너지 법령을 비롯해 |
|
주택, 공동주택, 건축, 녹색건축물, 계량, 기계설비, 환경, 기후변화, 수도 관련 법령이다. 1980년 에너지이용합리화법이 제정되고, 1985년 |
|
지역난방 보급이 서울시를 시작으로 이루어진 이후 에너지효율화와 재생에너지의 중요성이 증가함에 따라 에너지, 주택, 건축물 등 관련법이 제·개정을 |
|
거듭하며 분화, 발전되어 오고 있다. 지역난방 사용자 설비를 규율하는 중앙정부의 법적 기반은 ‘에너지이용합리화법’과 ‘집단에너지사업법’이다. |
|
‘에너지이용합리화법’을 상위법으로 ‘집단에너지사업법’이 집단에너지시설의 기술 수준을 규정하고 있다.' |
|
- '환경부, 전국 폐수종말처리시설 운영·관리실태 평가결과 발표 |
|
|
|
2011년 폐수종말처리시설 운영 및 관리실태 평가결과 |
|
|
|
Ⅲ. 문제점 및 개선방안 |
|
|
|
< 평가 점수 상·하향 조정 > |
|
|
|
□ 폐수유입률 배점 상향 조정 |
|
|
|
○ 폐수유입률 저조에 대하여 국회 등에서 지속적으로 제기되고 있어, 폐수유입률 제고를 위해 배점 상향 조정이 필요 |
|
|
|
☞ 폐수유입률 : 10점 → 15점 |
|
|
|
□ 폐수배출업소 관리 시스템 및 수질분석 배점 상향 조정 |
|
|
|
○ 특정수질유해물질의 처리장 유입 관리 강화 및 비정상 가동에 따른 폐수무단방류 등의 사전 예방기능을 강화하기 위해 배점 상향 조정 |
|
|
|
○ 폐수종말처리시설의 유입수 및 방류수 분석기능 강화를 통해 폐수 배출업소에 대한 견제기능 강화와 처리장의 적정관리 유도 |
|
|
|
☞ 배출업소관리시스템 : 5점 → 10점, 수질분석 : 5점 → 10점 |
|
|
|
□ 폐수처리 효율 및 오염불질 유입률 배점 하향 조정 |
|
|
|
○ 폐수처리효율 및 오염물질 유입률 항목은 배점이 높은 반면 시설간 점수의 편차가 크지 않아(변별력 저조) 배점 하향 조정 필요 |
|
|
|
☞ 폐수처리 효율 : 15점 → 10점, 오염물질 유입률 : 10점 → 5점 |
|
|
|
□ 폐수 재이용률 배점 하향 조정 |
|
|
|
○ 폐수내 특정수질유해물질의 혼입, 하수처리장과 비교할 때 방류 폐수량이 미미하여 폐수 재이용률에는 한계가 있어 하향 조정 |
|
|
|
○ 또한, 폐수 재이용을 위한 추가설비가 필요함에 따라 처리장 운영만으로는 재이용에는 한계가 있음 |
|
|
|
※ 폐수 재이용시설은 BTO로 사업을 추진해야 하나 시설용량의 소규모로 인해 경제성이 떨어짐 |
|
|
|
☞ 폐수 재이용률 : 10점 → 5점' |
|
|
|
--- |
|
|
|
# SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0 |
|
|
|
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) on the clustered datasets. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search. |
|
|
|
The **Snowflake/snowflake-arctic-embed-l-v2.0** model has been further trained with Korean data to enhance its performance in **Korean retrieval tasks**. It is a powerful model that achieves **state-of-the-art (SOTA) performance across multiple retrieval benchmarks**. |
|
|
|
|
|
|
|
## Model Details |
|
|
|
### Model Description |
|
- **Model Type:** Sentence Transformer |
|
- **Base model:** [Snowflake/snowflake-arctic-embed-l-v2.0](https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0) <!-- at revision 7f311bb640ad3babc0a4e3a8873240dcba44c9d2 --> |
|
- **Maximum Sequence Length:** 8192 tokens |
|
- **Output Dimensionality:** 1024 dimensions |
|
- **Similarity Function:** Cosine Similarity |
|
- **Training Datasets:** |
|
- AI Hub 데이터 셋 |
|
- 행정 문서 대상 기계 독해 |
|
- 기계 독해 |
|
- 뉴스 기사 기계독해 |
|
- 도서 자료 기계독해 |
|
- 숫자 연산 기계독해 |
|
- 금융 법률 문서 기계독해 |
|
- **Language:** Korean, English |
|
|
|
|
|
### Model Sources |
|
|
|
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net) |
|
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) |
|
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) |
|
|
|
### Full Model Architecture |
|
|
|
``` |
|
SentenceTransformer( |
|
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel |
|
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) |
|
(2): Normalize() |
|
) |
|
``` |
|
|
|
|
|
## Usage |
|
|
|
### Direct Usage (Sentence Transformers) |
|
|
|
First install the Sentence Transformers library and xformers library |
|
|
|
```bash |
|
pip install -U sentence-transformers |
|
|
|
pip install xformers |
|
|
|
``` |
|
|
|
|
|
Then you can load this model and run inference. |
|
## Usage |
|
|
|
### Using Sentence Transformers |
|
|
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
|
|
# Load the model |
|
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko' |
|
model = SentenceTransformer(model_name) |
|
|
|
# Define the queries and documents |
|
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?'] |
|
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.'] |
|
|
|
# Compute embeddings: use `prompt_name="query"` to encode queries! |
|
query_embeddings = model.encode(queries, prompt_name="query") |
|
document_embeddings = model.encode(documents) |
|
|
|
# Compute cosine similarity scores |
|
scores = model.similarity(query_embeddings, document_embeddings) |
|
|
|
# Output the results |
|
for query, query_scores in zip(queries, scores): |
|
doc_score_pairs = list(zip(documents, query_scores)) |
|
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True) |
|
print("Query:", query) |
|
for document, score in doc_score_pairs: |
|
print(score, document) |
|
|
|
``` |
|
|
|
### Using Huggingface Transformers |
|
|
|
|
|
You can use the transformers package to use Snowflake's arctic-embed model, as shown below. For optimal retrieval quality, use the CLS token to embed each text portion and use the query prefix below (just on the query). |
|
|
|
```python |
|
|
|
import torch |
|
from transformers import AutoModel, AutoTokenizer |
|
|
|
model_name = 'dragonkue/snowflake-arctic-embed-l-v2.0-ko' |
|
tokenizer = AutoTokenizer.from_pretrained(model_name) |
|
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False) |
|
model.eval() |
|
|
|
query_prefix = 'query: ' |
|
queries = ['대한민국의 수도는 어디인가?', '한글을 만든 사람은 누구인가?'] |
|
queries_with_prefix = ["{}{}".format(query_prefix, i) for i in queries] |
|
query_tokens = tokenizer(queries_with_prefix, padding=True, truncation=True, return_tensors='pt', max_length=8192) |
|
|
|
documents = ['대한민국의 수도는 서울이다.', '한글은 세종대왕이 창제하였다.'] |
|
document_tokens = tokenizer(documents, padding=True, truncation=True, return_tensors='pt', max_length=8192) |
|
|
|
# Compute token embeddings |
|
with torch.no_grad(): |
|
query_embeddings = model(**query_tokens)[0][:, 0] |
|
document_embeddings = model(**document_tokens)[0][:, 0] |
|
|
|
# Normalize embeddings |
|
query_embeddings = torch.nn.functional.normalize(query_embeddings, p=2, dim=1) |
|
document_embeddings = torch.nn.functional.normalize(document_embeddings, p=2, dim=1) |
|
|
|
scores = torch.mm(query_embeddings, document_embeddings.transpose(0, 1)) |
|
|
|
for query, query_scores in zip(queries, scores): |
|
doc_score_pairs = list(zip(documents, query_scores)) |
|
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True) |
|
# Output passages & scores |
|
print("Query:", query) |
|
for document, score in doc_score_pairs: |
|
print(score, document) |
|
|
|
``` |
|
|
|
<!-- |
|
### Direct Usage (Transformers) |
|
|
|
<details><summary>Click to see the direct usage in Transformers</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Downstream Usage (Sentence Transformers) |
|
|
|
You can finetune this model on your own dataset. |
|
|
|
<details><summary>Click to expand</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Out-of-Scope Use |
|
|
|
*List how the model may foreseeably be misused and address what users ought not to do with the model.* |
|
--> |
|
|
|
## Evaluation |
|
|
|
- This Evaluation references the KURE GitHub repository. (https://github.com/nlpai-lab/KURE) |
|
|
|
### MTEB-ko-retrieval Leaderboard |
|
[MTEB](https://github.com/embeddings-benchmark/mteb)에 등록된 모든 Korean Retrieval Benchmark에 대한 평가를 진행하였습니다. |
|
### Korean Retrieval Benchmark |
|
- [Ko-StrategyQA](https://huggingface.co/datasets/taeminlee/Ko-StrategyQA): 한국어 ODQA multi-hop 검색 데이터셋 (StrategyQA 번역) |
|
- [AutoRAGRetrieval](https://huggingface.co/datasets/yjoonjang/markers_bm): 금융, 공공, 의료, 법률, 커머스 5개 분야에 대해, pdf를 파싱하여 구성한 한국어 문서 검색 데이터셋 |
|
- [MIRACLRetrieval](https://huggingface.co/datasets/miracl/miracl): Wikipedia 기반의 한국어 문서 검색 데이터셋 |
|
- [PublicHealthQA](https://huggingface.co/datasets/xhluca/publichealth-qa): 의료 및 공중보건 도메인에 대한 한국어 문서 검색 데이터셋 |
|
- [BelebeleRetrieval](https://huggingface.co/datasets/facebook/belebele): FLORES-200 기반의 한국어 문서 검색 데이터셋 |
|
- [MrTidyRetrieval](https://huggingface.co/datasets/mteb/mrtidy): Wikipedia 기반의 한국어 문서 검색 데이터셋 |
|
- [MultiLongDocRetrieval](https://huggingface.co/datasets/Shitao/MLDR): 다양한 도메인의 한국어 장문 검색 데이터셋 |
|
- [XPQARetrieval](https://huggingface.co/datasets/jinaai/xpqa): 다양한 도메인의 한국어 문서 검색 데이터셋 |
|
|
|
### Metrics |
|
|
|
* Standard metric : NDCG@10 |
|
|
|
#### Information Retrieval |
|
|
|
- Achieves state-of-the-art (SOTA) performance on most benchmarks. |
|
|
|
|
|
| Model | MrTidyRetrieval | MIRACLRetrieval | XPQARetrieval | BelebeleRetrieval | PublicHealthQA | AutoRAGRetrieval | Ko-StrategyQA | Average | |
|
|:-------------------------------------------------------------------------------------------------|:------------------|:------------------|:----------------|:--------------------|:-----------------|:-------------------|:----------------|:-------------| |
|
| dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.57121 | 0.66846 | **0.4436** | **0.95177** | 0.83374 | **0.90927** | _0.80498_ | **0.740433** | |
|
| dragonkue/BGE-m3-ko | 0.60992 | 0.68331 | 0.38131 | _0.95027_ | 0.81545 | _0.87379_ | 0.7959 | _0.729993_ | |
|
| nlpai-lab/KURE-v1 | 0.59092 | 0.68157 | 0.38158 | 0.95019 | 0.81925 | 0.87076 | 0.7999 | 0.727739 | |
|
| BAAI/bge-m3 | **0.64708** | _0.70146_ | 0.36075 | 0.93164 | 0.80412 | 0.83008 | 0.79405 | 0.724169 | |
|
| Snowflake/snowflake-arctic-embed-l-v2.0 | 0.59071 | 0.66077 | _0.43018_ | 0.9271 | 0.81679 | 0.83863 | 0.80455 | 0.724104 | |
|
| intfloat/multilingual-e5-large | _0.64211_ | 0.66486 | 0.3571 | 0.94499 | 0.82534 | 0.81337 | 0.80348 | 0.721607 | |
|
| nlpai-lab/KoE5 | 0.58411 | 0.62347 | 0.35086 | 0.94251 | 0.83507 | 0.84339 | 0.80008 | 0.711356 | |
|
| BAAI/bge-multilingual-gemma2 | 0.47521 | **0.70315** | 0.37446 | 0.95001 | _0.87102_ | 0.76535 | 0.79072 | 0.704274 | |
|
| jinaai/jina-embeddings-v3 | 0.55759 | 0.63716 | 0.41272 | 0.91203 | 0.83059 | 0.76104 | 0.79807 | 0.701314 | |
|
| intfloat/multilingual-e5-large-instruct | 0.52877 | 0.59914 | 0.39712 | 0.936 | 0.84967 | 0.77996 | 0.79793 | 0.69837 | |
|
| nomic-ai/nomic-embed-text-v2-moe | 0.53766 | 0.65913 | 0.36871 | 0.93636 | 0.78448 | 0.80682 | 0.76325 | 0.693773 | |
|
| intfloat/multilingual-e5-base | 0.58082 | 0.6227 | 0.3607 | 0.92868 | 0.77203 | 0.79752 | 0.76355 | 0.689429 | |
|
| intfloat/e5-mistral-7b-instruct | 0.52444 | 0.58709 | 0.39159 | 0.92403 | **0.88733** | 0.67849 | 0.79317 | 0.683734 | |
|
| Alibaba-NLP/gte-Qwen2-7B-instruct | 0.46571 | 0.53375 | 0.37866 | 0.94808 | 0.85844 | 0.76682 | **0.8108** | 0.680323 | |
|
| Alibaba-NLP/gte-multilingual-base | 0.56464 | 0.62697 | 0.30702 | 0.8796 | 0.74584 | 0.77108 | 0.75121 | 0.663766 | |
|
| openai/text-embedding-3-large | 0.44728 | 0.56248 | 0.37423 | 0.89451 | 0.85617 | 0.76466 | 0.73634 | 0.662239 | |
|
| upskyy/bge-m3-korean | 0.55011 | 0.59892 | 0.31695 | 0.8731 | 0.77559 | 0.72946 | 0.75277 | 0.6567 | |
|
| Salesforce/SFR-Embedding-2_R | 0.40347 | 0.55798 | 0.37371 | 0.91747 | 0.8605 | 0.70782 | 0.77042 | 0.65591 | |
|
| ibm-granite/granite-embedding-278m-multilingual | nan | 0.59216 | 0.23058 | 0.83231 | 0.77668 | 0.70226 | 0.71762 | 0.641935 | |
|
| jhgan/ko-sroberta-multitask | 0.29475 | 0.36698 | 0.27961 | 0.81636 | 0.69212 | 0.58332 | 0.65097 | 0.526301 | |
|
|
|
|
|
#### Capabilities Beyond Benchmarks |
|
|
|
This model is designed to handle various retrieval scenarios that are not directly measured in benchmarks: |
|
|
|
1. Supports phrase-based queries in addition to full-sentence queries. |
|
|
|
Example: "What products does Samsung sell?" or "Samsung's products" |
|
|
|
2. Trained to handle diverse query formats, regardless of phrasing variations. |
|
|
|
Example: "Tell me about Samsung.", "I'm curious about Samsung.", "What is Samsung?" |
|
|
|
3. Optimized for Markdown table search, allowing retrieval of answers embedded within tables when present in documents. |
|
|
|
4. Efficient clustering without hard negatives: |
|
|
|
- Samples within the same batch are clustered together. |
|
- Uses efficient embedding formation for clustering by truncating embeddings from the Snowflake/snowflake-arctic-embed-l-v2.0 model to 256 dimensions. |
|
- The clustering approach is inspired by the findings in the following papers: |
|
- *Embedding And Clustering Your Data Can Improve Contrastive Pretraining* |
|
- *CONTEXTUAL DOCUMENT EMBEDDINGS* |
|
|
|
5. Strong performance across different domains: |
|
|
|
- The *Arctic-Embed 2.0: Multilingual Retrieval Without Compromise* paper states: |
|
*"While models like mE5, mGTE, and BGE-M3 excel on MIRACL, their performance on CLEF is notably weaker compared to ours and closed-source offerings, suggesting the potential of overfitting to MIRACL or its Wikipedia-based domain."* |
|
- Based on my own experience, **Snowflake/snowflake-arctic-embed-l-v2.0** has consistently outperformed **BGE-M3** in different domains, further validating this observation. |
|
|
|
|
|
## Bias, Risks and Limitations |
|
|
|
To prevent excessive GPU usage costs, the model was trained with a maximum sequence length of 1300 tokens. As a result, its performance may degrade on benchmarks like MultiLongDocRetrieval (MLDR). |
|
|
|
The previous model, **BGE-m3-ko**, was trained with a token length of **1024**, which imposed limitations on its MLDR benchmark performance. |
|
|
|
In the case of **snowflake-arctic-embed-l-v2.0-ko**, if the document length exceeds 1300 tokens or approximately 2500 characters, it is recommended to consider the following models instead. |
|
|
|
|
|
|
|
| Model | MultiLongDocRetrieval | |
|
|:-------------------------------------------------------------------------------------------------|------------------------:| |
|
| Alibaba-NLP/gte-multilingual-base/Alibaba-NLP/gte-multilingual-base | 0.48402 | |
|
| nlpai-lab/KURE-v1/nlpai-lab_KURE-v1 | 0.47528 | |
|
| dragonkue/snowflake-arctic-embed-l-v2.0-ko | 0.4459 | |
|
| BAAI/bge-m3/BAAI_bge-m3 | 0.43011 | |
|
| Snowflake/snowflake-arctic-embed-l-v2.0 | 0.40401 | |
|
| dragonkue/BGE-m3-ko/dragonkue_BGE-m3-ko | 0.40135 | |
|
| openai/text-embedding-3-large | 0.31108 | |
|
| BAAI/bge-multilingual-gemma2 | 0.31021 | |
|
| nlpai-lab/KoE5 | 0.30869 | |
|
| jinaai/jina-embeddings-v3/jinaai__jina-embeddings-v3 | 0.30512 | |
|
| Alibaba-NLP/gte-Qwen2-7B-instruct/Alibaba-NLP__gte-Qwen2-7B-instruct | 0.30313 | |
|
| intfloat/multilingual-e5-large-instruct/intfloat__multilingual-e5-large-instruct | 0.27973 | |
|
| nomic-ai/nomic-embed-text-v2-moe | 0.27135 | |
|
| intfloat/e5-mistral-7b-instruct/intfloat__e5-mistral-7b-instruct | 0.2583 | |
|
| intfloat/multilingual-e5-large/intfloat__multilingual-e5-large | 0.24596 | |
|
| Salesforce/SFR-Embedding-2_R/Salesforce__SFR-Embedding-2_R | 0.24346 | |
|
| intfloat/multilingual-e5-base/intfloat__multilingual-e5-base | 0.23766 | |
|
| upskyy/bge-m3-korean/upskyy__bge-m3-korean | 0.21968 | |
|
| ibm-granite/granite-embedding-278m-multilingual/ibm-granite__granite-embedding-278m-multilingual | 0.20781 | |
|
| jhgan/ko-sroberta-multitask/jhgan__ko-sroberta-multitask | 0.20416 | |
|
|
|
|
|
<!-- |
|
### Recommendations |
|
|
|
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.* |
|
--> |
|
|
|
## Training Details |
|
|
|
* Loss: [<code>CachedGISTEmbedLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedgistembedloss) with these parameters: |
|
|
|
|
|
|
|
### Training Hyperparameters |
|
#### Non-Default Hyperparameters |
|
|
|
- `eval_strategy`: steps |
|
- `per_device_train_batch_size`: 20000 |
|
- `per_device_eval_batch_size`: 4096 |
|
- `learning_rate`: 2e-05 |
|
- `num_train_epochs`: 2 |
|
- `lr_scheduler_type`: warmup_stable_decay |
|
- `lr_scheduler_kwargs`: {'num_decay_steps': 160} |
|
- `warmup_ratio`: 0.05 |
|
- `bf16`: True |
|
- `batch_sampler`: no_duplicates |
|
|
|
#### All Hyperparameters |
|
<details><summary>Click to expand</summary> |
|
|
|
- `overwrite_output_dir`: False |
|
- `do_predict`: False |
|
- `eval_strategy`: steps |
|
- `prediction_loss_only`: True |
|
- `per_device_train_batch_size`: 10000 |
|
- `per_device_eval_batch_size`: 4096 |
|
- `per_gpu_train_batch_size`: None |
|
- `per_gpu_eval_batch_size`: None |
|
- `gradient_accumulation_steps`: 1 |
|
- `eval_accumulation_steps`: None |
|
- `torch_empty_cache_steps`: None |
|
- `learning_rate`: 2e-05 |
|
- `weight_decay`: 0.0 |
|
- `adam_beta1`: 0.9 |
|
- `adam_beta2`: 0.999 |
|
- `adam_epsilon`: 1e-08 |
|
- `max_grad_norm`: 1.0 |
|
- `num_train_epochs`: 2 |
|
- `max_steps`: -1 |
|
- `lr_scheduler_type`: warmup_stable_decay |
|
- `lr_scheduler_kwargs`: {'num_decay_steps': 160} |
|
- `warmup_ratio`: 0.05 |
|
- `warmup_steps`: 0 |
|
- `log_level`: passive |
|
- `log_level_replica`: warning |
|
- `log_on_each_node`: True |
|
- `logging_nan_inf_filter`: True |
|
- `save_safetensors`: True |
|
- `save_on_each_node`: False |
|
- `save_only_model`: False |
|
- `restore_callback_states_from_checkpoint`: False |
|
- `no_cuda`: False |
|
- `use_cpu`: False |
|
- `use_mps_device`: False |
|
- `seed`: 42 |
|
- `data_seed`: None |
|
- `jit_mode_eval`: False |
|
- `use_ipex`: False |
|
- `bf16`: True |
|
- `fp16`: False |
|
- `fp16_opt_level`: O1 |
|
- `half_precision_backend`: auto |
|
- `bf16_full_eval`: False |
|
- `fp16_full_eval`: False |
|
- `tf32`: None |
|
- `local_rank`: 0 |
|
- `ddp_backend`: None |
|
- `tpu_num_cores`: None |
|
- `tpu_metrics_debug`: False |
|
- `debug`: [] |
|
- `dataloader_drop_last`: True |
|
- `dataloader_num_workers`: 0 |
|
- `dataloader_prefetch_factor`: None |
|
- `past_index`: -1 |
|
- `disable_tqdm`: False |
|
- `remove_unused_columns`: True |
|
- `label_names`: None |
|
- `load_best_model_at_end`: False |
|
- `ignore_data_skip`: False |
|
- `fsdp`: [] |
|
- `fsdp_min_num_params`: 0 |
|
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} |
|
- `fsdp_transformer_layer_cls_to_wrap`: None |
|
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} |
|
- `deepspeed`: None |
|
- `label_smoothing_factor`: 0.0 |
|
- `optim`: adamw_torch |
|
- `optim_args`: None |
|
- `adafactor`: False |
|
- `group_by_length`: False |
|
- `length_column_name`: length |
|
- `ddp_find_unused_parameters`: None |
|
- `ddp_bucket_cap_mb`: None |
|
- `ddp_broadcast_buffers`: False |
|
- `dataloader_pin_memory`: True |
|
- `dataloader_persistent_workers`: False |
|
- `skip_memory_metrics`: True |
|
- `use_legacy_prediction_loop`: False |
|
- `push_to_hub`: False |
|
- `resume_from_checkpoint`: None |
|
- `hub_model_id`: None |
|
- `hub_strategy`: every_save |
|
- `hub_private_repo`: None |
|
- `hub_always_push`: False |
|
- `gradient_checkpointing`: False |
|
- `gradient_checkpointing_kwargs`: None |
|
- `include_inputs_for_metrics`: False |
|
- `include_for_metrics`: [] |
|
- `eval_do_concat_batches`: True |
|
- `fp16_backend`: auto |
|
- `push_to_hub_model_id`: None |
|
- `push_to_hub_organization`: None |
|
- `mp_parameters`: |
|
- `auto_find_batch_size`: False |
|
- `full_determinism`: False |
|
- `torchdynamo`: None |
|
- `ray_scope`: last |
|
- `ddp_timeout`: 1800 |
|
- `torch_compile`: False |
|
- `torch_compile_backend`: None |
|
- `torch_compile_mode`: None |
|
- `dispatch_batches`: None |
|
- `split_batches`: None |
|
- `include_tokens_per_second`: False |
|
- `include_num_input_tokens_seen`: False |
|
- `neftune_noise_alpha`: None |
|
- `optim_target_modules`: None |
|
- `batch_eval_metrics`: False |
|
- `eval_on_start`: False |
|
- `use_liger_kernel`: False |
|
- `eval_use_gather_object`: False |
|
- `average_tokens_across_devices`: False |
|
- `prompts`: None |
|
- `batch_sampler`: no_duplicates |
|
- `multi_dataset_batch_sampler`: proportional |
|
|
|
</details> |
|
|
|
|
|
### Framework Versions |
|
- Python: 3.10.12 |
|
- Sentence Transformers: 3.4.1 |
|
- Transformers: 4.49.0 |
|
- PyTorch: 2.6.0+cu124 |
|
- Accelerate: 1.4.0 |
|
- Datasets: 3.3.2 |
|
- Tokenizers: 0.21.0 |
|
|
|
## Citation |
|
|
|
### BibTeX |
|
|
|
#### Sentence Transformers |
|
```bibtex |
|
@inproceedings{reimers-2019-sentence-bert, |
|
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", |
|
author = "Reimers, Nils and Gurevych, Iryna", |
|
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", |
|
month = "11", |
|
year = "2019", |
|
publisher = "Association for Computational Linguistics", |
|
url = "https://arxiv.org/abs/1908.10084", |
|
}, |
|
@misc{KURE, |
|
publisher = {Youngjoon Jang, Junyoung Son, Taemin Lee}, |
|
year = {2024}, |
|
url = {https://github.com/nlpai-lab/KURE} |
|
} |
|
``` |
|
|
|
## License |
|
|
|
Arctic is licensed under the Apache-2. The released models can be used for commercial purposes free of charge. |
|
|
|
|
|
|
|
<!-- |
|
## Glossary |
|
|
|
*Clearly define terms in order to be accessible across audiences.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Authors |
|
|
|
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Contact |
|
|
|
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.* |
|
--> |