bge-m3-mrl-264 / README.md
seongil-dn's picture
Add new SentenceTransformer model
9bd5a5a verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:451949
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: BAAI/bge-m3
widget:
  - source_sentence: 관리하는 범죄에 대해 어떤 경찰의 검거율이 매우 높은 수준이니?
    sentences:
      - >-
        우리나라의 경우 무죄율은, 다른 국가들과 비교할 때 매우 낮은 편에 속하는 등 운영 면에 있어서 상당한 고효율을 보여주고 있으며,
        제1심 형사공판사건 무죄율을 살펴보더라도 공판중심주의를 강조한 2006년 이래 상승세를 보이고 있으나(2016년 3.72%
        기록), 전술(前述)한 영미법계 국가보다는 매우 낮은 무죄율을 보여주고 있다. 따라서 검찰과 경찰의 관계에 대하여 상당히 뿌리
        깊은 논쟁이 계속 남아 있고 경우에 따라서는 권력기관 상호간의 감정적인 분쟁으로까지 비화되고 있으나, 검/경 수사권조정 문제는
        무엇보다도 국민의 기본권을 최대한으로 존중해야 한다는 기본입장에서 검토되지 않으면 안 된다. 즉 수사지휘권의 문제를 국가기관 간의
        권한 대립의 문제로 볼 것이 아니라 과연 검사의 사법경찰에 대한 지휘ㆍ감독이 국민의 인권보호에 기여하는가 또한 형사사법정의의
        실현에 유익한 것인가라는 측면에서 논의되어야 할 것이다.
      - >-
        서울시는 11월부터 공영주차 요금을 5분 단위로 부과하도록 한 '주차장 설치 및 관리 조례 개정안'을 공포했다고 30일 밝혔다.
        개정 조례안에 따르면 서울시 공영주차장 1급지 기준으로 기존에는 5분 내로 주차했을 경우 1000원을 내야했지만 11월부터는
        절반인 500원만 내면 된다. 이와 함께 시는 이날 주차장 설치 및 관리 기준이 되는 자동차의 범위에 '이륜자동차'를 포함하고
        주차장 건설 융자대상을 5면 이상의 소규모 주차장까지 확대하는 내용의 조례 개정안을 입법 예고했다. 또 기존 '여행주차장' 명칭을
        '여성우선주차장'으로 변경하고 여성우선주차장을 확장형 주차구획에 우선 설치하도록 했다. '도로명주소법'이 시행됨에 따라 조례에
        규정된 기존 도로명을 새주소도로명으로 정비하고 시장이 주차요금을 조정할 수 있는 범위를 30%에서 50%로 확대해 주차수요를 지역
        여건 및 환경변화에 따라 탄력적으로 관리할 수 있도록 할 예정이다. 이번 개정안은 부서 협의, 법제심사, 조례규칙심의회 의결,
        시의회 의결 등 입법 절차를 거쳐 시행된다.
      - >-
        해양경찰이 관할하는 범죄에 대한 검거율은 매우 높은 수준으로 2011년 98.9%, 2012년 검거율 98.8%에 이르고 있어
        거의 모든 범죄자가 검거되는 것을 알 수 있다. 이례적인 것은 범죄발생건수에 비해 검거인원이 30%가 되지 않는데 이는 동일인이
        여러 건의 범죄를 저지렀기 때문으로 볼 수 있다. 해양범죄는 육상범죄와는 달리 같은 범죄 또는 비슷한 범죄를 반복으로 행하는
        경우가 많다. 수산업법 위반의 경우를 예로 들면 동일한 사람이 금지된 행위를 반복하여 행하거나, 한 사람이 여러 가지를 동시에
        위반하는 경우가 많다. 범죄가 반복적으로 이루어지는 경우가 많기 때문에 범죄발생건수에 비해 검거인원이 적은 것으로 볼 수 있다.
        구속자는 매우 적은 것으로 나타나고 있는데 이는 불구속수사의 원칙이 해양경찰에서 철저히 지켜지고 있음을 보여주고 있다.
  - source_sentence: 정수기 성능검사기준에서 유기중금속을 시험하는 항목은 어떤 필터에 적용되니?
    sentences:
      - >-
        정수기 성능검사기준 강화

         정수기에 대한 관리를 강화하기 위하여 “먹는물관리법”에 근거한 “정수기의 기준․규격  검사기관 지정고시”를 11 24일부로
        개정․시행한다.  이번 고시 개정은 현행 정수기관리제도의 문제점을 개선하기 위하여 2003년에 「먹는물 관련기기 개선방안」에
        대한 연구사업을 추진하였고, 금년에는 전문가 토론회, 자문회의, 세미나 등을 개최하여 관련 학계, 소비자, 전문가의 다양한 의견을
        수렴하여 추진되었다.  이번에 개정․시행되는 주요 개선내용은 다음과 같다.  정수기 성능검사의 내실화를 기하기 위하여

        - 기존에는 일반성능 항목(냄새, 맛, 색도, 탁도, 일반세균  5항목)과 특수성능 항목(총트리할로메탄  43항목)에 대해
        조제수(일반세균제외)를 사용하여 성능을 검사하고, 기타 수질기준 항목에 대해서는 먹는물수질기준 적합여부만을 검사하였으나,

         일반성능 검사항목  조제수로 사용하는 수돗물에서는 대부분 일반세균이 검출되지 않으므로  항목을 수돗물에서 검출빈도가 높은
        소독부산물인 ‘클로로포름’으로 대체하고,

         일반성능  특수성능 검사항목 이외의 항목  건강상 유해영향 물질과 소독부산물질(페놀  33항목)은 정수기 유출수가 유입수
        함유농도를 초과하는지 여부를 의무적으로 검사토록 하였으며,

         정수성능 저하에 따른 소비자들의 불만을 해소하기 위해 성능검사 제거율을 냄새․맛․탁도 항목은 기존 80%에서 90%로, 색도는
        70%에서 80%로 상향 조정하였으며, 클로로포름의 제거율 기준을 80%로 신설하였다.  간이정수기(유효정수량 500ℓ이하)는
        현행대로 성능검사를 실시하되, 표시사항에 “간이정수기”를 표기하도록 의무화

         또한, 시중에 판매되는 정수기의 유통관리를 강화하기 위하여

        - 기존에는 연간 1 표본을 추출하여 수거검사를 실시하였으나

         앞으로는 시중에 유통되는 모든 정수기 제품을 모델별로 수거하여 검사를 실시하고, 최초 검사시에 비해 정수성능이 현저히 떨어지는
        제품을 제조․수입․판매한 자에 대하여는 먹는물 관리법에 따라 영업장폐쇄  행정처분을 실시할 계획이다. - 기존에는 정수기 필터의
        원산지, 제조원  표시기준이 정해져있지 않아 불량필터가 시중에 유통되어 정수기의 품질을 떨어뜨리는 주요인이 됨에 따라

         정수기 품질검사 신청시 필터의 원산지 증명서류를 제출토록하는 한편, 필터의 원산지, 제조원, 교체시기 등을 반드시 표시하도록
        정수기 필터의 표시기준을 신설하였다.  정수기 필터의 표시기준 규정은 고시일로부터 6개월 이후부터 시행

        - 소규모 정수기 제조업체가 도산 등의 사유로 부품공급과 A/S가 불가능하게 되어 소비자가 피해를 입는 것을 방지하기 위하여

         정수기 품질검사기관 내에 소비자보호센터를 설치하여 소비자상담, 부품공급, A/S  소비자 보호활동을 실시하도록 하였다.
      - >-
        정수기 성능검사기준 강화<br>□ 정수기필터 규격화 및 성능기준 설정계획안<br>○ 필터 표준규격, 시험방법을 마련하고, 필터의
        특성․기능에 따라 검사항목 제정 및 인증제 실시 <table><tbody><tr><td>필터종류</td><td>특징 및
        기능</td><td>시험항목 및 방법</td></tr><tr><td> 한외여과 필터</td><td> 0.1 ~ 0.01 μm
        미립자, 대장균, 세균류 제거</td><td>부유물질미생물 : 대장균군, 일반세균</td></tr><tr><td> 역삼투막
        필터</td><td> 0.0001 μm 유․무기화합물, 미생물</td><td>유해중금속 : 납, 비소, 수은, 6가크롬,카드뮴,
        세레늄, 망간, 철, 알루미늄, 아연, 구리무기물 : 경도, 암모니아성질소, 황산이온, 시안, 불소, 염소이온, 질산성질소미생물
        : 대장균군, 일반세균</td></tr><tr><td> 이온교환수지 필터</td><td> 양이온 또는 음이온 제거</td><td>
        이온성 물질(양이온, 음이온)</td></tr><tr><td> 활성탄 필터</td><td> 잔류염소, 유기물 제거 맛, 냄새
        제거</td><td> 소독제 및 소독 부산물</td></tr></tbody></table>
      - >-
        백퍼센트 상훈이 '드림팀' 최고 에이스로 등극했다. 7일 오전 방송된 KBS 2TV '출발드림팀2'에 출연한 상훈은 장애물 경기
        첫 출연과 동시에 우승을 차지해 '최강운동돌'의 탄생을 알렸다. 이날 상훈은 통계청 직원들을 상대로 종합장애물 5종 경기에
        나서면서 뛰어난 집중력과 균형성을 자랑했다. 상훈은 1단계부터 5단계까지 차분하면서도 타고난 순발력으로 경기를 이끌어갔다. 특히
        상훈은 1단계에서는빠른 스피드로 최고기록을 냈으며, 3단계에서는 엄청난 집념과 발 힘으로 영화 같은 한 장면을 연출하며,
        5단계까지 완주해 현장에 응원하러 와 준 수많은 팬들뿐만 아니라 '드림팀'과 '통계청' 직원들의뜨거운 박수와 호응을 이끌어냈다.
        상훈은 소속사를 통해 "완주가 목표였는데 내가 유일한 완주자였다"며 "이번에 백퍼센트 앨범을위해서 몸을 만들었던 게 도움이 된 것
        같다"고 전했다.& lt;연예부&gt;
  - source_sentence: 어떤 사람이 공시 규정을 따랐을  P2P 플랫폼에 관한 기본 데이터를 줘야 하는 거야?
    sentences:
      - >-
        □ (공시규제: 실적 정보) 동등 계층간 통신망(P2P) 플랫폼으로 하여금 과거 또는 미래의 실적에 대한 정보를 COBS 4.6에
        따라 공개하도록 함. ○ 과거 실적정보(과거 6개월 동안의 부도율 등)를 공시할 때에는 이러한 실적이 반복되지 않을 수 있다는
        경고를 해야 하고, 좋은 실적만을 공시하는 것을 예방하기 위해 과거 1년간의 실적은 반드시 포함되어야 하고 더불어 과거 5년간의
        실적 정보도 포함되어야 함. ○ 미래의 실적에 대한 추정은 합리적인 가정과 객관적인 데이터에 기반해야 하고 수수료 및 다른 비용이
        실적에 미치는 영향에 대해서도 공시해야 함. □ (공시규제: 담보 등 안전장치) 동등 계층간 통신망(P2P) 업체는
        ‘보증(guaranteed)’, ‘보호(protected)’, ‘안전(secure)’하다는 문구를 사용할 경우 공정하고,
        명확하며, 오해의 소지가 없게 공시하도록 함. ○ 업체는 소비자가 명확하게 이해할 수 있도록 정보를 제공해야 하고, 이러한 장치에
        한계가 있다면 이를 설명해야 함.
      - >-
        한국항로표지기술원(원장 박계각) 국립등대박물관은 코로나19로 위축된 국민의 문화향유 증진을 위해 등대 만들기 키트와 컬러링 북으로
        구성된 교구재 드림 이벤트를 진행중이라고 12일 밝혔다. 이번 이벤트는 집콕 생활의 답답함과 무료함을 느끼는 아이들을 대상으로 봄
        꽃 같은 설렘을 느낄 수 있도록 준비했으며, 등대박물관에서 운영 중인 등대스탬프 투어 커뮤니티 ‘안녕,
        등대’(cafe.naver.com/lighthousetour)에서 참여가 가능하다. 누구나 참여할 수 있으며 ‘안녕, 등대’
        커뮤니티에 ‘등대와 아이가 함께 나온 사진’을 이벤트 게시판에 올리고 참여댓글을 달면 된다. 선착순 100세트 한정으로 진행되는
        이번 이벤트는 사진에 나온 아이의 수만큼 교구재 꾸러미가 지급되며 상품 소진 시까지 진행된다. 국립등대박물관 관계자는
        ‘코로나19로 지친 아이들에게 교구재 꾸러미를 통해 즐거움과 재미를 느낄 수 있는 기회가 되길 바란다’고 말했다.
      - >-
        □ (공시규제: 기본원칙) 공시규제의 핵심은 동등 계층간 통신망(P2P) 업체로부터의 모든 정보는 공정하고(fair),
        명확하며(clear), 오해의 소지가 없도록(notmisleading) 공시되어야 한다는 것임. (PRIN 7, COBS
        4.2.1R(1))

         이를 통해 소비자에게 제공되는 모든 정보는 정확하고 소비자의 니즈에 충분히 부합하는 정보가 제공되어야 함.  실제
        금융감독청(FCA)에서 시장조사를  바에 따르면 여러 플랫폼들이 리스크에 대한 경고는 줄이고 수익만을 강조하거나, 오해의 소지가
        있거나 비현실적으로 낙관적인 인상을 주는 정보를 제공하거나, 중요한 정보를 경시하는 경향이 있었음.  예를 들면, 웹사이트
        배너(banner)에 있는 수익률은 수수료  비용, 부도율, 세금 등의 영향에 대한 설명 없이 제공되었고, 상품과 연관된
        리스크에 대한 정보는 찾기 어려운 곳에 배치하는 등의 문제가 발견되었음.  또한 예금이자율과 비교하여 마치 투자자가 예금자로
        오판할  있도록 하는 경우도 있었음.  (공시규제: P2P 플랫폼 정보) P2P 플랫폼에 대한 기본 정보를 투자자에게
        제공하도록 함.  플랫폼의 세부 연락처, 인가(full authorisation) 증서, 투자자에게 제공되는 실적리포트의
        세부사항, 플랫폼의 이해상충 관련 내부정책(policy), 비용  수수료에 관한 정보, 고객 자금 보호장치에 관한 세부 내용
        등이 제공되어야 함.  또한 플랫폼과 투자자간 핵심적인 권리와 의무를 규정한 계약서가 거래가 발생하기  적정한 시간 내에
        제공되어야 함.
  - source_sentence: 어떤 전공을 하는 의료인이 강원대병원 소속이면서 일주일에   화천군에 파견돼?
    sentences:
      - >-
        국회 국토교통위원회 소속 김은혜 국민의힘 의원이 청년에 대한 주택담보비율(LTV) 완화를 촉구했다. 김 의원은 13일 페이스북에
        글을 올려 “민주당이 발표한 ‘누구나 집 프로젝트’를 봤다. 격려를 해주고 싶지만, 의문점이 가시지 않는다”며 “결론적으로는 집을
        살 수 있게 해주는 정책이 아니라 사는 걸 불가능하게 만드는 정책”이라고 지적했다. 그는 “10년 살고 내 집 마련 하는 정책이
        지금까지 없지 않았다. 근데 10년 공공임대 주민들은 왜 힘들어했을까”라며 “정부는 정부대로 ‘내 집 마련’ 홍보하면서 주민들에겐
        정교한 설계 없는 분양가 혹은 감정평가액이라는 자의적인 기준에 혹사당하게 했기 때문”이라고 말했다. 이어 “시장경제 200년
        역사상 공짜 점심은 없다”며 만일 주택 가격이 오르면 입주자들이 원리금 부담 때문에, 떨어지면 사업자가 입주자들의 분양 포기로
        피해를 볼 것이라고 주장했다. 김 의원은 “현재의 부동산 규제, 옥죄는 대출을 보면 현금 부자에게만 집을 살 수 있도록 하고
        있다”며 “집을 사고 싶다는데 정부가 팔 걷고 나서 ‘대출 안 된다’ 개입하고 40~60% 선 긋는 나라, 찾기 어렵다”고
        비판했다. 그러면서 “문재인 정부 분들은 진작 빚내서 집 사놓고선 청년들에겐 월급은커녕 대출로도 집값을 충당할 수 없도록 자산
        양극화의 수렁에 내몰고 있다”며 “갚을 능력이 있는 청년의 생애 최초 집 마련에 LTV를 90% 이상 풀어주는 각오 없이 절망의
        고리를 끊을 수 없다”고 강조했다. 아울러 “대출의 상환 기간 또한 30년 이상으로 늘려 주택 구입 부담을 줄일 방법을 논의해
        달라”고 촉구했다.
      - >-
        속보=강원도내 예방접종센터가 2차 접종과 6개 시·군에서의 추가 신규 개소를 앞두고 인력난에 비상이 걸렸다. 20일 오전 찾은
        춘천시 예방접종센터, 최근 80대 고령자가 하루 사이 주사를 두 번 맞은 사고(본보 지난 19일자 1면 보도)가 일어난 뒤
        근로자를 임시 채용하고 필수 확인 장소에 보건소 직원을 배치하는 등 안전한 접종을 위해 안간힘을 쓰고 있는 모습을 보였다. 그러나
        여전히 인력이 충분치 않아 자원봉사자와 예방접종 외 업무를 맡고 있는 공무원들이 자발적으로 안내를 맡지 않으면 원활한 진행이
        어려운 상황이었다. 더욱이 춘천뿐 아니라 원주, 강릉, 삼척시가 22일부터 시작되는 화이자 백신 2차 접종을 앞두고 어려움을 겪고
        있다. 원주는 공무원뿐 아니라 자원봉사자에 지역 군부대 인력까지 동원해야 하는 상황이다. 강릉은 시청에서 근무하는 행정직 공무원을
        하루 13명씩 차출하고, 자원봉사자를 모집하는 등 인력 마련을 서두르고 있지만 한번에 많은 인원이 들이닥칠 경우 안전한 접종이
        가능할지는 미지수다. 접종을 아직 시작하지 않은 군단위 지역은 상황이 더욱 심각하다. 특히 최근 코로나19 환자가 급증하면서
        역학조사, 환자 관리, 예방접종 업무가 모두 가중돼 보건소의 인력난은 세 배가 됐다. 양구군은 29일부터 시작되는 예방접종에
        보건소 전 직원을 총동원하겠다는 방침이지만 당장 코로나19 환자가 발생할 경우 인력 공백이 발생할 수밖에 없다. 지난 16일부터
        접종을 시작한 인제군도 군청 직원 등 분야를 가리지 않고 공공기관 근로자들이 예방접종 업무에 투입되고 있는 실정이다. 강원도는
        안전한 예방접종을 위해 예산 지원을 지속적으로 요청하고, 일선 시·군 인력난 해소에 적극 나서기로 했다. 도 관계자는 “인력
        지원을 위해 2억5,000만원의 예산을 최근 확보했다”며 “지원을 신청한 시·군에 우선 분배하고 지속적으로 수요를 파악할
        계획”이라고 말했다.
      - >-
        【화천】화천군보건의료원의 산부인과 진료에 차질이 우려된다. 군보건의료원은 그간 산부인과 진료를 하던 공중보건의가 15일
        소집해제되지만 후임 공중보건의를 확보하지 못해 당분간 임시진료체제로 운영하기로 했다. 우선 강원대병원 산부인과 교수를 초빙해
        20일부터 5월 말까지 주 1회, 매주 화요일에만 임시진료를 실시하기로 하면서 지역 임산부들의 불편이 예상되고 있다. 의료원은
        그간 공중보건의를 배치받아 산부인과를 운영했으나 올해는 산부인과 공중보건의를 확보받지 못해 현재 산부인과 전문의 채용 공고를
        게시한 상태다. 그러나 연봉 2억원대를 제시해도 농촌지역 근무를 선호하는 전문의가 많지 않아 채용공고 기간 지원자가 있을지는
        장담하지 못하고 있다. 또 힘들게 전문의를 채용하더라도 인건비에 대한 국비 지원이 없고 도비(30%)와 군비(70%)로만 부담해야
        하는 어려움도 안고 있다. 지역에서는 농촌에서 공중보건의의 비중이 큰 만큼 이들이 떠난 빈자리를 채우는 대책을 정부 차원에서
        마련, 의료공백이 발생하지 않도록 조치해야 한다는 지적이 나오고 있다. 특히 공중보건의 수급이 불분명한데도 정부 지원이 없어 농촌
        주민들만 불이익을 받고 의료 사각지대에 내몰리고 있다는 불만이 커지고 있다. 이재성 화천군보건의료원장은 “농촌의 빈약한 의료환경은
        주민들의 이탈 또는 출산율 저하와 무관하지 않은 만큼 정부차원에서 의료복지행정의 폭을 확대해야 한다”고 말했다.
  - source_sentence: 어떤 사람의 연금 수령액을 증가시키면 연금재정이 어려워져?
    sentences:
      - >-
        특허청장, 이차전지 조립장비 강소기업 현장방문

         특허청은 2006년부터 모태펀드 특허계정에 출자하여 벤처캐피탈이 우수한 특허를 보유한 기업을 발굴하여 투자할  있도록
        지원하는 역할을 수행하고 있다. * 특허청(출자)  모태펀드(출자)  벤처캐피탈(투자)  우수특허 중소·벤처기업

        ** 예산 1,900억원 출자, 47 子조합 결성(총 결성액 1 1,165억원),  668 기업에 9,878억원
        투자(2019.6월 누계)

         투자자인 대덕인베스트먼트㈜는 2013 모태펀드(특허계정)에서 60억원을 출자받아 펀드를 결성하였고, ㈜엠플러스가 보유한
        우수한 특허를 높이 평가하여 2016 20억원을 투자한  코스닥 상장을 통해 회수에 성공했다.  박원주 특허청장은
        “부품·소재·장비 분야에서 일본  선도국의 기술을 대체하고 신기술을 개발하여 특허로 보호받을  있는 강소 기업이 지속적으로
        나와야 한다.”면서 “앞으로도 엠플러스와 같은 소재·부품·장비 기업들이 특허를 바탕으로 자금을 조달하여 성장할  있도록 지식재산
        금융 지원을 계속해서 확대해 나가겠다.”

         밝혔다.
      - >-
        한편, 제19대국회에서는 소득대체율을 높이지 않는 대신, 연금급여산식의 기준이 되는 기준소득월액의 상ㆍ하한액을 인상함으로써 가입자
        전체의 소득평균을 높여 보험급여를 인상하는 방안도 논의되었다. 이 방안은 소득재분배 부문에 해당하는 국민연금의 A값을 상향하여
        소득재분배 기능을 강화하는 장점을 가진 반면, 보험료가 인상되는 저소득층 가입자와 영세사업장, 그리고 고소득 사업장가입자와
        사업장의 연금보험료 부담이 증가하기 때문에, 경제 및 산업계의 반발로 이어질 가능성도 있다. 또한 고소득 가입자들의 연급수급액의
        증가는 시간의 경과에 따라 연금재정에 추가적인 부담을 주게 된다는 것이다.
      - >-
        다. 재정<br>□ 저출산·고령화의 진전으로 세원이 되는 생산가능인구의 비중은 줄어들고, 연금급여 및 의료비 지출 등은 늘어남에
        따라 재정수지 부담은 가중될 전망<br>― 출산율이 하락하면 전체 인구 중 생산가능인구의 비율이 감소하고 따라서 세수 감소로
        이어질 가능성<br>― 반면, 고령화로 인해 연금수급자가 증가하면 연금 및 의료비 등의 재정지출 확대로 이어질 가능성<br>―
        국민연금 가입자 중 노령연금 수급율은 인구감소 및 은퇴자 증가에 따라 2010년 13.3%, 2030년 41.9%, 2050년
        88.5%로 급증할 전망<br>□ IMF에 따르면 GDP 대비 재정수지는 생산가능인구비율 1% 증가 시 0.06%p 개선되는
        반면, 노인인구 1% 증가시 0.46%p 악화<br>― 또한, OECD는 고령화로 인해 노인관련 재정지출이 급증해 주요국의
        2050년 재정수지가 적자를 기록할 것으로 전망
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1536 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1536, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-mrl-264")
# Run inference
sentences = [
    '어떤 사람의 연금 수령액을 증가시키면 연금재정이 어려워져?',
    '한편, 제19대국회에서는 소득대체율을 높이지 않는 대신, 연금급여산식의 기준이 되는 기준소득월액의 상ㆍ하한액을 인상함으로써 가입자 전체의 소득평균을 높여 보험급여를 인상하는 방안도 논의되었다. 이 방안은 소득재분배 부문에 해당하는 국민연금의 A값을 상향하여 소득재분배 기능을 강화하는 장점을 가진 반면, 보험료가 인상되는 저소득층 가입자와 영세사업장, 그리고 고소득 사업장가입자와 사업장의 연금보험료 부담이 증가하기 때문에, 경제 및 산업계의 반발로 이어질 가능성도 있다. 또한 고소득 가입자들의 연급수급액의 증가는 시간의 경과에 따라 연금재정에 추가적인 부담을 주게 된다는 것이다.',
    '다. 재정<br>□ 저출산·고령화의 진전으로 세원이 되는 생산가능인구의 비중은 줄어들고, 연금급여 및 의료비 지출 등은 늘어남에 따라 재정수지 부담은 가중될 전망<br>― 출산율이 하락하면 전체 인구 중 생산가능인구의 비율이 감소하고 따라서 세수 감소로 이어질 가능성<br>― 반면, 고령화로 인해 연금수급자가 증가하면 연금 및 의료비 등의 재정지출 확대로 이어질 가능성<br>― 국민연금 가입자 중 노령연금 수급율은 인구감소 및 은퇴자 증가에 따라 2010년 13.3%, 2030년 41.9%, 2050년 88.5%로 급증할 전망<br>□ IMF에 따르면 GDP 대비 재정수지는 생산가능인구비율 1% 증가 시 0.06%p 개선되는 반면, 노인인구 1% 증가시 0.46%p 악화<br>― 또한, OECD는 고령화로 인해 노인관련 재정지출이 급증해 주요국의 2050년 재정수지가 적자를 기록할 것으로 전망',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • gradient_accumulation_steps: 32
  • learning_rate: 3e-05
  • weight_decay: 0.01
  • warmup_ratio: 0.05
  • fp16: True
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: {'use_reentrant': False}
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 32
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: {'use_reentrant': False}
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0091 1 15.81
0.0181 2 15.9499
0.0272 3 15.3393
0.0363 4 15.4563
0.0453 5 15.5322
0.0544 6 16.0348
0.0635 7 15.3445
0.0725 8 15.7129
0.0816 9 14.4393
0.0907 10 13.4846
0.0997 11 12.5233
0.1088 12 12.1728
0.1178 13 11.9232
0.1269 14 11.5308
0.1360 15 10.7525
0.1450 16 10.393
0.1541 17 9.7346
0.1632 18 9.4875
0.1722 19 9.2608
0.1813 20 8.7966
0.1904 21 8.5579
0.1994 22 8.4993
0.2085 23 8.1505
0.2176 24 8.5027
0.2266 25 7.9795
0.2357 26 7.5782
0.2448 27 7.68
0.2538 28 7.539
0.2629 29 7.5871
0.2720 30 7.2676
0.2810 31 6.9613
0.2901 32 6.89
0.2992 33 6.7585
0.3082 34 6.7286
0.3173 35 6.754
0.3263 36 6.7466
0.3354 37 6.6096
0.3445 38 6.5864
0.3535 39 6.5235
0.3626 40 6.5429
0.3717 41 6.4971
0.3807 42 6.4463
0.3898 43 6.332
0.3989 44 6.1275
0.4079 45 6.2551
0.4170 46 6.1372
0.4261 47 6.1075
0.4351 48 6.1408
0.4442 49 6.062
0.4533 50 5.9831
0.4623 51 5.9956
0.4714 52 5.8332
0.4805 53 5.7447
0.4895 54 5.9531
0.4986 55 5.911
0.5076 56 5.8576
0.5167 57 5.8116
0.5258 58 5.6564
0.5348 59 5.7289
0.5439 60 5.7514
0.5530 61 5.5991
0.5620 62 5.553
0.5711 63 5.4728
0.5802 64 5.6212
0.5892 65 5.6554
0.5983 66 5.4389
0.6074 67 5.3669
0.6164 68 5.5667
0.6255 69 5.4106
0.6346 70 5.3122
0.6436 71 5.4145
0.6527 72 5.3794
0.6618 73 5.269
0.6708 74 5.3583
0.6799 75 5.311
0.6890 76 5.2061
0.6980 77 5.133
0.7071 78 5.4036
0.7161 79 5.2761
0.7252 80 5.0696
0.7343 81 5.3648
0.7433 82 5.0591
0.7524 83 5.074
0.7615 84 5.1789
0.7705 85 5.0147
0.7796 86 5.251
0.7887 87 5.1282
0.7977 88 5.1111
0.8068 89 5.2096
0.8159 90 5.0734
0.8249 91 4.9202
0.8340 92 5.0058
0.8431 93 5.0928
0.8521 94 4.9845
0.8612 95 5.0683
0.8703 96 5.0267
0.8793 97 5.0821
0.8884 98 4.8806
0.8975 99 5.0043
0.9065 100 4.888
0.9156 101 5.0629
0.9246 102 5.0454
0.9337 103 4.9619
0.9428 104 4.9217
0.9518 105 4.7401
0.9609 106 4.8068
0.9700 107 4.8151
0.9790 108 4.8689
0.9881 109 5.0193
0.9972 110 4.706
1.0062 111 4.8057
1.0153 112 4.7279
1.0244 113 4.7721
1.0334 114 4.7767
1.0425 115 4.669
1.0516 116 4.8533
1.0606 117 4.8634
1.0697 118 4.9135
1.0788 119 4.7629
1.0878 120 4.7479
1.0969 121 4.743
1.1059 122 4.5606
1.1150 123 4.6933
1.1241 124 4.6659
1.1331 125 4.7131
1.1422 126 4.7059
1.1513 127 4.5701
1.1603 128 4.4892
1.1694 129 4.6497
1.1785 130 4.4814
1.1875 131 4.2669
1.1966 132 4.4983
1.2057 133 4.431
1.2147 134 4.414
1.2238 135 4.3975
1.2329 136 4.3101
1.2419 137 4.3422
1.2510 138 4.476
1.2601 139 4.6629
1.2691 140 4.3559
1.2782 141 4.2049
1.2873 142 4.303
1.2963 143 4.3053
1.3054 144 4.2366
1.3144 145 4.5165
1.3235 146 4.2634
1.3326 147 4.4295
1.3416 148 4.2595
1.3507 149 4.3753
1.3598 150 4.3454
1.3688 151 4.2618
1.3779 152 4.4016
1.3870 153 4.2672
1.3960 154 4.1824
1.4051 155 4.3268
1.4142 156 4.091
1.4232 157 4.3111
1.4323 158 4.2397
1.4414 159 4.1694
1.4504 160 4.2119
1.4595 161 4.1292
1.4686 162 4.1154
1.4776 163 4.1638
1.4867 164 4.3548
1.4958 165 4.2137
1.5048 166 4.1888
1.5139 167 4.2609
1.5229 168 4.2644
1.5320 169 4.2183
1.5411 170 4.2414
1.5501 171 4.242
1.5592 172 4.0547
1.5683 173 4.1509
1.5773 174 4.247
1.5864 175 4.3103
1.5955 176 4.0845
1.6045 177 4.0918
1.6136 178 4.1582
1.6227 179 4.2982
1.6317 180 4.0515
1.6408 181 4.0738
1.6499 182 4.2416
1.6589 183 4.1212
1.6680 184 4.174
1.6771 185 4.1369
1.6861 186 3.9908
1.6952 187 4.1155
1.7042 188 3.9893
1.7133 189 4.2362
1.7224 190 4.074
1.7314 191 4.0604
1.7405 192 4.0065
1.7496 193 4.0041
1.7586 194 4.0428
1.7677 195 4.0094
1.7768 196 3.962
1.7858 197 4.1932
1.7949 198 4.133
1.8040 199 4.1344
1.8130 200 4.1004
1.8221 201 4.0633
1.8312 202 4.0545
1.8402 203 4.0434
1.8493 204 4.0576
1.8584 205 4.0892
1.8674 206 4.1945
1.8765 207 4.0809
1.8856 208 4.0655
1.8946 209 4.155
1.9037 210 4.0801
1.9127 211 4.0837
1.9218 212 4.1487
1.9309 213 4.0574
1.9399 214 4.0952
1.9490 215 4.0414
1.9581 216 3.9645
1.9671 217 4.0327
1.9762 218 3.9183
1.9853 219 4.1204
1.9943 220 4.0043
2.0034 221 3.904
2.0125 222 4.0489
2.0215 223 4.0316
2.0306 224 3.9649
2.0397 225 3.891
2.0487 226 4.0352
2.0578 227 4.1811
2.0669 228 4.1212
2.0759 229 4.2356
2.0850 230 4.1295
2.0941 231 4.0231
2.1031 232 3.914
2.1122 233 3.916
2.1212 234 3.8657
2.1303 235 4.0986
2.1394 236 3.9774
2.1484 237 3.9112
2.1575 238 3.8232
2.1666 239 3.85
2.1756 240 3.8874
2.1847 241 3.6777
2.1938 242 3.7898
2.2028 243 3.8527
2.2119 244 3.7038
2.2210 245 3.9404
2.2300 246 3.7468
2.2391 247 3.7905
2.2482 248 3.8356
2.2572 249 3.9682
2.2663 250 3.9372
2.2754 251 3.7579
2.2844 252 3.6927
2.2935 253 3.7372
2.3025 254 3.6125
2.3116 255 4.0475
2.3207 256 3.7422
2.3297 257 3.8646
2.3388 258 3.6637
2.3479 259 3.8496
2.3569 260 3.753
2.3660 261 3.7632
2.3751 262 3.7097
2.3841 263 3.8584
2.3932 264 3.6547

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}