--- license: apache-2.0 datasets: - iljoo/chatbot_dataset1 base_model: - MLP-KTLim/llama-3-Korean-Bllossom-8B --- ### Base model MLP-KTLim/llama-3-Korean-Bllossom-8B ### Dataset 1) AIHub : 한국어 성능이 개선된 초거대 AI 언어모델 개발 및 데이터 - 데이터 소개 : 한국어 말뭉치 데이터 20억 어절/310만 건과 RLHF 데이터 7만 7천건으로 구성 됨 - RLHF 데이터 > SFT 데이터 10,579개 데이터 활용 2) 재정정보 AI 검색 알고리즘 경진대회 데이터 - 데이터 소개 : 중앙정부 재정 정보 관련 질의 응답 데이터 - train dataset : 498개 데이터 활용 ### Data structure - Data format - {instruction:, response:} ### Parameter [2024.10.24] - QLoRA : Rank 4 - max_length : 512 - Epoch : 10