Frasa-1B-v0.1 (Not for Use)


image/jpeg

Model Overview

Frasa-1B-v0.1 adalah model bahasa besar (LLM) yang merupakan hasil Continual Pretraining (CPT) dari model dasar Llama-3.2-1B-Instruct dengan fokus pada peningkatan pemahaman bahasa Indonesia. Model ini dilatih menggunakan subset 10% dari dataset Wikipedia berbahasa Indonesia (dengan hanya 120 steps), menjadikannya fondasi yang cukup kuat untuk tugas-tugas generatif dalam Bahasa Indonesia.

Model ini dibangun dengan framework Unsloth.ai untuk efisiensi pelatihan yang maksimal.

Bagaimana Model Ini Dibuat

Model Frasa-1B-v0.1 dihasilkan melalui proses Continual Pretraining (CPT) dengan langkah-langkah berikut:

  • Base Model: meta-llama/Llama-3.2-1B-Instruct
  • Framework: Unsloth.ai
  • Kuantisasi: 4-bit (via load_in_4bit=True) untuk efisiensi memori.
  • Teknik Fine-tuning: LoRA (Low-Rank Adaptation)
    • r = 128
    • lora_alpha = 32
    • target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "embed_tokens", "lm_head"] (Modul embed_tokens dan lm_head disertakan untuk adaptasi pengetahuan yang lebih dalam selama CPT).
    • use_gradient_checkpointing = "unsloth"
    • use_rslora = True
  • Dataset Pelatihan:
    • wikimedia/wikipedia (versi 20231101.id, diambil 10% dari set train)
  • Pemformatan Data: Setiap entri Wikipedia diformat menggunakan template spesifik untuk CPT:
    Artikel Wikipedia
    ### Judul: [Judul Artikel]
    
    ### Artikel:
    [Isi Artikel]</s>
    
  • Hyperparameter Pelatihan:
    • per_device_train_batch_size = 2
    • gradient_accumulation_steps = 8 (Effective batch size: 16)
    • max_steps = 120
    • warmup_steps = 10
    • learning_rate = 5e-5
    • embedding_learning_rate = 1e-5
    • optim = "adamw_8bit"
    • lr_scheduler_type = "linear"

Potensi Penggunaan

  • Dasar untuk Instruction Tuning: Model ini dapat digunakan sebagai base model untuk fine-tuning lebih lanjut dengan dataset instruksi Bahasa Indonesia (seperti Alpaca-GPT4-Indonesian atau ShareGPT-Indonesian yang diformat ChatML) untuk menciptakan asisten AI yang mampu berdialog.
  • Penelitian dan Pengembangan: Dapat berfungsi sebagai checkpoint untuk eksplorasi lebih lanjut dalam continual pretraining bahasa Indonesia atau adaptasi domain.

Lisensi

Model ini dilisensikan di bawah Apache 2.0 License.


Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nxvay/Frasa-1B-v0.1

Finetuned
(1056)
this model
Finetunes
1 model

Dataset used to train nxvay/Frasa-1B-v0.1