Qwen3-4B-Thinking Indonesia Admin AI

Model Summary

Qwen3-4B-Thinking Indonesia Admin AI adalah model Large Language Model (LLM) berbasis Qwen3-4B-Thinking-2507 yang telah di-fine-tune dengan dataset administratif dan keuangan daerah Indonesia.

Tujuan model ini adalah untuk:

Memahami struktur program/kegiatan APBD,
Mengelola kamus akun & sumber pendanaan,
Menjawab pertanyaan seputar wilayah administratif Indonesia,
Mendukung sistem AI Pemerintah Daerah seperti SAKIP-AI, APBD-AI, MONEV-AI.

Model ini dikembangkan sebagai bagian dari inisiatif NUSTTEK-AI (Nusantara Smart Teknologi) untuk membangun ekosistem AI on-premise di pemerintahan daerah.

Model Details

Developed by: Syamsuddin / NUSSTEK-AI
Model type: Instruction-tuned LLM (Qwen3-4B)
Language(s): Bahasa Indonesia (id)
License: Apache-2.0
Finetuned from: Qwen/Qwen3-4B-Thinking-2507
Library: HuggingFace Transformers

Model Sources

Repository: Model on HuggingFace
Datasets:

Intended Uses

Direct Use

Chatbot AI untuk pemerintah daerah.
Asisten digital dalam drafting dokumen RKA, DPA, SAKIP, dan laporan keuangan.
Pencarian cepat kode/nama akun, sumber pendanaan, program, kegiatan, dan wilayah.

Downstream Use

RAG (Retrieval-Augmented Generation) dengan dokumen daerah.
Basis AI untuk aplikasi internal Pemda (BudView-AI, APBD-AI, PBJ-AI, SAKIP-AI, MONEV-AI).

Out-of-Scope Use

Tidak cocok untuk domain medis, hukum internasional, atau bahasa non-Indonesia.
Tidak boleh digunakan sebagai dasar keputusan hukum tanpa verifikasi manual.

Training Details

Training Data

Model dilatih dengan beberapa dataset khusus:

Program & Kegiatan APBD → struktur, kode, nama, hubungan hierarki.
Akun & Sumber Pendanaan → kode dan uraian pendanaan, termasuk kelompok, jenis, obyek.
Wilayah Administratif → kode provinsi, kabupaten/kota, kecamatan, desa/kelurahan.

Preprocessing

Format data diubah menjadi instruction tuning dengan tiga kolom:
- instruction → tugas,
- input → konteks,
- output → jawaban.
Variasi pertanyaan dibuat (nama→kode, kode→nama, fuzzy search, normalisasi, daftar lengkap).

Hyperparameters

Precision: bf16 mixed precision
Batch size: 4 (grad accum = 8)
Learning rate: 2e-5
Epochs: 3
Max sequence length: 2048

Compute Infrastructure

Hardware: 1x NVIDIA A100 40GB
Framework: HuggingFace Transformers + PEFT (LoRA)
OS: Ubuntu Server 22.04

Evaluation

Testing Data

Sample pertanyaan dari dataset wilayah, akun, program.

Metrics

Evaluasi manual: akurasi lookup kode/nama & kelengkapan daftar wilayah.
Hasil:
- Lookup kode/nama: >95% benar.
- Daftar wilayah sesuai dengan data Kementerian Dalam Negeri.

Environmental Impact

Hardware Type: GPU A100 40GB
Training Time: ±4 jam
Carbon Emitted: ~3 kgCO2eq (estimasi dengan MLCO2 Impact Calculator)

Limitations & Risks

Dataset terbatas pada versi terbaru (2023/2024). Perubahan regulasi baru bisa menyebabkan jawaban usang.
Model mungkin sensitif terhadap variasi ejaan yang tidak ada dalam dataset.
Tidak mendukung multi-bahasa selain Bahasa Indonesia.

Recommendations

Gunakan model ini sebagai pendamping, bukan pengganti validasi manual.
Periksa hasil AI terhadap dokumen resmi (Permendagri, RPJMD, RKA, APBD).

How to Use

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "Syamsuddin/qwen3-4B-Indonesia-AdminAI"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

prompt = "Apa kode sumber pendanaan untuk 'Pendapatan Asli Daerah'?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Citation

@misc{syamsuddin2025qwenid,
  author       = {Syamsuddin},
  title        = {Qwen3-4B-Thinking Indonesia Admin AI},
  year         = {2025},
  howpublished = {HuggingFace Models},
  url          = {https://huggingface.co/Syamsuddin/qwen3-4B-Indonesia-AdminAI},
  note         = {Fine-tuned Qwen3-4B untuk konteks pemerintahan Indonesia (APBD, SAKIP, Wilayah)}
}

Contact

Author: Syamsuddin
Organization: NUSSTEK-AI
Email: [email protected], [email protected]

Syamsuddin
/

qwen-nusstek-id