Magibu-64k-Qwen-Tokenizer (Optimized for Turkish)

Bu depo, Türkçe dili için devasa metin veritabanları (Cosmos, TDK vd.) üzerinden sık kullanılan kelimelerle zenginleştirilmiş özel bir alt-kelime (BPE) Tokenizer ve Processor modelidir. Orijinal olarak Qwen/Qwen3.5-27B tokenizer ağırlıklarını (ve birleştirme kurallarını) temel alan bu model, Hugging Face ve Llama.cpp (SentencePiece) tam donanımına sahiptir.

Genişletilmiş token kapasitesi (131k) sayesinde aynı Türkçe cümlenin çok daha az token harcayarak ifade edilmesine olanak tanır ve modelinizin bağlam penceresini (Context Window) dramatik ölçüde rahatlatır.

Not: Özel görsel, padding ve special tokenleri birebir koruyarak Qwen3VLProcessor ile tam yapısal uyumluluğunu muhafaza eder.

📈 Performans Göstergeleri

Tokenizer metriklerimiz, geniş kapsamlı saf Türkçe metin analizlerinden derlenmiştir:

  • Toplam Vocabulary Size: 131,072 Tokens
  • Ana Model / Teacher Bağlantısı: Yeni vokabülerin %66.56'sı (87,238 token) doğrudan orijinal Qwen tabanından gelmektedir. (Distilasyon veya fine-tune sırasında devredilecek embedding ağırlıkları bu korunan havuzdan çekilir.)
  • Yeni Öğrenci (Özel) Türkçe Tokenleri: %33.44 (43,834 token) - Tamamıyla Türkçe metinlerde en çok tekrarlanan yapılar. (Örn: Ġmerhaba, olarak)
  • Sıkıştırma Oranı (Compression Rate): Bilkent Writings ve TDK Sözlük derlemleri üzerindeki ~20.000 metin testinde Qwen'in 12.91M tokene ihtiyaç duyduğu Türkçe veri kümeleri optimize tokenizer ile 9.83M tokene inmiştir. Bu %23.8'lik net bir token kullanım azalmasına denk gelir! (Metin başına decode sırasında sıfır kayıp).

🧰 Yapısal Değişim ve Methodoloji

Tokenizer genişletilirken yalnızca popüler Türkçe kelimeler birleştirilmemiştir. Öğrenci (Gemma vb.) modelden dahil edilen space haritaları arka planda Qwen'in GPT-2 utf-8 Byte Encoding (Ġ) formatına standartlaştırılarak dönüştürülmüş ve ilgili BPE Merges talimatları sisteme katılmıştır.

Bu sayede eklenen kelimeler 'ölü' veya 'ulaşılamaz' vocabulary nesneleri olarak kalmaz; subword parçalarına veya harflere bölünmeden hızlı tokenleştirilen tam nesneler halinde çekilirler.

🚀 Kullanım

Bu dizin bir Tokenizer yapılandırması olduğu kadar içerisinde chat_template.jinja ve video_preprocessor_config.json de barındıran eksiksiz bir "Processor" modelidir. Modeli saf metin tokenizer'ı veya VLM tokenizer'ı olarak Hugging Face kütüphanesinden entegre edebilirsiniz:

from transformers import AutoTokenizer, Qwen2VLProcessor

# Sadece metin analizi veya LLM kullanımı için
tokenizer = AutoTokenizer.from_pretrained("bu-dizinin-yolu/new_qwen_tokenizer")
encoded = tokenizer.encode("Merhaba nasılsınız? Hello world!")
print(encoded)
print(tokenizer.decode(encoded))

# Çok modlu (Multimodal) VLM projelerinde kullanım (Vision-Language)
processor = Qwen2VLProcessor.from_pretrained("bu-dizinin-yolu/new_qwen_tokenizer")

📜 Çıktı Dosyaları İçeriği

  • tokenizer.json — Hugging Face BPE konfigürasyonu, vocab ağırlıkları ve tüm merges kuralları entegre edilmiş dosya.
  • tokenizer.model — Llama.cpp ve türevleri ile kullanılacak SentencePiece formatında C++ motor dosyası. Byte-fallback yapısı öğretmen modeldeki gibi dizayn edilmiştir.
  • tokenizer_config.json, special_tokens_map.json — Özel başlangıç/bitiş tokenleri haritalamaları.

Eğitim veya veri sentezi süreçlerinizde başarılar dileriz!

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support