--- title: Awadhi BPE Tokenizer colorFrom: blue colorTo: red sdk: gradio sdk_version: 5.9.1 app_file: app.py pinned: false license: mit python_version: '3.10' app_port: 7860 tags: - awadhi - tokenizer - bpe - text-compression datasets: - sunderkand_awdhi --- # Awadhi BPE Tokenizer This space provides a Byte Pair Encoding (BPE) implementation for Awadhi text compression. It features: - Custom BPE implementation for Awadhi text - Vocabulary size < 5000 tokens - Compression ratio > 3.2 - Interactive web interface ## Usage 1. Enter Awadhi text in the input box 2. Click "Tokenize" 3. View tokenization results and statistics ## Implementation Details - Uses character-level tokenization as base - Implements BPE merging strategy - Handles UTF-8 encoded Awadhi text - Provides compression statistics ## Model Details - Base tokenization: Character-level - Maximum vocabulary size: 4500 tokens - Training corpus: Sunderkand in Awadhi - Compression target: > 3.2x ## Technical Requirements - Python 3.10+ - PyTorch - Gradio 4.19.1+ ## License ## Examples Input: ``` ॥ चौपाई ॥ जय हनुमान ज्ञान गुण सागर। जय कपीस तिहुँ लोक उजागर ॥ राम दूत अतुलित बल धामा। अंजनि पुत्र पवनसुत नामा ॥ महाबीर बिक्रम बजरंगी | कुमति निवार सुमति के संगी ॥ कंचन बरन बिराज सुबेसा। कानन कुण्डल कुंचित केसा ॥ हाथ बज्र अरु ध्वजा बिराजै | काँधे मूँज जनेऊ छाजै ॥ शंकर स्वयं केसरी नन्दन | तेज प्रताप महा जग बन्दन ॥ बिद्यावान गुणी अति चातुर । राम काज करिबे को आतुर ॥ प्रभु चरित्र सुनिबे को रसिया | राम लखन सीता मन बसिया ॥ सूक्ष्म रूप धरि सियहिं दिखावा | बिकट रूप धरि लंक जरावा ॥ भीम रूप धरि असुर सँहारे | ``` Output: ``` { "Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." , "Number of Tokens": 173 , "Original Size (bytes)": 1304 , "Tokenized Size (bytes)": 346 , "Compression Ratio": "3.77" , "Vocabulary Size": 2849 } ``` Input: ``` | ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण .. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात्‌ चरौनाम कैशरि चंद- नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में ।सबांचिआने- काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको 'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु- : ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि एब्ती में तथा आकारमें दो ऊे ``` Output: ``` { "Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् ‌ चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." , "Number of Tokens": 229 , "Original Size (bytes)": 1513 , "Tokenized Size (bytes)": 458 , "Compression Ratio": "3.30" , "Vocabulary Size": 2849 } ``` This project is licensed under the MIT License.