awadhi_bpe / README.md
pradeep6kumar2024's picture
Update README.md
e6213f2 verified

A newer version of the Gradio SDK is available: 5.23.1

Upgrade
metadata
title: Awadhi BPE Tokenizer
colorFrom: blue
colorTo: red
sdk: gradio
sdk_version: 5.9.1
app_file: app.py
pinned: false
license: mit
python_version: '3.10'
app_port: 7860
tags:
  - awadhi
  - tokenizer
  - bpe
  - text-compression
datasets:
  - sunderkand_awdhi

Awadhi BPE Tokenizer

This space provides a Byte Pair Encoding (BPE) implementation for Awadhi text compression. It features:

  • Custom BPE implementation for Awadhi text
  • Vocabulary size < 5000 tokens
  • Compression ratio > 3.2
  • Interactive web interface

Usage

  1. Enter Awadhi text in the input box
  2. Click "Tokenize"
  3. View tokenization results and statistics

Implementation Details

  • Uses character-level tokenization as base
  • Implements BPE merging strategy
  • Handles UTF-8 encoded Awadhi text
  • Provides compression statistics

Model Details

  • Base tokenization: Character-level
  • Maximum vocabulary size: 4500 tokens
  • Training corpus: Sunderkand in Awadhi
  • Compression target: > 3.2x

Technical Requirements

  • Python 3.10+
  • PyTorch
  • Gradio 4.19.1+

License

Examples

Input:


॥ चौपाई ॥ 
जय हनुमान ज्ञान गुण सागर। 
जय कपीस तिहुँ लोक उजागर ॥ 
राम दूत अतुलित बल धामा। 
अंजनि पुत्र पवनसुत नामा ॥ 
महाबीर बिक्रम बजरंगी | 
कुमति निवार सुमति के संगी ॥ 
कंचन बरन बिराज सुबेसा। 
कानन कुण्डल कुंचित केसा ॥ 
हाथ बज्र अरु ध्वजा बिराजै | 
काँधे मूँज जनेऊ छाजै ॥ 
शंकर स्वयं केसरी नन्दन | 
तेज प्रताप महा जग बन्दन ॥ 
बिद्यावान गुणी अति चातुर । 
राम काज करिबे को आतुर ॥ 
प्रभु चरित्र सुनिबे को रसिया | 
राम लखन सीता मन बसिया ॥ 
सूक्ष्म रूप धरि सियहिं दिखावा | 
बिकट रूप धरि लंक जरावा ॥ 
भीम रूप धरि असुर सँहारे | 

Output:


{
"Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." ,
"Number of Tokens": 173 ,
"Original Size (bytes)": 1304 ,
"Tokenized Size (bytes)": 346 ,
"Compression Ratio": "3.77" ,
"Vocabulary Size": 2849
}

Input:



| ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण 

.. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात्‌ चरौनाम कैशरि चंद- 
नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में 


।सबांचिआने- 

काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको 

'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर 

पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु- 

: ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा 

आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ 

अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि 
एब्ती में तथा आकारमें दो ऊे 

Output:


{
"Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् ‌ चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." ,
"Number of Tokens": 229 ,
"Original Size (bytes)": 1513 ,
"Tokenized Size (bytes)": 458 ,
"Compression Ratio": "3.30" ,
"Vocabulary Size": 2849
} 

This project is licensed under the MIT License.