Spaces:
Sleeping
Sleeping
added examples
Browse files- Examples.md +83 -0
- README.md +92 -8
Examples.md
CHANGED
@@ -1,3 +1,4 @@
|
|
|
|
1 |
Input:
|
2 |
```
|
3 |
|
@@ -78,4 +79,86 @@ Output:
|
|
78 |
"Vocabulary Size": 2849
|
79 |
}
|
80 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
81 |
```
|
|
|
1 |
+
<<<<<<< HEAD
|
2 |
Input:
|
3 |
```
|
4 |
|
|
|
79 |
"Vocabulary Size": 2849
|
80 |
}
|
81 |
|
82 |
+
=======
|
83 |
+
Input:
|
84 |
+
```
|
85 |
+
|
86 |
+
॥ चौपाई ॥
|
87 |
+
जय हनुमान ज्ञान गुण सागर।
|
88 |
+
जय कपीस तिहुँ लोक उजागर ॥
|
89 |
+
राम दूत अतुलित बल धामा।
|
90 |
+
अंजनि पुत्र पवनसुत नामा ॥
|
91 |
+
महाबीर बिक्रम बजरंगी |
|
92 |
+
कुमति निवार सुमति के संगी ॥
|
93 |
+
कंचन बरन बिराज सुबेसा।
|
94 |
+
कानन कुण्डल कुंचित केसा ॥
|
95 |
+
हाथ बज्र अरु ध्वजा बिराजै |
|
96 |
+
काँधे मूँज जनेऊ छाजै ॥
|
97 |
+
शंकर स्वयं केसरी नन्दन |
|
98 |
+
तेज प्रताप महा जग बन्दन ॥
|
99 |
+
बिद्यावान गुणी अति चातुर ।
|
100 |
+
राम काज करिबे को आतुर ॥
|
101 |
+
प्रभु चरित्र सुनिबे को रसिया |
|
102 |
+
राम लखन सीता मन बसिया ॥
|
103 |
+
सूक्ष्म रूप धरि सियहिं दिखावा |
|
104 |
+
बिकट रूप धरि लंक जरावा ॥
|
105 |
+
भीम रूप धरि असुर सँहारे |
|
106 |
+
```
|
107 |
+
|
108 |
+
Output:
|
109 |
+
```
|
110 |
+
|
111 |
+
{
|
112 |
+
"Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." ,
|
113 |
+
"Number of Tokens": 173 ,
|
114 |
+
"Original Size (bytes)": 1304 ,
|
115 |
+
"Tokenized Size (bytes)": 346 ,
|
116 |
+
"Compression Ratio": "3.77" ,
|
117 |
+
"Vocabulary Size": 2849
|
118 |
+
}
|
119 |
+
|
120 |
+
```
|
121 |
+
|
122 |
+
|
123 |
+
|
124 |
+
Input:
|
125 |
+
```
|
126 |
+
|
127 |
+
|
128 |
+
| ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण
|
129 |
+
|
130 |
+
.. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात् चरौनाम कैशरि चंद-
|
131 |
+
नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में
|
132 |
+
|
133 |
+
|
134 |
+
।सबांचिआने-
|
135 |
+
|
136 |
+
काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको
|
137 |
+
|
138 |
+
'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर
|
139 |
+
|
140 |
+
पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु-
|
141 |
+
|
142 |
+
: ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा
|
143 |
+
|
144 |
+
आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ
|
145 |
+
|
146 |
+
अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि
|
147 |
+
एब्ती में तथा आकारमें दो ऊे
|
148 |
+
|
149 |
+
```
|
150 |
+
Output:
|
151 |
+
|
152 |
+
```
|
153 |
+
|
154 |
+
{
|
155 |
+
"Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." ,
|
156 |
+
"Number of Tokens": 229 ,
|
157 |
+
"Original Size (bytes)": 1513 ,
|
158 |
+
"Tokenized Size (bytes)": 458 ,
|
159 |
+
"Compression Ratio": "3.30" ,
|
160 |
+
"Vocabulary Size": 2849
|
161 |
+
}
|
162 |
+
|
163 |
+
>>>>>>> e6213f2e5245b6f5d51f5df1ab82b1ac70cc7b9b
|
164 |
```
|
README.md
CHANGED
@@ -3,19 +3,19 @@ title: Awadhi BPE Tokenizer
|
|
3 |
colorFrom: blue
|
4 |
colorTo: red
|
5 |
sdk: gradio
|
6 |
-
sdk_version:
|
7 |
app_file: app.py
|
8 |
pinned: false
|
9 |
license: mit
|
10 |
-
python_version:
|
11 |
app_port: 7860
|
12 |
tags:
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
|
17 |
datasets:
|
18 |
-
|
19 |
---
|
20 |
|
21 |
# Awadhi BPE Tokenizer
|
@@ -55,4 +55,88 @@ This space provides a Byte Pair Encoding (BPE) implementation for Awadhi text co
|
|
55 |
|
56 |
## License
|
57 |
|
58 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
colorFrom: blue
|
4 |
colorTo: red
|
5 |
sdk: gradio
|
6 |
+
sdk_version: 5.9.1
|
7 |
app_file: app.py
|
8 |
pinned: false
|
9 |
license: mit
|
10 |
+
python_version: '3.10'
|
11 |
app_port: 7860
|
12 |
tags:
|
13 |
+
- awadhi
|
14 |
+
- tokenizer
|
15 |
+
- bpe
|
16 |
+
- text-compression
|
17 |
datasets:
|
18 |
+
- sunderkand_awdhi
|
19 |
---
|
20 |
|
21 |
# Awadhi BPE Tokenizer
|
|
|
55 |
|
56 |
## License
|
57 |
|
58 |
+
## Examples
|
59 |
+
|
60 |
+
Input:
|
61 |
+
```
|
62 |
+
|
63 |
+
॥ चौपाई ॥
|
64 |
+
जय हनुमान ज्ञान गुण सागर।
|
65 |
+
जय कपीस तिहुँ लोक उजागर ॥
|
66 |
+
राम दूत अतुलित बल धामा।
|
67 |
+
अंजनि पुत्र पवनसुत नामा ॥
|
68 |
+
महाबीर बिक्रम बजरंगी |
|
69 |
+
कुमति निवार सुमति के संगी ॥
|
70 |
+
कंचन बरन बिराज सुबेसा।
|
71 |
+
कानन कुण्डल कुंचित केसा ॥
|
72 |
+
हाथ बज्र अरु ध्वजा बिराजै |
|
73 |
+
काँधे मूँज जनेऊ छाजै ॥
|
74 |
+
शंकर स्वयं केसरी नन्दन |
|
75 |
+
तेज प्रताप महा जग बन्दन ॥
|
76 |
+
बिद्यावान गुणी अति चातुर ।
|
77 |
+
राम काज करिबे को आतुर ॥
|
78 |
+
प्रभु चरित्र सुनिबे को रसिया |
|
79 |
+
राम लखन सीता मन बसिया ॥
|
80 |
+
सूक्ष्म रूप धरि सियहिं दिखावा |
|
81 |
+
बिकट रूप धरि लंक जरावा ॥
|
82 |
+
भीम रूप धरि असुर सँहारे |
|
83 |
+
```
|
84 |
+
|
85 |
+
Output:
|
86 |
+
```
|
87 |
+
|
88 |
+
{
|
89 |
+
"Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." ,
|
90 |
+
"Number of Tokens": 173 ,
|
91 |
+
"Original Size (bytes)": 1304 ,
|
92 |
+
"Tokenized Size (bytes)": 346 ,
|
93 |
+
"Compression Ratio": "3.77" ,
|
94 |
+
"Vocabulary Size": 2849
|
95 |
+
}
|
96 |
+
|
97 |
+
```
|
98 |
+
|
99 |
+
|
100 |
+
|
101 |
+
Input:
|
102 |
+
```
|
103 |
+
|
104 |
+
|
105 |
+
| ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण
|
106 |
+
|
107 |
+
.. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात् चरौनाम कैशरि चंद-
|
108 |
+
नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में
|
109 |
+
|
110 |
+
|
111 |
+
।सबांचिआने-
|
112 |
+
|
113 |
+
काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको
|
114 |
+
|
115 |
+
'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर
|
116 |
+
|
117 |
+
पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु-
|
118 |
+
|
119 |
+
: ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा
|
120 |
+
|
121 |
+
आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ
|
122 |
+
|
123 |
+
अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि
|
124 |
+
एब्ती में तथा आकारमें दो ऊे
|
125 |
+
|
126 |
+
```
|
127 |
+
Output:
|
128 |
+
|
129 |
+
```
|
130 |
+
|
131 |
+
{
|
132 |
+
"Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." ,
|
133 |
+
"Number of Tokens": 229 ,
|
134 |
+
"Original Size (bytes)": 1513 ,
|
135 |
+
"Tokenized Size (bytes)": 458 ,
|
136 |
+
"Compression Ratio": "3.30" ,
|
137 |
+
"Vocabulary Size": 2849
|
138 |
+
}
|
139 |
+
|
140 |
+
```
|
141 |
+
|
142 |
+
This project is licensed under the MIT License.
|