pradeep6kumar2024 commited on
Commit
5de13c9
·
2 Parent(s): 99c428d e6213f2

added examples

Browse files
Files changed (2) hide show
  1. Examples.md +83 -0
  2. README.md +92 -8
Examples.md CHANGED
@@ -1,3 +1,4 @@
 
1
  Input:
2
  ```
3
 
@@ -78,4 +79,86 @@ Output:
78
  "Vocabulary Size": 2849
79
  }
80
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
81
  ```
 
1
+ <<<<<<< HEAD
2
  Input:
3
  ```
4
 
 
79
  "Vocabulary Size": 2849
80
  }
81
 
82
+ =======
83
+ Input:
84
+ ```
85
+
86
+ ॥ चौपाई ॥
87
+ जय हनुमान ज्ञान गुण सागर।
88
+ जय कपीस तिहुँ लोक उजागर ॥
89
+ राम दूत अतुलित बल धामा।
90
+ अंजनि पुत्र पवनसुत नामा ॥
91
+ महाबीर बिक्रम बजरंगी |
92
+ कुमति निवार सुमति के संगी ॥
93
+ कंचन बरन बिराज सुबेसा।
94
+ कानन कुण्डल कुंचित केसा ॥
95
+ हाथ बज्र अरु ध्वजा बिराजै |
96
+ काँधे मूँज जनेऊ छाजै ॥
97
+ शंकर स्वयं केसरी नन्दन |
98
+ तेज प्रताप महा जग बन्दन ॥
99
+ बिद्यावान गुणी अति चातुर ।
100
+ राम काज करिबे को आतुर ॥
101
+ प्रभु चरित्र सुनिबे को रसिया |
102
+ राम लखन सीता मन बसिया ॥
103
+ सूक्ष्म रूप धरि सियहिं दिखावा |
104
+ बिकट रूप धरि लंक जरावा ॥
105
+ भीम रूप धरि असुर सँहारे |
106
+ ```
107
+
108
+ Output:
109
+ ```
110
+
111
+ {
112
+ "Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." ,
113
+ "Number of Tokens": 173 ,
114
+ "Original Size (bytes)": 1304 ,
115
+ "Tokenized Size (bytes)": 346 ,
116
+ "Compression Ratio": "3.77" ,
117
+ "Vocabulary Size": 2849
118
+ }
119
+
120
+ ```
121
+
122
+
123
+
124
+ Input:
125
+ ```
126
+
127
+
128
+ | ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण
129
+
130
+ .. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात्‌ चरौनाम कैशरि चंद-
131
+ नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में
132
+
133
+
134
+ ।सबांचिआने-
135
+
136
+ काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको
137
+
138
+ 'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर
139
+
140
+ पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु-
141
+
142
+ : ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा
143
+
144
+ आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ
145
+
146
+ अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि
147
+ एब्ती में तथा आकारमें दो ऊे
148
+
149
+ ```
150
+ Output:
151
+
152
+ ```
153
+
154
+ {
155
+ "Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् ‌ चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." ,
156
+ "Number of Tokens": 229 ,
157
+ "Original Size (bytes)": 1513 ,
158
+ "Tokenized Size (bytes)": 458 ,
159
+ "Compression Ratio": "3.30" ,
160
+ "Vocabulary Size": 2849
161
+ }
162
+
163
+ >>>>>>> e6213f2e5245b6f5d51f5df1ab82b1ac70cc7b9b
164
  ```
README.md CHANGED
@@ -3,19 +3,19 @@ title: Awadhi BPE Tokenizer
3
  colorFrom: blue
4
  colorTo: red
5
  sdk: gradio
6
- sdk_version: "4.19.1"
7
  app_file: app.py
8
  pinned: false
9
  license: mit
10
- python_version: "3.10"
11
  app_port: 7860
12
  tags:
13
- - awadhi
14
- - tokenizer
15
- - bpe
16
- - text-compression
17
  datasets:
18
- - sunderkand_awdhi
19
  ---
20
 
21
  # Awadhi BPE Tokenizer
@@ -55,4 +55,88 @@ This space provides a Byte Pair Encoding (BPE) implementation for Awadhi text co
55
 
56
  ## License
57
 
58
- This project is licensed under the MIT License.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  colorFrom: blue
4
  colorTo: red
5
  sdk: gradio
6
+ sdk_version: 5.9.1
7
  app_file: app.py
8
  pinned: false
9
  license: mit
10
+ python_version: '3.10'
11
  app_port: 7860
12
  tags:
13
+ - awadhi
14
+ - tokenizer
15
+ - bpe
16
+ - text-compression
17
  datasets:
18
+ - sunderkand_awdhi
19
  ---
20
 
21
  # Awadhi BPE Tokenizer
 
55
 
56
  ## License
57
 
58
+ ## Examples
59
+
60
+ Input:
61
+ ```
62
+
63
+ ॥ चौपाई ॥
64
+ जय हनुमान ज्ञान गुण सागर।
65
+ जय कपीस तिहुँ लोक उजागर ॥
66
+ राम दूत अतुलित बल धामा।
67
+ अंजनि पुत्र पवनसुत नामा ॥
68
+ महाबीर बिक्रम बजरंगी |
69
+ कुमति निवार सुमति के संगी ॥
70
+ कंचन बरन बिराज सुबेसा।
71
+ कानन कुण्डल कुंचित केसा ॥
72
+ हाथ बज्र अरु ध्वजा बिराजै |
73
+ काँधे मूँज जनेऊ छाजै ॥
74
+ शंकर स्वयं केसरी नन्दन |
75
+ तेज प्रताप महा जग बन्दन ॥
76
+ बिद्यावान गुणी अति चातुर ।
77
+ राम काज करिबे को आतुर ॥
78
+ प्रभु चरित्र सुनिबे को रसिया |
79
+ राम लखन सीता मन बसिया ॥
80
+ सूक्ष्म रूप धरि सियहिं दिखावा |
81
+ बिकट रूप धरि लंक जरावा ॥
82
+ भीम रूप धरि असुर सँहारे |
83
+ ```
84
+
85
+ Output:
86
+ ```
87
+
88
+ {
89
+ "Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." ,
90
+ "Number of Tokens": 173 ,
91
+ "Original Size (bytes)": 1304 ,
92
+ "Tokenized Size (bytes)": 346 ,
93
+ "Compression Ratio": "3.77" ,
94
+ "Vocabulary Size": 2849
95
+ }
96
+
97
+ ```
98
+
99
+
100
+
101
+ Input:
102
+ ```
103
+
104
+
105
+ | ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण
106
+
107
+ .. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात्‌ चरौनाम कैशरि चंद-
108
+ नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में
109
+
110
+
111
+ ।सबांचिआने-
112
+
113
+ काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको
114
+
115
+ 'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर
116
+
117
+ पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु-
118
+
119
+ : ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा
120
+
121
+ आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ
122
+
123
+ अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि
124
+ एब्ती में तथा आकारमें दो ऊे
125
+
126
+ ```
127
+ Output:
128
+
129
+ ```
130
+
131
+ {
132
+ "Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् ‌ चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." ,
133
+ "Number of Tokens": 229 ,
134
+ "Original Size (bytes)": 1513 ,
135
+ "Tokenized Size (bytes)": 458 ,
136
+ "Compression Ratio": "3.30" ,
137
+ "Vocabulary Size": 2849
138
+ }
139
+
140
+ ```
141
+
142
+ This project is licensed under the MIT License.