Spaces:
Sleeping
Sleeping
Update README.md
Browse files
README.md
CHANGED
@@ -55,4 +55,88 @@ This space provides a Byte Pair Encoding (BPE) implementation for Awadhi text co
|
|
55 |
|
56 |
## License
|
57 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
58 |
This project is licensed under the MIT License.
|
|
|
55 |
|
56 |
## License
|
57 |
|
58 |
+
## Examples
|
59 |
+
|
60 |
+
Input:
|
61 |
+
```
|
62 |
+
|
63 |
+
॥ चौपाई ॥
|
64 |
+
जय हनुमान ज्ञान गुण सागर।
|
65 |
+
जय कपीस तिहुँ लोक उजागर ॥
|
66 |
+
राम दूत अतुलित बल धामा।
|
67 |
+
अंजनि पुत्र पवनसुत नामा ॥
|
68 |
+
महाबीर बिक्रम बजरंगी |
|
69 |
+
कुमति निवार सुमति के संगी ॥
|
70 |
+
कंचन बरन बिराज सुबेसा।
|
71 |
+
कानन कुण्डल कुंचित केसा ॥
|
72 |
+
हाथ बज्र अरु ध्वजा बिराजै |
|
73 |
+
काँधे मूँज जनेऊ छाजै ॥
|
74 |
+
शंकर स्वयं केसरी नन्दन |
|
75 |
+
तेज प्रताप महा जग बन्दन ॥
|
76 |
+
बिद्यावान गुणी अति चातुर ।
|
77 |
+
राम काज करिबे को आतुर ॥
|
78 |
+
प्रभु चरित्र सुनिबे को रसिया |
|
79 |
+
राम लखन सीता मन बसिया ॥
|
80 |
+
सूक्ष्म रूप धरि सियहिं दिखावा |
|
81 |
+
बिकट रूप धरि लंक जरावा ॥
|
82 |
+
भीम रूप धरि असुर सँहारे |
|
83 |
+
```
|
84 |
+
|
85 |
+
Output:
|
86 |
+
```
|
87 |
+
|
88 |
+
{
|
89 |
+
"Tokens": "॥ चौ पाई ॥ जय हनुमान ज्ञा न गु ण सागर। जय कपीस तिहुँ लोक उजा गर ॥ राम दूत अतुलित बल धा मा । अंजनि पु त्र पवनसुत नामा ॥ महा बी र बि क्रम बजरंग ी | कुमति निवा र सुमति के संग ी ॥ कं चन बरन बि राज सुबे सा। कानन कु ण ् ड ल कु ं चित के सा ॥ हा थ ब ज्र अरु ध ् व जा बि राजै | का ँ धे मू ँ ज जने ऊ छा जै ॥ श ं कर स्व य ं के सरी नन् द न..." ,
|
90 |
+
"Number of Tokens": 173 ,
|
91 |
+
"Original Size (bytes)": 1304 ,
|
92 |
+
"Tokenized Size (bytes)": 346 ,
|
93 |
+
"Compression Ratio": "3.77" ,
|
94 |
+
"Vocabulary Size": 2849
|
95 |
+
}
|
96 |
+
|
97 |
+
```
|
98 |
+
|
99 |
+
|
100 |
+
|
101 |
+
Input:
|
102 |
+
```
|
103 |
+
|
104 |
+
|
105 |
+
| ऐलानामःघरेजपुनः सुमित्राके प्रथम पुत्रको लक्ष्मण
|
106 |
+
|
107 |
+
.. नामधेरे छोटेको'शघ्ृहत ऐसानास घरघो भर्धात् चरौनाम कैशरि चंद-
|
108 |
+
नादिते पीषरके- /लिखि पूजनकरि बालकनके दक्षिण कानन में
|
109 |
+
|
110 |
+
|
111 |
+
।सबांचिआने-
|
112 |
+
|
113 |
+
काश केश महक लत पत्तारानिनकोदैदीन्हे तित्रको
|
114 |
+
|
115 |
+
'प्रेमानेदर्में मरनभई सनते सकलसुख लहे उपायड भाव परिर
|
116 |
+
|
117 |
+
पूर्ण मनोरथ पाय तनमें प्रेमकी पुलकावली भरिगई ग्राम ख्री बारमु-
|
118 |
+
|
119 |
+
: ख्याढाढ़ीं कलौंडत इत्यादि को पुरमें गान तथा देवलोंकक्रे गेधवे अप्सरा
|
120 |
+
|
121 |
+
आकाशमें विमाननपर ग्राइरहीं पुरमें निशान बाजा ढोल ताला: माँ
|
122 |
+
|
123 |
+
अरुदेगादि बाजिरदे-तथा देवता दुदुभी आदि यंजायरहे इत्पादि गान नि
|
124 |
+
एब्ती में तथा आकारमें दो ऊे
|
125 |
+
|
126 |
+
```
|
127 |
+
Output:
|
128 |
+
|
129 |
+
```
|
130 |
+
|
131 |
+
{
|
132 |
+
"Tokens": "| ऐ ला नाम ः घ रे ज पुन ः सुमि त्रा के प्रथम पु त्र को लक् ष् म ण . . नाम धे रे छो टेको ' श घ ् ृ हत ऐ सा ना स घ र घो भ र् धा त् चर ौ नाम कै श रि चंद - नादि ते पी ष र के - / लिखि पू जनकरि बा लकनके द क् षि ण कानन में । सबा ं चि आने - का श के श म ह क ल त प त् ता रा नि न को दै दीन्हे ति त्र को..." ,
|
133 |
+
"Number of Tokens": 229 ,
|
134 |
+
"Original Size (bytes)": 1513 ,
|
135 |
+
"Tokenized Size (bytes)": 458 ,
|
136 |
+
"Compression Ratio": "3.30" ,
|
137 |
+
"Vocabulary Size": 2849
|
138 |
+
}
|
139 |
+
|
140 |
+
```
|
141 |
+
|
142 |
This project is licensed under the MIT License.
|