[ | |
{ | |
"text": "నమస్కారం", | |
"tokens": [ | |
"[CLS]", | |
"నమ", | |
"##స్కారం", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
4970, | |
20090, | |
2 | |
], | |
"compression_ratio": 2.0 | |
}, | |
{ | |
"text": "తెలుగు భాష చాలా అందమైనది", | |
"tokens": [ | |
"[CLS]", | |
"తెలుగు", | |
"భాష", | |
"చాలా", | |
"అందమైన", | |
"##ది", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
1182, | |
1317, | |
1017, | |
7802, | |
265, | |
2 | |
], | |
"compression_ratio": 3.4285714285714284 | |
}, | |
{ | |
"text": "భారతదేశం నా దేశం", | |
"tokens": [ | |
"[CLS]", | |
"భారతదేశం", | |
"నా", | |
"దేశం", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
2617, | |
447, | |
3029, | |
2 | |
], | |
"compression_ratio": 3.2 | |
}, | |
{ | |
"text": "తెలుగు సాహిత్యం చాలా సమృద్ధిగా ఉంది", | |
"tokens": [ | |
"[CLS]", | |
"తెలుగు", | |
"సాహిత్యం", | |
"చాలా", | |
"సమృద్ధిగా", | |
"ఉంది", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
1182, | |
4357, | |
1017, | |
14475, | |
783, | |
2 | |
], | |
"compression_ratio": 5.0 | |
}, | |
{ | |
"text": "నేను తెలుగు భాషను ప్రేమిస్తున్నాను", | |
"tokens": [ | |
"[CLS]", | |
"నేను", | |
"తెలుగు", | |
"భాషను", | |
"ప్రేమి", | |
"##స్తున్నాను", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
1929, | |
1182, | |
11472, | |
7466, | |
27949, | |
2 | |
], | |
"compression_ratio": 4.857142857142857 | |
}, | |
{ | |
"text": "తెలుగు భాష దక్షిణ భారతదేశంలోని ద్రావిడ భాషా కుటుంబానికి చెందిన భాష", | |
"tokens": [ | |
"[CLS]", | |
"తెలుగు", | |
"భాష", | |
"దక్షిణ", | |
"భారతదేశంలోని", | |
"ద్రావిడ", | |
"భాషా", | |
"కుటుంబానికి", | |
"చెందిన", | |
"భాష", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
1182, | |
1317, | |
1619, | |
2821, | |
9963, | |
3168, | |
5282, | |
704, | |
1317, | |
2 | |
], | |
"compression_ratio": 6.0 | |
}, | |
{ | |
"text": "భారతదేశంలో తెలుగు మాట్లాడే ప్రజల సంఖ్య సుమారు 8 కోట్లు", | |
"tokens": [ | |
"[CLS]", | |
"భారతదేశంలో", | |
"తెలుగు", | |
"మాట్లాడే", | |
"ప్రజల", | |
"సంఖ్య", | |
"సుమారు", | |
"[UNK]", | |
"కోట్లు", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
2305, | |
1182, | |
5302, | |
2498, | |
375, | |
2207, | |
0, | |
8404, | |
2 | |
], | |
"compression_ratio": 5.4 | |
}, | |
{ | |
"text": "తెలుగు భాష యొక్క చరిత్ర చాలా ప్రాచీనమైనది. ఈ భాష క్రీ.పూ. 1000 సంవత్సరాల నాటి ప్రాచీన తెలుగు లిపి నుండి వికసించింది. తెలుగు భాష యొక్క మొదటి శాసనం క్రీ.శ. 575 నాటిది.", | |
"tokens": [ | |
"[CLS]", | |
"తెలుగు", | |
"భాష", | |
"యొక్క", | |
"చరిత్ర", | |
"చాలా", | |
"ప్రాచీన", | |
"##మైనది.", | |
"ఈ", | |
"భాష", | |
"క్రీ.పూ.", | |
"[UNK]", | |
"సంవత్సరాల", | |
"నాటి", | |
"ప్రాచీన", | |
"తెలుగు", | |
"లిపి", | |
"నుండి", | |
"వికసించింది.", | |
"తెలుగు", | |
"భాష", | |
"యొక్క", | |
"మొదటి", | |
"శాసనం", | |
"క్రీ.శ.", | |
"[UNK]", | |
"నాటిది.", | |
"[SEP]" | |
], | |
"ids": [ | |
1, | |
1182, | |
1317, | |
867, | |
1270, | |
1017, | |
3745, | |
4384, | |
16, | |
1317, | |
8068, | |
0, | |
1524, | |
3164, | |
3745, | |
1182, | |
14101, | |
198, | |
43698, | |
1182, | |
1317, | |
867, | |
932, | |
10531, | |
38147, | |
0, | |
23708, | |
2 | |
], | |
"compression_ratio": 5.892857142857143 | |
} | |
] |