telugu-bpe / examples.json
Saiteja's picture
Upload folder using huggingface_hub
7878358 verified
[
{
"text": "నమస్కారం",
"tokens": [
"[CLS]",
"నమ",
"##స్కారం",
"[SEP]"
],
"ids": [
1,
4970,
20090,
2
],
"compression_ratio": 2.0
},
{
"text": "తెలుగు భాష చాలా అందమైనది",
"tokens": [
"[CLS]",
"తెలుగు",
"భాష",
"చాలా",
"అందమైన",
"##ది",
"[SEP]"
],
"ids": [
1,
1182,
1317,
1017,
7802,
265,
2
],
"compression_ratio": 3.4285714285714284
},
{
"text": "భారతదేశం నా దేశం",
"tokens": [
"[CLS]",
"భారతదేశం",
"నా",
"దేశం",
"[SEP]"
],
"ids": [
1,
2617,
447,
3029,
2
],
"compression_ratio": 3.2
},
{
"text": "తెలుగు సాహిత్యం చాలా సమృద్ధిగా ఉంది",
"tokens": [
"[CLS]",
"తెలుగు",
"సాహిత్యం",
"చాలా",
"సమృద్ధిగా",
"ఉంది",
"[SEP]"
],
"ids": [
1,
1182,
4357,
1017,
14475,
783,
2
],
"compression_ratio": 5.0
},
{
"text": "నేను తెలుగు భాషను ప్రేమిస్తున్నాను",
"tokens": [
"[CLS]",
"నేను",
"తెలుగు",
"భాషను",
"ప్రేమి",
"##స్తున్నాను",
"[SEP]"
],
"ids": [
1,
1929,
1182,
11472,
7466,
27949,
2
],
"compression_ratio": 4.857142857142857
},
{
"text": "తెలుగు భాష దక్షిణ భారతదేశంలోని ద్రావిడ భాషా కుటుంబానికి చెందిన భాష",
"tokens": [
"[CLS]",
"తెలుగు",
"భాష",
"దక్షిణ",
"భారతదేశంలోని",
"ద్రావిడ",
"భాషా",
"కుటుంబానికి",
"చెందిన",
"భాష",
"[SEP]"
],
"ids": [
1,
1182,
1317,
1619,
2821,
9963,
3168,
5282,
704,
1317,
2
],
"compression_ratio": 6.0
},
{
"text": "భారతదేశంలో తెలుగు మాట్లాడే ప్రజల సంఖ్య సుమారు 8 కోట్లు",
"tokens": [
"[CLS]",
"భారతదేశంలో",
"తెలుగు",
"మాట్లాడే",
"ప్రజల",
"సంఖ్య",
"సుమారు",
"[UNK]",
"కోట్లు",
"[SEP]"
],
"ids": [
1,
2305,
1182,
5302,
2498,
375,
2207,
0,
8404,
2
],
"compression_ratio": 5.4
},
{
"text": "తెలుగు భాష యొక్క చరిత్ర చాలా ప్రాచీనమైనది. ఈ భాష క్రీ.పూ. 1000 సంవత్సరాల నాటి ప్రాచీన తెలుగు లిపి నుండి వికసించింది. తెలుగు భాష యొక్క మొదటి శాసనం క్రీ.శ. 575 నాటిది.",
"tokens": [
"[CLS]",
"తెలుగు",
"భాష",
"యొక్క",
"చరిత్ర",
"చాలా",
"ప్రాచీన",
"##మైనది.",
"ఈ",
"భాష",
"క్రీ.పూ.",
"[UNK]",
"సంవత్సరాల",
"నాటి",
"ప్రాచీన",
"తెలుగు",
"లిపి",
"నుండి",
"వికసించింది.",
"తెలుగు",
"భాష",
"యొక్క",
"మొదటి",
"శాసనం",
"క్రీ.శ.",
"[UNK]",
"నాటిది.",
"[SEP]"
],
"ids": [
1,
1182,
1317,
867,
1270,
1017,
3745,
4384,
16,
1317,
8068,
0,
1524,
3164,
3745,
1182,
14101,
198,
43698,
1182,
1317,
867,
932,
10531,
38147,
0,
23708,
2
],
"compression_ratio": 5.892857142857143
}
]