{ "vocab": [ "सिफारि", "शुरूआत", "कालिज", "मरुसागर", "सचेत", "मुगल", "भीम", "मलपाखी", "लर", "उनको", "००", "गाथा", "ओन", "दिल", "युधिष्ठि", "बोर्डिंग", "चिलि", "रिहा", "अर्नोल्ड", "ढांचे", "एं", "पठानकोट", "टैकीग्लो", "गवर्नर", "नाइकीपुर", "टावर", "घई", "सुखरावाली", "हड़प्पन", "एडिनबर्ग", "नेपोलियन", "नए", "क्रेमर", "जैवप्रौद्योगिकी", "टेड", "फेलोशिप", "एम", "सुपौल", "बीना", "ङ", "सूचना", "त्र", "जिल", "अख", "लिवरपू", "आए", "विकिफ़ाइ", "ट", "श्रोता", "बरेठी", "अतीत", "मदुरई", "गणितीय", "भूमिकाओं", "बोहमान", "पादक", "सराय", "वाह", "बिहारप्र", "अल्लहा", "त्रिनिदा", "बिम्ब", "विद्युत", "डोवेगर", "पर्तें", "बंश", "रविशंकर", "फ़", "राज्यीय", "त्रिवेंद्र", "वनस्पति", "लीग", "कौसानी", "मस्", "एफए", "वीओआईपी", "दक्खन", "तेज", "स्तनधारी", "सिद्धिथुम्", "कैपि", "ताई", "सुलुबुङ", "चँ", "दम", "ता", "गोस्वा", "पड़ो", "बख्शी", "शतिमान", "ख़्", "ऍ", "बिशप", "प्रीमियम", "अप", "२०२१", "घूमर", "विवाह", "डेल्ही", "ट्रॉफी", "छठ", "बुंदेलीसाहित्य", "अमरकंटक", "नजदीक", "झू", "धि", "जसवंत", "ताज", "रग्", "छुहारपुर", "लेते", "सेवर्त्ज़ोव", "मोनोट्री", "गदु", "रोकक", "तपोसिरि", "वेबैक", "मदारीपुर", "चा", "लेयते", "इन्हीं", "कम्युनिस्ट", "तरफ", "महबू", "नामीबिया", "उत्", "टेली", "सुदर्शन", "श्व", "पूर्वज", "प्रेसिडेंट", "स्टूडियोज", "रह", "बार्थेलेमी", "चर्च", "डर", "हबीबपुर", "फ़ूड", "पूरबिया", "मुर", "अनुबंध", "उस्मानपुर", "अन्तर्गत", "नीबू", "द्वीपसमूह", "तू", "लई", "राधन", "काउ", "तित", "गुरुदेव", "जनपद", "कढ़ी", "रेडब्रिज", "दिहखास", "वाराणसीज़िले", "ओलंपियाड", "अनंतराम", "योजक", "होते", "प्लेट", "सेसलपिनिया", "जोड़ता", "सपनों", "हरिपुर", "लनोव", "खुर", "अलेक्जेंडर", "शनल", "सत्यापन", "ंसी", "आने", "बेचराजी", "कीरतपुर", "गुप्त", "जागरू", "मुनस्यारी", "जोग", "लि", "बुढ़िया", "कोसोवो", "साङ्", "बिजनौर", "न्यूक्लियर", "टल", "अमृतसर", "मीसा", "जन्नत", "वार्षिक", "कप", "अधिकजिले", "जंतु", "ंट", "चिरहौली", "कलाकार", "बिना", "खलनायक", "कसौ", "भूकम्प", "सभरवाल", "जाल", "रशी", "प्रिस्टिना", "टियर", "वायरस", "वीभ", "जायस", "मिनटदेश", "गॉड", "स्वामित्व", "सीसी", "सुल्तानपुर", "लर्निंग", "महत्व", "कौश", "अड्डागया", "शेखावाटी", "छु", "बूंदी", "सुन", "१९४", "शुकुलपुर", "अंतरराष्ट्रीय", "विजयेन्द्र", "ने", "विक्की", "बारबू", "टेलर", "नीदरलैंड", "कोलफील्ड", "मस", "हिस्सा", "कटहरा", "टू", "जिम्मे", "त्रुटि", "विभूति", "लगभग", "ब्लू", "अधिकारीसूचीजनसंख्या", "जौराडीह", "गंभी", "पंजीकृत", "यूसुफ़", "सायिक", "हिल", "अत्तारी", "छपरा", "स्प", "गेंदबाज", "बिंदु", "शान्तिडाँडा", "प्राण", "सोपान", "नूरुल्ला", "किम", "शोना", "कृत्रिम", "येक", "अक्सोडा", "साइ", "फ़िलिपीन्ज़", "खनन", "राजद", "बद्रीनाथ", "३२", "प्रत्येक", "तैयार", "ऊअनक", "डायबिटी", "दत्ता", "ळ", "मैदान", "अर्जुन", "कोरडेल", "न्ध", "सर्बिया", "यॉर्", "गोड्डा", "शला", "एक्", "बल्लू", "आका", "ऊँ", "शियाई", "गाजिया", "सौम्या", "करीम", "अस्मिता", "पारमाण्विक", "इमादपुर", "लोकप्रिय", "केशव", "ओहा", "मणिपुर", "भूटान", "आरडीबीएमएस", "उत्त", "टर्", "गोंडवाना", "बहराइच", "डीज", "वृद्धि", "होगी", "पोलिस", "नोलॉजी", "शुभांश", "आर्मीनियाई", "रहते", "एग्रीकल्चरल", "निशाद", "चु", "चोक", "नओ", "कुसापुर", "पर्ड", "दयाल", "खोकर", "रिजर्", "गोसाईं", "रत", "सां", "चैं", "कोई", "तरक़्क़ी", "१९३१", "रियूनी", "मेदिनीपुर", "०", "राय", "रोज़गार", "चाओ", "प्रॉसेस", "पीले", "कोर्ट", "मिदि", "ज्ञम्नगर्श्रुरत", "श्रेणियों", "आणंद", "ट्स", "बालीपुर", "दत्त", "नगरपालिका", "सेंगोत्तई", "लेखक", "व्य", "तथा", "पार्क", "सीरियल", "पेपे", "प्लेऑफ", "सीखने", "नैना", "अनंत", "निकोबार", "भ", "लस", "मौजू", "उपनगरीय", "बोल", "सौती", "गुजरात", "बर्धमान", "टहरी", "बखरी", "कॉमेडी", "बजाय", "एजेंट", "प्रपात", "भरतौ", "तिरुक्", "गोएकतुर्क", "याल", "रसगुल्", "शी", "फुले", "पुर", "डरल", "मार्टिन", "डेकन", "मुबारक", "कान", "सेवा", "अश्व", "कर्षण", "मत्स्यगंधा", "थाटा", "विंध्या", "प्रवाह", "भदोही", "आई॰ऍस॰", "गां", "साह", "खागड़ाछड़ि", "कूपर", "और", "थोम", "रिडे", "बीर", "वाराज", "आचार्य", "षड्", "भुगतान", "नक्कीना", "मैसूर", "पच", "वैंकूवर", "जगदीशपुर", "किस", "शर्बत", "हाजी", "पारं", "भारोत्तोलन", "भीष्म", "उत्खनन", "पंजाब", "क़ौ", "धुन", "आई॰एस॰एन॰", "नजदी", "वाद", "वॉयस", "वापुर", "विज्ञान", "उद", "फ़िल्म", "बड़े", "फ्ले", "नियंत्रित", "टिप्", "तिरुक्कुर", "देव", "सिबुआनो", "विरोध", "क्षतिपूर्ति", "थ्रिलर", "कौशाम्बी", "पुरेठकुराइन", "उपज़िलों", "बग्घी", "वाराण", "निर्झरिणी", "डिजा", "आशुतो", "कार्यालय", "अनार", "सलीम", "ग्रेट", "शर्मा", "ार", "गम्भीर", "युनुस", "पदक", "वॉ", "आम", "बाँध", "प्पा", "काशीपुर", "रकसा", "साल", "विनोद", "सितंबर", "बासु", "समपत", "लह", "वाइस", "एजेंसी", "जिलानुसार", "प्र", "रान्", "प्रकाश", "मो", "यश", "यदि", "पीटर", "बाहरी", "खलीफा", "ज्ञ", "महीनों", "मनमाड", "सिर", "होटल", "दुल्", "सेवन", "सांस्कृतिक", "ग्रीन", "जु", "क्रिस्टोफर", "सुस्पष्ट", "हदीस", "प्युरे", "महाद्वीप", "कोच", "ऑक्सी", "तीसरी", "दिखाई", "लहसुन", "सोयाङ", "पिन्", "सवरन", "भूकम्", "कार्लोस", "उतरी", "मौसम", "पहुंचती", "उत्तराखंड", "सिदी", "प्राइज़", "सुकमा", "भील", "विंग", "सर्लाही", "कना", "तै", "फेडरेशन", "हाकिम", "डिज़ाइन", "पेड़", "परिणाम", "वन्चिन", "किग्रा", "देना", "सले", "मासिक", "मुंडा", "गोरखपुर", "गुप्तचरी", "अनुभव", "लड़ने", "अंबिकापुर", "तिरुच्चिरा", "ये", "शप", "प्रथाओं", "हिमा", "उत्तरदायी", "मेजर", "पैट्रोलियम", "नेत", "माघ", "मंगरोली", "कैलिफोर्निया", "१९", "कीट", "सैफाबाद", "पिनाक", "अभिने", "मसुदनपुर", "साथ", "टीसी", "हौला", "डॉक्टर", "गद्", "वैत", "हवसाबाद", "ग़ा", "ऐश", "उत्पादन", "लिए", "क्रिए", "तस्वीर", "यातायातचेन्नई", "फोटोग्राफर", "मुज्तबा", "दगा", "निर्माता", "निंदा", "ऋषिकेश", "बंगाल", "सया", "सरायपीठ", "डेटा", "क्षी", "निंगबी", "आइ॰एस॰एस॰एन॰", "राज्यक्षेत्रराज्य", "वाल", "शक्तिपीठ", "चैन", "सथर", "कुवाजरवाला", "इसीलिए", "इसराल", "झाँसी", "कैमरु", "इंस्टिट्यूट", "बैरा", "अंतर्गत", "हस्ता", "डिस्क", "नीमच", "मु", "अग्निवीणा", "तूतिकोरिन", "समेत", "अथर्व", "लुम", "मैरी", "ते", "ब्यास", "ड़की", "परसोत्तम", "तप्पा", "न्याय", "डायो", "आ", "सिद्दिपेट", "कोडआइएसओ", "बिलासपुर", "पुदीना", "इस", "फाकफो", "प्रक्रिया", "ओलंपिया", "बालुर", "पंचवटी", "तँजा", "स्थापित", "गाइन", "न्यायाधीश", "विध", "ँग", "मालवीय", "घोटाले", "आयु", "शुभा", "गम", "हाथगेंदबाजी", "हँ", "रापल्ली", "सटी", "विद्", "व्यवस्थित", "एम्बेडे", "वै", "अत्य", "असोसिएशन", "वलीपुर", "कोस्ट", "सैयद", "मंत्रीमंडल", "रोहतास", "मंगलोरे", "जिनका", "महाम", "मेंटेशन", "इत्तेहा", "हरिप्रिया", "यूआरएल", "गोमांतक", "भय", "फादवा", "तारापुर", "ंध", "सूची", "टो", "द्", "यूनि", "बुद्धिमत्ता", "कस", "प्रशंसक", "त्यु", "नैट्स", "ऑपरेटिंग", "हुई", "अवैध", "औरैया", "गायक", "पुरा", "अवध", "शेल", "मधुकर", "क्रम", "सुदेश", "वयस्क", "कुंभ", "ज्ञम्नगर्", "हल्दिबारी", "सिरोही", "प्रक्रियाओं", "हरिद्वार", "युनु", "शताब्दी", "२००७", "रसूला", "नौसेना", "चुला", "कोटद्वार", "उपपाचयी", "खु", "२८", "रिसर्", "कष्ट", "कासि", "माचिलिपट्", "मिनट", "छू", "प्रतापगढ़", "भूमिहार", "बाँटा", "एलिवे", "खाया", "चम्पावत", "बन", "जिम्नास्ट", "अभ्या", "मेडल", "रुस्तमपुर", "औसत", "इम्म्यु", "आश", "हाओबाम", "अमरीका", "टैग", "खारोव", "तड़", "सांध्य", "निर्धारण", "चै", "रहस्य", "बहुमत", "भे", "रचना", "हटा", "गिर्ध", "म्स", "रायगढ़", "कुमाऊँनी", "देवगिरि", "थन", "स्पीति", "रत्", "बीएम", "किल", "ंज़", "नदी", "गोसा", "पुंग", "कॊम्मेमर्रि", "फ्रंट", "वासिलिवेना", "ज़ि", "गांठ", "व्यवसाय", "एफ", "व्हाट", "घोष", "तालिब", "स्कूल", "हरिहर", "आन्ध", "तॉर", "कॉल", "यी", "उदयपुर", "उद्दीनचक", "विकाराबाद", "कहकर", "पांडि", "मेडक", "हम्दी", "अकबर", "शिर", "सुपरफास्ट", "संरक्षित", "वीक", "अजीज", "इंद्रप्रस्थ", "अधिकसंस्कृति", "दीक्षित", "ब्व्क", "ँ", "उज्", "कढ़ाही", "तेलंगाना", "फतेहपुर", "गोपीनाथ", "बुग्या", "पोस्टर", "सहयोग", "भरतौटी", "समाचार", "कुशा", "समीप", "राजाओं", "बरोली", "मिदिउरा", "रवा", "महुआडीह", "गिरजाघर", "फिलिपो", "महाद्वीपीय", "शिरो", "धुडेहरी", "१४", "निंग", "मौजूद", "लागू", "ान्य", "इब्", "कौ", "विवाद", "ग्रहीय", "जनशताब्दी", "बामन", "ज़ोरम", "ऑफ", "प्रिय", "अगल", "डीएफ", "दन्तेवाड़ा", "सलेमपुर", "पीठ", "पंचम", "स्कर", "दीर्घ", "लाया", "हिलिगायनो", "अल", "पौड़ी", "कसवो", "बा", "मिथ", "विधान", "वेल्टरवेट", "तेन्कासी", "मुराद", "महासमुन्द", "हस्तिनापुर", "वाइसीरॉय", "बर्ष", "जनक", "ंबई", "नीरज", "कल्याणक", "हम", "शिवपुरी", "्सी", "महेसाणा", "अनंतनाग", "बुला", "भीषण", "होकर", "रानीपुर", "महा", "खंड", "झो", "ऑपरे", "कारोबार", "तक", "ढाका", "गाँव", "बंग", "भगुपुर", "सलैमपुर", "काकी", "युधिष्ठिर", "मसा", "कील", "पहुंच", "एक्य", "भेजा", "लुटाए", "बढ़ावा", "दु", "पिनाकिनी", "डोनाल्ड", "बेगूसराय", "भाइयों", "साबर", "मुकेश", "मिशिगन", "पीलीभीत", "ेंड", "बात", "पं॰", "गाड़ियां", "परिचय", "फाल्", "वेज", "यु", "ो", "मेर", "काठ", "धो", "कन", "उत", "अजंता", "वृद्धक्षत्र", "काफी", "काँ", "पोखरा", "अडाणी", "हिंदूबनी", "दक्", "तँजाउर", "अनुवा", "मेनन", "मुल्तान", "लघु", "धौलपुर", "फीरोज़पुर", "माधवन", "बिझौली", "बोली", "स्वतंत्रता", "ईश्वर", "डेमो", "उन्के", "महतो", "समारोह", "ट्रिपैनोसोमा", "आलोचना", "आई॰ऍ", "ूर", "फ़िजी", "शाखा", "सिकंदराबाद", "बताये", "अध", "डै", "एन॰आर", "जांच", "मुतफरका", "उंड", "कुराकथ", "वार", "समर्थ", "जाकर", "बगुड़ा", "निर्देशक", "देशभारतमूल", "कॉन्स्टेंटियस", "मेहरुनिस्सा", "गुरु", "ृत्य", "बम्बोर", "चन्द्रचू", "भाग", "बांग्ला", "जयद्रथ", "क", "उपयोग", "फुल", "फतू", "पायन", "डीएनए", "कृष्ण", "गुफाएँ", "विधायक", "वामन", "गी", "ंखला", "गेन", "विख्यात", "फ्ट", "मध", "१९९८", "काई", "कर", "जनसंहार", "ह्", "कोसी", "कथा", "आगे", "सार्वजनिक", "वेफ़ेयर", "संघ", "रामायण", "प्रवीण", "किदवई", "कक्वल", "खिल", "भूपतपुर", "२०१७", "राम", "सल्फाइड", "प्रस्तावित", "५२", "सेवर्त्ज़ो", "भिकियासै", "मोहम्मद", "पैरीज़", "म्ब", "पॉप", "कैं", "प्रागैतिहासिक", "विद्यालंकार", "कैम्ब्रि", "शुमाली", "तरछंदपुर", "परशुराम", "ऊ", "राजपू", "इंडोने", "बहराइ", "कब", "वरी", "मछ", "कोफ़्ता", "फल", "गए", "र", "भूगोल", "१९९५", "युवक", "दूरभाष", "परियोजनाओं", "सियां", "मांसपेशियों", "मिल", "मलेथु", "बिझ", "मुहल्ला", "मुइनुद्दीनपुर", "प्यागीपुर", "अंतर्राष्ट्रीय", "अग्नि", "पेद्दा", "पद", "खम्मम", "बाड़ा", "अद्भुत", "धुरी", "शोलापुर", "कसवोधन", "षेक", "मुंडी", "एलिजाबेथ", "शारीरिक", "रत्न", "अध्ययन", "अनोखी", "सेना", "नुकसान", "स्टडीज", "महंत", "दिवस", "डीआरडी", "रानियाडीह", "नमूनों", "यूनीवर्स", "वस्ती", "भावना", "अन्तरराष्ट्रीय", "विश्वसनीय", "अमीन", "लागत", "इंदिरा", "वचन", "आर्द्र", "२०१", "साम्य", "वायु", "कुत्च", "हव", "ईपुर", "काजो", "ढ", "तिरुवन्मियूर", "सीमानचल", "प्रस्तुत", "४२", "रुकुम", "उपभोक्ता", "पिथोरागढ", "देबत्तमा", "पे", "पालघर", "आंदोलन", "ज्यर", "रुआ", "धूमकेतु", "निर्देशिका", "हेराल्ड", "जलेबी", "लिस", "बिलि", "अनुवांशिकी", "टन", "बैद्यनाथ", "गुस्ताविया", "मच्लिपत्नाम", "गुन", "बज़", "मल्ही", "थौली", "ठंडा", "बुरा", "ऑटोमान", "सचोल्ट्ज़", "महिलाओं", "जन्मभूमि", "अलंकार", "जिसका", "जालपृष्ठ", "जशपुर", "ज़ाफ़रानी", "दिलीप", "रों", "मोह", "भारद्वाज", "ऐ", "प्रोदु", "बीबीवारी", "शील", "कीर्", "जिन्होंने", "मापुर", "सचोल्ट्", "सिन", "क़्", "ज़न", "बजार", "बु", "बसइया", "नींव", "साइड", "डायमंड", "गवा", "कतली", "सिंहभूम", "तिहा", "जान", "खिला", "धनुपुर", "वसाना", "प्रत", "बिग", "घनत्व", "सर्वश्रेष्ठ", "विठौली", "गे", "दुइया", "अनुमति", "ौनी", "बुंदेलखंड", "ढ़", "घटनाओं", "टनकपुर", "सियाल्", "डेलारगी", "क्टिव", "कचेगू", "कत्यूरी", "वाटोर", "रित्", "दौरान", "क्षत्र", "भूखे", "नासिरपट्टी", "पार्श्व", "सैयां", "गाड़ियाएक्सप्रेस", "मुज़फ़्फ़रपुर", "एनएसबुगा", "विपरी", "भूमिकाएँ", "कॉमंस", "कोयला", "धमतरी", "गौतम", "जिस", "वाजपेयी", "सिस्ट", "हुल", "इरो", "सरग", "बाज", "यमुना", "साझे", "प्राधिकरण", "गांधीधाम", "कैलाश", "ब्राह्मण", "क्ट", "घृ", "बीनै", "परिचयात्मक", "षा", "लाइब्रेरियन", "डॉ॰", "चंपापुर", "सराकार", "सिं", "स्थितियों", "देत", "दानापुर", "अत्याधु", "मोदी", "एल॰", "ड़े", "ऑनलाइन", "बसई", "लॉरी", "चंपा", "दाखिला", "इलाक़ा", "बहुत", "खजुराहो", "साक्षात्", "प्रबंधक", "हीराखंड", "खास", "रूप", "ध्रुव", "मजबूत", "मुल्ला", "मलेथुवा", "खर", "वैश्यम्", "होना", "दिवाली", "भूपलपल्ली", "डिब्", "प्रचलिततमिलसमय", "रुपाशी", "सुहा", "जवा", "स्लो", "यूडो", "रहने", "काल", "इलाकों", "माँड", "टीएलडी", "एसआई", "चियन", "मुद्दीन", "ड्यू", "बिरहीमपुर", "तिरहुत", "कोसा", "२००९", "गरौठा", "दिख", "धर्मनिरपेक्ष", "बना", "भुज", "सिरीचंदपुर", "ग्लोबल", "हँस", "रमनगढ़", "बाणगंगा", "अब्दु", "किला", "ट्रूमैन", "महासिंह", "छ", "स्पेश", "षि", "यह", "केन्या", "इन्हें", "आचक", "आलाप्पुड़ा", "समानता", "पाकिस्तान", "तोलेमीय", "फुटबॉल", "म", "ब्बर", "हैदराबाद", "क्वाली", "केन", "राणा", "सहाय", "अंक", "धंगरौली", "मच्", "जैसा", "लं", "दिखाया", "सलपुर", "मैसाचुसेट्स", "नेशनल", "टिंग", "दिनेश", "मठ", "घ्", "भारोपुर", "ढा", "साओ", "कढ़ा", "दरियापुर", "उर्वरक", "सुपरफा", "काशी", "मैत्री", "दर्", "मुजफ्फरपुर", "निधन", "प्रतिनिधि", "ब्लॉ", "हांग", "मुख्यमंत्रीभाषा", "डाकु", "गीतांजलि", "वेश", "ंश", "लवा", "दवा", "बड़", "पुरुषोत्तम", "मेगा", "गोस्वामी", "आयरलैंड", "श्वा", "चॉ", "महड", "रमेश", "दुर्", "संस्कृतिपर्यटनगोलघर", "ँकि", "संस्थाओं", "अमेरिकाभाषा", "संसदीय", "भटनागर", "ष्", "मानहानिकारक", "वर्त", "ओस्", "तोडेपुर", "सिद्धागंगा", "संख्या", "मासूमा", "लाहौल", "कबीरधाम", "प्रधान", "लिच्छावी", "योग", "बता", "ट्रिपैनो", "उद्योगकर्मी", "यार", "अग्निवी", "कल्पना", "रज्जुकी", "तटस्थ", "उल्लेख", "बिहारीपुर", "बल्लिया", "ऑस्ट्रेलिया", "स्रोतहीन", "बूपुर", "समालबुङ", "लुटा", "विराट", "अवस्थितिदेश", "उभरी", "समाजवादी", "प्रयोग", "ंव", "तूफ़ान", "ओँ", "कम्पोंग", "रु", "मुहिउद्दीनपुर", "धु", "देहरा", "कूल्हापुर", "साधारण", "उपविभाग", "पाट्टु", "बच्चे", "फ़रवरी", "गरियाबंद", "देबीद्", "एकिडना", "लेती", "एएसआई", "बोदवा", "ंह", "जोड़ों", "ज्ञप्ति", "नाकुलम", "द्वार", "मेट", "टेघरा", "खेड़िया", "प्रेम", "नगरकरनू", "कह", "पर्वतीय", "लखनऊ", "ताण्डव", "सदाभला", "स्टि", "अश्", "मविया", "अवस्था", "कुकुरहा", "किता", "मुखम्मस", "२०९", "निवा", "एलेक्स", "चारमिनार", "रावत", "परिभाषित", "जुरा", "मॉन्टैग्", "सीट", "एंग्लिकन", "सफेद", "तनावड़ा", "सूक्ष्", "ब्लैक", "रक्त", "क्योटो", "टीवी", "सरैया", "फ़ी", "फोटो", "बगंज", "पायस", "करीब", "जनजातियां", "मंगला", "ऋषिके", "गद्वाल", "प्रपातदर्शनीय", "वेब", "वैशालीअंतर्राष्ट्रीय", "हिमसागर", "शै", "बटा", "बन्ध्याकरण", "भागीरती", "नासिक", "बोना", "कता", "गा", "स्वभाव", "ण", "शरफ", "ओस्मानाबाद", "उत्तराँचल", "डुप्लिकेट", "उज़्", "नज़र", "चतुर", "सन", "क्रमश", "यस", "जिम", "मगवॉर्ट", "बद", "जक", "घा", "बेटे", "रतराज्य", "खेल", "अड", "डिफ़ार्", "परम", "विषु", "सरीफपुर", "लिल", "एज", "छत", "बेनई", "ऊर्", "मशीन", "अपराध", "परिवर्", "वजी", "वॉर्टहॉ", "व्याव", "माइलदु", "रोज", "छोड़", "पेग", "अंगरैया", "कंचनज", "शाहपुर", "सोई", "सीधा", "टि", "दिव", "राजधानियाँ", "गोबाई", "तरीकों", "कोडआइएस", "खाद्य", "टै", "नाहरपुर", "गुडिसन", "मास", "१९९७", "वर्षटीम", "आईलैंड", "गोसाई", "ग्रामीण", "पेशेवर", "ग्", "वृक्ष", "हृ", "सब्जी", "सीटें", "नाटोर", "परि", "प्रचलितगुजरातीसमय", "१८८", "मला", "इत्तेहाद", "करनाल", "आत", "पांच", "सिकि", "सुमित्रा", "तीर्थाटन", "बैरिस्टर", "चर", "हरदोई", "बोस", "हसहपुर", "सघन", "पैरालंपिक", "ञ", "स्थ", "पति", "टा", "बर्षों", "विश्वा", "अनन्य", "तारक", "पुट", "पाइ", "रुपये", "सलाहकार", "हिपोक्रि", "धनोआ", "नौचंदी", "हावड़ा", "बोधगया", "खाली", "जनसांख्यिकी", "आर्यभट्ट", "भागलपुर", "नागेश", "निर्वाचन", "बड़गाँव", "मौखिक", "फूंचो", "ओट्टोमन", "सच", "रिली", "स्कॉ", "होप", "दरवा", "रचित", "१३", "देह", "कल्याण", "कृषक", "विद्युतीकरण", "मझुवा", "कूट", "कोरोनावायरस", "गाड़िया", "मलेशिया", "कालाढू", "शाहजहाँपुर", "शाब्दिक", "टेक्सन", "गैविन", "बैलोथ", "रो", "शासकों", "मालपुआ", "पेश", "इरास्मस", "कोणार्", "कार्बो", "पट", "ज़म्बोआंगा", "माइलदुटुराई", "णि", "दर्द", "छड़ि", "कुम्भ", "समर्पित", "इको", "नूरिस्तानी", "मेकैनिकल", "ब", "संक्षिप्त", "अतिरिक्त", "शिमोगा", "२००४", "ऑन", "राजदूत", "अशरफ", "मुगरसों", "मुबार", "गोठ", "इंग्लैण्ड", "बत", "खने", "वर्ष", "ज़िले", "विद्वान", "राष्ट्रीय", "नद", "पिछले", "प्रक्रि", "वास", "उपयुक्त", "बीमाधारक", "न्यूजी", "डिफ़ार्गे", "ख़ुद", "उपाध्यक्ष", "बेक", "औ", "मैच", "बसवा", "हटाकर", "प्रभाव", "रोजा", "इनकी", "हरा", "पर", "हिग्स", "आई॰", "चालु", "कम", "ल्तानपुर", "दौलतपुर", "फॉर", "बँ", "हलुआ", "लाम", "क्षण", "ान", "गुरीवायूर", "यदा", "ंच", "मावेली", "दिखा", "ज़े", "बीजापुर", "श्मिट", "तीस्ता", "मजरा", "प्रसाद", "ड्रल", "सामान्य", "टे", "आंध", "गढ़िया", "जसवाँ", "इसलिए", "एवं", "ंत", "बोटी", "हल्दि", "रामफल", "भुबनेश्वर", "श्रीकृष्ण", "चर्", "एक्सप्रेसवे", "सोईराय", "वृद्ध", "गरीब", "मूव", "भूषण", "लोकेश्वरं", "दोष", "उत्कृष्टता", "बलूचि", "गुदा", "मुख", "देखभाल", "मख", "वेन", "तियों", "गलत", "ंठा", "चुलाचु", "तालाब", "कृषि", "शू", "फ़र्नान्डिस", "ठकुरैन", "झि", "मंत्रा", "मेंढक", "जय", "उनके", "कंपनी", "फिलाडेल्फिया", "दाहिना", "आलाप्पु", "तीर्थयात्रा", "ऍबे", "शिरोदंड", "माव", "कार्यवाही", "सलिया", "०५", "पटनाभूभागदक्षिणी", "दिशत्", "एपि", "जार", "चन्द्रशेखर", "टिव", "प्रचलितकन्नड़समय", "हिस्सों", "मई", "सहायता", "षिक", "स्लै", "वृ", "माता", "अम्मा", "निय", "लैब", "शांत", "ंडव", "ल्ट", "भीड़", "ज्ञम्", "जनुवा", "सोच", "पेद्दापल्ली", "झी", "गोठवा", "१२", "पपड़ी", "मिठाई", "बढ़ता", "क़दम", "बक्सर", "गाड़ियापैलेस", "कठोर", "कोरोनोवायरस", "पहाड़ों", "रखा", "शान्तिनिकेतन", "निज़ामुद्दीन", "मायापुरी", "वाणिज्य", "वायरल", "दूत", "शासित", "विल", "ह्वेन", "बलौदा", "बास्", "कहते", "वृक", "अर्नो", "लइया", "सवी", "पंकज", "त्रिची", "वरिष्ठ", "चीपुर", "त्योहार", "सुपथा", "सिविल", "तीर्थयात्री", "स्कॉटलैंड", "वायुसेना", "मुझफ्फरनगर", "रिसर्च", "साहेबपुर", "कबीर", "गुलशन", "भागीपुर", "दाल", "सूक्ष्मजैविकी", "रिमोट", "अंगदपुर", "डेनिज़", "दोयाधु", "बेरुत", "मसुइदिया", "ल्क", "कब्जा", "अनुपात", "दार्शनिक", "खड़गपुर", "बेल्लं", "अरबपति", "बह", "सक्षम", "मिज़ोरम", "प्रयुक्त", "जसलीन", "इंटे", "मुजामिल", "प्रतिरोध", "हेनरी", "मोबाइल", "जोकी", "ृत", "डेजर्ट", "अधिकनगर", "प्पु", "वह", "रूचि", "बोलते", "विश", "लोकसभा", "पोस्ट", "संपत्ति", "कड़कड़डू", "ज्वालामुखीय", "वीबी", "इगलास", "मंगोलिया", "नेहा", "न्यूज", "इंजेक्शन", "रैपि", "शनाबाद", "क्षक", "गोबिंदापुर", "हरियाणा", "सोरेन", "व्यंजन", "अल्ले", "नदाऊ", "बख़्", "सास", "कृपया", "सिर्फ", "एंड्रॉ", "आत्मा", "क्रिस्टो", "तृती", "दृश्य", "मखानी", "मेटाबेले", "ति", "स्काउ", "गाजीपुर", "सार", "हनुमकोंडा", "शिल्", "ठि", "जामनगर", "देश", "ज़ी", "साझा", "ज्ञान", "पुरान", "दादरा", "इंग्लिश", "महिला", "अहसान", "अनुसंधान", "आलू", "अधिवर्ष", "सूचित", "ऊपर", "नय", "बू", "बास्केटबॉल", "अंग्रेज", "मांडोवी", "नाम", "महबूबनगर", "कोरमा", "आदि", "गदुपुरा", "रॉय", "लाएँ", "भारतजनसंख्या", "हैदराबादविषय", "थेम", "पुर्णिया", "पर्यावरण", "उत्तरा", "पारंपरिक", "धुली", "बिस", "उग", "यॉ", "बर्ट", "शा", "भाव", "लेकिन", "दुर्योधन", "साँ", "नाभिकीय", "बेल्जियम", "दित", "रन", "बिगहिया", "सार्वभौमिक", "हाथ", "एयरपोर्ट", "बुढ़", "लोह", "ज़िलारंग", "जमुई", "आला", "मूसपुर", "उस्मान", "प्रका", "अन्वे", "े", "मलहीपुर", "इतिहा", "शिष्य", "खेरिआ", "प्राकृतिक", "काटने", "सीतामढ़ी", "मेहता", "जहा", "पोल", "धातुओं", "गछिया", "पेज", "जननांग", "झाऊ", "पद्मश्री", "लिखती", "ट्रांजि", "ताप", "स्क्रीन", "उसे", "विदर्भा", "स्टूडेंट्स", "नेट", "जॉ", "उन्हीं", "बाजपुर", "विवियन", "कसोधन", "ष्ट्रीय", "विश्वविद्यालय", "सीमैन", "डल", "कोलका", "भैरव", "रसू", "किंतु", "अवस्थित", "निमि", "सरदार", "जन", "कोविल", "मैट्रिक्स", "गहन", "जानसन", "मिनटउत्पादन", "षे", "टिस्टा", "स्टॉप", "कस्बे", "शिशु", "उल", "हिपोक्रिट", "पहाड़पुर", "इतिहास", "दमन", "भाजपा", "निबंध", "दीमापुर", "लाह", "देल", "विषम", "पुलाव", "पचौरी", "शुक्राणु", "विकास", "गाजियाबाद", "बड़ी", "लिखकर", "पदोन्न", "खख", "गुज़रता", "क्षेत्रफल", "मंदिर", "द", "डा", "शि", "समर्पणानन्द", "पॉ", "मनुष्य", "घटक", "जहां", "छत्तीसगढ़", "प्रशंसा", "नज्में", "गाव", "श्रंखला", "मरांडी", "वहाब", "पोलैंड", "गणवेश", "श्वरम", "कक्", "वायर", "मुज़ताग़", "क्रास्नोडार", "ज्ञानसन्दू", "बरिआमदन", "मधे", "गोद", "स्क", "यपुरा", "फैको", "माण", "बे", "भागीदारी", "फ", "फोटोग्रा", "लाल", "चिन", "मण", "बक्कम", "सहबाजपुर", "दोनो", "नोवाक", "मथुरा", "रेलगाड़ियाँअगरतला", "पहाड़", "रिथ", "डायरेक्ट", "वैभव", "शिबगंज", "अमजद", "रुद्दीनपुर", "लिंग", "उम्मीदवार", "नीलगिरि", "चंदोपारा", "कानूनी", "समापन", "वला", "न्यूज़ीलैण्ड", "कॊम्मे", "प्रमुख", "पशुगमन", "षक", "भूतपूर्व", "ठीक", "क्रॉस", "बुनावट", "जोड़", "हम्पी", "भद्र", "ऋष", "बागदहा", "वर", "सरयाँ", "दवे", "इंडस्ट्रीज़", "निम्नलि", "गरिक", "तूतिकोरि", "बैंक", "मुम्बई", "मैथि", "जीरा", "बदायूँ", "१००", "२१", "दस", "ह", "हावर्थ", "विजयवाडा", "गोआ", "चनाब", "तीर्थयात्रियों", "बेतवा", "व्यापार", "सिस", "पन्तोली", "लियम", "बावजूद", "मियन", "भौगोलिक", "इश्", "इट", "भले", "नवम्बर", "निजामुद्दीन", "ंड", "यूनिवर्सिटी", "टाईम्स", "न्यूज़ी", "बृ", "तिरु", "एपी", "वाशिंगटन", "निर्माणाधीन", "खरी", "िया", "४५", "मंझ", "मवैया", "बदायू", "मी", "उम्र", "पदार्पण", "पिर्थी", "आठ", "स्टाफ", "डिवीजन", "ख़ानद", "दियों", "रोबेर्ता", "बियौर", "सम्मान", "कसौधन", "मेज़बान", "स्वा", "निर्मित", "न्यूयॉर्क", "केन्द्रीय", "बैरि", "हूँ", "अक्टू", "एतमादुद्दौला", "स्याही", "शादीशुदा", "भाई", "ललितपुर", "बंगा", "हसनपुर", "स्मिथ", "फ़े", "काजीपुर", "प्रतिनिधित्व", "मयूर", "पायर", "ञ्", "महाकाव्य", "सिद्धेश्वर", "नारायण", "मधुबनी", "चुनने", "टीसीएन", "छि", "मुक्त", "पटियाला", "तुर्", "क्रिकेट", "पिछली", "गंज", "चिन्ना", "पल्ल", "गॉ", "आईपी", "घटोत्", "चुनौतियों", "जीन", "२९", "पोजी", "बौ", "वाड़ा", "चलता", "यात", "इभा", "अधिकभूगोलहिमालय", "गणदेवता", "आई॰ऍस॰बी", "हुतात्मा", "लिच्छा", "ंको", "देते", "फिश", "पश्", "घटो", "९४", "सर", "पब्लिक", "लाइ", "अंडर", "पशु", "गोरख", "जिंग", "खोने", "उल्लेखनीयता", "गौ", "हैबतपुर", "टेरिटोरियल", "इन्होने", "सिंधौरा", "रीही", "राउंड", "पूर्णिमा", "लीवुड", "फिलिप", "दिशा", "राप्ती", "इरौ", "माग्ना", "स्वायत्तता", "वीएमवेयर", "नरसंहार", "पहाड़ी", "विम्बलडन", "मंड", "हरबंश", "माइ", "अभिनेत्रीकार्यकाल", "कि", "गन", "राइ", "प्रचु", "अणु", "लैंड", "परिसर", "झील", "२३", "निस", "तीसरा", "दाउद", "मशी", "हिसा", "भहारपुर", "मुगरा", "वरीभीत", "बख्तियारा", "होयसाल", "मौजपुर", "थली", "शक्थि", "देबी", "शालीमार", "त्रिबेनी", "सुएज़", "च्छ", "एशियन", "अवधआगरा", "न्न", "प्रतिद्", "भास्करा", "पर्याप्त", "विधियों", "शिखर", "भाटिया", "मेघना", "ंग", "सर्किल्स", "कैबिनेट", "मेगालिबग्विलिया", "ब्रिटिश", "ड़", "ब्राह्मन", "राहा", "रचैयता", "उपविभागों", "देवासंमध्य", "प्रक्रम", "पाड़ा", "गाई", "भुबने", "राजनीतिसरकार", "दहा", "वर्षी", "कर्नल", "मीठा", "ज़ोनमध्य", "हत्याएँ", "नापुर", "टुकड़े", "कान्न", "प्रति", "मुंशी", "नरेश", "जराँव", "दौ", "प्रोजे", "अयो", "कुमाओं", "उप", "देवासंमुंगेर", "चेहरा", "विभू", "ड", "कल्चरल", "चमो", "ें", "गि", "एक्सप", "अनुमान", "अवसानपुर", "पुजा", "ट्रिपै", "ृ", "वेणी", "बै", "सवाई", "भूई", "मियां", "संविलीन", "ईटीवी", "आया", "एसटी", "नॉर्", "अतरौरा", "ष्णु", "भार", "सितम्बर", "७४४", "आकर्षण", "नामांकनकर्ता", "टकी", "आखि", "देहा", "खाड़ी", "सम्बन्धित", "न्यूरोसाइंस", "दूपुर", "वंशज", "भूसलपुर", "लच्छा", "नवंबर", "तपस्वि", "पोलिश", "क्षेत्र", "मिलियन", "चे", "क्वार्टर", "अथ", "मल", "लगाएँ", "चौहान", "इकाईयाँ", "आवश्यकता", "मुखर्जी", "पुनर्जन्म", "समपतचक", "निचली", "चमचा", "्", "चीजों", "दनियावान", "मम", "शायर", "थि", "पारिस्थितिकी", "खलीहृ", "रामबाग", "ज्ञानसन्दूक", "यंत्र", "रॉक", "रा", "चेतरा", "ढी", "पेशा", "बरबीघा", "वयन", "सीकरी", "नायक", "चमोली", "मनोहर", "निमा", "दोभी", "आंशिक", "गुजरा", "खण्ड", "राजनांदगाँव", "पाए", "मुंतजिबपुर", "पिन", "गोमती", "द्दी", "निर्णय", "ध्येय", "पुस्तक", "बिले", "शांति", "इंजीनि", "सोढ़ा", "पूर्ति", "ऑल", "लद्दाख़ी", "भारतप्रान्त", "पर्व", "शेड्स", "ंक", "ठे", "सागरीय", "बिर", "साबाद", "सीई", "लेआउट", "बारबूडा", "निरोध", "लदफोडा", "भिषेक", "जनशक्ति", "जीवाश्", "राधिकापुर", "मुहि", "रसगुल्ले", "नपुर", "१६", "यूपी", "कैथ", "बाजार", "चाल", "एन्टी", "हज़", "कमर्शियल", "मटर", "पूर्", "दुर्ग", "अभिनय", "तीर्था", "जैवविकास", "अब्दुल", "अण्टी", "मुख्यमंत्रीभाषाहिंदुस्तानी", "दरभंगा", "पौ", "गत", "वहन", "खूब", "काव्य", "नदौला", "सैन्फिलिपो", "प्रतिवर्ष", "ननऊ", "वृष", "रसूलपुर", "महाखरा", "क्कर", "वर्गीकृत", "वित", "धनसीपुर", "अं", "रजत", "मेट्रोपॉलिटन", "गुणा", "बिशु", "शंघा", "विश्ले", "पुरुलिया", "गाया", "उमर", "घाटमपुर", "करना", "आण", "धार", "दा", "निर्दली", "मैं", "िला", "बोटे", "वैश्यम्पायन", "पित", "सिद्धार्थनगर", "स्वागत", "पैक्ट", "खानद", "पब्लिशिंग", "चित्रकला", "वट", "अंडमान", "मोहिसिना", "पुत्र", "रान्त", "नेहरू", "प्रवेश", "पैट्रिक", "ँड़", "मेथी", "बाड़मेर", "इल", "वीभत्स", "र्ड", "सापानी", "संपादक", "बेल्गाव", "यो", "सोराँव", "सेमैन", "शयल्ला", "उच्चतम", "राजधानीऔर", "टबॉल", "उत्पन्न", "अभिलेखा", "बोथ", "ष्क", "कन्नड़", "प्रोजेक्ट", "कोह", "खी", "चुनौ", "भयंकर", "गल", "एंथोनी", "ची", "उपज़िले", "अमिताभ", "रामेछाप", "कुछ", "कूल्", "माहिया", "छोटा", "जमसेधपुर", "कक्षक", "सियोरा", "मज़", "निर्", "क्रोग", "गाँधी", "अकिनगाम", "कांतिमान", "मनोविज्ञान", "ओनिसवान", "जावेद", "अभिजात्य", "जीनोम", "ज़रलैंड", "रोहिणी", "पुदुच्चेरी", "हटाया", "जैव", "पार्वती", "परतापपुर", "ि", "सूर्यापेट", "पैन", "घू", "बिन", "गड़", "तिरुवनन्तपुरम", "दून", "प्रगति", "संदर्भ", "किशु", "वैंडल", "केंदुझार्", "ग़ाज़ी", "आदेश", "लिमिटेड", "फ़तुहा", "तिल", "खुटिया", "अंग्रेजों", "ब्रिन्दावन", "फाय", "सिहोर", "कैमरून", "नियोजन", "आँकड़े", "ौला", "डिटमोर", "क्रिश्चियन", "त्रुटियों", "प्रणाली", "मिथि", "खुश", "मुद्रा", "अभिव्यक्ति", "बॉ", "वादक", "मस्जिद", "नवकोथी", "ब्ले", "वध", "हरिराम", "ध्याय", "सूत्र", "केंदुझार्गढ़", "पाटन", "कैथोलिक", "चक", "परेतीपुर", "वर्णों", "शुद्ध", "रतिचित्रण", "पुष्पक", "सुहासिनी", "फायदे", "फीरोज़", "पावेल", "शगुन", "लाफ्", "सैदहा", "टाइप", "पहले", "विज्ञापन", "बार्थे", "छियाली", "तिरुक्कुरल", "डबि", "दूसरा", "लोहित", "तमंचगढ़", "कर्नू", "प्रदेशद्वार", "चुकी", "अल्लहाबाद", "दिसंबर", "किश", "उतराँव", "फतेह", "काठगोदाम", "माध", "रुक", "वर्धन", "धोवहा", "ज", "जयपुर", "अफजु", "मामूट्टी", "धेना", "तरीका", "डिजिटल", "मथु", "चुनाव", "स्थिर", "लदफो", "जीम", "परिवहन", "मछुआ", "ृह", "कामायनी", "यादव", "खगोल", "पु", "टॉ", "भत्तुवानिपल्लि", "स्टीफन", "दुः", "सूर्याणगरी", "हुनेरिक", "तांबर", "अभ", "संस्कृतिपर्यटनगोल", "पिलखिनी", "प्", "पंक्तियों", "जर", "मेंढ", "प्रण", "बिशुनपुर", "यौ", "मेदिनी", "ऑक्साइड", "ज़्", "युधि", "फायर", "नही", "महोत्सव", "विष", "ओ", "पृथ्वीपुर", "श्रीप्रकाश", "रेडि", "तीर्थ", "डीप", "समायोजित", "इन्द्रयानी", "चन्द्रगुप्त", "लक्षणों", "अड्डा", "चौ", "जन्मेजय", "यूनिट", "कम्युनिकेशन", "भूमिका", "दुर", "२००६", "भरौंधा", "गीत", "रिडेम्प्शन", "विक्रमादित्य", "शुंग", "जोको", "सन्दर्भ", "ट्वेंटी", "कमीशन", "दै", "चौगान", "देहात", "पाठक", "ग", "सारण", "भवनसंबंधित", "नालन्दा", "र्रा", "पकलुर", "द्रविड़", "री", "बीघा", "सफलता", "मार्च", "मौका", "धृ", "बाढ़", "जर्मनी", "बायोलॉजी", "बल्हार", "मामले", "ंकूवर", "ल्", "नूरनबी", "स्", "अनास्तासिया", "तीर्थंकर", "आरडी", "भक्त", "पेट्रोलियम", "ओडि", "कार्बोनेट", "गेहूं", "अंतिम", "महादेवपुर", "परभू", "ग्रीष्म", "अण्टीगुआ", "रोककफ़ोर्ट", "रुचि", "मुंह", "निर्माण", "किंग", "ग्रीष्मकालीन", "उपभाषा", "तिवारीपुर", "ऎर्रमट", "पढ़ने", "हिलदा", "न्ना", "पापड़", "भूभाग", "बर्", "डायोडाया", "सार्व", "पेंड", "विलेम", "मक्के", "ङ्", "कॉन्सटेंटाइन", "भाषाई", "शोरकोट", "मुकनासर", "कोचु", "औष", "थॉ", "मुतफकरा", "खखई", "तिहासिक", "काबु", "यूनाइटेड", "ंद", "उज़्बे", "मण्डलभामस", "लश्कर", "निगम", "शकु", "नागालैण्ड", "धमा", "चैम्पियनशिप", "जेल", "विकिपीडिया", "धुंध", "बिहारप्रमंडल", "ख़ागान", "बांटू", "मरियम", "चाट", "गापुर", "सूर्योदय", "डेली", "पोर्न", "९३", "भिन्न", "सुमित", "टाइम्स", "रॉबर्ट", "पॉवर", "कोंकण", "विकिफ़ा", "नगरआगरा", "२००२", "घरघो", "शब्द", "अधिकशिक्षा", "सयाजी", "श्", "वीं", "राकेश", "महीने", "सुलेमान", "क़तर", "सफल", "शहर", "अम", "राधावल्लभ", "डु", "तलाश", "लूनी", "पाठशाला", "आर्थर", "बोया", "शक्थिपुन्ज", "११", "मौ", "पक्", "कर्ता", "मोनोट्रीम", "डिवाइस", "तपो", "कुकी", "कनालीछी", "बापूधाम", "मल्होत्रा", "सूर्यास्त", "पनीर", "रक्खा", "दनडारी", "वाइल्डलाइ", "मार्गदर्शक", "भदवान", "घाट", "ज्वालामुखी", "मय", "शानदार", "सुब", "ा", "दाहिनी", "बबूरी", "पशुपति", "गणेशीपुर", "बाँकी", "पांडियन", "व्यक्तिगत", "बाइडेन", "लता", "वैकल्", "स्वीट", "किशोर", "कॊम्", "परं", "पात्र", "गोरखधाम", "समुद्र", "गणितज्ञ", "कोशिकाओं", "परंपरा", "खाजा", "रिंग", "बीच", "ण्डव", "१९५", "शेषाद्री", "वा", "हरीराम", "काफ़ी", "डियन", "१", "भद्राद्री", "वाराणसी", "विश्लेषण", "मचिलि", "दर्शक", "द्द", "वाहा", "पिपरौर", "सलाह", "यू", "छोड़ना", "अंबिका", "बढ़", "आधुनिक", "लापुर", "पूजन", "मालवा", "ज़ल", "चाँद", "तोड़", "गणराज्य", "आता", "विवरण", "अवसाद", "अदृश्य", "उठ", "खुद", "इम्म्युनोलॉजी", "पोषण", "उपनिवेश", "ोर्", "स्थानांतरित", "कवि", "ध्व", "बेल्छी", "अपने", "तहसी", "एल", "मध्ययुगी", "परिस्थिति", "बुनियादी", "प्रश", "प्पन", "लिबर", "ड्स", "मछरौली", "शोधकर्ताओं", "कंपनियां", "रोहि", "कोडआइ", "आबादी", "साइंटिस्ट", "बहस", "खागड़ा", "बलोच", "मढ़ी", "रेल", "प्रचलितगुजराती", "मर", "व्यापक", "पत्नी", "थायराइड", "देहरादूनइतिहास", "नेस्ले", "टर्मिन", "नानसेन", "कब्", "अफ्रीका", "रहती", "स्क्रिप्", "मियनचिय", "परसोत्तमपुर", "आसपास", "बांकी", "छः", "पर्यटकों", "त्रिगुणातीतानन्द", "वैष्ण", "ख़ु", "उदगी", "ंटी", "लड़ा", "पत्नाम", "पांडे", "इंटरसिटी", "सीधे", "डून", "नर्मदा", "७२", "हता", "कानून", "सहकारी", "आमंत्रित", "शुदा", "विचार", "जनतांत्रिक", "वाँ", "त्रैमासिक", "सपुर", "सांख्यिकी", "तीव्र", "डिब्रू", "मतलब", "मैथ्यू", "महबतपुर", "मालपु", "टर", "इब्न", "चढ़", "याकू", "जहानाबाद", "दाहि", "महाविहार", "मालीपुरा", "किशन", "खै", "बैद्यनाथधाम", "कडी", "माउ", "अदिलाबाद", "दादपुर", "ट्रिब्यून", "रजिस्ट्रीकृत", "लोहर", "जुमा", "अंदावर", "शौचालय", "स्ट", "शिंग", "रिच", "ओबा", "ी", "अधिकजिलेअल्मोड़ा", "न्गा", "डेनि", "पुनर्निर्देशित", "परीक्षा", "ार्", "त्रिपाठी", "मपुर", "कैलिफोर्", "मू", "बॉम्बे", "कुनवरपुर", "बहादु", "पर्वत", "नामालूम", "जॉनसन", "मिथिला", "बार्न्स", "परीक्षण", "जानते", "फ्लाविया", "द्रोणाचार्य", "थो", "बल्ले", "इंडियन", "स्तोत्र", "प्रतिभागी", "ड्राइ", "हॉक्स", "देवासंआगरा", "हुसैन", "बुलाया", "मिठाइयां", "ढू", "लुई", "वन्चिनद", "इरौंटार", "आरंभ", "फाकफोक", "जिसपे", "डू", "क्वालीफायर", "अफ", "कृप", "क्रिस्टी", "मणि", "केदार", "नुकसानदेह", "गुयाना", "भारतप्रान्ततमिल", "कोयना", "शृंखला", "रुप", "पोजीशन", "इस्", "आस", "ओपन", "बारिश", "कैफि", "हिंदुस्तानी", "आयरिश", "डी", "छौराही", "टैक्सी", "कसियौ", "अधिकसरकार", "माइज़ॉयर", "बी॰", "येल", "वेली", "मच्लि", "रत्नाचल", "॥", "संकाय", "बसगित", "शही", "बुद्धिमान", "उड़ी", "बाएँ", "डायलर", "साइट", "ज़र", "ख", "वैश्विक", "एक", "यूनी", "नाई", "भविष्य", "ब्लड", "इंटेल", "ंघ", "तर्कशास्त्र", "प्रदाय", "रिता", "ल्ली", "प्यागी", "हंडिया", "दुबेपुर", "कोण", "एँ", "प्रकृति", "क्षि", "जन्म", "नताशा", "विफलता", "मसालेमिठाई", "वीएम", "फु", "पोते", "्यार", "श्रृंखला", "हिंड्स", "खलीक", "ख्मेर", "श्रीकाकुलम", "ंका", "हांगकांग", "लो", "वाणि", "भांति", "मासे", "मणिपाल", "भारतीयपेशा", "व्यापी", "फ्रैंक", "बेल्जि", "दिघ", "हम्", "डिपो", "सलेहपुर", "पिथौरा", "सस", "कॉटन", "ललित", "विट्ठलपुर", "एग्", "दुमा", "गढ़वा", "सदाभ", "ौटा", "लूपाई", "मंगलबारे", "कागज्नगर", "स्पेशल", "बेहद", "दंड", "आज़ाद", "नंदीग्राम", "फ्रे", "सर्व", "इकाईयाँबनारस", "मुरलीधरपुर", "फिर", "डिज़्", "बजहा", "नदि", "रव", "विरासत", "मामा", "नेन्", "खुले", "लाई", "बाबर", "बनता", "विज्ञा", "अमेपुर", "बूढ़ी", "मल्हीपुर", "एच", "पैसेंजर", "क्रांतिकारियों", "भारतदेश", "काराकोरम", "ठकुरै", "गूजर", "संगीत", "याद", "टीपू", "लिपि", "१५४२", "चैप्टर", "शंकर", "उपरदहा", "हेनेवी", "करण", "कोरबा", "फिलि", "लॉ", "फ़्", "फ़ा", "लापसी", "बातचीत", "सीरियाई", "लकार", "सोसाय", "दन", "शौ", "ज़ोर", "युवा", "अधिकलोगहेम", "धीन", "प्रशिध्द", "बराबर", "इनका", "रूट", "सित", "उद्भव", "सुधार", "प्राप्त", "विजेता", "गामा", "नई", "नव", "दीघा", "अवस्थिति", "परमाण्वों", "स्नातक", "अनुसार", "अंग्रेजी", "सिम्", "निः", "जट", "बख्तियारपुर", "सफे", "लालसहाय", "सेवाएं", "तपती", "एसएआर", "फो", "सफा", "यज्ञ", "गायिका", "टमाटर", "तहरीक", "निगर", "कालीन", "जर्", "ओस्माना", "बंगला", "टाइगर", "पेक्ष", "धुसेनी", "ओख", "सदरेपुर", "२६", "राजशाही", "जमीयत", "कहाँ", "औजार", "वीरापुर", "सबसे", "टीडी", "शु", "विदर्", "डेमोक्रे", "मारकिस", "डाक", "नेकानामेपुर", "कॉलिज", "रूद्र", "१९६४", "इनसे", "अंग्रेज़ी", "पोखरी", "इज", "पीपुल्स", "बछ", "महामयानगर", "दोआ", "बिदा", "पवन", "अभिनेताकार्यकाल", "स्पर्श", "मंत्री", "लिया", "मेल", "गर्भ", "पाँच", "समर्थन", "अन्वेषक", "तेह", "शरीर", "टक", "अभियांत्रिकी", "गैप", "राजनीतिकसंबद्धताऐं", "मुस्तफ़ा", "वनपूर्व", "समाजसुधारक", "व्यास", "ॐ", "वीओ", "जेडी", "टिश", "विठ", "गांवआगरा", "वक्र", "हत", "मियों", "गाँवप्रखण्ड", "फैक्ट्री", "वृंदा", "आशा", "रेलप्राधिकारी", "इंडस्ट्रियल", "आखिर", "नोनारा", "खुसरुपूर", "गैया", "एड", "सूरीनाम", "बैगुल", "लिटिल", "बास", "बढ़ाया", "तूलिका", "न्यूरोबायोलॉजी", "भईंस", "त्", "चन्द्रमुखी", "शुरुआत", "जाते", "निज़ामाबाद", "मॉडल", "भोजा", "८९", "पुलिस", "दार्जिलिंग", "सोसाइटी", "तमिल", "मंत्रालय", "माउंट", "नंदापट्टी", "सेम", "टीम", "सदाशिव", "बीनैका", "गणेश", "मेटाबेलेलैंड", "आरोप", "कवरेज", "निकटता", "मीमांसा", "कोफ्", "हरफ", "तिब्", "उड्ड", "अल्बर्ट", "पल्नादु", "गांव", "बिल्स", "आयोजित", "बन्ध", "राधा", "ल्तान", "साइमन", "बायां", "मोन्दूलकिरी", "साद", "फ़ेयर", "हंसापुर", "मिलाकर", "प्रचलितमराठीसमय", "बागेश्वर", "देनदार", "गईं", "कन्दुकोंदैन", "कंप्यूटिंग", "थाईलैंड", "गायब", "बिजनेस", "सटीक", "मद्रास", "भाऊ", "सेमरिया", "बेगम", "बिरयानी", "कासी", "ग़ज़नवी", "प्रचलिततेलुगू", "अनुयायी", "दूलापुर", "ला", "मिर्जापुर", "सुजानपुर", "छी", "पटाया", "सैय्यद", "देवासंउत्तर", "आसनसोल", "ॹ", "ड़ी", "पनी", "कर्", "ट्ट", "लोकगीत", "प्रया", "पाखी", "मैटिक", "ट्रिब्यू", "पब्", "तेलुगू", "ऐं", "येकतरीना", "अप्रतिम", "फंसे", "तिरहु", "तगा", "शत्रु", "बिथिनिया", "होगा", "रण", "राजेश", "परांठा", "आव", "अधिकनगरदेहरादून", "दिसम्बर", "फ़ि", "ढ़ी", "जर्नल", "भागयनागर", "ब्रांड", "शिव", "४०", "विशाल", "चित्तौरगढ़", "घिरा", "दिल्लगी", "न्द", "गभाना", "केंद्रीय", "अक्षर", "विलुप्त", "सुलतानगंज", "चण्डी", "छोटे", "घोटा", "मास्टर", "बाधाओं", "दरबार", "कन्याकुमारी", "मोतिहारी", "अंबे", "फाउंडे", "ऩ", "दवाइयां", "जनवरी", "विवादास्पक", "पेट्रोल", "चौंसठ", "कम्बोडिया", "मुझफ्", "ट्यूट", "निबंधकार", "भमरौला", "मिट", "महबूबा", "राजकुमार", "ौर", "पसंदीदा", "विचारधारा", "धी", "णिक", "त्रिवेणी", "कर्ण", "गोलछापा", "पानदारक", "कोन", "मुलाकात", "औपचारिक", "ड्डी", "कुंड", "नेलवेली", "इंडीज", "प्रोटोकॉल", "नबर्ग", "वेद", "मुजफ़्", "केशोपुर", "नल", "इकु", "सेनापति", "गंगा", "पुवामझुवा", "मितौली", "सतलज", "ऊगापुर", "रायपुर", "तोर्षा", "शुक्ल", "चू", "श्रय", "बेनी", "अंधा", "संचालन", "किशुनी", "गैर", "क्रमानुसार", "सो", "टैकी", "मुफ्", "सम्बद्धता", "जनसांख्यिकीक", "तराई", "बीमारियों", "रिमो", "लै", "डिज़ा", "निशंख", "ौली", "चेतना", "लगीं", "ग्रहण", "लिज", "कॊ", "राबाद", "उर्वर", "श्रीलंका", "घी", "विश्व", "माइलदुटु", "अंचल", "वॉर्ट", "पवित्र", "पपृ॰", "जनहित", "बथानी", "ज़मीन", "नक्की", "जैस", "र्", "मेट्रो", "दृष्टि", "स्वी", "वावरिन्", "झांग", "गिर", "जम्", "शे", "६४", "क्चर", "हीराकु", "बादाम", "उपपाच", "धौरहारा", "प्रतिनि", "द्दा", "कुतु", "इन्होंने", "हन", "तत्व", "प्रचलित", "दू", "ब्लोम", "वुडफ़र्ड", "नवयुग", "ईसी", "अर्जक", "मामू", "सरगुजा", "कई", "आन्दोलन", "बिहारशरीफ", "भाषा", "साहित्य", "पृथ्वी", "नेवादा", "लोहाघाट", "लिमाह", "सीनेटर", "खू", "लोटा", "जवाब", "दाऊ", "प्रारंभ", "सैं", "लिप", "आदिवासियों", "मैथुन", "पास", "स्ट्रीम", "अरुणाचल", "महाबलेश्वर", "डक", "अण्ड", "वॅ", "वाय", "हाट", "विवादित", "एलिज़ा", "भंडारण", "चैनल", "संयुक्त", "केंब्रिज", "शिमला", "काज़ि", "आलु", "जनुवाडीह", "भिसकी", "धमाका", "मेडि", "बाहूर", "बताई", "हैंडसेट", "फाउंडेशन", "मध्यप्रदेश", "ओटो", "गबो", "काशीकांत", "स्वीकार", "प्राणी", "अर्धवृत्ता", "हज़रदुआरी", "मेडिसिन", "त्त्", "पत्थर", "स्व", "स्वाधीनता", "उमेद", "साक्षी", "कुं", "फैन", "पोर्टल", "वॆ", "विश्वविधा", "तापविद्युत", "बझेरा", "आन", "प्रभु", "पुरूष", "प्रकाशित", "कैथरीन", "क़बीलों", "सदस्य", "बहुगुणा", "गये", "गोनन्द", "खीजिरपुर", "पर्क", "आलोचकों", "तत्कालीन", "९ए", "तर", "त्रिगुणाती", "यर", "रबि", "बुङ", "विभाग", "सा", "अव", "इस्माइल", "मछलीपट्टनम", "क्ल", "पुरालेख", "मदद", "द्वितीय", "रूपा", "शाह", "व्हील्स", "शोले", "ड्रीम", "ान्", "माफ़ी", "कुसरी", "राउ", "जिद", "बैजनाथ", "जरकोट", "शास्त्रीय", "दूसरे", "ग्वे", "वैकल्पिक", "न्यूजीलैंड", "जनिक", "बर्फ़ी", "पूर्णतः", "भौतिक", "कैरि", "रत्ना", "पाणि", "विज़ग", "ब्रह्म", "जिससे", "डिकेन्स", "निष्", "२५", "उड़ीसा", "इम्", "किशमिश", "जैन", "संसाधन", "कपिमी", "हा", "रूस", "हिंद", "आश्रम", "बिहार", "नाल्ड", "कामाख्या", "लेकर", "अक्तूबर", "धान्त", "माइपोखरी", "नीचे", "दोयाधुया", "३०", "अर्जु", "पुदु", "बमलि", "बहुचरा", "नामफ्लाविया", "मछली", "आठवीं", "वैशाली", "लुमडि", "वेश्यावृत्ति", "बर्ग", "फाक", "रावण", "सोसायटी", "तत्", "२७", "दुर्लभ", "ब्ला", "नाम्सालिङ", "सला", "कोय", "ए", "पृष्ठों", "रोज़मर्रा", "गोल", "यहूदी", "गु", "सैगल", "चौथे", "खतरे", "छियालीस", "मेरठ", "लेपचा", "पर्ल", "८४", "चतुर्थ", "बोड़", "चुसेट्स", "एट", "मातृभाषा", "सेमिनरी", "ित्र", "गुआंग्शु", "मुत", "ममरेज", "जिलाकी", "ऐसे", "औली", "विकिपी", "लिये", "दि", "जैसी", "बलदिहा", "दाय", "सामने", "भाषाओँ", "माइक्रोसॉफ्ट", "जैसे", "सादगी", "साङ्गरू", "जंघई", "करने", "गवर्नमेंट", "नओगाँ", "मुला", "जम", "गोगरी", "बैगाई", "चेन्नई", "ज़म्बोआ", "ऐसी", "टेक्", "ट्रेन", "भनाई", "अटसेनी", "अमावस", "पृ", "मि", "८०", "आई॰एस॰एन॰आई॰", "ों", "गजुरमुखी", "अनुया", "बॉय", "केम्", "दूतावास", "भारतप्रान्तगुजरात", "गुस्ता", "जाति", "शान्तिपुर", "अब", "मिस्रीय", "बदाम", "भुन्ना", "आकर्षित", "समाज", "बिस्मिल", "बालोद", "केत", "पोर्ट", "ईसवी", "प्रोफ़ेसर", "पढ़ा", "ओन्गी", "नवभारत", "भाष", "सिथौली", "वत", "रेलप्राधिकारीरेल", "कोयम्बतूर", "डालकर", "नजर", "आभा", "स्कॉट", "उट", "रोबेर्", "घु", "सश", "निजी", "जनगणना", "देवड़ा", "ब्व्", "वेयर", "वनडे", "ऋषभ", "चंद्रशेखर", "चेन्न", "आई", "वर्ग", "डायबिटीज", "भारत", "स्वतंत्र", "जम्हूरी", "यूरोप", "नीदर", "परभूपुर", "ेस", "एतमादु", "फा", "मस्तिष्क", "सेमरा", "प्रेमचंद", "रिपब्", "एंड", "भाजी", "माही", "डायोडा", "तपुर", "श्चित", "तिरुच्चि", "प्रचलितबंगालीसमय", "बल्कि", "हुआ", "दीक्षा", "तंत्र", "मिस", "आईआई", "मक्कल", "संहार", "थीम", "रवथू", "बहु", "चाँदपुर", "मुस्तफापुर", "नमूना", "रिथवा", "स्मारक", "पटियाली", "आइ", "प्रतिदिन", "टोबा", "कन्ननोरे", "सिद्धांत", "मीटर", "जाबाद", "कसौधाँ", "रस", "शेखौरा", "परिणा", "रूद्रप्रयाग", "च्च", "तवा", "संपर्क", "कैरियर", "जंग", "ऊअन", "ट्", "केवल", "भीष्", "कोमाराम", "बई", "उपजिलाउपज़िलाबांग्लादेश", "खोखला", "ऑफिसर", "राजधानी", "सम्राट", "गोएक", "पेयअनार", "हौ", "उन्तसनी", "समाप्त", "शिवसेना", "माह", "बहकर", "३४", "स्टीड", "धे", "गोपाल", "ज्", "कुशीनगर", "विशि", "पा", "झराहा", "अग्रवाल", "जे", "वास्तुकला", "हेम", "ग्रैंड", "आईसी", "कार्ल", "निःशुल्क", "बढ़ो", "मानना", "बेची", "निम्", "अच्छ", "इस्तेमाल", "माइक्रो", "सरपोअसबीर", "कैट", "नगनथपुर", "ढोकला", "ंभ", "दार्जि", "विस्त", "४६", "दुसौती", "तंधर", "चूली", "भेज", "क्रि", "चट्टग्राम", "संचालित", "टूटीकोरिन", "स्कोर", "पिना", "लास", "थॉर्न", "अवयव", "दिनांक", "फील्ड", "काय", "मूवमेंट", "कि॰मी॰", "रघु", "अमीरात", "पट्टी", "गुंबद", "माथुर", "नकुल", "गोवि", "सजा", "फीफा", "देबीद्बार", "सीधी", "२००३", "ँजा", "उध", "जिंदगी", "सुल्तान", "अवशोषित", "ड़ा", "दोनों", "असवा", "यांत्रिक", "मझयार", "हेमवती", "प्रोटोटाइप", "वरदान", "तिरुवन्मि", "रिडेम्प्", "मुगलई", "बर्मेर", "थ्", "रिप्पन", "यमुनोत्री", "कुल्लू", "बाज़", "मृ", "सहरसा", "तुंगभद्रा", "अज़ीज़", "चल", "पाद", "देने", "भो", "पूर्णिया", "दल", "रीवा", "श्रेणियां", "ब्राह्", "विवादास्", "शाला", "कैडमियम", "सूक्ष्म", "अनुचित", "मक", "मेमोरि", "बहुसंख्यक", "संतुष्टि", "चौथी", "दोआब", "दावा", "हिलदामित", "अनु", "पूर्व", "हाल", "संस्करण", "नु", "थाली", "पट्टबिराम", "आरटी", "बाबा", "ं", "यक", "हटाई", "एन", "सांता", "मूंगा", "दाहिने", "जुम्", "प्रौद्योगिकि", "प्रगतिशील", "भारद्", "शत", "ऋ", "अनुभाग", "अल्मो", "फ़ालसे", "॰ऍ", "मनीषा", "बिहटा", "साध", "स्ना", "ब्रदर", "मीडिया", "डीह", "अशोक", "ओड़िया", "तह", "निदेशक", "अधिकांश", "प्लै", "महाकोशल", "अनुज", "वेग", "बुजुर्ग", "शहीद", "ग्रंथों", "तवाकुल", "ंज", "किंगडम", "टेन", "मैकरो", "वर्णन", "कठिन", "भोजन", "उठा", "शिकोत्सू", "आध्यात्मिक", "बाइडे", "खालिद", "बुक्स", "८२", "रुख", "मद", "मनसूर", "मीठू", "मियर", "सुरेहरा", "बल", "दिवसीय", "मैप", "रेखा", "रिपब्लिक", "भारतीय", "ताओं", "सॉल्", "चौधरी", "दिए", "त्रिपुरी", "तख्त", "मध्ययुगीन", "स्कू", "ड्राइवर", "गमन", "पवारत", "वकील", "पैगवा", "ज्ञम्नगर्श्रु", "परम्परा", "सॉफ्टवेयर", "पण", "सद्भावना", "किरदार", "राक्ष", "आईटी", "निर", "निःशु", "हण", "रघुपुर", "मेके", "सोन", "कश्", "नै", "छत्तीस", "सीरीज", "योगदान", "काश", "ंझा", "समझता", "श्ते", "पश्चि", "ओधिया", "सीरिया", "बॉण्ड", "चार", "मा", "बेरीनाग", "मकदूमपुर", "जब्त", "लियोन", "मीना", "आँख", "के॰", "साकेत", "स्वायत्त", "भूसंड", "इमाम", "पांडव", "विदेश", "वैगई", "्र", "साक", "आवश्यक", "असेपुर", "वु", "रोककफ़ोर्", "ईस्", "बुलंद", "लीगचैम्पियनशिप", "उत्तरायणी", "हार्ट", "मंचेरियल", "बिल्", "भै", "बाव", "मनोकामना", "चमन", "ट्रांज़ि", "पात", "आत्", "शबरी", "एतमादपुर", "देवदहना", "कद", "स्त", "यब", "तालुका", "डेहरी", "मुख्यभूमि", "तिप्", "वाया", "महेश", "वन्यजीव", "किद", "उधमसिंहनगर", "मलुपुर", "जीपीएक्स", "जिले", "छवि", "सद", "य़", "सतावाहना", "दुमका", "बेल्लंपल्लि", "विश्वेश्वरैया", "बांद्रा", "साउथ", "वल", "आवासीय", "२", "मदरक", "जनरल", "देहरादूनइतिहासपौराणिक", "ब्लोख", "जॉर्", "मज़ार", "टुडे", "आन्ध्रप्रदेश", "दौतपुर", "नुक़्ता", "बिंदाचक", "रोमानिया", "अज़", "मंगलौर", "स्टेट", "सियाल", "रेलेवे", "गोदावरी", "जायसवाल", "जल्दी", "क़ौमी", "बाभ", "उपजिले", "ू", "ऐंड", "बीरापुर", "चालुक्य", "थापा", "मण्डलआईएसटी", "परिषदनगर", "घोसवारी", "संराज", "फरकिया", "ज्योति", "रचयिता", "बनती", "लंद", "एर", "कम्प्यू", "वेफेयर", "नागरकोविल", "धौर्रा", "आगंतुक", "विंडो", "पीना", "ओर", "मनसूरचक", "अशो", "मराठवाडा", "नियंत्रण", "बोध", "सचखंड", "बड़ागाँव", "भत्तु", "प्रतिज्ञप्ति", "लद्दाख", "दुल्हिनबाजार", "ऑस्ट्रो", "सेब", "१०", "मां", "बाधा", "प्रदान", "आबू", "उम्", "मुइनु", "रिपोर्ट", "ग्रीक", "आयुर्", "अनिल", "मंगलीपुर", "क़िला", "सीनेट", "थॉमस", "प्रतिशत", "बहूपुर", "लाइबेरियन", "द्वि", "कल", "आस्क", "१८", "दारापुर", "शूटिंग", "ओखलकाण्डा", "हस्ति", "टैक्सोनॉ", "पैर", "नज", "अल्लेप्पी", "अल्प", "कुच्", "वर्षगांठ", "वक", "प्रचारक", "अंग", "सरलीफ", "चम्", "डिज़नी", "विश्वव्यापी", "पर्यटनमंडलआगरा", "ले", "क्कम", "अजेहरा", "पीली", "बैठ", "देवतैया", "बरबोटे", "फ़ौ", "म्यूजिक", "प्रागै", "गुरुकुल", "इटावा", "छत्ती", "रेडिस", "बांदा", "मिजोरम", "लिबरल", "चट", "यशोवती", "काटा", "कड", "मंडुआ", "यिन", "पटनाभूभाग", "सपने", "आर", "त्ता", "मोर्चा", "अण्डमान", "ईडो", "भट", "टेल", "पी॰", "पाठ्य", "लगाकर", "डेमोक्रेटिक", "भगवान", "दिनाजपुर", "प्रायः", "बाराकोट", "जोगबनी", "मुख्यालय", "वेल", "मुत्ताहिदा", "लीला", "मुलायम", "शैक्षणिक", "यहाँ", "वी॰आई॰", "शिल्प", "करुवा", "बबु", "जोगिंदर", "मधुरि", "जमुवा", "राष्ट्र", "स्वय", "महरछा", "सरापुर", "हालांकि", "प्पुशी", "मुहम्", "पोली", "न्दावन", "फिल्म", "गुगल", "बद्री", "्स", "बुंदेली", "तांडव", "कर्णा", "कटि", "डॉ", "छेत्र", "पल्ना", "गोविन्द", "शक्थिपुन्", "फुँए", "रचनाओं", "शौर्य", "इच्छा", "बजा", "कोइंबा", "लाफ्तान", "हैं", "टी", "बाराबंकी", "पटेल", "विशेष", "अशुद्धता", "गुआंग्", "नर", "ब्", "धू", "वाराणसीज़िलेअंबेडकर", "फरवरी", "खखईचा", "लखिमपुर", "तिरुवल्", "म्भ", "भूलेंड", "अदिला", "अस्", "छूट", "गेहू", "फूंचोग", "अभिजात", "उद्", "ऋचा", "गण", "बदला", "ओन्", "चित्", "स्वयं", "कोलाट्ट्", "बच", "जनसंख्या", "देवसैनी", "प्ले", "नैन", "कन्दुकोंदै", "भदैली", "षण", "सुआरा", "गृह", "दिये", "न्यासी", "पांडुलिपियों", "कांस्य", "रिडेम्", "तिब्बती", "एंजिल्स", "एरकेल", "चिटो", "तस्वीरों", "ंछड़ि", "फरक्का", "जनजातीय", "वृन्दावन", "हौदा", "धै", "वृषभानु", "सिरीयल", "७ए", "नाडू", "चोट", "न्", "नय्यर", "कैसे", "डिजाइन", "मारकंडा", "स्कैन", "करौहा", "जरिए", "आइ॰", "प्रायद्वीप", "उधमसिंह", "बलिदान", "नीलाचल", "सुम्बे", "राजनीतिकसंबद्धता", "मजदूर", "ऑस्टेन", "चलाया", "शुरुआ", "वृन्दावनइतिहास", "सरकार", "धर", "कॉलेज", "अररिया", "सड़क", "विस्तृत", "पैरा", "अखबार", "अनास्ता", "महसूस", "बंद", "हिंसा", "क्रेग", "क्वार्", "विशाखापट्टनम", "एसोसिएशन", "महुवा", "गरघनपुर", "स्वाधीन", "मेगालि", "विभाजित", "लु", "शामिल", "ओवर", "प्रयो", "शाल", "क़ादिया", "नोकिया", "मानव", "सौं", "स्टैनफोर्ड", "हडि", "मझ", "उस", "माँ", "फेलो", "शाहप्रदर्शन", "कॉर्नेल", "फै", "खली", "ऱ", "परसावां", "लौट", "रॉ", "लिवर", "मॉन्टै", "वस्तु", "मचिलिपत्नाम", "मिसि", "टबॉ", "मुझ", "चिड़ियाघर", "उद्योग", "बोत्सवाना", "कचेगु", "बाकी", "ज़ु", "सोयाङनगरपालिका", "प्राथमिक", "कचे", "रमे", "मिलता", "मं", "हीरा", "मुरली", "मयिलाडुतुर", "मथो", "आईं", "क्र", "गुण", "बोस्टन", "प्रौद्योगिकियों", "शुरू", "ऑस्ट्रोने", "बारीपदा", "मुकु", "मुतफ", "आज", "मॉड्यूल", "याकूबपुर", "रस्किन", "गंगोत्री", "मार्कअप", "दुब", "हिपो", "सकते", "सम", "सॉ", "उल्", "एलुरु", "फैकोकोएरस", "सिहोरगढ़", "य्या", "नांग", "रेलदेवासंभारतीय", "पहचान", "टॉम", "रोक", "पि", "डब्", "सम्मानित", "यूना", "कर्मचारियों", "नो", "खरगपुर", "इबादत", "रज्जु", "लभ", "कोप", "चुनौती", "लुकास", "ऑस्ट्रोनेशियन", "निषेध", "उपमहाद्वीप", "वी॰", "जैमिनी", "सेंचुरी", "अंत", "टेलीविज़न", "धर्मशाला", "स्मृति", "उपन्यास", "मानहानिकार", "एंड्रॉएड", "रणकपुर", "राजनीतिज्ञ", "गर", "पचा", "राङ्", "दुल्हि", "सीमाओं", "शक्ति", "हुमायूं", "आरोहण", "मुरा", "रथ", "मूंग", "गंधा", "जामपुर", "लाख", "कल्चर", "सिन्हा", "दृ", "क्रास्नो", "झामु", "अंतराल", "जेम्स", "यम", "एल्गोरिदम", "पिलखि", "आई॰ऍस॰बी॰ऍ", "खानसामे", "उजराई", "वर्मा", "साङ्गरूम्बा", "तहत", "तड़पाने", "क्रियान्वयन", "न्य", "नोबेल", "हू", "परम्परागत", "सिटी", "भौमिक", "सेंगोत्त", "जह", "मल्होत्रालेखक", "बिएन", "पिच", "दुःशला", "श्रीराम", "बिष्णुपुर", "धौलाधार", "वल्लभ", "नेटवर्", "तट", "परिच", "दिखाएँ", "भिंड", "अत्यधिक", "खगोलज्ञ", "काजोल", "गिरिडीह", "महादेव", "सिंहभू", "चन", "गोदक", "सोया", "पड़ोसी", "ॊ", "तापमान", "कनाली", "माधोपुर", "प्लस", "फ़्रांसीसी", "मानचित्र", "मत", "लूसी", "कण", "ैल", "प्रयास", "नगीना", "सिद्धार्थ", "हयात", "कतरा", "टाइटैनिक", "भत", "उतरौन", "पक्षियों", "आउट", "मेहरु", "र्घ", "कुशाण", "पिंक", "छत्तीसगढ", "समझते", "हिमाचल", "कुच्बेहर", "राजमार्ग", "राजपूत", "सहकुंड", "गाह", "उग्र", "खरीद", "इतने", "दय", "देवासंइलाम", "हवेली", "सभा", "ढु", "विशिष्ट", "ओहियो", "प्रशा", "सुखा", "शीकी", "झांसी", "जामुन", "आईआईआईटी", "होती", "केम्पटी", "कक्ष", "जोडी", "चाह", "तीर्", "उज्ज्", "संस्करणों", "लखमार", "कवई", "गैस", "वां", "ध्द", "समोधीपुर", "४७", "कोठागुड", "प्रदर्", "अनुयाई", "चाओली", "कासिम", "जापान", "विभा", "बल्हारशाह", "राहत", "तिरुच्चिराप्पल्ली", "मूर्ति", "जगित्याल", "निर्भर", "एसएआरएस", "भौ", "उपज़ि", "सिरकार", "हुबली", "व्", "सहायक", "प्याङ", "कटेहारी", "वर्कर", "पुरुषों", "नन्देद", "शीश", "ग्वेलियार", "हल्द्", "रविंदर्", "जाए", "हुगली", "संर", "सीटों", "स्वामी", "मेट्रोपॉलि", "पड़ने", "महाकुम्भ", "निगमपटना", "ट्रांजिट", "अनुवाद", "तुर्की", "गूना", "ऑफिस", "साहब", "कलुआपुर", "हबीबगंज", "आर्मा", "ऊर्जा", "दुभेरा", "जिलाशासन", "क्रिस्चियन", "शेखावा", "निभाई", "झाझा", "एसडी", "विरुद्ध", "दासा", "बुंदे", "लोहरदगा", "छतौना", "किस्मत", "ौड़", "ु", "मार्क", "रू", "मिड", "मनमा", "पौधों", "संस्थानभारतीय", "मनसी", "मियामी", "दबाव", "१९९", "बाया", "व्यव", "शहडोल", "वकसापुर", "सुपर", "अंदर", "मुहा", "के", "जित", "भूभागबिषयबिहार", "बर्तन", "ट्रिप्लिकेन", "अदमपुर", "मुख्य", "आदमपुर", "कीम", "खोल", "द्विपक्षीय", "डंडा", "कनाडाई", "मैनुअल", "जानकारीजन्म", "धुले", "ऊंचा", "थाई", "ंब", "आज़म", "नेत्र", "भगौतीपुर", "जै", "में", "एन॰आर॰", "शिबू", "एशियाई", "ओम", "श्रीरामचंद्र", "उपाध्यक्षों", "शिमो", "सै", "टियो", "रेवांचल", "निम्मू", "सोनपुर", "रेन", "टी॰", "इरा", "त्त", "वाक्य", "शरणार्थियों", "षट्", "दाह", "सुनील", "अधिकभूगोल", "कुत्", "नाथपुर", "सोम", "सीईओ", "रेलवेउत्पादन", "असेम्बली", "छूटती", "मकबरा", "मोबा", "पड़", "छे", "५", "फ्रांसीसी", "आरम्भ", "किसी", "सु", "पीपु", "आर्मागे", "नंद", "जलवायु", "होलापुर", "जा", "आकर्षक", "घटोत्कच", "जीत", "गावाँ", "मिशि", "त", "तब", "गुणवत्ता", "समुदाय", "बिल्सड़", "बेहतर", "सामाजिक", "जिम्बाब्", "ठकुराइन", "टेलीवि", "लद्दा", "सॉल्वै", "दिन", "ज़ई", "गानि", "अनेक", "जमनीपुर", "लू", "डब्ल्यू", "हथ", "अमोगपुर", "व्यवस्था", "बांस", "छेना", "तथ्य", "बोड़नदी", "इकलौ", "सिउरी", "धीपुर", "अह", "बहुविकल्", "दिघौटा", "कुरगावाँ", "कोल्हापुर", "पिनकोड", "फिफ्टी", "प्रतिबंधित", "प्रमाण", "१९०५", "तरछ", "इयां", "मोटे", "सेवानिवृत्ति", "सभ", "जिनके", "भोपाल", "१५०", "वटी", "जोड़कर", "क़ादियां", "कोयंबटूर", "एरनाकुलम", "भारतआवास", "नयाँबजार", "लिखा", "बील", "डीआरडीओ", "पिछ", "साग", "एक्सटेंशन", "वो", "हाव", "गोपालगंज", "उच्च", "जबरदस्त", "शहंशाह", "सत्याग्रह", "शाखाओं", "एफ॰", "जैतपुर", "नौगट", "देवासंपटना", "स्मार", "लैंडिंग", "लपुर", "मुस्", "फाइनल", "दक्षिण", "हपुर", "तरा", "चं", "बंगलु", "मिमी", "ऑनोरिस", "रोमानियाई", "माहू", "दपुर", "साँखे", "कश्मीर", "मूठा", "प्रचार", "कालीपुर", "वज़न", "तिप्पू", "घिरी", "उन्नाव", "कांत", "प्रिंसि", "हरि", "उत्कल", "संलक्षण", "वाइल्डलाइफ", "एव", "निश", "मॉन्टैग्नार्ड्स", "शासन", "कॉफ़ी", "हास्य", "शेयर", "शह", "इसपर", "सलेमपट्टी", "सतलुज", "म्", "ंख", "हापा", "जयसलमेर", "क्रांति", "अदाल", "मीठ", "बो", "हैया", "कोरोना", "आतंक", "पन", "सम्बन्ध", "उदग्रता", "पट्टीराम", "यत", "ात", "उर", "कर्णावती", "रेवारी", "गई", "डिट", "विभिन्न", "भीलाड़", "रान्थाम्भोर", "पुतला", "जिंक", "१९६७", "जाएगी", "सैमु", "क्वालीफाई", "भारतप्रान्तपश्चिम", "साबरमती", "झेलम", "उपकरणों", "उन", "वेधशाला", "सीरी", "फैशन", "जमशेदपुर", "लेबल", "पकवान", "चमै", "समरुवा", "योजित", "उपलब्धियों", "शेष", "सेक्स", "सहयाद्रि", "आबन्धन", "ताम्रपर्णी", "कुबेरपुर", "शिप", "सरयू", "झरना", "विशेषज्ञता", "डोवे", "इतनी", "ईसा", "ज़ू", "पैसेंज", "क्षेत्रीय", "हि", "पदार्थ", "ताइ", "ोर", "गपुर", "डी॰", "ब्रिज", "बफलो", "हेनावी", "क्त", "वई", "कांफ्रेंस", "फोटोग्राफी", "लगाया", "कीय", "इंडस्ट्री", "पियनशिप", "सिद्", "शिलांग", "़", "ेस्", "समझने", "सुपरफ़ा", "कचेगुडा", "वीक्ली", "पिर्", "वियत", "ग्रीस", "देवबाड़ा", "अलियापुर", "अनूदित", "पाई", "भीखनपुर", "ज़िलार", "फस", "फाई", "मैरदान", "मृदा", "साकफारा", "दिल्ली", "जानकारी", "खूँटी", "बल्लेबाजी", "कुरुक्षेत्र", "टोकागावा", "मिर्", "बख्", "ग्रेगोरी", "७८", "धरोहर", "शेट्टी", "राजस्थान", "गंग", "दिग्", "वेनाद", "तिरुनेलवेली", "नीत", "खोङ", "लड", "करके", "आंदो", "सममित", "त्त्व", "बुलन्दशहर", "लंदन", "दौसा", "प्रभ", "मृत्यु", "अक्टूबर", "जामा", "उज्जैन", "ंस", "कराची", "कं", "कु", "हवा", "द्रुमयू", "यशवंत", "सरल", "बिल", "द्वी", "सहस्रार", "ष्ट", "जिनकी", "नेल", "ज़", "श्रीपुर", "हरदो", "डायबि", "पुरुष", "आर्ट्स", "भवानीपुर", "तृण", "नट", "मरुधर", "खेड़ी", "सईदाबाद", "उपाधि", "ज्ञानेश्वरी", "बाजिदपुर", "भीड़चक", "फुँ", "४", "छा", "वेट", "शर", "जी॰", "बरिस्ता", "अनुपालन", "सभी", "मंगदपुर", "लीडर", "नुक", "हार्डवेयर", "राधाकृष्ण", "मसौढी", "अगस्त", "नम", "भ्रष्ट", "कोड", "क्षति", "ल्ला", "जुड़ी", "रुदा", "तुर्क", "कसियौंझा", "कुमा", "पोआदन", "मानसिक", "नंदा", "तरक़्क़", "ग्वालि", "आत्माराम", "शर्", "पाठ्यक्रम", "सल्", "काउंटी", "कंचनजंगा", "भक्ति", "मुखवर", "फिल्", "बाराब", "इंडि", "सीमित", "समझ", "कुंबकोन", "जीवनशैली", "द्वारका", "सर्वोच्च", "चिटोज", "खानपान", "असगरपुर", "जोसेफ", "तन", "नग", "ँसी", "शब्", "गुझिया", "हिमगिरि", "बजे", "छीनी", "रीखी", "ओधियाम्बो", "टर्मिनस", "पियन", "आहू", "घट", "छेद", "ख़ो", "निधौली", "इन्दिरा", "रोमांटिक", "णा", "एवर्टन", "रास", "राष्ट्रपति", "नॉर्थ", "हल्", "कैफियत", "दो", "रक्षा", "हासिल", "से", "धारवाड़", "हृदय", "सपना", "नगरीय", "क्ष", "इंटर", "जी", "गौहरपुर", "चाम", "तलाब", "कै", "अंजुम", "आजमगढ़", "फ़िल्", "अंबेडकर", "उर्दू", "मंडल", "खोङजि", "झा", "अरशद", "ग्लोब", "स्वेच्छा", "कंप्यू", "ऑस्ट्रेलियाई", "बछवारा", "पारादीप", "मुंग", "अमज", "खैर", "ित्", "कस्बा", "काकुल", "टूर्नामेंट", "बिलियन", "गिना", "ज़ेग्लो", "कैमरुन", "विषय", "बाइबिल", "महोबा", "हिंदी", "मिंगो", "बरा", "धपुर", "पुष्", "सुंदरी", "कोवई", "बरौनी", "मुस", "९६", "बट", "१९६", "अर्धवृत्ताकार", "परियोजना", "जीववैज्ञानिक", "भि", "यन", "क्रिस्", "शंघाई", "झुं", "बीजो", "भाषी", "त्रिवेंद्रम", "गंडक", "जगह", "सली", "चयन", "सैय", "ज़ंस्कार", "बर", "वितर", "असमर्थ", "संस्थानसंबंधित", "दास", "रेंरिया", "तरीके", "चढ़कर", "ठा", "खजुरा", "पिछला", "मैर", "रियल", "चामुंडी", "मट", "ज्योतिबा", "मयासुर", "तो", "जहाज़रानी", "इलाज", "छप्पन", "अनुकूलन", "प्रसिद्ध", "षेध", "पूजा", "ढांचा", "लक", "हर्", "कां", "विद", "एवर्", "हापुर", "नन्द", "ज्ञा", "खरा", "खप", "सेमरी", "रोड", "दे", "सुर", "पत्रकार", "धमौल", "जमु", "लॉन्च", "खगोलशास्त्र", "पोआ", "उपलब्ध", "छह", "इत्यादि", "ओरिएंटल", "जयंती", "जीवविज्ञान", "कैमरू", "अभिमन्यु", "ड़ते", "आध", "यातायात", "सिम्हापुरी", "फैसला", "१७", "खेलते", "उअभा", "अति", "टोन", "देखते", "सारीपुर", "संगठन", "एफसी", "इबाद", "जून", "क्रोध", "हल", "डोना", "बचपन", "सम्पादक", "सप्ताह", "ड़क", "बंट", "पीला", "एतमादुद्", "प्रांत", "सौंपा", "अब्बा", "दह", "रहीमपट्टी", "गढ़वाल", "देहरादून", "श्यामलाल", "पिथ", "हूसी", "पुणे", "दिह", "उनका", "स्पर्धा", "शासक", "पार्लिया", "८८", "पर्यवे", "वराह", "कडप", "मुलै", "चाहिए", "शाय", "जोधपुर", "बाल", "राजभाषा", "संबद्धता", "झामुमो", "माकनपुर", "साइंसेज", "दैर्घ्य", "हावडा", "वावरि", "मूँगिया", "ध्", "नगला", "शोध", "झलक", "अफ्री", "अधीन", "सैंतियागो", "माइज़ॉ", "वर्षों", "अनुप्रयोगों", "्यद", "क़ा", "डूंगरपुर", "बताया", "सशस्त्र", "प्रा", "ष्ट्री", "चाहि", "कार", "मूल", "देकर", "पंथ", "हटाएँ", "हस्ताक्षर", "डन", "पार्टी", "पीपल", "लुम्दे", "जिसे", "है", "निम्न", "श्रेणी", "शकुनि", "पैरी", "अद्भु", "घाटूपुर", "दिग्विजयनाथ", "गया", "मामूली", "हरदासपुर", "गंभीर", "राघ", "पिंदौना", "कसौधा", "स्वास्थ", "बहुतायत", "ढो", "न॰", "बाँका", "बेहतरीन", "वातावरण", "देख", "वेरावल", "श्रीमती", "सम्मेलन", "ओलं", "बीज", "धागों", "निर्ण", "बिखरे", "हल्द्वानी", "रेश", "ढ़ा", "एलिवेटेड", "कम्युनियन", "गढ़", "त्य", "च्", "टेलीफोन", "कोइत", "सिक्किम", "लखनऊविषयइतिहास", "इश्कबाज", "पद्मावती", "फतेहगढ़", "सिद्ध", "प्राचीन", "किचिकिला", "प्लेटफॉर्म", "किन", "बद्ध", "चण्डीगढ़", "२००८", "कैन", "सि", "ओलंपिक", "चुना", "बिषय", "इकाई", "लड़ाई", "रूढ़िवादी", "ईटावा", "शहबाज़", "प्रदेश", "एल्बम", "भद्रा", "त्रिनि", "७०", "लोहा", "मॉर्गन", "बढ़ाने", "मुसम्मन", "हवाई", "येरका", "जैसलमेर", "हाओबा", "वे", "कॉपीराइट", "जपुर", "फतुहा", "खो", "अब्देल", "बुद्ध", "मग", "उपभो", "फगोई", "ॉर्", "ठाकुर", "सॉफ्ट", "डाटा", "न", "रत्य", "कौशम्बी", "विवेक", "फ्ल", "संस्कृ", "ख़", "गरुङ", "रामनथी", "बुद्धदेव", "भी", "अरवल", "ज़ो", "धन", "आलो", "सम्पूर्ण", "अर्शदीप", "वर्ण", "अनुसूचित", "दैनिक", "रोचक", "वाडा", "अलीपुर", "एटा", "नी", "नोद", "वेंकटादि", "नर्", "नेपाल", "मथुरादास", "पढ़", "प्रकट", "रामाय", "गुड", "निजामत", "संप्रदाय", "आकाश", "जाम्ब", "लेज", "१९२६", "शाब", "गेम", "आरडीबीएम", "लासपुर", "यू॰", "नदिया", "क्का", "सूइडा", "घट्टा", "सूइडाए", "मजीद", "गिर्दा", "पुदुचेरी", "मण्डल", "हाउ", "त्वचा", "बिसाऊ", "मोनो", "जहाँ", "डिब्बा", "ाना", "भटिंडा", "बंगालज़िला", "चैम्", "गञ्ज", "लियन", "निर्धारित", "माफी", "सिने", "जड़", "सैफ़ु", "बरौत", "बड़ा", "बोदवाड", "गहराई", "उड्डयन", "खीर", "गोबरा", "कला", "पद्धति", "यूटो", "पुराण", "जीवाश्मविज्ञान", "यदाद्री", "चुन", "सामना", "बंगालज़िलापूर्व", "स्टूडियो", "निम्नलिखित", "भिकियासैण", "स्पर्", "ईस्ट", "विधानसभा", "नदीशीर्ष", "गै", "देशांक", "मनोहारबाद", "समाचारपत्र", "ओडिशा", "नागर", "लक्ष्मण", "शिला", "एस", "किशनगंज", "ऎ", "प्रचलिततेलुगूसमय", "लाछु", "डीएफआरएल", "मधेपुरा", "ंगलौर", "बाएं", "देयोल", "बुधया", "दादा", "आचरण", "भूत", "हरीश", "फ़ॉर", "दक्षि", "फिन", "कोवा", "नीय", "प्रयोगशाला", "मकसूदना", "कादम्बिनी", "हरिवंश", "स्कोरकार्ड", "राप्तीसागर", "शाहजहाँ", "देती", "ऋण", "सेट", "थम", "मेयर", "एम॰", "बाजी", "धोराउ", "रोग", "चलचित्र", "लौ", "गोस्वामियों", "हरदोईप्रमुख", "व", "नेता", "विजय", "बिछ", "पेरिस", "तनहुँ", "निकलती", "थुलमा", "उँग", "मेकै", "टेट", "एग्मोर", "शस", "कार्बनिक", "खूँ", "बी", "समानताएं", "गिल", "कर्नाटक", "संयमन", "टाई", "हरफनमौला", "जियस", "डेल", "विष्णु", "झे", "रेल्वे", "वॉल्", "उससे", "रघुनाथपुर", "चावल", "कृष", "चित्तौड़", "जीव", "प्पी", "कोट", "नीम", "गुर्", "शराब", "सोयाक", "प्रमुखतः", "औद्योगिक", "ज़िलों", "चारागाह", "साउ", "अफ़", "सोमनद", "घ", "चेक", "योल", "भा", "जरा", "टूट", "गुल", "तु", "यूएस", "निमन", "अंजन", "बाराबांकी", "जाता", "विहार", "सूर्याण", "सूप", "उईग़ु", "कैंपस", "पटवा", "प्यारेपुर", "ब्लॉकबस्टर", "फ्", "क़", "मूवी", "एस॰", "दौलत", "खजु", "इडस्सेरी", "मुज", "नदियों", "मतदाता", "बरुना", "दत्तेपुर", "प्रतिष्ठ", "अध्यक्षता", "डोंगरगांव", "नारायनादरी", "नाइ", "जम्मू", "मनीपुर", "तिवारी", "संपूर्ण", "कोशिश", "येलेना", "कट्टरतावाद", "कचेगूडा", "आरएनए", "बिल्हौर", "शान्तिडाँ", "योद्धा", "ेश्वर", "कोचुवेली", "तीन", "इंग्लैंड", "करियर", "राई", "वरःमिहिर", "नहा", "सिनेमा", "जनघी", "मुक", "ॆ", "फ़्रांस", "महल", "बिथि", "निभाईं", "निर्देशांक", "जिम्ना", "यौगिक", "सोश", "नकारात्मक", "बमलिआ", "स्वीकृत", "तिरुवनन्तपुर", "सिमरन", "चो", "कू", "तख्तापलट", "चाँ", "बनाए", "डिजि", "स्थायी", "हंस", "पोइया", "सिम्हादरी", "वस्तुएँ", "बख़्तियारपुर", "बंगलुरु", "जीपुर", "बेग", "चतरा", "गर्म", "दुघेरा", "यद्यपि", "अन्य", "भोगवारा", "कैथेड्रल", "संग्रहालय", "तर्क", "जेऐ", "ड़िया", "भदोरिया", "अपर्णा", "अहीर", "कार्यप्रवाह", "मैन", "हरीपुर", "तपस्विनी", "निगरानी", "लग", "निर्देशित", "सहदेव", "उर्मिला", "किष्किन्धा", "देयता", "लाइबेरि", "गड़िया", "सर्वप्रथम", "दाग", "ण्डर", "वर्गीकरण", "हो", "ल्फ", "तुरंत", "पुनर्", "पढ़ाई", "कड़कड़डूमा", "क्लब", "ग्रंथ", "पुरातत्वविद्", "गू", "इ", "नू", "जुड़े", "जीपी", "दरगाह", "तिन", "मयिला", "चिह्न", "लन", "महीन", "देहांत", "नक्", "सभर", "मोती", "एलए", "खुर्रमशाहपुर", "पक", "द्दीनपुर", "वीर", "पठान", "योजनाबद्ध", "नन्दगोकुल", "खजुरिया", "परिसंघ", "मुश्", "इमा", "चंडीगढ़", "किराँव", "कांटी", "पै", "या", "सुझाव", "डिज़्नी", "विजू", "चारधाम", "आण्विक", "ग्वालियर", "बप्पी", "साल्मन", "मै", "मुंबई", "पेट", "जंघ", "सैयांआगरा", "प्रयाग", "असम", "तपोवन", "माई", "हुए", "टेलीविजन", "मण्डलबांग्लादेश", "कटिहार", "ुर", "छायाकार", "प्राक्", "डे", "सनहौला", "कोल्बुङ", "स्नातकोत्तर", "जंक्", "टाइम", "निभाने", "वास्त", "लिखते", "अल्पसंख्यक", "मिलती", "नरसापुर", "थू", "हिडि", "कोर्नबर्ग", "तुलना", "पुरस्कार", "निर्देशों", "जुम्मा", "मिलते", "सांसद", "चौदह", "पाठ", "लाइबेरिया", "यल", "ताल", "लॉजी", "जलप्रपात", "ऋतु", "वजह", "बीकानेर", "सप्त", "श्रावस्ती", "शाहोपुर", "हितेश", "कलश", "जोकोविच", "सीमा", "नौ", "विशाखा", "सामू", "खेडिया", "लतिरु", "आंतरिक", "इरे", "आन्ध्र", "पेरेज़", "जगुवा", "लय", "हबी", "रैपिड", "प्टर", "सलियाकोट", "रिलीज़", "सरका", "शीर्ष", "पोंटस", "शायद", "भारतप्रान्ततेलंगाना", "ित्त", "मुज़्ज़फर", "लेखतत्काल", "यूक्रे", "कोल्कता", "गोवा", "मियम", "इलेक्ट्रॉन", "भव", "चेतक", "पाये", "रोहता", "फ़िलि", "संयोग", "अ", "तिरछेंडु", "आंध्र", "अर्ध", "मोतिहा", "लोकापुर", "॰", "नगनथ", "तुहा", "प्रणब", "उन्होंने", "दोलखा", "नेगी", "चफला", "विपण", "वी", "एप्लिकेशन", "जेनेट", "दुल्हिन", "मुहिद्दिनपुर", "सुवर्ण", "आदमी", "हसन", "प्रशीतन", "नाश", "बिंदरवाँ", "रिचार्ड", "त्सव", "टॉस", "आबाद", "झंग", "गिन", "इं", "आसिफ़ाबाद", "हुतात्", "दलपतपुर", "अन", "बुग्याल", "तुर", "घरघोडा", "धर्", "ज़िलाप्रान्त", "छींट", "सल्तनत", "कर्मचारी", "निर्दलीय", "शेरघाटी", "मुकुट", "बेल", "भटि", "आर्मागेडन", "प्रतीक", "ब्रे", "तारीख", "तपोसिरिस", "भूसंडपुर", "बंस", "धोबहा", "धोपुर", "यूष", "समय", "रिका", "नारायणपुर", "तण्डु", "किलोमीटर", "भदरी", "इब्रा", "प्रेस", "टोरंटो", "फ़ॉ", "सर्दियों", "येगा", "सनदा", "चाँदोपारा", "टु", "आग", "सं", "स्कै", "हाउस", "अकील", "अर्थ", "हाफिज़", "डेवि", "फी", "बाघ", "रामेछा", "ध्वनियां", "ईस्माइलपुर", "अजीब", "ए॰", "कवर", "निदान", "अनुरूप", "लाव", "नैनीताल", "वरुण", "देखभा", "फाग", "लाइब्रेरी", "अरुंधति", "ऐक्टिव", "मुहम्मद", "रायगडा", "वर्क्स", "मिठा", "स्थापन", "नागवली", "विन्ध्या", "पाबना", "खबर", "निभा", "कर्नूलु", "परिवार", "रि", "माजरा", "मचा", "श्रेणि", "बाथूपुर", "बिंदा", "मधुरिमा", "अन्नाव", "मुज़ता", "मन्दिर", "एपिसो", "पलामोऊ", "पेगोड़ा", "संस्थापक", "रेड", "परिषद", "आधिकारिक", "पुण", "अल्मोड़ा", "पुनपुन", "देखरेख", "खमण", "क्षे", "मे", "मीर", "विस", "गौरीपुर", "ओवासपुर", "निर्झ", "देवगिरी", "इमेत्सु", "कभी", "कालाढूगी", "अनदेखी", "इड", "सोमनदॊ", "काद", "वास्तव", "उईग़", "खेत", "इंडोनेशियाई", "हुमायू", "का", "बुराक", "रिश्ते", "सुजौला", "िक्", "उपलब्", "खम्", "सुफ़", "अभिलेखागार", "धौली", "ऐसा", "वहां", "चार्ल्स", "कोंडागाँव", "सीस", "जनता", "६०", "मोन", "रपुर", "भोजपुर", "वं", "रंगराचौक", "गौरवशाली", "खानसा", "नादेर", "२०", "कर्ट", "मशहूर", "ध", "फ़ोर्", "चटपुर", "काण्ड", "हीराकुड", "कठ", "रद्द", "समन्व", "सलिमपुर", "बीहपुर", "मैक", "अग्निबीना", "जलील", "शाली", "लक्ष्मीपुर", "थुन", "दयोदय", "रामीपुर", "पाटलि", "डब", "बांध", "द्विपक्षी", "ससेर", "हड़", "इलाहाबाद", "वाकोट", "ौ", "चावलआम", "खड़", "किसुनीपुर", "प", "निर्देशन", "धनबाद", "पहुँच", "रंजीत", "रियां", "आशुतोष", "ृत्", "अवसरों", "फ़र", "मालदा", "ग्रोतोव्सकी", "थला", "डाला", "केव", "झुंझु", "३", "बोलने", "अवय", "रे", "बनान", "धागा", "हर", "तकनीक", "पायी", "रालन", "काम", "धिम्मी", "प्रबंध", "सुभाष", "माइमझुवा", "जोखि", "चिनितामनपुर", "रेगि", "इन", "लसी", "स्वदेशी", "मुगा", "विकल्प", "बि", "लियो", "जर्मन", "नेटवर्क", "जदूर", "डेजर्", "तिब्बत", "सत्", "अनुस्मारक", "बाध्य", "मातृ", "ऑग", "ण्डल", "नाटकरोम", "उत्कृष्ट", "राव", "दरभ", "सईद", "टैक्स्ट", "गहरी", "इंस्टीट्यूट", "य़ूसु", "गीर", "तः", "कीर्ति", "दापुर", "नरगि", "विंडोज़", "स्टीफ", "पहुँचते", "थर", "बरदीहा", "जेन", "हिंदु", "बसनेहटा", "हेमकुंट", "रीखीपुर", "ंक्", "आकर्", "नागपुर", "पुरेमिया", "जगदीश", "मुंत", "हथौड़ा", "मंदर", "छो", "प्रशासनिक", "कड़ियाँ", "कॉ", "तनाव", "गवर्", "टिहरी", "उन्होने", "उई", "वन", "इताल", "ञ्ज", "सिंह", "रतिपुर", "चाइना", "मॉड्यू", "दाश्त", "मोलवा", "चबिलहा", "तुलसी", "तांबरपरानी", "पानदार", "उचित", "आयोजन", "ताइक्वांडो", "ल्स", "क्रमशः", "गोर्खे", "जमालपुर", "सामा", "हरिऔ", "अक्षांश", "फाल", "जवान", "कविताएँ", "यात्रियों", "डब्ल्यूटी", "मोक्सी", "ंग्ला", "जौ", "श्रमजीवी", "एगो", "इलेवन", "श्त", "हिर", "रौ", "सत", "छत्रपति", "ज़ा", "उपजाति", "पृथ्", "हु", "लाइन", "नाग", "पंचायतसोनपुर", "िक", "अफ़्रीका", "गोबि", "चि", "लॉग", "उर्", "प्रतिष्ठित", "मिश", "चिन्", "परिहार", "जॉय", "यता", "८६", "प्रो", "टंडन", "मीठूपुर", "सैफ़ुद्दीनपुर", "गयी", "आलम", "नन्", "थैली", "उपज़िलो", "जातीय", "ओखा", "हिलिगायनोन", "मोटर", "ख्", "व्यावसायिक", "चुलाचुली", "आसिफ़ा", "जोशी", "मलयालम", "सैदपुर", "उपज़िला", "ज़ोना", "शिंगटन", "बेलबारी", "नाथ", "नगर", "त्स्वेत्कोवा", "गुफा", "६६", "नस्ट", "रोजर", "ख्या", "घेवर", "कास", "इब्राहिम", "द्वीप", "सामी", "धार्मिक", "शैक्षिक", "बिझवनिया", "ओहि", "प्रोटीन", "कृ", "भावनाओं", "घर", "जिला", "काबुली", "रंगीन", "लिपियों", "उत्तरकाशी", "स्ट्रोमेयर", "एल्गोरि", "श्री", "दीर्घचोंच", "खुर्द", "नता", "हुदा", "सी॰", "मेगालिबग्", "आदर्श", "बंगलौर", "शास्त्रार्थ", "मुज़्", "वाड़", "चैंपियन", "फ्लिक्स", "दश", "करता", "डाँ", "ना", "नवीनतम", "वस्तुओं", "आयो", "अंतरिक्षजैविकी", "दूवैल", "इयों", "फिजिक्स", "मंद", "झार", "साँखेजु", "रिजर्व", "पॉकेट", "वापस", "हुईं", "केरल", "डेवल", "बागपत", "गिरधरपुर", "उम्मीद", "केश", "राशि", "मैकरोनी", "सम्मिलित", "सुचंद्र", "्स्", "जल", "महत्वपूर्ण", "गढपुरा", "सू", "बापू", "प्रोत्साहित", "गौहारपुर", "क्षमता", "सथेर", "बॉलीवुड", "नेतृभ्रमि", "खेड़ा", "कैमरा", "मादा", "चर्चा", "उज़्बेकिस्तान", "मूल्यांकन", "जुड़ा", "त्रिपाठीदेश", "लखनऊविषय", "दिग्विजय", "मेरिट", "व्याकरण", "प्पल्ली", "वॆल्लाल", "फ्रिमैन", "चुके", "पृष्ठ", "१५३", "दोस्त", "१५५", "हर्ष", "मुर्ग", "रामेश्वर", "देता", "पहली", "समूह", "जुड़ते", "प्रयोगशालाओं", "बीजू", "घि", "होने", "राधिका", "कार्यपालक", "विक्रमशिला", "स्ट्रीट", "उर्फ", "आइ॰एस॰", "स्थलताजमहल", "प्प", "हरचंदपुर", "अंतर्मुखी", "पूर्ण", "रिक्ष", "ईसाई", "संबद्ध", "राँची", "जैवसांख्यिकी", "हिंदुओं", "मिथिलांचल", "विस्फोट", "जब्तशुदा", "चौक", "एशिया", "दीहा", "तोलेमि", "चिड़िया", "पल्लवन", "कोफ़्", "गंगो", "भ्र", "कम्प्यूटरीकृत", "तिरुच्छि", "जॉर्ज", "गुवाहा", "फ़ाइनल", "क्रो", "बनाकर", "जानकारीपूरा", "ऑटो", "ग्रं", "३१", "फ़ो", "संपादित", "चित्रकूट", "लखीसराय", "मेक", "यज्ञेश्वर", "फि", "हिराखण्ड", "हज़रदु", "मध्य", "जोश", "मतदान", "प्रोटो", "फिरोजाबाद", "मानते", "आईसीबीसी", "ज्जू", "फरीदपुर", "राज्य", "गूगल", "दादर", "मालाबार", "फूलों", "राजेन्द्र", "सोनाबरसा", "पिपरी", "दक्षिणपूर्व", "राठ", "विवे", "यॉर्क", "घटना", "जीनो", "प्रियंका", "वित्तीय", "चेन्नम्मा", "लम", "सेवाओं", "प्रतिमा", "नायर", "बराह", "एंड्रयू", "क्षिप्रा", "आशीर्वाद", "इंड", "ज़िलाजनसंख्या", "गोपी", "बाद", "नियम", "नहीं", "अच्छी", "चैमिक", "निन", "बिष्णु", "हिंगो", "तौर", "फिल्टर", "बेह", "भाषाएँ", "चैतन्य", "हाबी", "लाभकारी", "टाइ", "कतपुर", "रोम", "हिम", "कॉन्स्टेंटिनोपल", "जो", "सकती", "चोपड़ा", "भत्तुवानि", "ग्रोतो", "धरमपुर", "सुपरफ़ास्ट", "मिल्लेन्नियम", "पूर्वोत्तर", "तहसील", "बोहमन", "बेटा", "ृंखला", "माचिलि", "शम्भू", "अवरुद्ध", "आंग", "सिडनी", "वर्ल्ड", "संगी", "ण्", "बाई", "१९७", "बज़टी", "तरक़्", "अस", "जानीपुर", "अभि", "पह", "दुग्", "वैया", "खमरिया", "उदा", "प्रदाता", "सीमाएँ", "नदियाँ", "एप्", "बिनोद", "हाफि", "मुहाजिर", "गिरि", "महाप्रभु", "द्विती", "याँ", "सिफारिश", "रूबी", "झु", "सुत", "डियो", "तम", "लत", "विमान", "पांडु", "लिम", "बीत", "चेबिसे", "पुवा", "भोनगीर", "सैफ", "टिल", "कम्प्यूटरी", "घाघरा", "शरी", "जीता", "ब्रेक", "ओहायो", "टोडर", "सिस्टम", "शियन", "अजीमाबाद", "मौत", "वर्", "ही", "बालुरघाट", "वॉल्ट", "उच्चभूमि", "कैपिटल", "अलाहाबाद", "रेलवे", "ऋषि", "णु", "गणधर", "माया", "फे", "बिसा", "पेरंबूर", "अनारदाना", "मुंतजि", "ौल", "मामलों", "भूमि", "सैफा", "पी", "त्मक", "ट्रांज़िट", "जपा", "हनु", "आयोवा", "गाज़ी", "फल्गू", "बल्लेबाज", "सीकर", "बेटी", "जस", "जिन्हें", "ओसी", "नौकर", "ट्रांस", "ईटा", "रिप्रे", "खिलाड़ी", "अतरसुइया", "कुसा", "साक्षात्कार", "आर्थिक", "बाँझो", "षय", "सिंहगड", "पैसिव", "एपिसोड", "टुकड़ी", "ठ", "मुंडेश्वरी", "अजमेर", "देवानीपुर", "चिर्रावूरु", "एक्स्प्रेस", "मुंडे", "डेट", "फुँएतप्पा", "वीडियो", "पौराणिक", "गहरपुर", "एनालॉग", "अजुरी", "गृहस्वामी", "मुजफ्", "चंदोपाड़ा", "प्रीमियर", "लाछुंग", "कोइंबाटोरे", "व्ही", "मुरादाबाद", "सेसल", "्ड", "स्पी", "गाइड", "सेंट", "रोल", "मान", "खन", "राज", "अरुणा", "गंगोलीहाट", "दुसरे", "विद्या", "शरद", "ँच", "कसि", "तत्काल", "मजबू", "ताप्र", "गठबंधन", "प्रतियोगिता", "बैक", "ज्योतिष", "इस्पात", "लुमडिंग", "न्यूज़", "फोर्ट", "बाबरपुर", "केट", "विंडोज", "खे", "पुनर्गठन", "हफ्", "वोट", "दीन", "आरएल", "खतरा", "राज्यपाल", "भेलसी", "म्मी", "ष्ठ", "स्त्रियों", "धनरूआ", "वैदिक", "कल्याणपुर", "कैड", "खंद्रिक", "अलबर्ट", "जाया", "दशक", "वाइसी", "येरकाड", "सैनफिलिपो", "लेता", "विजे", "डि", "सवारी", "यात्रा", "तिर", "वेंकटादिरी", "रसीदपुर", "हैँ", "चंपारण", "मोक्सीबस्टन", "नाड़ी", "ब्लै", "पाक", "रखता", "विविध", "सह", "य़ूसुफ", "प्रताप", "आय", "खि", "इण्", "गट्टे", "विन्ध्याचल", "झुंझुनू", "नाटक", "ंरा", "बपुर", "रोटी", "सई", "लिश", "गहरा", "देई", "स्वास्थ्य", "बहुविकल्पी", "दुनिया", "वर्तमान", "साराभाई", "यहां", "गोकुल", "अमरीकी", "न्यायालय", "सिमर", "थे", "ऋग्", "एनीवा", "शास्त्र", "उक्रा", "रूपधनु", "वानपर्ति", "रोकथाम", "बांसवाड़ा", "द्रुमयूका", "भू", "बावजू", "गुआ", "लॉस", "खुर्", "ककर", "प्रखण्ड", "मजी", "थीं", "तिथि", "संभोग", "पुरुषो", "एस॰एन॰", "मगध", "प्रिंसिपल", "भीलवाड़ा", "उपाध्याय", "श", "शैली", "रायबरेली", "चाहिये", "सगाई", "कॉमन्स", "बकंडा", "अलेक्", "फू", "सोनभद्र", "गठित", "ड़ियाँ", "तुमकूर", "सोमनदॊड्डि", "मित", "त्रिनिदाद", "वृंदावन", "मैसा", "ड्", "महत्त्व", "पिथौरागढ़", "मीमों", "लश्", "सम्प्रदाय", "तंदूरी", "लूथरन", "उनसे", "किए", "लिन", "विषयउत्तराखण्ड", "यासिनपुर", "ऋग्वेद", "फसल", "जिलाके", "य़ू", "उत्पत्ति", "बलीपुर", "सिएशन", "हद", "मी॰", "जिम्बाब्वे", "सचिव", "नामांकन", "शम्भूनाथ", "७", "वानपर्", "भालो", "हीं", "खिच", "ष्ण", "निरंतर", "मियनचि", "थोड़ा", "बराकर", "ज़ेग्लोसस", "गुरहा", "लेख", "जालस्थल", "कोठी", "पैरालं", "अद्", "मार्शल", "समाधि", "आम्रपाली", "स्कृ", "समीक्षा", "रोज़", "कलाकंद", "रेमंड", "तन्", "एलिज़ाबेथ", "मुंगेली", "करीमनगर", "अप्रैल", "आन्दो", "जाँ", "डो", "होंने", "अक़ाबा", "जब", "घंटा", "ग्रन्थ", "कान्", "गदेरिया", "भूपल", "चिसापानी", "घंटे", "०४", "माथु", "पुदुचेर्री", "जगपाल", "काग", "विरु", "फैकोको", "अग्निहोत्री", "भुसका", "शिंदे", "चीन", "फतूहा", "मुहैया", "अक्तू", "यि", "खीजी", "शीर्षक", "म्बर", "पीर", "स्रोत", "फ़र्रूख़ा", "ताम्रपर्", "खुदाबंदपुर", "रच", "समृद्ध", "रंग", "पड़ता", "क्रिश्", "घे", "लक्षद्वीप", "कोणार्क", "सूअर", "थ", "पशुपतिनगर", "जीवनचरित", "आँ", "रांची", "विमो", "पीरपै", "गरिकपाटिवारि", "जुलाई", "बाहर", "ज़म्बो", "बनने", "बकरपुर", "ओंगबी", "ख़ा", "य", "देवीपाटन", "दीक्षांत", "लोचन", "प्रोग्रेसिव", "योगेश", "फलकनुमा", "एयर", "यूएफसी", "कठि", "ताकि", "वेबसाइट", "मिर", "स्काउट्स", "ट्यूब", "छवियों", "इतना", "संभल", "अभिनेताओं", "कोरापुट", "पंचायत", "सिद्धिथु", "शुभारंभ", "सवाल", "नोवा", "गिजौली", "भिमान", "आबन्ध", "परमाणु", "तोले", "बीबीपुर", "सी", "संरक्षितजिले", "अदालत", "हॉल", "वैभवपूर्ण", "सुल", "रूढ़ि", "नाटकरो", "य़ा", "वैज्ञानिक", "किहु", "त्व", "फेनी", "गुलाब", "हठयोग", "बाग", "र्डि", "लद", "ऊअनकत", "आते", "नुक़्", "वारा", "मंडुआडीह", "ई॰", "को", "वॉर", "हैवत", "उईग़ुर", "प्रोसेस", "पानीपत", "सरपो", "पशुओं", "सुम्बेक", "ज्ञानकोश", "महाभारत", "उम्मी", "अण्", "रूढ़", "मुज़फ़्", "रति", "भाषाओं", "मुशी", "गिनी", "हांदे", "हॉकी", "अधिकारियों", "भु", "काकीनाडा", "कुशी", "तटीय", "ः", "आकर", "ई", "भेजे", "ऐशबाघ", "सवार", "शाहजहां", "बाइ", "साइंस", "हेल्", "मार्ग", "झ", "बगहा", "महत्त्वपूर्ण", "अंड", "काव", "मेज़", "गड", "द्विवार्षिक", "फ़ू", "हिन्दी", "नॉ", "चन्द्रचूढ़", "गिरफ्तार", "अगवरखास", "हाइलैंड", "कड़गम", "गेंदबाजी", "हार", "विट्", "शहडो", "शता", "महाबोधि", "रशीदाबाद", "डुमरा", "सल्तन", "नसबंदी", "करणवीर", "पीरपैंती", "गेट", "मॉ", "निर्वा", "लपसी", "खुर्जा", "योजना", "भग", "द्दीन", "आयुर्विज्ञान", "ज़मी", "मेची", "मुलनापुर", "मेन", "शन", "हेना", "अथवा", "कोलकाता", "वडोदरा", "ऐनी", "पॉल", "इससे", "हैमरस्मिथ", "स्तंभ", "होनेवाले", "डिब्रूगढ़", "तिलक", "चानेथू", "जि", "धौला", "हिस्से", "समस्याएँ", "रामेश्वरम", "ब्लेयर", "किशुनीपुर", "गणे", "देसाई", "माग्", "जबकि", "काजी", "इनायत", "समीक्षक", "प्रेरक", "सूचीबद्ध", "कलकत्ता", "अर्थव्यवस्था", "नेकानामे", "अयोध्या", "झारखण्ड", "बीबी", "जाएगा", "ॅ", "पपुर", "उद्धरण", "दहलई", "ऎर्रमटं", "धाम", "बलूचिस्तान", "सप्तगिरि", "घन", "सीतापुर", "कॉर्बेट", "विभाजन", "ऑस्ट्रेलियन", "स्थापना", "स्लैम", "काजू", "एम्बेडेड", "गोपालपुर", "बबुवापुर", "मेघालय", "मनोहार", "एसी", "ट्रांसपोर्ट", "डुप्", "१५५८", "ठी", "हंटर", "उभरते", "आगंतु", "गणना", "विस्फो", "शताब्", "आजाद", "बिरुनी", "लैण्ड", "मुस्लिम", "तेनकासी", "इंजीनियरिंग", "कोठागुडम", "नऊ", "आदोनि", "हेमकुण्ड", "ओटी", "पोरबंदर", "ट्रिप्", "जाँच", "जनूबी", "त्याग", "घमहा", "नवजीवन", "कबा", "जटपुरा", "अवधारणाओं", "छोटी", "पदोन्नत", "व्यापारी", "मुन", "प्रथम", "बातची", "कथीड्रल", "किन्", "परिकल्पित", "मूसी", "मेहताब", "लकड़ीकेतहत", "एंटर", "जुआन", "लेह", "प्रौद्योगिकी", "हेतु", "काउंसिल", "जिर्मले", "तेल", "सलीमपुर", "अवामी", "चौमा", "सुवर्णरेखा", "जीवाश्म", "नगरकरनूल", "आमोदरा", "बसेगि", "पृष्ठभूमि", "रीना", "निमिवारी", "बोझ", "न्यूज़ीलैंड", "बाथू", "समस्तीपुर", "नक्शा", "साधक", "अंग्रेज़ीलागत", "एसए", "एण्ड", "खिलाफ", "गोदा", "बिलिरान", "२०२०", "भोज", "निर्झरि", "बकुलाही", "जिम्मेदारी", "प्रेअह", "लोक", "वेटरिनरी", "बीस", "करते", "इतालवी", "मीनाक्षी", "आदो", "एआई", "मंदि", "अग्निहो", "कोरोमंडल", "तंजानिया", "गंगोपा", "वडो", "हट", "मपट्टी", "यूरोपीय", "ेसी", "तवी", "म्परा", "मिन", "कि॰", "रेशम", "घिरनी", "पर्यवेक्षण", "अंग्रे", "सामग्री", "भई", "सलै", "सुखाव", "डीडी", "अज", "लेमी", "सिबु", "तल", "लेनी", "जाती", "संतुलन", "विद्यालय", "ढक्", "अक्", "गुवाहाटी", "नाइजीरिया", "कुमिल्ला", "तिरुमाला", "नाडा", "ऑ", "शरीफ", "एक्शन", "मनोरंजन", "मयिलाडु", "रघुनाथ", "बुजु", "ऐशबाग़", "कबाब", "तत्वावधान", "यात्र", "दामोदर", "िको", "शून्य", "उद्गम", "अर्नेस्ट", "उद्देश्य", "एंटी", "चैपल", "पिकफोर्ड", "चक्की", "कोमिला", "यशवंतपुर", "मुद्दों", "धा", "बाढ", "कैमुर", "तॉ", "पल", "हडि्डयों", "पुरस्", "कंपनिया", "जीवनकाल", "शुद्धता", "२२", "गठ", "मुसलमानों", "टिन", "सक", "टिप्पणियाँ", "नासिर", "अधिकशिक्षाभारतीय", "बुजुर्", "प्लेटफॉर्", "विन", "फुट", "मुबारकपुर", "विरो", "जानकी", "मेवार", "रान्था", "सीता", "ग्रीष्", "थरैया", "पीयूष", "यूसुफ़पुर", "भर", "कोसो", "व्यक्तियों", "सुझा", "जैविकी", "शारण", "डैनी", "विक्रमशाह", "स्टील", "गढ", "शार", "नदियां", "अंधकार", "सीवान", "व्यापारियों", "मैंने", "ब्रह्मपुत्र", "कैद", "खाल", "नैनी", "वॉर्टहॉग", "रंजन", "पश्चा", "हिन्द", "अंतर", "सर्वेक्षण", "रेट", "गेंदबा", "हनुमान", "अमूर्त", "इंद्रायणी", "भीकमपुर", "सब", "इमे", "दर", "अपटेक", "अतः", "रस्", "अभ्यास", "पूर्वमध्य", "माचिलिपट्नम", "लेन", "पैदा", "ब्रुसे", "वैरा", "कोल्", "रवि", "खराद", "प्रोफेसर", "फॉक्स", "सिद्धिथुम्का", "बेमे", "चिन्ह", "जोकि", "चिपको", "संग", "वॅस्को", "अत", "केन्द्र", "द्ध", "इंदौर", "बौद्ध", "वर्षीय", "किये", "तला", "गुर", "छापा", "प्रारंभिक", "पदवी", "चरणों", "भुवनगरी", "कड़", "रनका", "च", "मुस्तफा", "पुरातत्वविदों", "जटापुर", "वश", "धनुष", "यद्य", "शाहीपुर", "वसु", "दस्तावेज़", "वुड", "नेतृत्व", "यिंग", "प्राक्कलन", "कीपुर", "भारोत्तो", "मयिलाडुतुरई", "मोक्ष", "विनाशकारी", "राजगीर", "मोकामा", "बेथ", "चमरौला", "महाजनपद", "अभिनीत", "अफ़ग़ानिस्तान", "शेख", "चैंपियंस", "नेटफ्लिक्स", "टेलीग्राफ", "मुम्ब", "मेघनाद", "प्रकोप", "दाहा", "वाणी", "बॉक्स", "पो", "जयद्र", "हाजीपुर", "मनीष", "नेकपुर", "ंघम", "हुमा", "संस्थान", "दीव", "पापड़ी", "देवा", "खान", "पर्यटन", "आकृति", "धनकेशरा", "वियतनाम", "माइक्रोबायोलॉजी", "सुश्री", "सराहना", "टेम्पल", "जोखिम", "उतरा", "ईरान", "चैंपि", "कुवैत", "हिलिगा", "पं", "कांग्रेस", "जलपा", "एकतप्पा", "पर्", "न्याया", "सक्रिय", "१९७३", "भावनगर", "अंति", "आईएसटी", "देवासंभारत", "मदुर", "सर्वाधिक", "अभिनेता", "बहुमूल्य", "अहिल्या", "पारमाण्", "साहिब", "हाइलैंड्स", "अरुण", "नि", "लख", "सोमनाथ", "चीज", "अहिंसा", "ौन", "गतिविधियों", "प्रवेशद्वार", "सैमुअल", "कश्यप", "अर", "महबूबाबाद", "क्वीन", "युक्त", "कथ", "ताम्र", "कोरीपुर", "प्रोदुनोवा", "जोड़ती", "उनकी", "रामचन्द्र", "किहुनी", "ड़ि", "अत्याधुनिक", "आशय", "जैवसूचना", "९", "यूनेस्को", "भिर", "दुबकी", "्रि", "कुंबकोनं", "सिधवर", "एतमा", "काठर", "इभाङ", "दुबे", "हालाँकि", "उपयोगकर्ताओं", "डीन", "चाय", "स्तानिस्लास", "शियाओं", "सिग्", "१९९९", "फ्रांस", "पुंजक", "उत्तर", "दर्श", "ट्रंक", "अनुसन्धान", "जमीन", "तुंग", "निर्वाचित", "ठन", "स्को", "कॉलोनी", "ओसीएलसी", "बदलने", "गो", "भारतभाषा", "नितीश", "लिवरपूल", "बघापुर", "कुण्ड", "प्रौ", "मनाया", "विज़", "नगरपालिकाएँ", "भुवनेश्वर", "दत", "फगो", "उन्हें", "स", "विरह", "शल्य", "बाईं", "जाग्रत", "शपुर", "हमेशा", "पारंपारिक", "मल्हो", "३३", "प्रतिनिधियों", "ईस्वी", "अभिगमन", "महाजना", "धीमा", "बेमेतरा", "देवासं", "शक्", "सिल", "फॉ", "आकार", "सय", "कवरे", "स्र", "पेन", "सैन", "पस", "कोठा", "फेयर", "ऐवन", "स्टैन", "ज़िला", "धर्म", "रेवंचल", "वार्ता", "बाड़", "महात्मा", "दाबाद", "श्रीका", "स्क्रिप्ट", "बाज़ार", "८", "पाकि", "वैनगंगा", "बाह", "मथोय", "माबाद", "हुनर", "घो", "छौरा", "जमशे", "ड्र", "क्रोनो", "विपणन", "पीछे", "सीपुर", "ख़ागानत", "मोहिसिनाबाद", "प्रतिस्पर्धा", "ओवेन", "कस्", "मुग़ल", "सेन", "प्रयागराज", "फ़र्ज़", "शारदा", "उछा", "दोहरी", "मजलिस", "राजकोट", "अवशेष", "गिरफ्", "एक्सप्रेस", "जंक्शन", "अभिनेत्री", "राज्याभिषेक", "साम्राज्य", "वी॰आई॰एफ॰", "संघर्ष", "गहरे", "झिल्ली", "लैम्ब", "चट्ट", "किताब", "लोकशक्ति", "छावनी", "माध्यम", "कोल", "एम्ब्रोस", "जिंद", "बोलचाल", "दामो", "देवासंअलीगढ़", "सिम्हा", "शीर्", "रुद्रपुर", "ॉन", "गोपालीपुर", "समस्याओं", "ग्राफी", "उक", "डायरे", "फ़तेहपुर", "िका", "लिख", "आण्", "स्पेन", "ईषा", "अंततः", "जैनथ", "थु", "ल", "रोगियों", "ग़ल", "पार्थ", "विशाखापत्तनम", "श्रीअन्तु", "स्तरीय", "ड़ियों", "मध्यकालीन", "ण्ड", "सोनिक", "लेफ्टिनेंट", "थोड़े", "वाई", "मरदापुर", "लार", "फुलवारीशरीफ़", "अमृत", "फाइटिंग", "पौडी", "महाकोश", "मसूद", "कावेरी", "परिष", "अटॉर्नी", "पद्म", "अन्यप्रयुक्त", "द्वापर", "सुए", "त्स्वेत्", "दीप", "छाया", "दूसरी", "प्रणालियों", "आमचोक", "चौंस", "आरसी", "झिया", "असरगंज", "नालंदा", "लूणी", "उद्भवसंबंधित", "चित्राल", "भट्ट", "्य", "बनास", "औरंगाबाद", "होता", "कोल्लम", "बक्सा", "स्थापत्य", "मिश्र", "वैश", "चटवाल", "नवीन", "कांगड़ी", "भल्ला", "आक्रमण", "ँव", "गाँ", "कुँवर", "साँखेजुङ", "चेबिसेव", "दाईं", "बोसॉन", "रेखाओं", "हजरत", "होली", "वेध", "रज", "जिर", "सागर", "तेलन्गाना", "कॉम्", "भखरी", "अत्यंत", "सेल", "बंजर", "ऊंचाई", "चिन्तामणि", "राहुल", "कन्नौज", "प्रस्ताव", "दामिनी", "सेवर्त्", "जावा", "हॉ", "जौनपुर", "दादूपुर", "हिम्मत", "नयी", "तारीख़", "विच", "यू॰के॰", "ती", "रक्", "तिरुवन", "सेवाग्राम", "रम", "हेले", "नीहरिकाएँ", "मिरजापुर", "अहमदाबाद", "दृष्टिकोण", "तीसरे", "रुपा", "मेघा", "अनन्तपुरी", "थल", "फोन", "मसुइ", "आई॰ऍस", "खिरिया", "किलो", "६", "हाई", "॑", "वी॰आई॰एफ॰ए॰", "भूमध्य", "द्विपद", "मिहिर", "नृत्य", "सोल", "ितार", "लाभ", "निराश", "शो", "पलायन", "राठौर", "दानावारी", "बाक्सा", "ऐतिहासिक", "२४", "निर्मल", "खोज", "जिलाजनसंख्या", "पैगहा", "किर", "ओट्टो", "फ़ौंट", "लाड़", "तख्", "बनाया", "देशक", "चटर्जी", "बाबूपुर", "भवन", "तेलुगु", "स्पष्ट", "ढक्कन", "ब्रिटेन", "इया", "हेलेना", "डेविड", "फूल", "श्वेत", "निरीक्षण", "पूंजी", "माल", "खिताब", "पाटलिपुत्र", "विरा", "स्थल", "प्रतिबंध", "बबूपुर", "सोशलिस्ट", "चमैता", "नन्दन", "मल्लिका", "पृ॰", "हठ", "उत्सव", "बिसिबेले", "बांग्लादेश", "आगरा", "सूजन", "पत", "जहांगीर", "जग", "धउर्रा", "ध्वज", "मूर्तियों", "हिचकी", "भूभागबिषय", "पेसाई", "हाला", "कुर", "खुजे", "जॉन", "बग्", "प्रस्तोता", "चिह्", "त्रिपुरा", "हसनाबाद", "उँगकु", "पाल", "रै", "हजार", "हेलेनोपोलिस", "फैजाबाद", "टूटीकोरि", "काशीनाथपुर", "बुध", "धर्मेश", "तीर्थाटनछोटा", "शुगर", "लिप्यंतरण", "नौग", "मखोल", "हुँ", "रासायनिक", "शेखपुरा", "आईसीसी", "कलाँ", "कुआ", "उपपा", "खलीहृयत", "ली", "द्वाराज", "परबतपुर", "गबोवी", "भेमपुर", "वरः", "चुसे", "व्याख्या", "सकता", "श्रेष्ठ", "बिहारप्रमंडलसारण", "सिंघापुर", "कॉर्बे", "टाउन", "बुना", "उपजिला", "मथुरापुर", "गहा", "केल", "फ़ु", "कैथो", "पुल", "बेदी", "उद्यान", "गुआंगक्सू", "रेडियोधर्मी", "पुन", "कच्छ", "भर्ती", "माइकल", "दिला", "पू", "वाज", "श्रद्धा", "ग्लो", "मांसपेशि", "मह", "स्कॉटलैण्ड", "फरीदा", "टमा", "मुत्ताहि", "पेय", "सिध", "कुल", "अधिकलोगहेमवन्ती", "कथानुसार", "दावेन", "शादी", "टैक्सोनॉमी", "कर्टवुड", "फौ", "श्रम", "हत्या", "क्वालि", "प्रतिद्वंदी", "दाई", "नवगछिया", "बार्किंग", "बौक्स", "एलिजा", "नीति", "दादी", "शैव", "शासनकाल", "कर्ताओं", "इंडी", "रोहिल्ला", "जेनोसाइड", "ंडो", "इतिहासअकबर", "मौजी", "धौरी", "थियो", "२००", "सूचकांक", "गुणसूत्र", "एक्स्", "नाला", "एचटीएमएल", "ड़ियां", "संपन्न", "भर्ता", "दरवाजा", "टाटा", "बाँ", "प्रस्ता", "सर्वोदय", "न्ज़", "भीत", "एल्ब", "मिर्जा", "रविदास", "भूपत्ती", "मोटा", "जिन", "किट", "प्रान", "गोन", "कैंसर", "था", "रानीखेत", "वहाँ", "रुदाए", "निजा", "सुविधा", "उड", "महतीकर", "अधिनियम", "जोसे", "डब्लिन", "सूस", "ओल्ड", "रुड़की", "पादप", "वैन", "ब्राह्मणों", "धुर्रावाँ", "ऑर्", "लालबाग़", "मार्श", "लव", "७१", "पथ", "उत्थान", "बनीपुर", "बजट", "खराब", "जापुर", "फ्लाइंग", "सरीफ", "पुनः", "रग्बी", "रख", "जीवन", "भूगोलवेत्ता", "नाडु", "क्शन", "ब्बी", "विपरीत", "दौलताबाद", "स्टीव", "अरब", "कुतुब", "मानक", "नील", "एंथो", "भाऊपुरा", "म्प", "राजनीति", "४४", "गौरव", "क्वी", "ंजक", "अने", "बघ", "मुश्किल", "दीक्षाभूमि", "नीहारिका", "डिवी", "मैथिली", "हैदरा", "कोइ", "नीहरिका", "खेरुया", "नष्ट", "कुसु", "लिंक", "अमनबाद", "रसूलहा", "ऐब्यू", "विर्", "ित", "डबिंग", "डॉलर", "उदाहरण", "मुंगेर", "तीपुर", "डेटाबेस", "कुश", "आर्मी", "मेमोरियल", "तृ", "पंद्रहवीं", "मुतफ़र्का", "उत्तराखण्ड", "सौ", "आई॰ऍस॰बी॰ऍन॰", "बीए", "रोमन", "कुमाऊँ", "मुसलमान", "गज", "जेनिफ़र", "हिन्दू", "स्वरूपगंज", "कर्म", "उछाल", "पूनम", "बनाये", "बोहमैन", "३००", "फर", "ऐब्यूज़", "नहर", "सुजीत", "सेलम", "प्त", "गूसराय", "खगड़िया", "द्वा", "णी", "पैसि", "दी", "सवैया", "उत्पाद", "जगदी", "मूसा", "सिए", "उदय", "संतोष", "विकेट", "ध्या", "चम्पा", "कमर्शि", "लिप्य", "कट", "फ्रेड", "व्यूह", "चौखुटिया", "डिश", "मेहन", "वि", "सुई", "वैष्णव", "पश्चिम", "अफ्रीकी", "तेलीन", "इनके", "बाण", "कंपनियों", "रास्ते", "एवम", "लोग", "दिखता", "विजयवाड़ा", "जाट", "साम्यवाद", "डकर", "कॉमे", "उ", "ग़", "द्रोण", "खा", "स्वच्छता", "बाहूरबाहूर", "बायो", "थी", "दर्ज", "टूटी", "सेंट्रल", "दोया", "मोहम्", "फ़र्नान्डि", "मुज़्ज़", "म्पल", "मेद", "ै", "हरिऔध", "अधिकतर", "मिनेसोटा", "त्रि", "केक", "शाहजहांपुर", "बस", "नवाब", "पधारे", "न्यूक्लि", "मार", "मन", "विशेषज्ञ", "फ़िलिपी", "फोर्ब्स", "ेर", "मेरि", "विट्ठ", "वावरिन्का", "शद", "सभ्यता", "साल्वाटोर", "सोनाली", "जू", "साय", "खुजेठी", "साहा", "राजनैतिक", "लुईस", "मिशन", "हिंदू", "प्रेक्षण", "गुआंग", "हीर", "दुःशासन", "अवसर", "पाया", "महमूद", "तोडे", "शौश्तारी", "डाकुओं", "लक्ष्मी", "ब्लो", "रुक्", "कनालीछीना", "नौबतपुर", "लोढ़ा", "ताइक्", "ारा", "निज़ा", "जूलिया", "कच", "होम", "यंस", "नयाबंस", "हे", "बाय", "कैम्ब्रिज", "न्त", "भाषाएँकुमाऊँनी", "फरिद", "सम्पन्न", "ष", "केप", "बबली", "एमएल", "अधिक", "हैवतपुर", "द्वारा", "गाँधीधाम", "विवि", "आणविक", "कीर्तन", "स्वीडन", "जिसमें", "अधिकसम्बन्धित", "धीश", "विविधता", "उक्राद", "दिघरी", "हेन", "राजवंश", "चतुर्", "तृतीय", "मिस्र", "राठौड़", "आप", "स्टेशन", "भदो", "रचनाकार", "पाट्टाली", "बंध", "कनकपुर", "ल्या", "वू", "वंश", "तिरुच्छिरापल्ली", "शाम", "मऊ", "काठगोदा", "क्षर", "तारकीय", "उजरा", "वनांचल", "कंप्यूटर", "फ्लाई", "की", "ईशा", "दलपत", "गोअन", "अदिलाबादु", "फ़र्रूख़ाबाद", "टिप्पणी", "उदाहरणार्थ", "तेन", "टेक्नोलॉजी", "प्रभा", "अग", "डुमरी", "ंग्", "अनुमानित", "अनंतपुर", "हडि्ड", "सेन्ट", "विकसित", "कैटलॉगिंग", "श्वसन", "ंगल", "गौराडीह", "नरबारी", "लोहिया", "ओं", "मुंगेरजिलेसारण", "उपजिलाउपज़िला", "कोश", "बांके", "पेट्रो", "आहूजा", "इस्लाम", "सूती", "वास्तविक", "भ्रष्टाचार", "बसेगिट", "परक", "लेने", "भयेलखा", "फर्मेंट", "शुक्रा", "भोगपुर", "युग", "परशु", "आर्मीनिया", "अट", "सीनाई", "अरुंध", "युद्ध", "डेल्", "जायेगा", "बंदर", "साहे", "छुरी", "मुज़", "जनजाति", "कागज्", "गाजर", "क्", "मराठी", "चिंता", "क्रोनोबायोलॉजी", "ॉ", "कांग", "रखते", "खोख", "एक्शप्रेस", "बैकग्राउंड", "सम्पादन", "षित", "तिरुपति", "खस्ता", "पाट्टा", "गुड़गाँव", "संगठित", "कालिंदी", "अक", "किताबें", "गांगुली", "स्वीडिश", "भेद", "प्रोग", "सियाल्दा", "हजारीबाग", "गमर", "साहि", "खंडौली", "तिरछेंडुर", "सेवक", "गोविंदपुर", "मेकेवा", "बीमा", "अर्चना", "डिग्री", "हटिया", "वाहक", "१५", "घूमकर", "क्स", "कार्तिक", "प्रत्यारोपण", "ब्लॉक" ], "learned_vocab": [ "सिफारि", "शुरूआत", "कालिज", "मरुसागर", "सचेत", "मुगल", "भीम", "मलपाखी", "लर", "उनको", "००", "गाथा", "ओन", "दिल", "युधिष्ठि", "बोर्डिंग", "चिलि", "रिहा", "अर्नोल्ड", "ढांचे", "एं", "पठानकोट", "टैकीग्लो", "गवर्नर", "नाइकीपुर", "टावर", "घई", "सुखरावाली", "हड़प्पन", "एडिनबर्ग", "नेपोलियन", "नए", "क्रेमर", "जैवप्रौद्योगिकी", "टेड", "फेलोशिप", "एम", "सुपौल", "बीना", "सूचना", "जिल", "अख", "लिवरपू", "आए", "विकिफ़ाइ", "श्रोता", "बरेठी", "अतीत", "मदुरई", "गणितीय", "भूमिकाओं", "बोहमान", "पादक", "सराय", "वाह", "बिहारप्र", "अल्लहा", "त्रिनिदा", "बिम्ब", "विद्युत", "डोवेगर", "पर्तें", "बंश", "रविशंकर", "फ़", "राज्यीय", "त्रिवेंद्र", "वनस्पति", "लीग", "कौसानी", "मस्", "एफए", "वीओआईपी", "दक्खन", "तेज", "स्तनधारी", "सिद्धिथुम्", "कैपि", "ताई", "सुलुबुङ", "चँ", "दम", "ता", "गोस्वा", "पड़ो", "बख्शी", "शतिमान", "ख़्", "बिशप", "प्रीमियम", "अप", "२०२१", "घूमर", "विवाह", "डेल्ही", "ट्रॉफी", "छठ", "बुंदेलीसाहित्य", "अमरकंटक", "नजदीक", "झू", "धि", "जसवंत", "ताज", "रग्", "छुहारपुर", "लेते", "सेवर्त्ज़ोव", "मोनोट्री", "गदु", "रोकक", "तपोसिरि", "वेबैक", "मदारीपुर", "चा", "लेयते", "इन्हीं", "कम्युनिस्ट", "तरफ", "महबू", "नामीबिया", "उत्", "टेली", "सुदर्शन", "श्व", "पूर्वज", "प्रेसिडेंट", "स्टूडियोज", "रह", "बार्थेलेमी", "चर्च", "डर", "हबीबपुर", "फ़ूड", "पूरबिया", "मुर", "अनुबंध", "उस्मानपुर", "अन्तर्गत", "नीबू", "द्वीपसमूह", "तू", "लई", "राधन", "काउ", "गुरुदेव", "जनपद", "कढ़ी", "रेडब्रिज", "दिहखास", "वाराणसीज़िले", "ओलंपियाड", "अनंतराम", "योजक", "होते", "प्लेट", "सेसलपिनिया", "जोड़ता", "सपनों", "हरिपुर", "लनोव", "खुर", "अलेक्जेंडर", "शनल", "सत्यापन", "आने", "बेचराजी", "कीरतपुर", "गुप्त", "जागरू", "मुनस्यारी", "जोग", "लि", "बुढ़िया", "कोसोवो", "साङ्", "बिजनौर", "न्यूक्लियर", "टल", "अमृतसर", "मीसा", "जन्नत", "वार्षिक", "कप", "अधिकजिले", "जंतु", "ंट", "चिरहौली", "कलाकार", "बिना", "खलनायक", "कसौ", "भूकम्प", "सभरवाल", "जाल", "रशी", "प्रिस्टिना", "टियर", "वायरस", "वीभ", "जायस", "मिनटदेश", "गॉड", "स्वामित्व", "सुल्तानपुर", "लर्निंग", "महत्व", "कौश", "अड्डागया", "शेखावाटी", "छु", "बूंदी", "सुन", "१९४", "शुकुलपुर", "अंतरराष्ट्रीय", "विजयेन्द्र", "ने", "विक्की", "बारबू", "टेलर", "नीदरलैंड", "कोलफील्ड", "मस", "हिस्सा", "कटहरा", "टू", "जिम्मे", "त्रुटि", "विभूति", "लगभग", "ब्लू", "अधिकारीसूचीजनसंख्या", "जौराडीह", "गंभी", "पंजीकृत", "यूसुफ़", "सायिक", "हिल", "अत्तारी", "छपरा", "स्प", "गेंदबाज", "बिंदु", "शान्तिडाँडा", "प्राण", "सोपान", "नूरुल्ला", "किम", "शोना", "कृत्रिम", "येक", "अक्सोडा", "साइ", "फ़िलिपीन्ज़", "खनन", "राजद", "बद्रीनाथ", "३२", "प्रत्येक", "तैयार", "ऊअनक", "डायबिटी", "मैदान", "अर्जुन", "कोरडेल", "न्ध", "सर्बिया", "यॉर्", "गोड्डा", "शला", "एक्", "बल्लू", "आका", "ऊँ", "शियाई", "गाजिया", "सौम्या", "करीम", "अस्मिता", "पारमाण्विक", "इमादपुर", "लोकप्रिय", "केशव", "ओहा", "मणिपुर", "भूटान", "आरडीबीएमएस", "उत्त", "बहराइच", "गोंडवाना", "डीज", "वृद्धि", "होगी", "पोलिस", "नोलॉजी", "शुभांश", "आर्मीनियाई", "रहते", "एग्रीकल्चरल", "निशाद", "चु", "चोक", "नओ", "कुसापुर", "दयाल", "खोकर", "रिजर्", "गोसाईं", "रत", "सां", "चैं", "कोई", "तरक़्क़ी", "१९३१", "रियूनी", "मेदिनीपुर", "राय", "रोज़गार", "चाओ", "प्रॉसेस", "पीले", "कोर्ट", "मिदि", "ज्ञम्नगर्श्रुरत", "श्रेणियों", "आणंद", "ट्स", "बालीपुर", "दत्त", "नगरपालिका", "सेंगोत्तई", "लेखक", "व्य", "तथा", "पार्क", "सीरियल", "पेपे", "प्लेऑफ", "सीखने", "नैना", "अनंत", "निकोबार", "लस", "मौजू", "उपनगरीय", "बोल", "सौती", "गुजरात", "बर्धमान", "टहरी", "बखरी", "कॉमेडी", "बजाय", "एजेंट", "प्रपात", "भरतौ", "तिरुक्", "गोएकतुर्क", "याल", "रसगुल्", "शी", "फुले", "पुर", "डरल", "मार्टिन", "डेकन", "मुबारक", "सेवा", "अश्व", "कर्षण", "मत्स्यगंधा", "थाटा", "विंध्या", "प्रवाह", "भदोही", "आई॰ऍस॰", "गां", "साह", "खागड़ाछड़ि", "कूपर", "और", "थोम", "रिडे", "बीर", "आचार्य", "षड्", "भुगतान", "नक्कीना", "मैसूर", "पच", "वैंकूवर", "जगदीशपुर", "किस", "शर्बत", "हाजी", "पारं", "भारोत्तोलन", "भीष्म", "उत्खनन", "पंजाब", "क़ौ", "धुन", "आई॰एस॰एन॰", "नजदी", "वाद", "वॉयस", "वापुर", "विज्ञान", "उद", "फ़िल्म", "बड़े", "फ्ले", "नियंत्रित", "टिप्", "तिरुक्कुर", "देव", "सिबुआनो", "विरोध", "क्षतिपूर्ति", "थ्रिलर", "कौशाम्बी", "पुरेठकुराइन", "उपज़िलों", "बग्घी", "वाराण", "निर्झरिणी", "डिजा", "आशुतो", "कार्यालय", "सलीम", "ग्रेट", "शर्मा", "ार", "गम्भीर", "युनुस", "पदक", "वॉ", "आम", "बाँध", "प्पा", "काशीपुर", "रकसा", "साल", "विनोद", "सितंबर", "बासु", "समपत", "लह", "वाइस", "एजेंसी", "जिलानुसार", "प्र", "प्रकाश", "मो", "यश", "यदि", "पीटर", "बाहरी", "खलीफा", "ज्ञ", "महीनों", "मनमाड", "सिर", "होटल", "दुल्", "सेवन", "सांस्कृतिक", "ग्रीन", "जु", "क्रिस्टोफर", "सुस्पष्ट", "हदीस", "प्युरे", "महाद्वीप", "कोच", "ऑक्सी", "तीसरी", "दिखाई", "लहसुन", "सोयाङ", "सवरन", "भूकम्", "कार्लोस", "उतरी", "मौसम", "पहुंचती", "उत्तराखंड", "सिदी", "प्राइज़", "सुकमा", "भील", "विंग", "सर्लाही", "तै", "फेडरेशन", "हाकिम", "डिज़ाइन", "पेड़", "परिणाम", "वन्चिन", "किग्रा", "देना", "सले", "मासिक", "मुंडा", "गोरखपुर", "गुप्तचरी", "अनुभव", "लड़ने", "अंबिकापुर", "तिरुच्चिरा", "ये", "शप", "प्रथाओं", "हिमा", "उत्तरदायी", "मेजर", "पैट्रोलियम", "नेत", "माघ", "मंगरोली", "कैलिफोर्निया", "१९", "कीट", "सैफाबाद", "पिनाक", "अभिने", "मसुदनपुर", "साथ", "टीसी", "हौला", "डॉक्टर", "गद्", "वैत", "हवसाबाद", "ग़ा", "ऐश", "उत्पादन", "लिए", "क्रिए", "तस्वीर", "यातायातचेन्नई", "फोटोग्राफर", "मुज्तबा", "दगा", "निर्माता", "निंदा", "ऋषिकेश", "बंगाल", "सया", "सरायपीठ", "डेटा", "क्षी", "निंगबी", "आइ॰एस॰एस॰एन॰", "राज्यक्षेत्रराज्य", "वाल", "शक्तिपीठ", "चैन", "सथर", "कुवाजरवाला", "इसीलिए", "इसराल", "झाँसी", "कैमरु", "इंस्टिट्यूट", "बैरा", "अंतर्गत", "हस्ता", "डिस्क", "नीमच", "मु", "अग्निवीणा", "तूतिकोरिन", "समेत", "अथर्व", "लुम", "मैरी", "ते", "ब्यास", "ड़की", "परसोत्तम", "तप्पा", "न्याय", "डायो", "सिद्दिपेट", "कोडआइएसओ", "बिलासपुर", "पुदीना", "इस", "फाकफो", "प्रक्रिया", "ओलंपिया", "बालुर", "पंचवटी", "तँजा", "स्थापित", "गाइन", "न्यायाधीश", "विध", "ँग", "मालवीय", "घोटाले", "आयु", "शुभा", "गम", "हाथगेंदबाजी", "हँ", "रापल्ली", "सटी", "विद्", "व्यवस्थित", "एम्बेडे", "वै", "अत्य", "असोसिएशन", "वलीपुर", "कोस्ट", "सैयद", "मंत्रीमंडल", "रोहतास", "मंगलोरे", "जिनका", "महाम", "मेंटेशन", "इत्तेहा", "हरिप्रिया", "यूआरएल", "गोमांतक", "भय", "फादवा", "तारापुर", "ंध", "सूची", "टो", "द्", "यूनि", "बुद्धिमत्ता", "कस", "प्रशंसक", "नैट्स", "ऑपरेटिंग", "हुई", "अवैध", "औरैया", "गायक", "अवध", "शेल", "मधुकर", "क्रम", "सुदेश", "वयस्क", "कुंभ", "ज्ञम्नगर्", "हल्दिबारी", "सिरोही", "प्रक्रियाओं", "हरिद्वार", "युनु", "शताब्दी", "२००७", "रसूला", "नौसेना", "चुला", "कोटद्वार", "उपपाचयी", "खु", "२८", "रिसर्", "कष्ट", "कासि", "माचिलिपट्", "मिनट", "छू", "प्रतापगढ़", "भूमिहार", "बाँटा", "एलिवे", "खाया", "चम्पावत", "बन", "जिम्नास्ट", "अभ्या", "मेडल", "रुस्तमपुर", "औसत", "इम्म्यु", "आश", "हाओबाम", "अमरीका", "टैग", "खारोव", "तड़", "सांध्य", "निर्धारण", "चै", "रहस्य", "बहुमत", "भे", "रचना", "हटा", "गिर्ध", "म्स", "रायगढ़", "कुमाऊँनी", "देवगिरि", "थन", "स्पीति", "बीएम", "किल", "नदी", "गोसा", "पुंग", "कॊम्मेमर्रि", "फ्रंट", "वासिलिवेना", "ज़ि", "गांठ", "व्यवसाय", "एफ", "व्हाट", "घोष", "तालिब", "स्कूल", "हरिहर", "आन्ध", "तॉर", "कॉल", "यी", "उदयपुर", "उद्दीनचक", "विकाराबाद", "कहकर", "पांडि", "मेडक", "हम्दी", "अकबर", "शिर", "सुपरफास्ट", "संरक्षित", "वीक", "अजीज", "इंद्रप्रस्थ", "अधिकसंस्कृति", "दीक्षित", "ब्व्क", "उज्", "कढ़ाही", "तेलंगाना", "फतेहपुर", "गोपीनाथ", "बुग्या", "पोस्टर", "सहयोग", "भरतौटी", "समाचार", "कुशा", "समीप", "राजाओं", "बरोली", "मिदिउरा", "महुआडीह", "गिरजाघर", "फिलिपो", "महाद्वीपीय", "शिरो", "धुडेहरी", "१४", "निंग", "मौजूद", "लागू", "इब्", "कौ", "विवाद", "ग्रहीय", "जनशताब्दी", "बामन", "ज़ोरम", "ऑफ", "प्रिय", "डीएफ", "दन्तेवाड़ा", "सलेमपुर", "पीठ", "पंचम", "स्कर", "दीर्घ", "लाया", "हिलिगायनो", "अल", "पौड़ी", "कसवो", "बा", "मिथ", "विधान", "वेल्टरवेट", "तेन्कासी", "मुराद", "महासमुन्द", "हस्तिनापुर", "वाइसीरॉय", "बर्ष", "जनक", "ंबई", "नीरज", "कल्याणक", "हम", "शिवपुरी", "महेसाणा", "अनंतनाग", "बुला", "भीषण", "होकर", "रानीपुर", "महा", "खंड", "झो", "ऑपरे", "कारोबार", "तक", "ढाका", "गाँव", "बंग", "भगुपुर", "सलैमपुर", "काकी", "युधिष्ठिर", "कील", "पहुंच", "भेजा", "लुटाए", "बढ़ावा", "दु", "पिनाकिनी", "डोनाल्ड", "बेगूसराय", "भाइयों", "साबर", "मुकेश", "मिशिगन", "पीलीभीत", "बात", "पं॰", "गाड़ियां", "परिचय", "फाल्", "वेज", "यु", "मेर", "काठ", "धो", "कन", "उत", "अजंता", "वृद्धक्षत्र", "काफी", "काँ", "पोखरा", "अडाणी", "हिंदूबनी", "दक्", "तँजाउर", "अनुवा", "मेनन", "मुल्तान", "लघु", "धौलपुर", "फीरोज़पुर", "माधवन", "बिझौली", "बोली", "स्वतंत्रता", "ईश्वर", "डेमो", "उन्के", "महतो", "समारोह", "ट्रिपैनोसोमा", "आलोचना", "आई॰ऍ", "ूर", "फ़िजी", "शाखा", "सिकंदराबाद", "बताये", "अध", "डै", "एन॰आर", "जांच", "मुतफरका", "उंड", "कुराकथ", "समर्थ", "जाकर", "बगुड़ा", "निर्देशक", "देशभारतमूल", "कॉन्स्टेंटियस", "मेहरुनिस्सा", "गुरु", "बम्बोर", "चन्द्रचू", "भाग", "बांग्ला", "जयद्रथ", "उपयोग", "फतू", "फुल", "पायन", "डीएनए", "कृष्ण", "गुफाएँ", "विधायक", "वामन", "गी", "ंखला", "गेन", "विख्यात", "फ्ट", "मध", "१९९८", "काई", "कर", "जनसंहार", "ह्", "कोसी", "कथा", "आगे", "सार्वजनिक", "वेफ़ेयर", "संघ", "रामायण", "प्रवीण", "किदवई", "कक्वल", "खिल", "भूपतपुर", "२०१७", "राम", "सल्फाइड", "प्रस्तावित", "५२", "सेवर्त्ज़ो", "भिकियासै", "मोहम्मद", "पैरीज़", "म्ब", "पॉप", "कैं", "प्रागैतिहासिक", "विद्यालंकार", "कैम्ब्रि", "शुमाली", "तरछंदपुर", "परशुराम", "राजपू", "इंडोने", "बहराइ", "कब", "वरी", "मछ", "कोफ़्ता", "फल", "गए", "भूगोल", "१९९५", "युवक", "दूरभाष", "परियोजनाओं", "सियां", "मांसपेशियों", "मिल", "मलेथु", "बिझ", "मुहल्ला", "मुइनुद्दीनपुर", "प्यागीपुर", "अंतर्राष्ट्रीय", "अग्नि", "पेद्दा", "पद", "खम्मम", "बाड़ा", "अद्भुत", "धुरी", "शोलापुर", "कसवोधन", "षेक", "मुंडी", "एलिजाबेथ", "शारीरिक", "रत्न", "अध्ययन", "अनोखी", "सेना", "नुकसान", "स्टडीज", "महंत", "दिवस", "डीआरडी", "रानियाडीह", "नमूनों", "यूनीवर्स", "वस्ती", "भावना", "अन्तरराष्ट्रीय", "विश्वसनीय", "अमीन", "लागत", "इंदिरा", "वचन", "आर्द्र", "२०१", "साम्य", "वायु", "कुत्च", "हव", "ईपुर", "काजो", "तिरुवन्मियूर", "सीमानचल", "प्रस्तुत", "४२", "रुकुम", "उपभोक्ता", "पिथोरागढ", "देबत्तमा", "पे", "पालघर", "आंदोलन", "रुआ", "धूमकेतु", "निर्देशिका", "हेराल्ड", "जलेबी", "लिस", "बिलि", "अनुवांशिकी", "टन", "बैद्यनाथ", "गुस्ताविया", "मच्लिपत्नाम", "गुन", "बज़", "मल्ही", "थौली", "ठंडा", "बुरा", "ऑटोमान", "सचोल्ट्ज़", "महिलाओं", "जन्मभूमि", "अलंकार", "जिसका", "जालपृष्ठ", "जशपुर", "ज़ाफ़रानी", "दिलीप", "मोह", "भारद्वाज", "प्रोदु", "बीबीवारी", "शील", "कीर्", "जिन्होंने", "मापुर", "सचोल्ट्", "सिन", "क़्", "ज़न", "बजार", "बु", "बसइया", "नींव", "साइड", "डायमंड", "गवा", "कतली", "सिंहभूम", "तिहा", "खिला", "धनुपुर", "वसाना", "घनत्व", "बिग", "विठौली", "सर्वश्रेष्ठ", "गे", "दुइया", "अनुमति", "बुंदेलखंड", "ढ़", "घटनाओं", "टनकपुर", "सियाल्", "डेलारगी", "क्टिव", "कचेगू", "कत्यूरी", "वाटोर", "दौरान", "क्षत्र", "भूखे", "नासिरपट्टी", "पार्श्व", "सैयां", "गाड़ियाएक्सप्रेस", "मुज़फ़्फ़रपुर", "एनएसबुगा", "विपरी", "भूमिकाएँ", "कॉमंस", "कोयला", "धमतरी", "गौतम", "जिस", "वाजपेयी", "सिस्ट", "हुल", "इरो", "सरग", "बाज", "यमुना", "साझे", "प्राधिकरण", "गांधीधाम", "कैलाश", "ब्राह्मण", "क्ट", "घृ", "बीनै", "परिचयात्मक", "षा", "लाइब्रेरियन", "डॉ॰", "चंपापुर", "सराकार", "सिं", "स्थितियों", "देत", "दानापुर", "अत्याधु", "मोदी", "एल॰", "ड़े", "ऑनलाइन", "बसई", "लॉरी", "चंपा", "दाखिला", "इलाक़ा", "बहुत", "खजुराहो", "साक्षात्", "प्रबंधक", "हीराखंड", "खास", "रूप", "ध्रुव", "मजबूत", "मुल्ला", "मलेथुवा", "खर", "वैश्यम्", "होना", "दिवाली", "भूपलपल्ली", "डिब्", "प्रचलिततमिलसमय", "रुपाशी", "सुहा", "जवा", "स्लो", "यूडो", "रहने", "काल", "इलाकों", "माँड", "टीएलडी", "एसआई", "चियन", "मुद्दीन", "ड्यू", "बिरहीमपुर", "तिरहुत", "कोसा", "२००९", "गरौठा", "दिख", "धर्मनिरपेक्ष", "बना", "भुज", "सिरीचंदपुर", "ग्लोबल", "हँस", "रमनगढ़", "बाणगंगा", "अब्दु", "किला", "ट्रूमैन", "महासिंह", "स्पेश", "षि", "यह", "केन्या", "इन्हें", "आचक", "आलाप्पुड़ा", "समानता", "पाकिस्तान", "तोलेमीय", "फुटबॉल", "ब्बर", "हैदराबाद", "क्वाली", "केन", "राणा", "सहाय", "अंक", "धंगरौली", "मच्", "जैसा", "लं", "दिखाया", "सलपुर", "मैसाचुसेट्स", "नेशनल", "टिंग", "दिनेश", "मठ", "घ्", "भारोपुर", "ढा", "साओ", "कढ़ा", "दरियापुर", "उर्वरक", "सुपरफा", "काशी", "मैत्री", "मुजफ्फरपुर", "निधन", "प्रतिनिधि", "ब्लॉ", "हांग", "मुख्यमंत्रीभाषा", "डाकु", "गीतांजलि", "वेश", "ंश", "लवा", "दवा", "बड़", "पुरुषोत्तम", "मेगा", "गोस्वामी", "आयरलैंड", "महड", "चॉ", "रमेश", "दुर्", "संस्कृतिपर्यटनगोलघर", "ँकि", "संस्थाओं", "अमेरिकाभाषा", "संसदीय", "भटनागर", "ष्", "मानहानिकारक", "वर्त", "ओस्", "तोडेपुर", "सिद्धागंगा", "संख्या", "मासूमा", "लाहौल", "कबीरधाम", "प्रधान", "लिच्छावी", "योग", "ट्रिपैनो", "उद्योगकर्मी", "अग्निवी", "कल्पना", "रज्जुकी", "तटस्थ", "उल्लेख", "बिहारीपुर", "बल्लिया", "ऑस्ट्रेलिया", "स्रोतहीन", "बूपुर", "समालबुङ", "लुटा", "विराट", "अवस्थितिदेश", "उभरी", "समाजवादी", "प्रयोग", "ंव", "तूफ़ान", "ओँ", "कम्पोंग", "रु", "मुहिउद्दीनपुर", "धु", "देहरा", "कूल्हापुर", "साधारण", "उपविभाग", "पाट्टु", "बच्चे", "फ़रवरी", "गरियाबंद", "देबीद्", "एकिडना", "लेती", "एएसआई", "बोदवा", "ंह", "जोड़ों", "ज्ञप्ति", "नाकुलम", "द्वार", "मेट", "टेघरा", "खेड़िया", "प्रेम", "नगरकरनू", "कह", "पर्वतीय", "लखनऊ", "ताण्डव", "सदाभला", "अश्", "मविया", "अवस्था", "कुकुरहा", "मुखम्मस", "२०९", "निवा", "एलेक्स", "चारमिनार", "रावत", "परिभाषित", "जुरा", "मॉन्टैग्", "सीट", "एंग्लिकन", "सफेद", "तनावड़ा", "सूक्ष्", "ब्लैक", "रक्त", "क्योटो", "टीवी", "सरैया", "फ़ी", "फोटो", "बगंज", "पायस", "करीब", "जनजातियां", "मंगला", "ऋषिके", "गद्वाल", "प्रपातदर्शनीय", "वेब", "वैशालीअंतर्राष्ट्रीय", "हिमसागर", "शै", "बन्ध्याकरण", "भागीरती", "नासिक", "बोना", "कता", "गा", "स्वभाव", "शरफ", "ओस्मानाबाद", "उत्तराँचल", "डुप्लिकेट", "उज़्", "नज़र", "चतुर", "सन", "क्रमश", "यस", "जिम", "मगवॉर्ट", "बद", "जक", "घा", "बेटे", "खेल", "अड", "डिफ़ार्", "परम", "विषु", "सरीफपुर", "लिल", "एज", "छत", "बेनई", "ऊर्", "मशीन", "अपराध", "परिवर्", "वजी", "वॉर्टहॉ", "व्याव", "माइलदु", "रोज", "छोड़", "पेग", "अंगरैया", "कंचनज", "शाहपुर", "सोई", "सीधा", "टि", "दिव", "राजधानियाँ", "गोबाई", "तरीकों", "कोडआइएस", "खाद्य", "टै", "नाहरपुर", "गुडिसन", "मास", "१९९७", "वर्षटीम", "आईलैंड", "गोसाई", "ग्रामीण", "पेशेवर", "ग्", "वृक्ष", "हृ", "सब्जी", "सीटें", "नाटोर", "परि", "प्रचलितगुजरातीसमय", "इत्तेहाद", "करनाल", "आत", "पांच", "सुमित्रा", "तीर्थाटन", "बैरिस्टर", "चर", "हरदोई", "बोस", "हसहपुर", "सघन", "पैरालंपिक", "स्थ", "पति", "टा", "बर्षों", "अनन्य", "तारक", "पुट", "पाइ", "रुपये", "सलाहकार", "हिपोक्रि", "धनोआ", "नौचंदी", "हावड़ा", "जनसांख्यिकी", "बोधगया", "खाली", "आर्यभट्ट", "भागलपुर", "नागेश", "निर्वाचन", "बड़गाँव", "मौखिक", "फूंचो", "ओट्टोमन", "सच", "रिली", "स्कॉ", "होप", "दरवा", "रचित", "१३", "देह", "कल्याण", "कृषक", "विद्युतीकरण", "मझुवा", "कूट", "कोरोनावायरस", "गाड़िया", "मलेशिया", "कालाढू", "शाहजहाँपुर", "शाब्दिक", "गैविन", "बैलोथ", "रो", "शासकों", "मालपुआ", "पेश", "इरास्मस", "कोणार्", "कार्बो", "पट", "ज़म्बोआंगा", "माइलदुटुराई", "णि", "दर्द", "छड़ि", "कुम्भ", "समर्पित", "इको", "नूरिस्तानी", "मेकैनिकल", "संक्षिप्त", "अतिरिक्त", "शिमोगा", "२००४", "ऑन", "राजदूत", "अशरफ", "मुगरसों", "मुबार", "गोठ", "इंग्लैण्ड", "बत", "खने", "वर्ष", "ज़िले", "विद्वान", "राष्ट्रीय", "नद", "पिछले", "वास", "उपयुक्त", "बीमाधारक", "न्यूजी", "डिफ़ार्गे", "ख़ुद", "उपाध्यक्ष", "बेक", "मैच", "बसवा", "हटाकर", "प्रभाव", "रोजा", "इनकी", "पर", "हिग्स", "आई॰", "चालु", "कम", "ल्तानपुर", "दौलतपुर", "फॉर", "बँ", "हलुआ", "लाम", "क्षण", "ान", "गुरीवायूर", "यदा", "ंच", "मावेली", "दिखा", "ज़े", "बीजापुर", "श्मिट", "तीस्ता", "मजरा", "प्रसाद", "ड्रल", "सामान्य", "टे", "आंध", "गढ़िया", "जसवाँ", "इसलिए", "एवं", "ंत", "बोटी", "हल्दि", "रामफल", "भुबनेश्वर", "श्रीकृष्ण", "चर्", "एक्सप्रेसवे", "सोईराय", "वृद्ध", "गरीब", "मूव", "भूषण", "लोकेश्वरं", "दोष", "उत्कृष्टता", "बलूचि", "गुदा", "मुख", "देखभाल", "मख", "वेन", "तियों", "गलत", "ंठा", "चुलाचु", "तालाब", "कृषि", "शू", "फ़र्नान्डिस", "ठकुरैन", "झि", "मंत्रा", "मेंढक", "जय", "उनके", "कंपनी", "फिलाडेल्फिया", "दाहिना", "आलाप्पु", "तीर्थयात्रा", "ऍबे", "शिरोदंड", "माव", "कार्यवाही", "सलिया", "०५", "पटनाभूभागदक्षिणी", "दिशत्", "एपि", "चन्द्रशेखर", "टिव", "प्रचलितकन्नड़समय", "हिस्सों", "मई", "सहायता", "षिक", "स्लै", "वृ", "माता", "अम्मा", "निय", "लैब", "शांत", "ंडव", "ल्ट", "भीड़", "ज्ञम्", "जनुवा", "सोच", "पेद्दापल्ली", "झी", "गोठवा", "१२", "पपड़ी", "मिठाई", "बढ़ता", "क़दम", "बक्सर", "गाड़ियापैलेस", "कठोर", "कोरोनोवायरस", "पहाड़ों", "रखा", "शान्तिनिकेतन", "निज़ामुद्दीन", "मायापुरी", "वाणिज्य", "वायरल", "दूत", "शासित", "विल", "ह्वेन", "बलौदा", "बास्", "कहते", "वृक", "अर्नो", "लइया", "सवी", "पंकज", "त्रिची", "वरिष्ठ", "चीपुर", "त्योहार", "सुपथा", "सिविल", "तीर्थयात्री", "स्कॉटलैंड", "वायुसेना", "मुझफ्फरनगर", "रिसर्च", "साहेबपुर", "कबीर", "गुलशन", "भागीपुर", "दाल", "सूक्ष्मजैविकी", "रिमोट", "अंगदपुर", "डेनिज़", "दोयाधु", "बेरुत", "मसुइदिया", "ल्क", "कब्जा", "अनुपात", "दार्शनिक", "खड़गपुर", "बेल्लं", "अरबपति", "बह", "सक्षम", "मिज़ोरम", "प्रयुक्त", "जसलीन", "मुजामिल", "प्रतिरोध", "हेनरी", "मोबाइल", "जोकी", "ृत", "डेजर्ट", "अधिकनगर", "प्पु", "वह", "रूचि", "बोलते", "विश", "लोकसभा", "पोस्ट", "संपत्ति", "कड़कड़डू", "ज्वालामुखीय", "वीबी", "इगलास", "मंगोलिया", "नेहा", "न्यूज", "इंजेक्शन", "रैपि", "शनाबाद", "क्षक", "गोबिंदापुर", "हरियाणा", "सोरेन", "व्यंजन", "अल्ले", "नदाऊ", "बख़्", "सास", "कृपया", "सिर्फ", "एंड्रॉ", "आत्मा", "क्रिस्टो", "तृती", "दृश्य", "मखानी", "मेटाबेले", "ति", "स्काउ", "गाजीपुर", "शिल्", "हनुमकोंडा", "ठि", "जामनगर", "देश", "ज़ी", "साझा", "ज्ञान", "दादरा", "इंग्लिश", "महिला", "अहसान", "अनुसंधान", "आलू", "अधिवर्ष", "सूचित", "ऊपर", "नय", "बू", "बास्केटबॉल", "अंग्रेज", "मांडोवी", "नाम", "महबूबनगर", "कोरमा", "आदि", "गदुपुरा", "रॉय", "लाएँ", "भारतजनसंख्या", "हैदराबादविषय", "थेम", "पुर्णिया", "पर्यावरण", "उत्तरा", "पारंपरिक", "धुली", "बिस", "उग", "यॉ", "बर्ट", "शा", "भाव", "लेकिन", "दुर्योधन", "साँ", "नाभिकीय", "बेल्जियम", "रन", "बिगहिया", "सार्वभौमिक", "हाथ", "एयरपोर्ट", "बुढ़", "लोह", "जमुई", "आला", "मूसपुर", "उस्मान", "प्रका", "अन्वे", "मलहीपुर", "इतिहा", "शिष्य", "खेरिआ", "प्राकृतिक", "काटने", "सीतामढ़ी", "मेहता", "जहा", "पोल", "धातुओं", "गछिया", "पेज", "जननांग", "झाऊ", "पद्मश्री", "लिखती", "ट्रांजि", "ताप", "स्क्रीन", "उसे", "विदर्भा", "स्टूडेंट्स", "नेट", "जॉ", "उन्हीं", "बाजपुर", "विवियन", "कसोधन", "ष्ट्रीय", "विश्वविद्यालय", "सीमैन", "डल", "कोलका", "भैरव", "रसू", "किंतु", "अवस्थित", "निमि", "सरदार", "जन", "कोविल", "मैट्रिक्स", "गहन", "जानसन", "मिनटउत्पादन", "षे", "टिस्टा", "स्टॉप", "कस्बे", "शिशु", "उल", "हिपोक्रिट", "पहाड़पुर", "इतिहास", "दमन", "भाजपा", "निबंध", "दीमापुर", "लाह", "देल", "विषम", "पुलाव", "पचौरी", "शुक्राणु", "विकास", "गाजियाबाद", "बड़ी", "लिखकर", "पदोन्न", "खख", "गुज़रता", "क्षेत्रफल", "मंदिर", "डा", "शि", "समर्पणानन्द", "पॉ", "मनुष्य", "घटक", "जहां", "छत्तीसगढ़", "प्रशंसा", "नज्में", "गाव", "श्रंखला", "मरांडी", "वहाब", "पोलैंड", "गणवेश", "श्वरम", "कक्", "वायर", "मुज़ताग़", "क्रास्नोडार", "ज्ञानसन्दू", "बरिआमदन", "मधे", "गोद", "स्क", "यपुरा", "फैको", "माण", "बे", "भागीदारी", "फोटोग्रा", "लाल", "चिन", "मण", "बक्कम", "सहबाजपुर", "दोनो", "नोवाक", "मथुरा", "रेलगाड़ियाँअगरतला", "पहाड़", "रिथ", "डायरेक्ट", "वैभव", "शिबगंज", "अमजद", "रुद्दीनपुर", "लिंग", "उम्मीदवार", "नीलगिरि", "चंदोपारा", "कानूनी", "समापन", "न्यूज़ीलैण्ड", "कॊम्मे", "प्रमुख", "पशुगमन", "षक", "भूतपूर्व", "ठीक", "क्रॉस", "बुनावट", "जोड़", "हम्पी", "भद्र", "ऋष", "बागदहा", "वर", "सरयाँ", "दवे", "इंडस्ट्रीज़", "निम्नलि", "तूतिकोरि", "बैंक", "मुम्बई", "मैथि", "जीरा", "बदायूँ", "२१", "दस", "हावर्थ", "विजयवाडा", "गोआ", "चनाब", "तीर्थयात्रियों", "बेतवा", "व्यापार", "सिस", "पन्तोली", "लियम", "बावजूद", "मियन", "भौगोलिक", "इश्", "इट", "भले", "नवम्बर", "निजामुद्दीन", "ंड", "यूनिवर्सिटी", "टाईम्स", "न्यूज़ी", "बृ", "तिरु", "एपी", "वाशिंगटन", "निर्माणाधीन", "खरी", "िया", "४५", "मंझ", "मवैया", "बदायू", "मी", "उम्र", "पदार्पण", "पिर्थी", "आठ", "स्टाफ", "डिवीजन", "दियों", "रोबेर्ता", "बियौर", "सम्मान", "कसौधन", "मेज़बान", "स्वा", "निर्मित", "न्यूयॉर्क", "केन्द्रीय", "बैरि", "हूँ", "अक्टू", "एतमादुद्दौला", "स्याही", "शादीशुदा", "भाई", "ललितपुर", "बंगा", "हसनपुर", "स्मिथ", "फ़े", "काजीपुर", "प्रतिनिधित्व", "मयूर", "पायर", "ञ्", "महाकाव्य", "सिद्धेश्वर", "नारायण", "मधुबनी", "चुनने", "टीसीएन", "छि", "मुक्त", "पटियाला", "तुर्", "क्रिकेट", "पिछली", "गंज", "पल्ल", "गॉ", "आईपी", "घटोत्", "चुनौतियों", "जीन", "२९", "पोजी", "बौ", "वाड़ा", "चलता", "यात", "इभा", "अधिकभूगोलहिमालय", "गणदेवता", "आई॰ऍस॰बी", "हुतात्मा", "लिच्छा", "देते", "फिश", "पश्", "घटो", "९४", "सर", "पब्लिक", "लाइ", "पशु", "गोरख", "जिंग", "खोने", "उल्लेखनीयता", "गौ", "हैबतपुर", "टेरिटोरियल", "इन्होने", "सिंधौरा", "रीही", "राउंड", "पूर्णिमा", "लीवुड", "फिलिप", "दिशा", "राप्ती", "इरौ", "माग्ना", "स्वायत्तता", "वीएमवेयर", "नरसंहार", "पहाड़ी", "विम्बलडन", "मंड", "हरबंश", "माइ", "अभिनेत्रीकार्यकाल", "कि", "गन", "राइ", "प्रचु", "अणु", "लैंड", "परिसर", "झील", "२३", "निस", "तीसरा", "दाउद", "मशी", "हिसा", "भहारपुर", "मुगरा", "वरीभीत", "बख्तियारा", "होयसाल", "मौजपुर", "थली", "शक्थि", "देबी", "शालीमार", "त्रिबेनी", "सुएज़", "च्छ", "एशियन", "अवधआगरा", "न्न", "प्रतिद्", "भास्करा", "पर्याप्त", "विधियों", "शिखर", "भाटिया", "मेघना", "ंग", "सर्किल्स", "कैबिनेट", "मेगालिबग्विलिया", "ब्रिटिश", "ड़", "ब्राह्मन", "राहा", "रचैयता", "उपविभागों", "देवासंमध्य", "प्रक्रम", "पाड़ा", "गाई", "भुबने", "राजनीतिसरकार", "दहा", "वर्षी", "कर्नल", "मीठा", "ज़ोनमध्य", "हत्याएँ", "नापुर", "टुकड़े", "प्रति", "मुंशी", "नरेश", "जराँव", "दौ", "प्रोजे", "अयो", "कुमाओं", "उप", "देवासंमुंगेर", "चेहरा", "विभू", "कल्चरल", "चमो", "ें", "गि", "एक्सप", "अनुमान", "अवसानपुर", "पुजा", "ट्रिपै", "वेणी", "बै", "सवाई", "भूई", "मियां", "संविलीन", "ईटीवी", "आया", "एसटी", "नॉर्", "अतरौरा", "ष्णु", "सितम्बर", "७४४", "आकर्षण", "नामांकनकर्ता", "आखि", "देहा", "खाड़ी", "सम्बन्धित", "न्यूरोसाइंस", "दूपुर", "वंशज", "भूसलपुर", "लच्छा", "नवंबर", "तपस्वि", "पोलिश", "क्षेत्र", "मिलियन", "चे", "क्वार्टर", "अथ", "मल", "लगाएँ", "चौहान", "इकाईयाँ", "आवश्यकता", "मुखर्जी", "पुनर्जन्म", "समपतचक", "निचली", "चमचा", "चीजों", "दनियावान", "मम", "शायर", "थि", "पारिस्थितिकी", "खलीहृ", "रामबाग", "ज्ञानसन्दूक", "यंत्र", "रॉक", "रा", "चेतरा", "ढी", "पेशा", "बरबीघा", "वयन", "सीकरी", "नायक", "चमोली", "मनोहर", "निमा", "दोभी", "आंशिक", "गुजरा", "खण्ड", "राजनांदगाँव", "पाए", "मुंतजिबपुर", "पिन", "गोमती", "द्दी", "निर्णय", "ध्येय", "पुस्तक", "शांति", "इंजीनि", "सोढ़ा", "पूर्ति", "ऑल", "लद्दाख़ी", "भारतप्रान्त", "पर्व", "शेड्स", "ंक", "ठे", "सागरीय", "बिर", "साबाद", "सीई", "लेआउट", "बारबूडा", "निरोध", "लदफोडा", "भिषेक", "जनशक्ति", "जीवाश्", "राधिकापुर", "मुहि", "रसगुल्ले", "नपुर", "१६", "यूपी", "कैथ", "बाजार", "चाल", "एन्टी", "हज़", "कमर्शियल", "मटर", "पूर्", "दुर्ग", "अभिनय", "तीर्था", "जैवविकास", "अब्दुल", "अण्टी", "मुख्यमंत्रीभाषाहिंदुस्तानी", "दरभंगा", "पौ", "गत", "वहन", "खूब", "काव्य", "नदौला", "सैन्फिलिपो", "प्रतिवर्ष", "ननऊ", "वृष", "रसूलपुर", "महाखरा", "क्कर", "वर्गीकृत", "धनसीपुर", "अं", "रजत", "मेट्रोपॉलिटन", "गुणा", "बिशु", "शंघा", "विश्ले", "पुरुलिया", "गाया", "उमर", "घाटमपुर", "करना", "आण", "धार", "दा", "निर्दली", "मैं", "िला", "बोटे", "वैश्यम्पायन", "सिद्धार्थनगर", "स्वागत", "पैक्ट", "पब्लिशिंग", "चित्रकला", "वट", "अंडमान", "मोहिसिना", "पुत्र", "नेहरू", "प्रवेश", "पैट्रिक", "ँड़", "मेथी", "बाड़मेर", "इल", "वीभत्स", "सापानी", "संपादक", "बेल्गाव", "यो", "सोराँव", "सेमैन", "शयल्ला", "उच्चतम", "राजधानीऔर", "टबॉल", "उत्पन्न", "अभिलेखा", "बोथ", "ष्क", "कन्नड़", "प्रोजेक्ट", "कोह", "खी", "चुनौ", "भयंकर", "गल", "एंथोनी", "ची", "उपज़िले", "अमिताभ", "रामेछाप", "कुछ", "कूल्", "माहिया", "छोटा", "जमसेधपुर", "कक्षक", "सियोरा", "मज़", "निर्", "अकिनगाम", "गाँधी", "कांतिमान", "मनोविज्ञान", "ओनिसवान", "जावेद", "अभिजात्य", "जीनोम", "ज़रलैंड", "रोहिणी", "पुदुच्चेरी", "हटाया", "जैव", "पार्वती", "परतापपुर", "सूर्यापेट", "पैन", "घू", "बिन", "तिरुवनन्तपुरम", "दून", "प्रगति", "संदर्भ", "किशु", "वैंडल", "केंदुझार्", "ग़ाज़ी", "आदेश", "लिमिटेड", "फ़तुहा", "तिल", "खुटिया", "अंग्रेजों", "ब्रिन्दावन", "फाय", "सिहोर", "कैमरून", "नियोजन", "आँकड़े", "ौला", "डिटमोर", "क्रिश्चियन", "त्रुटियों", "प्रणाली", "मिथि", "खुश", "मुद्रा", "अभिव्यक्ति", "बॉ", "वादक", "मस्जिद", "नवकोथी", "ब्ले", "वध", "हरिराम", "ध्याय", "सूत्र", "केंदुझार्गढ़", "पाटन", "कैथोलिक", "चक", "परेतीपुर", "वर्णों", "शुद्ध", "रतिचित्रण", "पुष्पक", "सुहासिनी", "फायदे", "फीरोज़", "पावेल", "शगुन", "लाफ्", "सैदहा", "टाइप", "पहले", "विज्ञापन", "बार्थे", "छियाली", "तिरुक्कुरल", "डबि", "दूसरा", "लोहित", "तमंचगढ़", "कर्नू", "प्रदेशद्वार", "चुकी", "अल्लहाबाद", "दिसंबर", "किश", "उतराँव", "फतेह", "काठगोदाम", "माध", "रुक", "वर्धन", "धोवहा", "जयपुर", "अफजु", "मामूट्टी", "धेना", "तरीका", "डिजिटल", "मथु", "चुनाव", "स्थिर", "लदफो", "जीम", "परिवहन", "मछुआ", "ृह", "कामायनी", "यादव", "खगोल", "पु", "टॉ", "भत्तुवानिपल्लि", "स्टीफन", "दुः", "सूर्याणगरी", "हुनेरिक", "तांबर", "अभ", "संस्कृतिपर्यटनगोल", "पिलखिनी", "प्", "पंक्तियों", "जर", "मेंढ", "बिशुनपुर", "यौ", "मेदिनी", "ऑक्साइड", "ज़्", "युधि", "फायर", "नही", "महोत्सव", "विष", "पृथ्वीपुर", "श्रीप्रकाश", "रेडि", "तीर्थ", "डीप", "समायोजित", "इन्द्रयानी", "चन्द्रगुप्त", "लक्षणों", "अड्डा", "चौ", "जन्मेजय", "यूनिट", "कम्युनिकेशन", "भूमिका", "दुर", "२००६", "भरौंधा", "गीत", "रिडेम्प्शन", "विक्रमादित्य", "शुंग", "जोको", "सन्दर्भ", "ट्वेंटी", "कमीशन", "दै", "चौगान", "देहात", "पाठक", "भवनसंबंधित", "नालन्दा", "पकलुर", "द्रविड़", "री", "बीघा", "सफलता", "मार्च", "मौका", "धृ", "बाढ़", "जर्मनी", "बायोलॉजी", "बल्हार", "मामले", "ंकूवर", "ल्", "नूरनबी", "स्", "अनास्तासिया", "तीर्थंकर", "आरडी", "भक्त", "पेट्रोलियम", "ओडि", "कार्बोनेट", "गेहूं", "अंतिम", "महादेवपुर", "परभू", "ग्रीष्म", "अण्टीगुआ", "रोककफ़ोर्ट", "रुचि", "मुंह", "निर्माण", "किंग", "ग्रीष्मकालीन", "उपभाषा", "तिवारीपुर", "ऎर्रमट", "पढ़ने", "हिलदा", "पापड़", "भूभाग", "डायोडाया", "सार्व", "विलेम", "मक्के", "ङ्", "कॉन्सटेंटाइन", "भाषाई", "शोरकोट", "मुकनासर", "कोचु", "औष", "थॉ", "मुतफकरा", "खखई", "तिहासिक", "काबु", "यूनाइटेड", "ंद", "उज़्बे", "मण्डलभामस", "लश्कर", "निगम", "शकु", "नागालैण्ड", "धमा", "चैम्पियनशिप", "जेल", "विकिपीडिया", "धुंध", "बिहारप्रमंडल", "ख़ागान", "बांटू", "मरियम", "चाट", "गापुर", "सूर्योदय", "डेली", "पोर्न", "९३", "भिन्न", "सुमित", "टाइम्स", "रॉबर्ट", "पॉवर", "कोंकण", "विकिफ़ा", "नगरआगरा", "२००२", "घरघो", "शब्द", "अधिकशिक्षा", "सयाजी", "श्", "वीं", "राकेश", "महीने", "सुलेमान", "क़तर", "सफल", "शहर", "अम", "राधावल्लभ", "डु", "तलाश", "लूनी", "पाठशाला", "आर्थर", "बोया", "शक्थिपुन्ज", "११", "मौ", "कर्ता", "मोनोट्रीम", "डिवाइस", "तपो", "कुकी", "कनालीछी", "बापूधाम", "मल्होत्रा", "सूर्यास्त", "पनीर", "रक्खा", "दनडारी", "वाइल्डलाइ", "मार्गदर्शक", "भदवान", "घाट", "ज्वालामुखी", "मय", "शानदार", "सुब", "दाहिनी", "बबूरी", "पशुपति", "गणेशीपुर", "बाँकी", "पांडियन", "व्यक्तिगत", "बाइडेन", "लता", "वैकल्", "स्वीट", "किशोर", "कॊम्", "परं", "गोरखधाम", "समुद्र", "गणितज्ञ", "कोशिकाओं", "परंपरा", "खाजा", "रिंग", "बीच", "ण्डव", "१९५", "शेषाद्री", "वा", "हरीराम", "काफ़ी", "डियन", "भद्राद्री", "वाराणसी", "विश्लेषण", "मचिलि", "दर्शक", "द्द", "वाहा", "पिपरौर", "सलाह", "यू", "छोड़ना", "अंबिका", "बढ़", "आधुनिक", "लापुर", "पूजन", "मालवा", "ज़ल", "चाँद", "तोड़", "गणराज्य", "आता", "विवरण", "अवसाद", "अदृश्य", "उठ", "खुद", "इम्म्युनोलॉजी", "पोषण", "उपनिवेश", "स्थानांतरित", "कवि", "ध्व", "बेल्छी", "अपने", "तहसी", "एल", "मध्ययुगी", "परिस्थिति", "बुनियादी", "प्रश", "प्पन", "लिबर", "ड्स", "मछरौली", "शोधकर्ताओं", "कंपनियां", "रोहि", "कोडआइ", "आबादी", "साइंटिस्ट", "बहस", "खागड़ा", "बलोच", "मढ़ी", "रेल", "प्रचलितगुजराती", "मर", "व्यापक", "पत्नी", "थायराइड", "देहरादूनइतिहास", "नेस्ले", "टर्मिन", "नानसेन", "कब्", "अफ्रीका", "रहती", "स्क्रिप्", "मियनचिय", "परसोत्तमपुर", "आसपास", "बांकी", "छः", "पर्यटकों", "त्रिगुणातीतानन्द", "वैष्ण", "ख़ु", "उदगी", "लड़ा", "पत्नाम", "पांडे", "इंटरसिटी", "सीधे", "डून", "नर्मदा", "७२", "हता", "कानून", "सहकारी", "आमंत्रित", "शुदा", "विचार", "जनतांत्रिक", "वाँ", "त्रैमासिक", "सपुर", "सांख्यिकी", "तीव्र", "डिब्रू", "मतलब", "मैथ्यू", "महबतपुर", "मालपु", "टर", "इब्न", "चढ़", "याकू", "जहानाबाद", "दाहि", "महाविहार", "मालीपुरा", "किशन", "खै", "बैद्यनाथधाम", "माउ", "अदिलाबाद", "दादपुर", "ट्रिब्यून", "रजिस्ट्रीकृत", "लोहर", "जुमा", "अंदावर", "शौचालय", "स्ट", "शिंग", "रिच", "ओबा", "अधिकजिलेअल्मोड़ा", "न्गा", "डेनि", "पुनर्निर्देशित", "परीक्षा", "त्रिपाठी", "मपुर", "कैलिफोर्", "मू", "बॉम्बे", "कुनवरपुर", "बहादु", "पर्वत", "नामालूम", "जॉनसन", "मिथिला", "बार्न्स", "परीक्षण", "जानते", "फ्लाविया", "द्रोणाचार्य", "थो", "बल्ले", "इंडियन", "स्तोत्र", "प्रतिभागी", "ड्राइ", "हॉक्स", "देवासंआगरा", "हुसैन", "बुलाया", "मिठाइयां", "ढू", "लुई", "वन्चिनद", "इरौंटार", "आरंभ", "फाकफोक", "जिसपे", "डू", "क्वालीफायर", "अफ", "कृप", "क्रिस्टी", "मणि", "केदार", "नुकसानदेह", "गुयाना", "भारतप्रान्ततमिल", "कोयना", "शृंखला", "रुप", "पोजीशन", "आस", "ओपन", "बारिश", "कैफि", "हिंदुस्तानी", "आयरिश", "डी", "छौराही", "टैक्सी", "कसियौ", "अधिकसरकार", "माइज़ॉयर", "बी॰", "येल", "वेली", "मच्लि", "रत्नाचल", "संकाय", "बसगित", "शही", "बुद्धिमान", "उड़ी", "बाएँ", "डायलर", "साइट", "ज़र", "वैश्विक", "एक", "यूनी", "नाई", "भविष्य", "ब्लड", "ंघ", "तर्कशास्त्र", "प्रदाय", "ल्ली", "प्यागी", "हंडिया", "दुबेपुर", "कोण", "एँ", "प्रकृति", "क्षि", "जन्म", "नताशा", "विफलता", "मसालेमिठाई", "वीएम", "फु", "पोते", "श्रृंखला", "हिंड्स", "खलीक", "ख्मेर", "श्रीकाकुलम", "हांगकांग", "लो", "वाणि", "भांति", "मणिपाल", "भारतीयपेशा", "व्यापी", "फ्रैंक", "बेल्जि", "दिघ", "हम्", "डिपो", "सलेहपुर", "पिथौरा", "सस", "कॉटन", "ललित", "विट्ठलपुर", "एग्", "दुमा", "गढ़वा", "सदाभ", "ौटा", "लूपाई", "मंगलबारे", "कागज्नगर", "स्पेशल", "बेहद", "दंड", "आज़ाद", "नंदीग्राम", "सर्व", "इकाईयाँबनारस", "मुरलीधरपुर", "फिर", "डिज़्", "बजहा", "नदि", "रव", "विरासत", "मामा", "नेन्", "खुले", "लाई", "बाबर", "बनता", "विज्ञा", "अमेपुर", "बूढ़ी", "मल्हीपुर", "एच", "पैसेंजर", "क्रांतिकारियों", "भारतदेश", "काराकोरम", "ठकुरै", "गूजर", "संगीत", "याद", "टीपू", "लिपि", "१५४२", "चैप्टर", "शंकर", "उपरदहा", "हेनेवी", "करण", "कोरबा", "फिलि", "लॉ", "फ़्", "फ़ा", "लापसी", "बातचीत", "सीरियाई", "सोसाय", "दन", "शौ", "ज़ोर", "युवा", "अधिकलोगहेम", "धीन", "प्रशिध्द", "बराबर", "इनका", "रूट", "उद्भव", "सुधार", "प्राप्त", "विजेता", "गामा", "नई", "नव", "दीघा", "अवस्थिति", "परमाण्वों", "स्नातक", "अनुसार", "अंग्रेजी", "सिम्", "निः", "जट", "बख्तियारपुर", "सफे", "लालसहाय", "सेवाएं", "तपती", "एसएआर", "फो", "सफा", "यज्ञ", "गायिका", "टमाटर", "तहरीक", "निगर", "कालीन", "जर्", "ओस्माना", "बंगला", "टाइगर", "पेक्ष", "धुसेनी", "ओख", "सदरेपुर", "२६", "राजशाही", "जमीयत", "कहाँ", "औजार", "वीरापुर", "सबसे", "टीडी", "शु", "विदर्", "डेमोक्रे", "मारकिस", "डाक", "नेकानामेपुर", "कॉलिज", "रूद्र", "१९६४", "इनसे", "अंग्रेज़ी", "पोखरी", "इज", "पीपुल्स", "बछ", "महामयानगर", "दोआ", "बिदा", "पवन", "अभिनेताकार्यकाल", "स्पर्श", "मंत्री", "मेल", "गर्भ", "पाँच", "समर्थन", "अन्वेषक", "तेह", "शरीर", "टक", "अभियांत्रिकी", "गैप", "राजनीतिकसंबद्धताऐं", "मुस्तफ़ा", "वनपूर्व", "समाजसुधारक", "व्यास", "वीओ", "जेडी", "टिश", "विठ", "गांवआगरा", "हत", "मियों", "गाँवप्रखण्ड", "फैक्ट्री", "वृंदा", "आशा", "रेलप्राधिकारी", "इंडस्ट्रियल", "आखिर", "नोनारा", "खुसरुपूर", "गैया", "एड", "सूरीनाम", "बैगुल", "लिटिल", "बास", "बढ़ाया", "तूलिका", "न्यूरोबायोलॉजी", "भईंस", "त्", "चन्द्रमुखी", "शुरुआत", "जाते", "निज़ामाबाद", "मॉडल", "भोजा", "८९", "पुलिस", "दार्जिलिंग", "सोसाइटी", "तमिल", "मंत्रालय", "माउंट", "नंदापट्टी", "सेम", "टीम", "सदाशिव", "बीनैका", "गणेश", "मेटाबेलेलैंड", "आरोप", "कवरेज", "निकटता", "मीमांसा", "कोफ्", "हरफ", "तिब्", "उड्ड", "अल्बर्ट", "पल्नादु", "गांव", "बिल्स", "आयोजित", "बन्ध", "राधा", "ल्तान", "साइमन", "बायां", "मोन्दूलकिरी", "साद", "फ़ेयर", "हंसापुर", "मिलाकर", "प्रचलितमराठीसमय", "बागेश्वर", "देनदार", "गईं", "कन्दुकोंदैन", "कंप्यूटिंग", "थाईलैंड", "गायब", "बिजनेस", "सटीक", "मद्रास", "भाऊ", "सेमरिया", "बेगम", "बिरयानी", "कासी", "ग़ज़नवी", "प्रचलिततेलुगू", "अनुयायी", "दूलापुर", "ला", "मिर्जापुर", "सुजानपुर", "छी", "पटाया", "सैय्यद", "देवासंउत्तर", "आसनसोल", "ड़ी", "ट्ट", "लोकगीत", "प्रया", "पाखी", "मैटिक", "ट्रिब्यू", "पब्", "तेलुगू", "ऐं", "येकतरीना", "अप्रतिम", "फंसे", "तिरहु", "तगा", "शत्रु", "बिथिनिया", "होगा", "रण", "राजेश", "परांठा", "आव", "अधिकनगरदेहरादून", "दिसम्बर", "फ़ि", "ढ़ी", "जर्नल", "भागयनागर", "ब्रांड", "शिव", "४०", "विशाल", "चित्तौरगढ़", "घिरा", "दिल्लगी", "न्द", "गभाना", "केंद्रीय", "अक्षर", "विलुप्त", "सुलतानगंज", "चण्डी", "छोटे", "घोटा", "मास्टर", "बाधाओं", "दरबार", "कन्याकुमारी", "मोतिहारी", "अंबे", "फाउंडे", "दवाइयां", "जनवरी", "विवादास्पक", "पेट्रोल", "चौंसठ", "कम्बोडिया", "मुझफ्", "ट्यूट", "निबंधकार", "भमरौला", "मिट", "महबूबा", "राजकुमार", "ौर", "पसंदीदा", "विचारधारा", "धी", "णिक", "त्रिवेणी", "कर्ण", "गोलछापा", "पानदारक", "कोन", "मुलाकात", "औपचारिक", "ड्डी", "कुंड", "नेलवेली", "इंडीज", "प्रोटोकॉल", "नबर्ग", "वेद", "मुजफ़्", "केशोपुर", "नल", "इकु", "सेनापति", "गंगा", "पुवामझुवा", "मितौली", "सतलज", "ऊगापुर", "रायपुर", "तोर्षा", "शुक्ल", "चू", "श्रय", "बेनी", "संचालन", "किशुनी", "गैर", "क्रमानुसार", "सो", "टैकी", "मुफ्", "सम्बद्धता", "जनसांख्यिकीक", "तराई", "बीमारियों", "रिमो", "लै", "डिज़ा", "निशंख", "ौली", "चेतना", "लगीं", "ग्रहण", "लिज", "कॊ", "राबाद", "उर्वर", "श्रीलंका", "घी", "विश्व", "माइलदुटु", "अंचल", "वॉर्ट", "पवित्र", "पपृ॰", "जनहित", "बथानी", "ज़मीन", "नक्की", "जैस", "र्", "मेट्रो", "दृष्टि", "स्वी", "वावरिन्", "झांग", "गिर", "जम्", "शे", "६४", "क्चर", "हीराकु", "बादाम", "उपपाच", "धौरहारा", "प्रतिनि", "द्दा", "कुतु", "इन्होंने", "हन", "तत्व", "प्रचलित", "दू", "ब्लोम", "वुडफ़र्ड", "नवयुग", "ईसी", "अर्जक", "मामू", "सरगुजा", "कई", "आन्दोलन", "बिहारशरीफ", "भाषा", "साहित्य", "पृथ्वी", "नेवादा", "लोहाघाट", "लिमाह", "सीनेटर", "खू", "लोटा", "जवाब", "दाऊ", "प्रारंभ", "सैं", "लिप", "आदिवासियों", "मैथुन", "पास", "स्ट्रीम", "अरुणाचल", "महाबलेश्वर", "डक", "अण्ड", "वॅ", "वाय", "हाट", "विवादित", "एलिज़ा", "भंडारण", "चैनल", "संयुक्त", "केंब्रिज", "शिमला", "काज़ि", "आलु", "जनुवाडीह", "भिसकी", "धमाका", "मेडि", "बाहूर", "बताई", "हैंडसेट", "फाउंडेशन", "मध्यप्रदेश", "ओटो", "गबो", "काशीकांत", "स्वीकार", "प्राणी", "अर्धवृत्ता", "हज़रदुआरी", "मेडिसिन", "पत्थर", "स्व", "स्वाधीनता", "उमेद", "साक्षी", "कुं", "फैन", "पोर्टल", "वॆ", "विश्वविधा", "तापविद्युत", "बझेरा", "आन", "प्रभु", "पुरूष", "प्रकाशित", "कैथरीन", "क़बीलों", "सदस्य", "बहुगुणा", "गये", "गोनन्द", "खीजिरपुर", "पर्क", "आलोचकों", "तत्कालीन", "९ए", "तर", "त्रिगुणाती", "यर", "रबि", "बुङ", "विभाग", "सा", "अव", "इस्माइल", "मछलीपट्टनम", "क्ल", "पुरालेख", "मदद", "द्वितीय", "शाह", "व्हील्स", "शोले", "ड्रीम", "माफ़ी", "कुसरी", "राउ", "जिद", "बैजनाथ", "जरकोट", "शास्त्रीय", "दूसरे", "ग्वे", "वैकल्पिक", "न्यूजीलैंड", "बर्फ़ी", "पूर्णतः", "भौतिक", "कैरि", "रत्ना", "पाणि", "विज़ग", "ब्रह्म", "जिससे", "डिकेन्स", "निष्", "२५", "उड़ीसा", "इम्", "किशमिश", "जैन", "संसाधन", "कपिमी", "हा", "रूस", "हिंद", "आश्रम", "बिहार", "नाल्ड", "कामाख्या", "लेकर", "अक्तूबर", "माइपोखरी", "नीचे", "दोयाधुया", "३०", "अर्जु", "पुदु", "बमलि", "बहुचरा", "नामफ्लाविया", "मछली", "आठवीं", "वैशाली", "लुमडि", "वेश्यावृत्ति", "बर्ग", "फाक", "रावण", "सोसायटी", "तत्", "२७", "दुर्लभ", "ब्ला", "नाम्सालिङ", "सला", "कोय", "पृष्ठों", "रोज़मर्रा", "गोल", "यहूदी", "गु", "सैगल", "चौथे", "खतरे", "छियालीस", "मेरठ", "लेपचा", "पर्ल", "८४", "चतुर्थ", "बोड़", "चुसेट्स", "एट", "मातृभाषा", "सेमिनरी", "गुआंग्शु", "मुत", "ममरेज", "जिलाकी", "ऐसे", "औली", "विकिपी", "लिये", "दि", "जैसी", "बलदिहा", "दाय", "सामने", "भाषाओँ", "माइक्रोसॉफ्ट", "जैसे", "सादगी", "साङ्गरू", "जंघई", "करने", "गवर्नमेंट", "नओगाँ", "मुला", "जम", "गोगरी", "बैगाई", "चेन्नई", "ज़म्बोआ", "ऐसी", "टेक्", "ट्रेन", "भनाई", "अटसेनी", "अमावस", "पृ", "मि", "८०", "आई॰एस॰एन॰आई॰", "ों", "गजुरमुखी", "अनुया", "बॉय", "केम्", "दूतावास", "भारतप्रान्तगुजरात", "गुस्ता", "जाति", "शान्तिपुर", "अब", "मिस्रीय", "बदाम", "भुन्ना", "आकर्षित", "समाज", "बिस्मिल", "बालोद", "केत", "पोर्ट", "ईसवी", "प्रोफ़ेसर", "पढ़ा", "ओन्गी", "नवभारत", "भाष", "सिथौली", "वत", "रेलप्राधिकारीरेल", "कोयम्बतूर", "डालकर", "नजर", "आभा", "स्कॉट", "उट", "रोबेर्", "घु", "सश", "निजी", "जनगणना", "देवड़ा", "ब्व्", "वेयर", "वनडे", "ऋषभ", "चंद्रशेखर", "चेन्न", "आई", "वर्ग", "डायबिटीज", "भारत", "स्वतंत्र", "जम्हूरी", "यूरोप", "नीदर", "परभूपुर", "ेस", "एतमादु", "फा", "मस्तिष्क", "सेमरा", "प्रेमचंद", "रिपब्", "एंड", "भाजी", "माही", "डायोडा", "तपुर", "श्चित", "तिरुच्चि", "प्रचलितबंगालीसमय", "बल्कि", "हुआ", "दीक्षा", "तंत्र", "मिस", "आईआई", "मक्कल", "संहार", "थीम", "रवथू", "बहु", "चाँदपुर", "मुस्तफापुर", "नमूना", "रिथवा", "स्मारक", "पटियाली", "आइ", "प्रतिदिन", "टोबा", "कन्ननोरे", "सिद्धांत", "मीटर", "जाबाद", "कसौधाँ", "रस", "शेखौरा", "परिणा", "रूद्रप्रयाग", "च्च", "तवा", "संपर्क", "कैरियर", "जंग", "ऊअन", "ट्", "केवल", "भीष्", "कोमाराम", "बई", "उपजिलाउपज़िलाबांग्लादेश", "खोखला", "ऑफिसर", "राजधानी", "सम्राट", "गोएक", "पेयअनार", "हौ", "उन्तसनी", "समाप्त", "शिवसेना", "माह", "बहकर", "३४", "स्टीड", "धे", "गोपाल", "ज्", "कुशीनगर", "विशि", "पा", "झराहा", "अग्रवाल", "जे", "वास्तुकला", "हेम", "ग्रैंड", "आईसी", "कार्ल", "निःशुल्क", "बढ़ो", "मानना", "बेची", "निम्", "अच्छ", "इस्तेमाल", "माइक्रो", "सरपोअसबीर", "कैट", "नगनथपुर", "ढोकला", "ंभ", "दार्जि", "विस्त", "४६", "दुसौती", "तंधर", "चूली", "भेज", "चट्टग्राम", "संचालित", "टूटीकोरिन", "स्कोर", "पिना", "लास", "थॉर्न", "अवयव", "दिनांक", "फील्ड", "काय", "मूवमेंट", "कि॰मी॰", "रघु", "अमीरात", "पट्टी", "गुंबद", "माथुर", "नकुल", "गोवि", "सजा", "फीफा", "देबीद्बार", "सीधी", "२००३", "ँजा", "उध", "जिंदगी", "सुल्तान", "अवशोषित", "ड़ा", "दोनों", "असवा", "यांत्रिक", "मझयार", "हेमवती", "प्रोटोटाइप", "वरदान", "तिरुवन्मि", "रिडेम्प्", "मुगलई", "बर्मेर", "थ्", "रिप्पन", "यमुनोत्री", "कुल्लू", "बाज़", "मृ", "सहरसा", "तुंगभद्रा", "अज़ीज़", "चल", "पाद", "देने", "भो", "पूर्णिया", "दल", "रीवा", "श्रेणियां", "ब्राह्", "विवादास्", "शाला", "कैडमियम", "सूक्ष्म", "अनुचित", "मक", "मेमोरि", "बहुसंख्यक", "संतुष्टि", "चौथी", "दोआब", "दावा", "हिलदामित", "अनु", "पूर्व", "हाल", "संस्करण", "नु", "थाली", "पट्टबिराम", "आरटी", "बाबा", "यक", "हटाई", "एन", "सांता", "मूंगा", "दाहिने", "जुम्", "प्रौद्योगिकि", "प्रगतिशील", "भारद्", "शत", "अनुभाग", "अल्मो", "फ़ालसे", "॰ऍ", "मनीषा", "बिहटा", "साध", "स्ना", "ब्रदर", "मीडिया", "डीह", "अशोक", "ओड़िया", "तह", "निदेशक", "अधिकांश", "प्लै", "महाकोशल", "अनुज", "वेग", "बुजुर्ग", "शहीद", "ग्रंथों", "तवाकुल", "ंज", "किंगडम", "टेन", "मैकरो", "वर्णन", "कठिन", "भोजन", "उठा", "शिकोत्सू", "आध्यात्मिक", "बाइडे", "खालिद", "बुक्स", "८२", "रुख", "मद", "मनसूर", "मीठू", "मियर", "सुरेहरा", "बल", "दिवसीय", "मैप", "रेखा", "रिपब्लिक", "भारतीय", "ताओं", "सॉल्", "चौधरी", "दिए", "त्रिपुरी", "तख्त", "मध्ययुगीन", "स्कू", "ड्राइवर", "गमन", "पवारत", "वकील", "पैगवा", "ज्ञम्नगर्श्रु", "परम्परा", "सॉफ्टवेयर", "पण", "सद्भावना", "किरदार", "राक्ष", "आईटी", "निर", "निःशु", "हण", "रघुपुर", "मेके", "सोन", "कश्", "नै", "छत्तीस", "सीरीज", "योगदान", "काश", "ंझा", "समझता", "श्ते", "पश्चि", "ओधिया", "सीरिया", "बॉण्ड", "मा", "बेरीनाग", "मकदूमपुर", "जब्त", "लियोन", "मीना", "आँख", "के॰", "साकेत", "स्वायत्त", "भूसंड", "इमाम", "पांडव", "विदेश", "वैगई", "्र", "साक", "आवश्यक", "असेपुर", "वु", "रोककफ़ोर्", "ईस्", "बुलंद", "लीगचैम्पियनशिप", "उत्तरायणी", "हार्ट", "मंचेरियल", "बिल्", "भै", "बाव", "मनोकामना", "चमन", "ट्रांज़ि", "पात", "आत्", "शबरी", "एतमादपुर", "देवदहना", "कद", "स्त", "यब", "तालुका", "डेहरी", "मुख्यभूमि", "तिप्", "वाया", "महेश", "वन्यजीव", "किद", "उधमसिंहनगर", "मलुपुर", "जीपीएक्स", "जिले", "छवि", "सद", "य़", "सतावाहना", "दुमका", "बेल्लंपल्लि", "विश्वेश्वरैया", "बांद्रा", "साउथ", "वल", "आवासीय", "मदरक", "जनरल", "देहरादूनइतिहासपौराणिक", "ब्लोख", "जॉर्", "मज़ार", "टुडे", "आन्ध्रप्रदेश", "दौतपुर", "नुक़्ता", "बिंदाचक", "रोमानिया", "मंगलौर", "स्टेट", "सियाल", "रेलेवे", "गोदावरी", "जायसवाल", "जल्दी", "क़ौमी", "बाभ", "उपजिले", "ऐंड", "बीरापुर", "चालुक्य", "थापा", "मण्डलआईएसटी", "परिषदनगर", "घोसवारी", "फरकिया", "ज्योति", "रचयिता", "बनती", "लंद", "एर", "कम्प्यू", "वेफेयर", "नागरकोविल", "धौर्रा", "आगंतुक", "विंडो", "पीना", "ओर", "मनसूरचक", "अशो", "मराठवाडा", "नियंत्रण", "बोध", "सचखंड", "बड़ागाँव", "भत्तु", "प्रतिज्ञप्ति", "लद्दाख", "दुल्हिनबाजार", "ऑस्ट्रो", "सेब", "१०", "मां", "बाधा", "प्रदान", "आबू", "उम्", "मुइनु", "रिपोर्ट", "ग्रीक", "आयुर्", "अनिल", "मंगलीपुर", "क़िला", "सीनेट", "थॉमस", "प्रतिशत", "बहूपुर", "लाइबेरियन", "द्वि", "कल", "आस्क", "१८", "दारापुर", "शूटिंग", "ओखलकाण्डा", "हस्ति", "टैक्सोनॉ", "पैर", "नज", "अल्लेप्पी", "अल्प", "कुच्", "वर्षगांठ", "वक", "प्रचारक", "अंग", "सरलीफ", "चम्", "डिज़नी", "विश्वव्यापी", "पर्यटनमंडलआगरा", "ले", "क्कम", "अजेहरा", "पीली", "बैठ", "देवतैया", "बरबोटे", "फ़ौ", "म्यूजिक", "प्रागै", "गुरुकुल", "इटावा", "छत्ती", "रेडिस", "बांदा", "मिजोरम", "लिबरल", "चट", "यशोवती", "काटा", "कड", "मंडुआ", "यिन", "पटनाभूभाग", "सपने", "आर", "मोर्चा", "अण्डमान", "ईडो", "भट", "टेल", "पी॰", "पाठ्य", "लगाकर", "डेमोक्रेटिक", "भगवान", "दिनाजपुर", "प्रायः", "बाराकोट", "जोगबनी", "मुख्यालय", "वेल", "मुत्ताहिदा", "लीला", "मुलायम", "शैक्षणिक", "यहाँ", "वी॰आई॰", "शिल्प", "करुवा", "बबु", "जोगिंदर", "मधुरि", "जमुवा", "राष्ट्र", "स्वय", "महरछा", "सरापुर", "हालांकि", "प्पुशी", "मुहम्", "पोली", "न्दावन", "फिल्म", "गुगल", "बद्री", "्स", "बुंदेली", "तांडव", "कर्णा", "कटि", "डॉ", "छेत्र", "पल्ना", "गोविन्द", "शक्थिपुन्", "फुँए", "रचनाओं", "शौर्य", "इच्छा", "बजा", "कोइंबा", "लाफ्तान", "हैं", "टी", "बाराबंकी", "पटेल", "विशेष", "अशुद्धता", "गुआंग्", "नर", "ब्", "धू", "वाराणसीज़िलेअंबेडकर", "फरवरी", "खखईचा", "लखिमपुर", "तिरुवल्", "म्भ", "भूलेंड", "अदिला", "अस्", "छूट", "गेहू", "फूंचोग", "अभिजात", "उद्", "ऋचा", "गण", "बदला", "ओन्", "स्वयं", "कोलाट्ट्", "बच", "जनसंख्या", "देवसैनी", "प्ले", "नैन", "कन्दुकोंदै", "भदैली", "षण", "सुआरा", "गृह", "दिये", "न्यासी", "पांडुलिपियों", "कांस्य", "रिडेम्", "तिब्बती", "एंजिल्स", "एरकेल", "चिटो", "तस्वीरों", "ंछड़ि", "फरक्का", "जनजातीय", "वृन्दावन", "हौदा", "धै", "वृषभानु", "सिरीयल", "७ए", "नाडू", "चोट", "न्", "नय्यर", "कैसे", "डिजाइन", "मारकंडा", "स्कैन", "करौहा", "जरिए", "आइ॰", "प्रायद्वीप", "उधमसिंह", "बलिदान", "नीलाचल", "सुम्बे", "राजनीतिकसंबद्धता", "मजदूर", "ऑस्टेन", "चलाया", "शुरुआ", "वृन्दावनइतिहास", "सरकार", "धर", "कॉलेज", "अररिया", "सड़क", "विस्तृत", "पैरा", "अखबार", "अनास्ता", "महसूस", "बंद", "हिंसा", "क्रेग", "क्वार्", "विशाखापट्टनम", "एसोसिएशन", "महुवा", "गरघनपुर", "स्वाधीन", "मेगालि", "विभाजित", "लु", "शामिल", "ओवर", "प्रयो", "शाल", "क़ादिया", "नोकिया", "सौं", "स्टैनफोर्ड", "हडि", "मझ", "उस", "माँ", "फेलो", "शाहप्रदर्शन", "कॉर्नेल", "फै", "खली", "परसावां", "लौट", "रॉ", "लिवर", "मॉन्टै", "वस्तु", "मचिलिपत्नाम", "टबॉ", "मुझ", "चिड़ियाघर", "उद्योग", "बोत्सवाना", "कचेगु", "बाकी", "ज़ु", "सोयाङनगरपालिका", "प्राथमिक", "कचे", "रमे", "मिलता", "मं", "हीरा", "मुरली", "मयिलाडुतुर", "मथो", "आईं", "गुण", "बोस्टन", "प्रौद्योगिकियों", "शुरू", "ऑस्ट्रोने", "बारीपदा", "मुकु", "मुतफ", "आज", "मॉड्यूल", "याकूबपुर", "रस्किन", "गंगोत्री", "मार्कअप", "दुब", "हिपो", "सकते", "सम", "सॉ", "उल्", "एलुरु", "फैकोकोएरस", "सिहोरगढ़", "य्या", "नांग", "रेलदेवासंभारतीय", "पहचान", "टॉम", "रोक", "पि", "डब्", "सम्मानित", "यूना", "कर्मचारियों", "नो", "खरगपुर", "इबादत", "रज्जु", "लभ", "कोप", "चुनौती", "लुकास", "ऑस्ट्रोनेशियन", "निषेध", "उपमहाद्वीप", "वी॰", "जैमिनी", "सेंचुरी", "अंत", "टेलीविज़न", "धर्मशाला", "स्मृति", "उपन्यास", "मानहानिकार", "एंड्रॉएड", "रणकपुर", "राजनीतिज्ञ", "गर", "पचा", "राङ्", "दुल्हि", "सीमाओं", "शक्ति", "हुमायूं", "आरोहण", "मुरा", "रथ", "मूंग", "गंधा", "जामपुर", "लाख", "कल्चर", "सिन्हा", "दृ", "क्रास्नो", "झामु", "अंतराल", "जेम्स", "यम", "एल्गोरिदम", "पिलखि", "आई॰ऍस॰बी॰ऍ", "खानसामे", "उजराई", "वर्मा", "साङ्गरूम्बा", "तहत", "तड़पाने", "क्रियान्वयन", "नोबेल", "हू", "परम्परागत", "सिटी", "भौमिक", "सेंगोत्त", "जह", "मल्होत्रालेखक", "बिएन", "पिच", "दुःशला", "श्रीराम", "बिष्णुपुर", "धौलाधार", "वल्लभ", "नेटवर्", "तट", "परिच", "दिखाएँ", "भिंड", "अत्यधिक", "खगोलज्ञ", "काजोल", "गिरिडीह", "महादेव", "सिंहभू", "चन", "गोदक", "सोया", "पड़ोसी", "तापमान", "कनाली", "माधोपुर", "प्लस", "फ़्रांसीसी", "मानचित्र", "मत", "लूसी", "कण", "ैल", "प्रयास", "नगीना", "सिद्धार्थ", "हयात", "कतरा", "टाइटैनिक", "भत", "उतरौन", "पक्षियों", "आउट", "मेहरु", "र्घ", "कुशाण", "पिंक", "छत्तीसगढ", "समझते", "हिमाचल", "कुच्बेहर", "राजमार्ग", "राजपूत", "सहकुंड", "गाह", "उग्र", "खरीद", "इतने", "दय", "देवासंइलाम", "हवेली", "सभा", "ढु", "विशिष्ट", "ओहियो", "प्रशा", "सुखा", "शीकी", "झांसी", "जामुन", "आईआईआईटी", "होती", "केम्पटी", "कक्ष", "जोडी", "चाह", "तीर्", "उज्ज्", "संस्करणों", "लखमार", "कवई", "गैस", "वां", "ध्द", "समोधीपुर", "४७", "कोठागुड", "प्रदर्", "अनुयाई", "चाओली", "कासिम", "जापान", "विभा", "बल्हारशाह", "राहत", "तिरुच्चिराप्पल्ली", "मूर्ति", "जगित्याल", "निर्भर", "एसएआरएस", "भौ", "उपज़ि", "सिरकार", "हुबली", "व्", "सहायक", "प्याङ", "कटेहारी", "वर्कर", "पुरुषों", "नन्देद", "शीश", "ग्वेलियार", "हल्द्", "रविंदर्", "जाए", "हुगली", "संर", "सीटों", "स्वामी", "मेट्रोपॉलि", "पड़ने", "महाकुम्भ", "निगमपटना", "ट्रांजिट", "अनुवाद", "तुर्की", "गूना", "ऑफिस", "साहब", "कलुआपुर", "हबीबगंज", "आर्मा", "ऊर्जा", "दुभेरा", "जिलाशासन", "क्रिस्चियन", "शेखावा", "निभाई", "झाझा", "एसडी", "विरुद्ध", "बुंदे", "लोहरदगा", "छतौना", "किस्मत", "ौड़", "मार्क", "रू", "मिड", "मनमा", "पौधों", "संस्थानभारतीय", "मनसी", "मियामी", "दबाव", "१९९", "बाया", "व्यव", "शहडोल", "वकसापुर", "सुपर", "अंदर", "मुहा", "के", "बर्तन", "भूभागबिषयबिहार", "ट्रिप्लिकेन", "अदमपुर", "मुख्य", "आदमपुर", "कीम", "खोल", "द्विपक्षीय", "डंडा", "कनाडाई", "मैनुअल", "जानकारीजन्म", "धुले", "ऊंचा", "थाई", "ंब", "आज़म", "भगौतीपुर", "जै", "में", "एन॰आर॰", "शिबू", "एशियाई", "ओम", "श्रीरामचंद्र", "उपाध्यक्षों", "शिमो", "सै", "टियो", "रेवांचल", "निम्मू", "सोनपुर", "रेन", "टी॰", "इरा", "त्त", "वाक्य", "शरणार्थियों", "षट्", "दाह", "सुनील", "अधिकभूगोल", "कुत्", "नाथपुर", "सोम", "सीईओ", "रेलवेउत्पादन", "असेम्बली", "छूटती", "मकबरा", "मोबा", "पड़", "छे", "फ्रांसीसी", "आरम्भ", "किसी", "सु", "पीपु", "आर्मागे", "नंद", "जलवायु", "होलापुर", "जा", "आकर्षक", "घटोत्कच", "जीत", "गावाँ", "मिशि", "तब", "गुणवत्ता", "समुदाय", "बिल्सड़", "बेहतर", "सामाजिक", "जिम्बाब्", "ठकुराइन", "टेलीवि", "लद्दा", "सॉल्वै", "दिन", "ज़ई", "अनेक", "जमनीपुर", "लू", "डब्ल्यू", "हथ", "अमोगपुर", "व्यवस्था", "बांस", "छेना", "तथ्य", "बोड़नदी", "इकलौ", "सिउरी", "धीपुर", "अह", "बहुविकल्", "दिघौटा", "कुरगावाँ", "कोल्हापुर", "पिनकोड", "फिफ्टी", "प्रतिबंधित", "प्रमाण", "१९०५", "तरछ", "इयां", "मोटे", "सेवानिवृत्ति", "सभ", "जिनके", "भोपाल", "१५०", "वटी", "जोड़कर", "क़ादियां", "कोयंबटूर", "एरनाकुलम", "भारतआवास", "नयाँबजार", "लिखा", "बील", "डीआरडीओ", "पिछ", "साग", "एक्सटेंशन", "वो", "हाव", "गोपालगंज", "उच्च", "जबरदस्त", "शहंशाह", "सत्याग्रह", "शाखाओं", "एफ॰", "जैतपुर", "नौगट", "देवासंपटना", "स्मार", "लैंडिंग", "लपुर", "मुस्", "फाइनल", "दक्षिण", "हपुर", "चं", "बंगलु", "मिमी", "ऑनोरिस", "रोमानियाई", "माहू", "दपुर", "साँखे", "कश्मीर", "मूठा", "प्रचार", "कालीपुर", "वज़न", "तिप्पू", "घिरी", "उन्नाव", "कांत", "प्रिंसि", "उत्कल", "संलक्षण", "वाइल्डलाइफ", "एव", "निश", "मॉन्टैग्नार्ड्स", "शासन", "कॉफ़ी", "हास्य", "शेयर", "शह", "इसपर", "सलेमपट्टी", "सतलुज", "म्", "ंख", "हापा", "जयसलमेर", "क्रांति", "अदाल", "मीठ", "बो", "हैया", "कोरोना", "आतंक", "पन", "सम्बन्ध", "उदग्रता", "पट्टीराम", "यत", "ात", "उर", "कर्णावती", "रेवारी", "गई", "डिट", "विभिन्न", "भीलाड़", "रान्थाम्भोर", "पुतला", "जिंक", "१९६७", "जाएगी", "सैमु", "क्वालीफाई", "भारतप्रान्तपश्चिम", "साबरमती", "झेलम", "उपकरणों", "उन", "वेधशाला", "सीरी", "फैशन", "जमशेदपुर", "लेबल", "पकवान", "चमै", "समरुवा", "योजित", "उपलब्धियों", "शेष", "सेक्स", "सहयाद्रि", "आबन्धन", "ताम्रपर्णी", "कुबेरपुर", "शिप", "सरयू", "झरना", "विशेषज्ञता", "डोवे", "इतनी", "ईसा", "ज़ू", "पैसेंज", "क्षेत्रीय", "हि", "पदार्थ", "ताइ", "ोर", "गपुर", "डी॰", "ब्रिज", "बफलो", "हेनावी", "क्त", "वई", "कांफ्रेंस", "फोटोग्राफी", "लगाया", "कीय", "इंडस्ट्री", "पियनशिप", "सिद्", "शिलांग", "समझने", "सुपरफ़ा", "कचेगुडा", "वीक्ली", "पिर्", "वियत", "ग्रीस", "देवबाड़ा", "अलियापुर", "अनूदित", "पाई", "भीखनपुर", "फस", "फाई", "मैरदान", "मृदा", "साकफारा", "दिल्ली", "जानकारी", "खूँटी", "बल्लेबाजी", "कुरुक्षेत्र", "टोकागावा", "मिर्", "बख्", "ग्रेगोरी", "७८", "धरोहर", "शेट्टी", "राजस्थान", "गंग", "दिग्", "वेनाद", "तिरुनेलवेली", "नीत", "खोङ", "लड", "करके", "आंदो", "सममित", "बुलन्दशहर", "लंदन", "दौसा", "प्रभ", "मृत्यु", "अक्टूबर", "जामा", "उज्जैन", "ंस", "कराची", "कं", "कु", "हवा", "द्रुमयू", "यशवंत", "सरल", "बिल", "द्वी", "सहस्रार", "ष्ट", "जिनकी", "नेल", "ज़", "श्रीपुर", "हरदो", "डायबि", "पुरुष", "आर्ट्स", "भवानीपुर", "तृण", "नट", "मरुधर", "खेड़ी", "सईदाबाद", "उपाधि", "ज्ञानेश्वरी", "बाजिदपुर", "भीड़चक", "फुँ", "छा", "वेट", "शर", "जी॰", "बरिस्ता", "अनुपालन", "सभी", "मंगदपुर", "लीडर", "नुक", "हार्डवेयर", "राधाकृष्ण", "मसौढी", "अगस्त", "नम", "भ्रष्ट", "कोड", "क्षति", "ल्ला", "जुड़ी", "रुदा", "तुर्क", "कसियौंझा", "कुमा", "पोआदन", "मानसिक", "नंदा", "तरक़्क़", "ग्वालि", "आत्माराम", "शर्", "पाठ्यक्रम", "सल्", "काउंटी", "कंचनजंगा", "भक्ति", "मुखवर", "फिल्", "बाराब", "सीमित", "समझ", "कुंबकोन", "जीवनशैली", "द्वारका", "सर्वोच्च", "चिटोज", "खानपान", "असगरपुर", "जोसेफ", "तन", "नग", "ँसी", "शब्", "गुझिया", "हिमगिरि", "बजे", "छीनी", "रीखी", "ओधियाम्बो", "टर्मिनस", "पियन", "आहू", "घट", "छेद", "ख़ो", "निधौली", "इन्दिरा", "रोमांटिक", "णा", "एवर्टन", "रास", "राष्ट्रपति", "नॉर्थ", "हल्", "कैफियत", "दो", "रक्षा", "हासिल", "से", "धारवाड़", "हृदय", "सपना", "नगरीय", "क्ष", "इंटर", "जी", "गौहरपुर", "चाम", "तलाब", "कै", "अंजुम", "आजमगढ़", "फ़िल्", "अंबेडकर", "उर्दू", "मंडल", "खोङजि", "झा", "अरशद", "ग्लोब", "स्वेच्छा", "कंप्यू", "ऑस्ट्रेलियाई", "बछवारा", "पारादीप", "मुंग", "अमज", "खैर", "कस्बा", "काकुल", "टूर्नामेंट", "बिलियन", "गिना", "ज़ेग्लो", "कैमरुन", "विषय", "बाइबिल", "महोबा", "हिंदी", "मिंगो", "धपुर", "पुष्", "सुंदरी", "कोवई", "बरौनी", "मुस", "९६", "बट", "१९६", "अर्धवृत्ताकार", "परियोजना", "जीववैज्ञानिक", "भि", "यन", "क्रिस्", "शंघाई", "झुं", "बीजो", "भाषी", "त्रिवेंद्रम", "गंडक", "जगह", "सली", "चयन", "सैय", "ज़ंस्कार", "बर", "असमर्थ", "संस्थानसंबंधित", "दास", "रेंरिया", "तरीके", "चढ़कर", "ठा", "खजुरा", "पिछला", "मैर", "रियल", "चामुंडी", "मट", "ज्योतिबा", "मयासुर", "तो", "जहाज़रानी", "इलाज", "छप्पन", "अनुकूलन", "प्रसिद्ध", "षेध", "पूजा", "ढांचा", "लक", "कां", "विद", "एवर्", "हापुर", "नन्द", "ज्ञा", "खरा", "खप", "सेमरी", "रोड", "दे", "सुर", "पत्रकार", "धमौल", "जमु", "लॉन्च", "खगोलशास्त्र", "पोआ", "उपलब्ध", "छह", "इत्यादि", "ओरिएंटल", "जयंती", "जीवविज्ञान", "कैमरू", "अभिमन्यु", "ड़ते", "आध", "यातायात", "सिम्हापुरी", "फैसला", "१७", "खेलते", "उअभा", "अति", "टोन", "देखते", "सारीपुर", "संगठन", "एफसी", "इबाद", "जून", "क्रोध", "हल", "डोना", "बचपन", "सम्पादक", "सप्ताह", "ड़क", "बंट", "पीला", "एतमादुद्", "प्रांत", "सौंपा", "अब्बा", "दह", "रहीमपट्टी", "गढ़वाल", "देहरादून", "श्यामलाल", "पिथ", "हूसी", "पुणे", "दिह", "उनका", "स्पर्धा", "शासक", "पार्लिया", "८८", "पर्यवे", "वराह", "कडप", "मुलै", "चाहिए", "शाय", "जोधपुर", "बाल", "राजभाषा", "संबद्धता", "झामुमो", "माकनपुर", "साइंसेज", "दैर्घ्य", "हावडा", "वावरि", "मूँगिया", "ध्", "नगला", "शोध", "झलक", "अफ्री", "अधीन", "सैंतियागो", "माइज़ॉ", "वर्षों", "अनुप्रयोगों", "्यद", "क़ा", "डूंगरपुर", "बताया", "सशस्त्र", "ष्ट्री", "चाहि", "मूल", "देकर", "पंथ", "हटाएँ", "हस्ताक्षर", "डन", "पार्टी", "पीपल", "लुम्दे", "जिसे", "है", "निम्न", "श्रेणी", "शकुनि", "पैरी", "अद्भु", "घाटूपुर", "दिग्विजयनाथ", "गया", "मामूली", "हरदासपुर", "गंभीर", "राघ", "पिंदौना", "कसौधा", "स्वास्थ", "बहुतायत", "ढो", "न॰", "बाँका", "बेहतरीन", "वातावरण", "देख", "वेरावल", "श्रीमती", "सम्मेलन", "ओलं", "बीज", "धागों", "निर्ण", "बिखरे", "हल्द्वानी", "रेश", "ढ़ा", "एलिवेटेड", "कम्युनियन", "गढ़", "च्", "टेलीफोन", "कोइत", "सिक्किम", "लखनऊविषयइतिहास", "इश्कबाज", "पद्मावती", "फतेहगढ़", "सिद्ध", "प्राचीन", "किचिकिला", "प्लेटफॉर्म", "किन", "बद्ध", "चण्डीगढ़", "२००८", "कैन", "सि", "ओलंपिक", "चुना", "बिषय", "इकाई", "लड़ाई", "रूढ़िवादी", "ईटावा", "शहबाज़", "प्रदेश", "एल्बम", "भद्रा", "त्रिनि", "७०", "लोहा", "मॉर्गन", "बढ़ाने", "मुसम्मन", "हवाई", "येरका", "जैसलमेर", "हाओबा", "वे", "कॉपीराइट", "जपुर", "फतुहा", "खो", "अब्देल", "बुद्ध", "मग", "उपभो", "फगोई", "ॉर्", "ठाकुर", "सॉफ्ट", "डाटा", "कौशम्बी", "विवेक", "फ्ल", "संस्कृ", "ख़", "गरुङ", "रामनथी", "बुद्धदेव", "भी", "अरवल", "ज़ो", "धन", "आलो", "सम्पूर्ण", "अर्शदीप", "वर्ण", "अनुसूचित", "दैनिक", "रोचक", "वाडा", "अलीपुर", "एटा", "नी", "नोद", "वेंकटादि", "नेपाल", "मथुरादास", "पढ़", "प्रकट", "रामाय", "गुड", "निजामत", "संप्रदाय", "आकाश", "जाम्ब", "लेज", "१९२६", "शाब", "गेम", "आरडीबीएम", "लासपुर", "यू॰", "नदिया", "क्का", "सूइडा", "घट्टा", "सूइडाए", "मजीद", "गिर्दा", "पुदुचेरी", "मण्डल", "हाउ", "त्वचा", "बिसाऊ", "मोनो", "जहाँ", "डिब्बा", "भटिंडा", "बंगालज़िला", "चैम्", "गञ्ज", "लियन", "निर्धारित", "माफी", "सिने", "जड़", "सैफ़ु", "बरौत", "बड़ा", "बोदवाड", "गहराई", "उड्डयन", "खीर", "गोबरा", "कला", "पद्धति", "यूटो", "पुराण", "जीवाश्मविज्ञान", "यदाद्री", "चुन", "सामना", "बंगालज़िलापूर्व", "स्टूडियो", "निम्नलिखित", "भिकियासैण", "स्पर्", "ईस्ट", "विधानसभा", "नदीशीर्ष", "गै", "देशांक", "मनोहारबाद", "समाचारपत्र", "ओडिशा", "नागर", "लक्ष्मण", "शिला", "एस", "किशनगंज", "प्रचलिततेलुगूसमय", "लाछु", "डीएफआरएल", "मधेपुरा", "ंगलौर", "बाएं", "देयोल", "बुधया", "दादा", "आचरण", "भूत", "हरीश", "फ़ॉर", "दक्षि", "फिन", "कोवा", "नीय", "प्रयोगशाला", "मकसूदना", "कादम्बिनी", "हरिवंश", "स्कोरकार्ड", "राप्तीसागर", "शाहजहाँ", "देती", "ऋण", "सेट", "थम", "मेयर", "एम॰", "बाजी", "धोराउ", "रोग", "चलचित्र", "लौ", "गोस्वामियों", "हरदोईप्रमुख", "नेता", "विजय", "बिछ", "तनहुँ", "पेरिस", "निकलती", "थुलमा", "उँग", "मेकै", "टेट", "एग्मोर", "शस", "कार्बनिक", "खूँ", "बी", "समानताएं", "गिल", "कर्नाटक", "संयमन", "टाई", "हरफनमौला", "जियस", "डेल", "विष्णु", "झे", "रेल्वे", "वॉल्", "उससे", "रघुनाथपुर", "चावल", "कृष", "चित्तौड़", "जीव", "प्पी", "कोट", "नीम", "गुर्", "शराब", "सोयाक", "प्रमुखतः", "औद्योगिक", "ज़िलों", "चारागाह", "साउ", "अफ़", "सोमनद", "चेक", "योल", "भा", "जरा", "टूट", "गुल", "तु", "यूएस", "निमन", "अंजन", "बाराबांकी", "जाता", "विहार", "सूर्याण", "सूप", "उईग़ु", "कैंपस", "पटवा", "प्यारेपुर", "ब्लॉकबस्टर", "फ्", "क़", "मूवी", "एस॰", "दौलत", "खजु", "इडस्सेरी", "मुज", "नदियों", "मतदाता", "बरुना", "दत्तेपुर", "प्रतिष्ठ", "अध्यक्षता", "डोंगरगांव", "नारायनादरी", "नाइ", "जम्मू", "मनीपुर", "तिवारी", "संपूर्ण", "कोशिश", "येलेना", "कट्टरतावाद", "कचेगूडा", "आरएनए", "बिल्हौर", "शान्तिडाँ", "योद्धा", "ेश्वर", "कोचुवेली", "तीन", "इंग्लैंड", "करियर", "राई", "वरःमिहिर", "नहा", "सिनेमा", "जनघी", "मुक", "फ़्रांस", "निभाईं", "महल", "बिथि", "निर्देशांक", "जिम्ना", "यौगिक", "सोश", "नकारात्मक", "बमलिआ", "स्वीकृत", "तिरुवनन्तपुर", "सिमरन", "चो", "कू", "तख्तापलट", "चाँ", "बनाए", "डिजि", "स्थायी", "हंस", "पोइया", "सिम्हादरी", "वस्तुएँ", "बख़्तियारपुर", "बंगलुरु", "जीपुर", "बेग", "चतरा", "गर्म", "दुघेरा", "यद्यपि", "अन्य", "भोगवारा", "कैथेड्रल", "संग्रहालय", "तर्क", "जेऐ", "ड़िया", "भदोरिया", "अपर्णा", "अहीर", "कार्यप्रवाह", "मैन", "हरीपुर", "तपस्विनी", "निगरानी", "लग", "निर्देशित", "सहदेव", "उर्मिला", "किष्किन्धा", "देयता", "लाइबेरि", "गड़िया", "सर्वप्रथम", "दाग", "वर्गीकरण", "हो", "ल्फ", "तुरंत", "पुनर्", "पढ़ाई", "कड़कड़डूमा", "क्लब", "ग्रंथ", "पुरातत्वविद्", "गू", "नू", "जुड़े", "जीपी", "दरगाह", "तिन", "मयिला", "चिह्न", "लन", "महीन", "देहांत", "नक्", "सभर", "मोती", "एलए", "खुर्रमशाहपुर", "पक", "द्दीनपुर", "वीर", "पठान", "योजनाबद्ध", "नन्दगोकुल", "खजुरिया", "परिसंघ", "मुश्", "इमा", "चंडीगढ़", "किराँव", "कांटी", "पै", "या", "सुझाव", "डिज़्नी", "विजू", "चारधाम", "आण्विक", "ग्वालियर", "बप्पी", "साल्मन", "मै", "मुंबई", "पेट", "जंघ", "सैयांआगरा", "प्रयाग", "असम", "तपोवन", "माई", "हुए", "टेलीविजन", "मण्डलबांग्लादेश", "कटिहार", "प्राक्", "छायाकार", "डे", "सनहौला", "कोल्बुङ", "स्नातकोत्तर", "जंक्", "टाइम", "निभाने", "वास्त", "लिखते", "अल्पसंख्यक", "मिलती", "नरसापुर", "थू", "हिडि", "कोर्नबर्ग", "तुलना", "पुरस्कार", "निर्देशों", "जुम्मा", "मिलते", "सांसद", "चौदह", "पाठ", "लाइबेरिया", "यल", "ताल", "लॉजी", "जलप्रपात", "ऋतु", "वजह", "बीकानेर", "सप्त", "श्रावस्ती", "शाहोपुर", "हितेश", "कलश", "जोकोविच", "सीमा", "नौ", "विशाखा", "सामू", "खेडिया", "आंतरिक", "इरे", "आन्ध्र", "पेरेज़", "जगुवा", "लय", "हबी", "रैपिड", "प्टर", "सलियाकोट", "रिलीज़", "सरका", "शीर्ष", "पोंटस", "शायद", "भारतप्रान्ततेलंगाना", "मुज़्ज़फर", "लेखतत्काल", "यूक्रे", "कोल्कता", "गोवा", "मियम", "इलेक्ट्रॉन", "भव", "चेतक", "पाये", "रोहता", "फ़िलि", "संयोग", "तिरछेंडु", "आंध्र", "अर्ध", "मोतिहा", "लोकापुर", "नगनथ", "तुहा", "प्रणब", "उन्होंने", "दोलखा", "नेगी", "चफला", "विपण", "वी", "एप्लिकेशन", "जेनेट", "दुल्हिन", "मुहिद्दिनपुर", "सुवर्ण", "आदमी", "हसन", "प्रशीतन", "नाश", "बिंदरवाँ", "रिचार्ड", "त्सव", "टॉस", "आबाद", "झंग", "गिन", "इं", "आसिफ़ाबाद", "हुतात्", "दलपतपुर", "अन", "बुग्याल", "तुर", "घरघोडा", "धर्", "ज़िलाप्रान्त", "छींट", "सल्तनत", "कर्मचारी", "निर्दलीय", "शेरघाटी", "मुकुट", "बेल", "भटि", "आर्मागेडन", "प्रतीक", "तारीख", "तपोसिरिस", "भूसंडपुर", "बंस", "धोबहा", "धोपुर", "यूष", "समय", "नारायणपुर", "तण्डु", "किलोमीटर", "भदरी", "इब्रा", "प्रेस", "टोरंटो", "फ़ॉ", "सर्दियों", "येगा", "सनदा", "चाँदोपारा", "टु", "आग", "सं", "स्कै", "हाउस", "अकील", "अर्थ", "हाफिज़", "डेवि", "फी", "बाघ", "रामेछा", "ध्वनियां", "ईस्माइलपुर", "अजीब", "ए॰", "कवर", "निदान", "अनुरूप", "लाव", "नैनीताल", "वरुण", "देखभा", "फाग", "लाइब्रेरी", "अरुंधति", "ऐक्टिव", "मुहम्मद", "रायगडा", "वर्क्स", "मिठा", "स्थापन", "नागवली", "विन्ध्या", "पाबना", "खबर", "निभा", "कर्नूलु", "परिवार", "रि", "माजरा", "मचा", "श्रेणि", "बाथूपुर", "बिंदा", "मधुरिमा", "अन्नाव", "मुज़ता", "मन्दिर", "एपिसो", "पलामोऊ", "पेगोड़ा", "संस्थापक", "रेड", "परिषद", "आधिकारिक", "पुण", "अल्मोड़ा", "पुनपुन", "देखरेख", "खमण", "क्षे", "मे", "मीर", "विस", "गौरीपुर", "ओवासपुर", "निर्झ", "देवगिरी", "इमेत्सु", "कभी", "कालाढूगी", "अनदेखी", "इड", "सोमनदॊ", "काद", "वास्तव", "उईग़", "खेत", "इंडोनेशियाई", "हुमायू", "का", "बुराक", "रिश्ते", "सुजौला", "उपलब्", "खम्", "सुफ़", "अभिलेखागार", "धौली", "ऐसा", "वहां", "चार्ल्स", "कोंडागाँव", "सीस", "जनता", "६०", "मोन", "रपुर", "भोजपुर", "वं", "रंगराचौक", "गौरवशाली", "खानसा", "नादेर", "२०", "कर्ट", "मशहूर", "फ़ोर्", "चटपुर", "काण्ड", "हीराकुड", "कठ", "रद्द", "समन्व", "सलिमपुर", "बीहपुर", "मैक", "अग्निबीना", "जलील", "शाली", "लक्ष्मीपुर", "थुन", "दयोदय", "रामीपुर", "पाटलि", "डब", "बांध", "द्विपक्षी", "ससेर", "हड़", "इलाहाबाद", "वाकोट", "चावलआम", "खड़", "किसुनीपुर", "निर्देशन", "धनबाद", "पहुँच", "रंजीत", "रियां", "आशुतोष", "अवसरों", "फ़र", "मालदा", "ग्रोतोव्सकी", "थला", "डाला", "केव", "झुंझु", "बोलने", "अवय", "रे", "धागा", "हर", "तकनीक", "पायी", "रालन", "काम", "धिम्मी", "प्रबंध", "सुभाष", "माइमझुवा", "जोखि", "चिनितामनपुर", "रेगि", "इन", "लसी", "स्वदेशी", "मुगा", "विकल्प", "बि", "लियो", "जर्मन", "नेटवर्क", "जदूर", "डेजर्", "तिब्बत", "अनुस्मारक", "बाध्य", "मातृ", "ऑग", "ण्डल", "उत्कृष्ट", "राव", "दरभ", "सईद", "टैक्स्ट", "गहरी", "इंस्टीट्यूट", "य़ूसु", "गीर", "तः", "कीर्ति", "दापुर", "नरगि", "विंडोज़", "स्टीफ", "पहुँचते", "थर", "बरदीहा", "जेन", "हिंदु", "बसनेहटा", "हेमकुंट", "रीखीपुर", "आकर्", "नागपुर", "पुरेमिया", "जगदीश", "मुंत", "हथौड़ा", "मंदर", "छो", "प्रशासनिक", "कड़ियाँ", "कॉ", "तनाव", "गवर्", "टिहरी", "उन्होने", "उई", "वन", "इताल", "ञ्ज", "सिंह", "रतिपुर", "चाइना", "मॉड्यू", "दाश्त", "मोलवा", "चबिलहा", "तुलसी", "तांबरपरानी", "पानदार", "उचित", "आयोजन", "ताइक्वांडो", "ल्स", "क्रमशः", "गोर्खे", "जमालपुर", "सामा", "हरिऔ", "अक्षांश", "फाल", "जवान", "कविताएँ", "यात्रियों", "डब्ल्यूटी", "मोक्सी", "ंग्ला", "जौ", "श्रमजीवी", "एगो", "इलेवन", "श्त", "हिर", "रौ", "सत", "छत्रपति", "ज़ा", "उपजाति", "पृथ्", "हु", "लाइन", "नाग", "पंचायतसोनपुर", "िक", "अफ़्रीका", "गोबि", "चि", "लॉग", "उर्", "प्रतिष्ठित", "मिश", "चिन्", "परिहार", "जॉय", "८६", "टंडन", "मीठूपुर", "सैफ़ुद्दीनपुर", "गयी", "आलम", "नन्", "थैली", "उपज़िलो", "जातीय", "ओखा", "हिलिगायनोन", "मोटर", "ख्", "व्यावसायिक", "चुलाचुली", "आसिफ़ा", "जोशी", "मलयालम", "सैदपुर", "उपज़िला", "ज़ोना", "शिंगटन", "बेलबारी", "नाथ", "नगर", "त्स्वेत्कोवा", "गुफा", "६६", "नस्ट", "रोजर", "ख्या", "घेवर", "कास", "इब्राहिम", "द्वीप", "सामी", "धार्मिक", "शैक्षिक", "बिझवनिया", "ओहि", "प्रोटीन", "कृ", "भावनाओं", "घर", "जिला", "काबुली", "रंगीन", "लिपियों", "उत्तरकाशी", "स्ट्रोमेयर", "एल्गोरि", "दीर्घचोंच", "खुर्द", "नता", "हुदा", "सी॰", "मेगालिबग्", "आदर्श", "बंगलौर", "शास्त्रार्थ", "मुज़्", "वाड़", "चैंपियन", "फ्लिक्स", "दश", "करता", "डाँ", "ना", "नवीनतम", "वस्तुओं", "आयो", "अंतरिक्षजैविकी", "दूवैल", "इयों", "फिजिक्स", "मंद", "साँखेजु", "रिजर्व", "पॉकेट", "वापस", "हुईं", "केरल", "डेवल", "बागपत", "गिरधरपुर", "उम्मीद", "केश", "राशि", "मैकरोनी", "सम्मिलित", "सुचंद्र", "जल", "महत्वपूर्ण", "गढपुरा", "सू", "बापू", "प्रोत्साहित", "गौहारपुर", "क्षमता", "सथेर", "बॉलीवुड", "नेतृभ्रमि", "खेड़ा", "कैमरा", "मादा", "चर्चा", "उज़्बेकिस्तान", "मूल्यांकन", "जुड़ा", "त्रिपाठीदेश", "लखनऊविषय", "दिग्विजय", "मेरिट", "व्याकरण", "प्पल्ली", "वॆल्लाल", "फ्रिमैन", "चुके", "पृष्ठ", "१५३", "दोस्त", "१५५", "हर्ष", "मुर्ग", "रामेश्वर", "देता", "पहली", "समूह", "जुड़ते", "प्रयोगशालाओं", "बीजू", "घि", "होने", "राधिका", "कार्यपालक", "विक्रमशिला", "स्ट्रीट", "उर्फ", "आइ॰एस॰", "स्थलताजमहल", "प्प", "हरचंदपुर", "अंतर्मुखी", "पूर्ण", "ईसाई", "संबद्ध", "राँची", "जैवसांख्यिकी", "हिंदुओं", "मिथिलांचल", "विस्फोट", "जब्तशुदा", "चौक", "एशिया", "दीहा", "तोलेमि", "चिड़िया", "पल्लवन", "कोफ़्", "गंगो", "भ्र", "कम्प्यूटरीकृत", "तिरुच्छि", "जॉर्ज", "गुवाहा", "फ़ाइनल", "बनाकर", "जानकारीपूरा", "ऑटो", "ग्रं", "३१", "फ़ो", "संपादित", "चित्रकूट", "लखीसराय", "मेक", "यज्ञेश्वर", "फि", "हिराखण्ड", "हज़रदु", "मध्य", "जोश", "मतदान", "प्रोटो", "फिरोजाबाद", "मानते", "आईसीबीसी", "ज्जू", "फरीदपुर", "राज्य", "गूगल", "दादर", "मालाबार", "फूलों", "राजेन्द्र", "सोनाबरसा", "पिपरी", "दक्षिणपूर्व", "राठ", "विवे", "यॉर्क", "घटना", "जीनो", "प्रियंका", "वित्तीय", "चेन्नम्मा", "लम", "सेवाओं", "प्रतिमा", "नायर", "बराह", "एंड्रयू", "क्षिप्रा", "आशीर्वाद", "ज़िलाजनसंख्या", "गोपी", "बाद", "नियम", "नहीं", "अच्छी", "चैमिक", "निन", "बिष्णु", "हिंगो", "तौर", "फिल्टर", "बेह", "भाषाएँ", "चैतन्य", "हाबी", "लाभकारी", "टाइ", "कतपुर", "रोम", "हिम", "कॉन्स्टेंटिनोपल", "जो", "सकती", "चोपड़ा", "भत्तुवानि", "ग्रोतो", "धरमपुर", "सुपरफ़ास्ट", "मिल्लेन्नियम", "पूर्वोत्तर", "तहसील", "बोहमन", "बेटा", "ृंखला", "माचिलि", "शम्भू", "अवरुद्ध", "आंग", "सिडनी", "वर्ल्ड", "बाई", "ण्", "बज़टी", "१९७", "तरक़्", "अस", "जानीपुर", "अभि", "पह", "दुग्", "वैया", "खमरिया", "उदा", "प्रदाता", "सीमाएँ", "नदियाँ", "एप्", "बिनोद", "हाफि", "मुहाजिर", "गिरि", "महाप्रभु", "द्विती", "याँ", "सिफारिश", "रूबी", "झु", "सुत", "डियो", "तम", "लत", "विमान", "पांडु", "लिम", "बीत", "चेबिसे", "पुवा", "भोनगीर", "सैफ", "टिल", "कम्प्यूटरी", "घाघरा", "शरी", "जीता", "ब्रेक", "ओहायो", "टोडर", "सिस्टम", "शियन", "अजीमाबाद", "मौत", "वर्", "ही", "बालुरघाट", "वॉल्ट", "उच्चभूमि", "कैपिटल", "अलाहाबाद", "रेलवे", "ऋषि", "णु", "गणधर", "माया", "फे", "बिसा", "पेरंबूर", "अनारदाना", "मुंतजि", "ौल", "मामलों", "भूमि", "सैफा", "पी", "त्मक", "ट्रांज़िट", "जपा", "हनु", "आयोवा", "गाज़ी", "फल्गू", "बल्लेबाज", "सीकर", "बेटी", "जस", "जिन्हें", "ओसी", "नौकर", "ट्रांस", "ईटा", "रिप्रे", "खिलाड़ी", "अतरसुइया", "कुसा", "साक्षात्कार", "आर्थिक", "बाँझो", "षय", "सिंहगड", "पैसिव", "एपिसोड", "टुकड़ी", "मुंडेश्वरी", "अजमेर", "देवानीपुर", "चिर्रावूरु", "एक्स्प्रेस", "मुंडे", "डेट", "फुँएतप्पा", "वीडियो", "पौराणिक", "गहरपुर", "एनालॉग", "अजुरी", "गृहस्वामी", "मुजफ्", "चंदोपाड़ा", "प्रीमियर", "लाछुंग", "कोइंबाटोरे", "व्ही", "मुरादाबाद", "सेसल", "्ड", "स्पी", "गाइड", "सेंट", "रोल", "खन", "राज", "अरुणा", "गंगोलीहाट", "दुसरे", "विद्या", "शरद", "ँच", "कसि", "तत्काल", "मजबू", "गठबंधन", "प्रतियोगिता", "बैक", "ज्योतिष", "इस्पात", "लुमडिंग", "न्यूज़", "फोर्ट", "बाबरपुर", "केट", "विंडोज", "खे", "पुनर्गठन", "हफ्", "वोट", "दीन", "आरएल", "खतरा", "राज्यपाल", "भेलसी", "म्मी", "ष्ठ", "स्त्रियों", "धनरूआ", "वैदिक", "कल्याणपुर", "कैड", "खंद्रिक", "अलबर्ट", "जाया", "दशक", "वाइसी", "येरकाड", "सैनफिलिपो", "लेता", "विजे", "डि", "सवारी", "यात्रा", "तिर", "वेंकटादिरी", "रसीदपुर", "हैँ", "चंपारण", "मोक्सीबस्टन", "नाड़ी", "ब्लै", "पाक", "रखता", "विविध", "सह", "य़ूसुफ", "प्रताप", "आय", "खि", "इण्", "गट्टे", "विन्ध्याचल", "झुंझुनू", "नाटक", "ंरा", "बपुर", "रोटी", "सई", "लिश", "गहरा", "देई", "स्वास्थ्य", "बहुविकल्पी", "दुनिया", "वर्तमान", "साराभाई", "यहां", "गोकुल", "अमरीकी", "न्यायालय", "सिमर", "थे", "ऋग्", "एनीवा", "शास्त्र", "उक्रा", "रूपधनु", "वानपर्ति", "रोकथाम", "बांसवाड़ा", "द्रुमयूका", "भू", "बावजू", "गुआ", "लॉस", "खुर्", "ककर", "प्रखण्ड", "मजी", "थीं", "तिथि", "संभोग", "पुरुषो", "एस॰एन॰", "मगध", "प्रिंसिपल", "भीलवाड़ा", "उपाध्याय", "शैली", "रायबरेली", "चाहिये", "सगाई", "कॉमन्स", "बकंडा", "अलेक्", "फू", "सोनभद्र", "गठित", "ड़ियाँ", "तुमकूर", "सोमनदॊड्डि", "त्रिनिदाद", "वृंदावन", "मैसा", "ड्", "महत्त्व", "पिथौरागढ़", "मीमों", "लश्", "सम्प्रदाय", "तंदूरी", "लूथरन", "उनसे", "किए", "लिन", "विषयउत्तराखण्ड", "यासिनपुर", "ऋग्वेद", "फसल", "जिलाके", "य़ू", "उत्पत्ति", "बलीपुर", "सिएशन", "हद", "मी॰", "जिम्बाब्वे", "सचिव", "नामांकन", "शम्भूनाथ", "वानपर्", "भालो", "हीं", "खिच", "ष्ण", "निरंतर", "मियनचि", "थोड़ा", "बराकर", "ज़ेग्लोसस", "गुरहा", "लेख", "जालस्थल", "कोठी", "पैरालं", "अद्", "मार्शल", "समाधि", "आम्रपाली", "स्कृ", "समीक्षा", "रोज़", "कलाकंद", "रेमंड", "एलिज़ाबेथ", "मुंगेली", "करीमनगर", "अप्रैल", "आन्दो", "जाँ", "डो", "होंने", "अक़ाबा", "जब", "घंटा", "ग्रन्थ", "गदेरिया", "भूपल", "चिसापानी", "घंटे", "०४", "माथु", "पुदुचेर्री", "जगपाल", "काग", "विरु", "फैकोको", "अग्निहोत्री", "भुसका", "शिंदे", "चीन", "फतूहा", "मुहैया", "अक्तू", "यि", "खीजी", "शीर्षक", "म्बर", "पीर", "स्रोत", "फ़र्रूख़ा", "ताम्रपर्", "खुदाबंदपुर", "रच", "समृद्ध", "रंग", "घे", "पड़ता", "क्रिश्", "लक्षद्वीप", "कोणार्क", "सूअर", "पशुपतिनगर", "जीवनचरित", "आँ", "रांची", "विमो", "पीरपै", "गरिकपाटिवारि", "जुलाई", "बाहर", "ज़म्बो", "बनने", "बकरपुर", "ओंगबी", "ख़ा", "देवीपाटन", "दीक्षांत", "लोचन", "प्रोग्रेसिव", "योगेश", "फलकनुमा", "एयर", "यूएफसी", "कठि", "ताकि", "वेबसाइट", "मिर", "स्काउट्स", "ट्यूब", "छवियों", "इतना", "संभल", "अभिनेताओं", "कोरापुट", "पंचायत", "सिद्धिथु", "शुभारंभ", "सवाल", "नोवा", "गिजौली", "भिमान", "आबन्ध", "परमाणु", "तोले", "बीबीपुर", "सी", "संरक्षितजिले", "अदालत", "हॉल", "वैभवपूर्ण", "सुल", "रूढ़ि", "य़ा", "वैज्ञानिक", "किहु", "त्व", "फेनी", "गुलाब", "हठयोग", "बाग", "लद", "ऊअनकत", "आते", "नुक़्", "मंडुआडीह", "ई॰", "को", "वॉर", "हैवत", "उईग़ुर", "प्रोसेस", "पानीपत", "सरपो", "पशुओं", "सुम्बेक", "ज्ञानकोश", "महाभारत", "उम्मी", "अण्", "रूढ़", "मुज़फ़्", "भाषाओं", "मुशी", "गिनी", "हांदे", "हॉकी", "अधिकारियों", "भु", "काकीनाडा", "कुशी", "तटीय", "आकर", "भेजे", "ऐशबाघ", "सवार", "शाहजहां", "बाइ", "साइंस", "हेल्", "मार्ग", "बगहा", "महत्त्वपूर्ण", "अंड", "काव", "मेज़", "गड", "द्विवार्षिक", "फ़ू", "हिन्दी", "नॉ", "चन्द्रचूढ़", "गिरफ्तार", "अगवरखास", "हाइलैंड", "कड़गम", "गेंदबाजी", "विट्", "शहडो", "शता", "महाबोधि", "रशीदाबाद", "डुमरा", "सल्तन", "नसबंदी", "करणवीर", "पीरपैंती", "गेट", "मॉ", "निर्वा", "लपसी", "खुर्जा", "योजना", "भग", "द्दीन", "आयुर्विज्ञान", "ज़मी", "मेची", "मुलनापुर", "मेन", "शन", "हेना", "अथवा", "कोलकाता", "वडोदरा", "ऐनी", "पॉल", "इससे", "हैमरस्मिथ", "स्तंभ", "होनेवाले", "डिब्रूगढ़", "तिलक", "चानेथू", "जि", "धौला", "हिस्से", "समस्याएँ", "रामेश्वरम", "ब्लेयर", "किशुनीपुर", "गणे", "देसाई", "माग्", "जबकि", "काजी", "इनायत", "समीक्षक", "प्रेरक", "सूचीबद्ध", "कलकत्ता", "अर्थव्यवस्था", "नेकानामे", "अयोध्या", "झारखण्ड", "बीबी", "जाएगा", "पपुर", "उद्धरण", "दहलई", "ऎर्रमटं", "धाम", "बलूचिस्तान", "सप्तगिरि", "घन", "सीतापुर", "कॉर्बेट", "विभाजन", "ऑस्ट्रेलियन", "स्थापना", "स्लैम", "काजू", "एम्बेडेड", "गोपालपुर", "बबुवापुर", "मेघालय", "मनोहार", "ट्रांसपोर्ट", "डुप्", "१५५८", "ठी", "हंटर", "उभरते", "आगंतु", "गणना", "विस्फो", "शताब्", "आजाद", "बिरुनी", "लैण्ड", "मुस्लिम", "तेनकासी", "इंजीनियरिंग", "कोठागुडम", "नऊ", "आदोनि", "हेमकुण्ड", "ओटी", "पोरबंदर", "ट्रिप्", "जाँच", "जनूबी", "त्याग", "घमहा", "नवजीवन", "कबा", "जटपुरा", "अवधारणाओं", "छोटी", "पदोन्नत", "व्यापारी", "मुन", "प्रथम", "बातची", "कथीड्रल", "परिकल्पित", "मूसी", "मेहताब", "लकड़ीकेतहत", "जुआन", "लेह", "प्रौद्योगिकी", "हेतु", "काउंसिल", "जिर्मले", "तेल", "सलीमपुर", "अवामी", "चौमा", "सुवर्णरेखा", "जीवाश्म", "नगरकरनूल", "आमोदरा", "बसेगि", "पृष्ठभूमि", "रीना", "निमिवारी", "बोझ", "न्यूज़ीलैंड", "बाथू", "समस्तीपुर", "नक्शा", "साधक", "अंग्रेज़ीलागत", "एसए", "एण्ड", "खिलाफ", "गोदा", "बिलिरान", "२०२०", "भोज", "निर्झरि", "बकुलाही", "जिम्मेदारी", "प्रेअह", "लोक", "वेटरिनरी", "बीस", "करते", "इतालवी", "मीनाक्षी", "आदो", "एआई", "मंदि", "अग्निहो", "कोरोमंडल", "तंजानिया", "गंगोपा", "वडो", "हट", "मपट्टी", "यूरोपीय", "तवी", "म्परा", "मिन", "कि॰", "रेशम", "घिरनी", "पर्यवेक्षण", "अंग्रे", "सामग्री", "भई", "सलै", "सुखाव", "डीडी", "अज", "लेमी", "सिबु", "तल", "जाती", "संतुलन", "विद्यालय", "ढक्", "अक्", "गुवाहाटी", "नाइजीरिया", "कुमिल्ला", "तिरुमाला", "नाडा", "शरीफ", "एक्शन", "मनोरंजन", "मयिलाडु", "रघुनाथ", "बुजु", "ऐशबाग़", "कबाब", "तत्वावधान", "दामोदर", "शून्य", "उद्गम", "अर्नेस्ट", "उद्देश्य", "पिकफोर्ड", "चैपल", "चक्की", "कोमिला", "यशवंतपुर", "मुद्दों", "धा", "बाढ", "कैमुर", "तॉ", "पल", "हडि्डयों", "पुरस्", "कंपनिया", "जीवनकाल", "शुद्धता", "२२", "गठ", "मुसलमानों", "टिन", "सक", "टिप्पणियाँ", "नासिर", "अधिकशिक्षाभारतीय", "बुजुर्", "प्लेटफॉर्", "विन", "फुट", "मुबारकपुर", "विरो", "जानकी", "मेवार", "रान्था", "सीता", "ग्रीष्", "थरैया", "पीयूष", "यूसुफ़पुर", "भर", "कोसो", "व्यक्तियों", "सुझा", "जैविकी", "डैनी", "विक्रमशाह", "स्टील", "गढ", "नदियां", "अंधकार", "सीवान", "व्यापारियों", "मैंने", "ब्रह्मपुत्र", "कैद", "खाल", "नैनी", "वॉर्टहॉग", "रंजन", "पश्चा", "हिन्द", "अंतर", "सर्वेक्षण", "रेट", "गेंदबा", "हनुमान", "अमूर्त", "इंद्रायणी", "भीकमपुर", "सब", "इमे", "दर", "अपटेक", "अतः", "रस्", "अभ्यास", "पूर्वमध्य", "माचिलिपट्नम", "लेन", "पैदा", "ब्रुसे", "वैरा", "कोल्", "रवि", "खराद", "प्रोफेसर", "फॉक्स", "सिद्धिथुम्का", "बेमे", "चिन्ह", "जोकि", "चिपको", "वॅस्को", "अत", "केन्द्र", "द्ध", "इंदौर", "बौद्ध", "वर्षीय", "किये", "तला", "गुर", "छापा", "प्रारंभिक", "पदवी", "चरणों", "भुवनगरी", "कड़", "रनका", "मुस्तफा", "पुरातत्वविदों", "जटापुर", "वश", "धनुष", "यद्य", "शाहीपुर", "वसु", "दस्तावेज़", "वुड", "नेतृत्व", "यिंग", "प्राक्कलन", "कीपुर", "भारोत्तो", "मयिलाडुतुरई", "मोक्ष", "विनाशकारी", "राजगीर", "मोकामा", "बेथ", "चमरौला", "महाजनपद", "अभिनीत", "अफ़ग़ानिस्तान", "शेख", "चैंपियंस", "नेटफ्लिक्स", "टेलीग्राफ", "मुम्ब", "मेघनाद", "प्रकोप", "दाहा", "वाणी", "बॉक्स", "पो", "जयद्र", "हाजीपुर", "मनीष", "नेकपुर", "ंघम", "हुमा", "संस्थान", "दीव", "पापड़ी", "देवा", "पर्यटन", "आकृति", "धनकेशरा", "वियतनाम", "माइक्रोबायोलॉजी", "सुश्री", "सराहना", "टेम्पल", "जोखिम", "उतरा", "ईरान", "चैंपि", "कुवैत", "हिलिगा", "पं", "कांग्रेस", "जलपा", "एकतप्पा", "न्याया", "सक्रिय", "१९७३", "भावनगर", "अंति", "आईएसटी", "देवासंभारत", "मदुर", "सर्वाधिक", "अभिनेता", "बहुमूल्य", "अहिल्या", "पारमाण्", "साहिब", "हाइलैंड्स", "अरुण", "नि", "लख", "सोमनाथ", "चीज", "अहिंसा", "ौन", "गतिविधियों", "प्रवेशद्वार", "सैमुअल", "कश्यप", "अर", "महबूबाबाद", "क्वीन", "युक्त", "कथ", "ताम्र", "कोरीपुर", "प्रोदुनोवा", "जोड़ती", "उनकी", "रामचन्द्र", "किहुनी", "ड़ि", "अत्याधुनिक", "आशय", "जैवसूचना", "यूनेस्को", "भिर", "दुबकी", "कुंबकोनं", "सिधवर", "एतमा", "काठर", "इभाङ", "दुबे", "हालाँकि", "उपयोगकर्ताओं", "डीन", "चाय", "स्तानिस्लास", "शियाओं", "सिग्", "१९९९", "फ्रांस", "पुंजक", "उत्तर", "दर्श", "ट्रंक", "अनुसन्धान", "जमीन", "तुंग", "निर्वाचित", "ठन", "स्को", "कॉलोनी", "ओसीएलसी", "बदलने", "गो", "भारतभाषा", "नितीश", "लिवरपूल", "बघापुर", "कुण्ड", "प्रौ", "मनाया", "विज़", "नगरपालिकाएँ", "भुवनेश्वर", "दत", "फगो", "उन्हें", "विरह", "शल्य", "बाईं", "जाग्रत", "शपुर", "हमेशा", "पारंपारिक", "मल्हो", "३३", "प्रतिनिधियों", "ईस्वी", "अभिगमन", "महाजना", "धीमा", "बेमेतरा", "देवासं", "शक्", "सिल", "फॉ", "आकार", "सय", "कवरे", "पेन", "सैन", "पस", "कोठा", "फेयर", "ऐवन", "स्टैन", "ज़िला", "धर्म", "रेवंचल", "वार्ता", "बाड़", "महात्मा", "दाबाद", "श्रीका", "स्क्रिप्ट", "बाज़ार", "पाकि", "वैनगंगा", "बाह", "मथोय", "माबाद", "हुनर", "घो", "छौरा", "जमशे", "ड्र", "क्रोनो", "विपणन", "पीछे", "सीपुर", "ख़ागानत", "मोहिसिनाबाद", "प्रतिस्पर्धा", "ओवेन", "कस्", "मुग़ल", "सेन", "प्रयागराज", "फ़र्ज़", "उछा", "शारदा", "दोहरी", "मजलिस", "राजकोट", "अवशेष", "गिरफ्", "एक्सप्रेस", "जंक्शन", "अभिनेत्री", "राज्याभिषेक", "साम्राज्य", "वी॰आई॰एफ॰", "संघर्ष", "गहरे", "झिल्ली", "लैम्ब", "चट्ट", "किताब", "लोकशक्ति", "छावनी", "माध्यम", "कोल", "एम्ब्रोस", "जिंद", "बोलचाल", "दामो", "देवासंअलीगढ़", "सिम्हा", "शीर्", "रुद्रपुर", "ॉन", "गोपालीपुर", "समस्याओं", "ग्राफी", "उक", "डायरे", "फ़तेहपुर", "लिख", "आण्", "स्पेन", "ईषा", "अंततः", "जैनथ", "थु", "रोगियों", "ग़ल", "पार्थ", "विशाखापत्तनम", "श्रीअन्तु", "स्तरीय", "ड़ियों", "मध्यकालीन", "ण्ड", "लेफ्टिनेंट", "थोड़े", "वाई", "मरदापुर", "फुलवारीशरीफ़", "अमृत", "फाइटिंग", "पौडी", "महाकोश", "मसूद", "कावेरी", "परिष", "अटॉर्नी", "पद्म", "अन्यप्रयुक्त", "द्वापर", "सुए", "त्स्वेत्", "दीप", "छाया", "दूसरी", "प्रणालियों", "आमचोक", "चौंस", "झिया", "असरगंज", "नालंदा", "लूणी", "उद्भवसंबंधित", "चित्राल", "भट्ट", "्य", "बनास", "औरंगाबाद", "होता", "कोल्लम", "बक्सा", "स्थापत्य", "मिश्र", "वैश", "चटवाल", "नवीन", "कांगड़ी", "भल्ला", "आक्रमण", "ँव", "गाँ", "कुँवर", "साँखेजुङ", "चेबिसेव", "दाईं", "बोसॉन", "रेखाओं", "हजरत", "होली", "वेध", "रज", "जिर", "सागर", "तेलन्गाना", "कॉम्", "भखरी", "अत्यंत", "सेल", "बंजर", "ऊंचाई", "चिन्तामणि", "राहुल", "कन्नौज", "प्रस्ताव", "दामिनी", "सेवर्त्", "जावा", "हॉ", "जौनपुर", "दादूपुर", "हिम्मत", "नयी", "तारीख़", "विच", "यू॰के॰", "ती", "रक्", "तिरुवन", "सेवाग्राम", "रम", "हेले", "नीहरिकाएँ", "मिरजापुर", "अहमदाबाद", "दृष्टिकोण", "तीसरे", "रुपा", "मेघा", "अनन्तपुरी", "थल", "फोन", "मसुइ", "आई॰ऍस", "खिरिया", "किलो", "हाई", "वी॰आई॰एफ॰ए॰", "भूमध्य", "द्विपद", "मिहिर", "नृत्य", "सोल", "लाभ", "निराश", "शो", "पलायन", "राठौर", "दानावारी", "बाक्सा", "ऐतिहासिक", "२४", "निर्मल", "खोज", "जिलाजनसंख्या", "पैगहा", "किर", "ओट्टो", "फ़ौंट", "लाड़", "तख्", "बनाया", "देशक", "चटर्जी", "बाबूपुर", "भवन", "तेलुगु", "स्पष्ट", "ढक्कन", "ब्रिटेन", "इया", "हेलेना", "डेविड", "फूल", "श्वेत", "निरीक्षण", "पूंजी", "माल", "खिताब", "पाटलिपुत्र", "विरा", "स्थल", "प्रतिबंध", "बबूपुर", "सोशलिस्ट", "चमैता", "नन्दन", "मल्लिका", "पृ॰", "हठ", "उत्सव", "बिसिबेले", "बांग्लादेश", "आगरा", "सूजन", "पत", "जहांगीर", "जग", "धउर्रा", "ध्वज", "मूर्तियों", "हिचकी", "भूभागबिषय", "पेसाई", "हाला", "कुर", "खुजे", "जॉन", "बग्", "प्रस्तोता", "चिह्", "त्रिपुरा", "हसनाबाद", "उँगकु", "पाल", "रै", "हजार", "हेलेनोपोलिस", "फैजाबाद", "टूटीकोरि", "काशीनाथपुर", "बुध", "धर्मेश", "तीर्थाटनछोटा", "शुगर", "लिप्यंतरण", "नौग", "मखोल", "हुँ", "रासायनिक", "शेखपुरा", "आईसीसी", "कलाँ", "कुआ", "उपपा", "खलीहृयत", "ली", "परबतपुर", "गबोवी", "भेमपुर", "वरः", "चुसे", "व्याख्या", "सकता", "श्रेष्ठ", "बिहारप्रमंडलसारण", "सिंघापुर", "कॉर्बे", "टाउन", "बुना", "उपजिला", "मथुरापुर", "गहा", "केल", "फ़ु", "कैथो", "पुल", "बेदी", "उद्यान", "गुआंगक्सू", "रेडियोधर्मी", "पुन", "कच्छ", "भर्ती", "माइकल", "दिला", "पू", "वाज", "श्रद्धा", "ग्लो", "मांसपेशि", "मह", "स्कॉटलैण्ड", "फरीदा", "टमा", "मुत्ताहि", "पेय", "सिध", "कुल", "अधिकलोगहेमवन्ती", "कथानुसार", "दावेन", "शादी", "टैक्सोनॉमी", "कर्टवुड", "फौ", "श्रम", "हत्या", "क्वालि", "प्रतिद्वंदी", "दाई", "नवगछिया", "बार्किंग", "बौक्स", "एलिजा", "नीति", "दादी", "शैव", "शासनकाल", "कर्ताओं", "रोहिल्ला", "जेनोसाइड", "ंडो", "इतिहासअकबर", "मौजी", "धौरी", "थियो", "२००", "सूचकांक", "गुणसूत्र", "एक्स्", "नाला", "एचटीएमएल", "ड़ियां", "संपन्न", "भर्ता", "दरवाजा", "टाटा", "बाँ", "प्रस्ता", "सर्वोदय", "न्ज़", "भीत", "एल्ब", "मिर्जा", "रविदास", "भूपत्ती", "मोटा", "जिन", "किट", "गोन", "कैंसर", "था", "रानीखेत", "वहाँ", "रुदाए", "निजा", "सुविधा", "उड", "महतीकर", "अधिनियम", "जोसे", "डब्लिन", "सूस", "ओल्ड", "रुड़की", "पादप", "वैन", "ब्राह्मणों", "धुर्रावाँ", "ऑर्", "लालबाग़", "मार्श", "लव", "७१", "पथ", "उत्थान", "बनीपुर", "बजट", "खराब", "जापुर", "फ्लाइंग", "सरीफ", "पुनः", "रग्बी", "रख", "जीवन", "भूगोलवेत्ता", "नाडु", "क्शन", "ब्बी", "विपरीत", "दौलताबाद", "स्टीव", "अरब", "कुतुब", "मानक", "नील", "एंथो", "भाऊपुरा", "म्प", "राजनीति", "४४", "गौरव", "क्वी", "ंजक", "बघ", "मुश्किल", "दीक्षाभूमि", "नीहारिका", "डिवी", "मैथिली", "हैदरा", "कोइ", "नीहरिका", "खेरुया", "नष्ट", "कुसु", "लिंक", "अमनबाद", "रसूलहा", "ऐब्यू", "विर्", "ित", "डबिंग", "डॉलर", "उदाहरण", "मुंगेर", "तीपुर", "डेटाबेस", "कुश", "आर्मी", "मेमोरियल", "तृ", "पंद्रहवीं", "मुतफ़र्का", "उत्तराखण्ड", "सौ", "आई॰ऍस॰बी॰ऍन॰", "बीए", "रोमन", "कुमाऊँ", "मुसलमान", "गज", "जेनिफ़र", "हिन्दू", "स्वरूपगंज", "कर्म", "उछाल", "पूनम", "बनाये", "बोहमैन", "फर", "ऐब्यूज़", "नहर", "सुजीत", "सेलम", "प्त", "गूसराय", "खगड़िया", "द्वा", "णी", "पैसि", "दी", "सवैया", "उत्पाद", "जगदी", "मूसा", "सिए", "उदय", "संतोष", "विकेट", "ध्या", "चम्पा", "कमर्शि", "लिप्य", "कट", "व्यूह", "चौखुटिया", "डिश", "मेहन", "वि", "सुई", "वैष्णव", "पश्चिम", "अफ्रीकी", "तेलीन", "इनके", "बाण", "कंपनियों", "रास्ते", "एवम", "लोग", "दिखता", "विजयवाड़ा", "जाट", "साम्यवाद", "डकर", "कॉमे", "ग़", "द्रोण", "खा", "स्वच्छता", "बाहूरबाहूर", "बायो", "थी", "दर्ज", "टूटी", "सेंट्रल", "दोया", "मोहम्", "फ़र्नान्डि", "मुज़्ज़", "म्पल", "मेद", "हरिऔध", "अधिकतर", "मिनेसोटा", "केक", "शाहजहांपुर", "बस", "नवाब", "पधारे", "न्यूक्लि", "मन", "विशेषज्ञ", "फ़िलिपी", "फोर्ब्स", "ेर", "विट्ठ", "वावरिन्का", "शद", "सभ्यता", "साल्वाटोर", "सोनाली", "जू", "साय", "खुजेठी", "साहा", "राजनैतिक", "लुईस", "मिशन", "हिंदू", "प्रेक्षण", "गुआंग", "हीर", "दुःशासन", "अवसर", "पाया", "महमूद", "तोडे", "शौश्तारी", "डाकुओं", "लक्ष्मी", "ब्लो", "रुक्", "कनालीछीना", "नौबतपुर", "लोढ़ा", "ताइक्", "निज़ा", "जूलिया", "कच", "होम", "यंस", "नयाबंस", "हे", "बाय", "कैम्ब्रिज", "न्त", "भाषाएँकुमाऊँनी", "फरिद", "सम्पन्न", "केप", "बबली", "एमएल", "अधिक", "हैवतपुर", "द्वारा", "गाँधीधाम", "विवि", "आणविक", "कीर्तन", "स्वीडन", "जिसमें", "अधिकसम्बन्धित", "धीश", "विविधता", "उक्राद", "दिघरी", "हेन", "राजवंश", "चतुर्", "तृतीय", "मिस्र", "राठौड़", "आप", "स्टेशन", "भदो", "रचनाकार", "पाट्टाली", "बंध", "कनकपुर", "वू", "वंश", "तिरुच्छिरापल्ली", "शाम", "मऊ", "काठगोदा", "क्षर", "तारकीय", "उजरा", "वनांचल", "कंप्यूटर", "फ्लाई", "की", "ईशा", "दलपत", "गोअन", "अदिलाबादु", "फ़र्रूख़ाबाद", "टिप्पणी", "उदाहरणार्थ", "तेन", "टेक्नोलॉजी", "प्रभा", "अग", "डुमरी", "अनुमानित", "अनंतपुर", "हडि्ड", "सेन्ट", "विकसित", "कैटलॉगिंग", "श्वसन", "ंगल", "गौराडीह", "नरबारी", "लोहिया", "ओं", "मुंगेरजिलेसारण", "उपजिलाउपज़िला", "कोश", "बांके", "पेट्रो", "आहूजा", "इस्लाम", "सूती", "वास्तविक", "भ्रष्टाचार", "बसेगिट", "परक", "लेने", "भयेलखा", "फर्मेंट", "शुक्रा", "भोगपुर", "युग", "परशु", "आर्मीनिया", "अट", "सीनाई", "अरुंध", "युद्ध", "डेल्", "जायेगा", "बंदर", "साहे", "छुरी", "जनजाति", "कागज्", "गाजर", "क्", "मराठी", "चिंता", "क्रोनोबायोलॉजी", "कांग", "रखते", "खोख", "एक्शप्रेस", "बैकग्राउंड", "सम्पादन", "षित", "तिरुपति", "खस्ता", "पाट्टा", "गुड़गाँव", "संगठित", "कालिंदी", "अक", "किताबें", "गांगुली", "स्वीडिश", "भेद", "सियाल्दा", "हजारीबाग", "साहि", "खंडौली", "तिरछेंडुर", "सेवक", "गोविंदपुर", "मेकेवा", "बीमा", "अर्चना", "डिग्री", "हटिया", "वाहक", "१५", "घूमकर", "क्स", "कार्तिक", "प्रत्यारोपण", "ब्लॉक" ], "merges": { "् र": "्र", "स ्": "स्", "प ्र": "प्र", "ा र": "ार", "क ्": "क्", "र ा": "रा", "य ा": "या", "क े": "के", "े स": "ेस", "ए क्": "एक्", "े ं": "ें", "प्र ेस": "प्रेस", "एक् स्": "एक्स्", "एक्स् प्रेस": "एक्स्प्रेस", "प ु": "पु", "र ्": "र्", "ा न": "ान", "पु र": "पुर", "क ा": "का", "म ें": "में", "व ि": "वि", "न ्": "न्", "ह ै": "है", "ल ा": "ला", "न ा": "ना", "क ी": "की", "स े": "से", "त ा": "ता", "क ो": "को", "व ा": "वा", "त ि": "ति", "् य": "्य", "ि या": "िया", "न े": "ने", "ल े": "ले", "ं ग": "ंग", "द े": "दे", "ो ं": "ों", "ल ी": "ली", "ि त": "ित", "क र": "कर", "ब ा": "बा", "म ा": "मा", "ि क": "िक", "औ र": "और", "ड ़": "ड़", "स ा": "सा", "र ी": "री", "ह ा": "हा", "त ्": "त्", "प ्": "प्", "प र": "पर", "स ं": "सं", "रा ज": "राज", "ल ्": "ल्", "त ी": "ती", "द ्": "द्", "ल ि": "लि", "ज ि": "जि", "म ु": "मु", "न ग": "नग", "भ ा": "भा", "न ि": "नि", "ए क": "एक", "न ी": "नी", "म ्": "म्", "स ी": "सी", "ज ा": "जा", "ज ़": "ज़", "क् ष": "क्ष", "श ्": "श्", "् ड": "्ड", "क ि": "कि", "नग र": "नगर", "ट ी": "टी", "ण ्ड": "ण्ड", "स ि": "सि", "क ु": "कु", "द ा": "दा", "दे श": "देश", "प ा": "पा", "त् त": "त्त", "इ स": "इस", "स् थ": "स्थ", "द ी": "दी", "म े": "मे", "ग म": "गम", "ं ड": "ंड", "ले ख": "लेख", "ह ी": "ही", "ष ्": "ष्", "म ि": "मि", "द ि": "दि", "ढ ़": "ढ़", "व े": "वे", "ग ा": "गा", "उ त्त": "उत्त", "ज ो": "जो", "त े": "ते", "भ ि": "भि", "ब र": "बर", "म ू": "मू", "श ा": "शा", "ह ि": "हि", "व ी": "वी", "म ी": "मी", "श् व": "श्व", "भार त": "भारत", "ह ो": "हो", "ह ु": "हु", "ज ी": "जी", "है ं": "हैं", "राज ्य": "राज्य", "भ ी": "भी", "र े": "रे", "ग ो": "गो", "बा द": "बाद", "अ भि": "अभि", "र ू": "रू", "ल य": "लय", "ल ो": "लो", "स ु": "सु", "ब ि": "बि", "प ू": "पू", "थ ा": "था", "थ ि": "थि", "ग ु": "गु", "र ु": "रु", "क ृ": "कृ", "ह र": "हर", "य ह": "यह", "लि ए": "लिए", "य ो": "यो", "स र": "सर", "ब ी": "बी", "ति थि": "तिथि", "गम न": "गमन", "अ ध": "अध", "ष् ट": "ष्ट", "ख ण्ड": "खण्ड", "न् द": "न्द", "व ं": "वं", "प्र देश": "प्रदेश", "अभि गमन": "अभिगमन", "उ प": "उप", "पर ि": "परि", "वि श्व": "विश्व", "ट र": "टर", "ग या": "गया", "व र्": "वर्", "स म": "सम", "ग ढ़": "गढ़", "उत्त रा": "उत्तरा", "ज़ ि": "ज़ि", "ज न": "जन", "च े": "चे", "फ ़": "फ़", "आ ध": "आध", "ट ा": "टा", "म ो": "मो", "ं द": "ंद", "न् न": "न्न", "प ी": "पी", "ब े": "बे", "भ ू": "भू", "रू प": "रूप", "पू र्": "पूर्", "क्ष े": "क्षे", "मू ल": "मूल", "क्षे त्र": "क्षेत्र", "य ु": "यु", "ड़ ा": "ड़ा", "स् ट": "स्ट", "र ो": "रो", "स ू": "सू", "द ू": "दू", "जि ला": "जिला", "उत्तरा खण्ड": "उत्तराखण्ड", "अध िक": "अधिक", "वि द्या": "विद्या", "च ि": "चि", "ज़ि ला": "ज़िला", "स्रो त": "स्रोत", "विद्या लय": "विद्यालय", "द् ध": "द्ध", "ख ा": "खा", "नि र्": "निर्", "मु ख": "मुख", "ष ा": "षा", "म द": "मद", "च ा": "चा", "ौ र": "ौर", "ँ व": "ँव", "इ ं": "इं", "र ि": "रि", "न ु": "नु", "प ट": "पट", "भारती य": "भारतीय", "भा ग": "भाग", "स् त": "स्त", "ज ्": "ज्", "ं त": "ंत", "ण ा": "णा", "भा षा": "भाषा", "फ ि": "फि", "ट ि": "टि", "ह े": "हे", "ना म": "नाम", "ल पुर": "लपुर", "जो ड़": "जोड़", "अ प": "अप", "म ै": "मै", "ं ध": "ंध", "श ि": "शि", "स ो": "सो", "गा ँव": "गाँव", "श ी": "शी", "चे न्न": "चेन्न", "ष्ट ्री": "ष्ट्री", "ष्ट्री य": "ष्ट्रीय", "उत्त र": "उत्तर", "न ो": "नो", "ड े": "डे", "चेन्न ई": "चेन्नई", "विश्व विद्यालय": "विश्वविद्यालय", "ब ्": "ब्", "ही ं": "हीं", "ज् ञ": "ज्ञ", "क् त": "क्त", "आध िकारिक": "आधिकारिक", "श न": "शन", "इ न": "इन", "ड़ ी": "ड़ी", "द ु": "दु", "च ्": "च्", "स भा": "सभा", "उ न": "उन", "आ ई": "आई", "प ि": "पि", "न हीं": "नहीं", "नि गम": "निगम", "न पुर": "नपुर", "य े": "ये", "द् वारा": "द्वारा", "सि टी": "सिटी", "ड ि": "डि", "त ु": "तु", "रा म": "राम", "इं टर": "इंटर", "जि ले": "जिले", "ल ै": "लै", "प े": "पे", "ज य": "जय", "क ै": "कै", "वि ध": "विध", "म हा": "महा", "जा ता": "जाता", "द् वार": "द्वार", "जोड़ कर": "जोड़कर", "सा थ": "साथ", "ब ु": "बु", "व त": "वत", "ओ ं": "ओं", "प ो": "पो", "यो ग": "योग", "श ु": "शु", "सर कार": "सरकार", "व न": "वन", "व री": "वरी", "ज ु": "जु", "मद द": "मदद", "द र": "दर", "च ल": "चल", "दू न": "दून", "लो क": "लोक", "कर ने": "करने", "अ नु": "अनु", "प ं": "पं", "च ी": "ची", "व र": "वर", "ए वं": "एवं", "मि ल": "मिल", "जान कारी": "जानकारी", "ड ा": "डा", "ड ी": "डी", "च क": "चक", "न् ध": "न्ध", "थ ी": "थी", "थ े": "थे", "प ह": "पह", "ट न": "टन", "ए ँ": "एँ", "म ध": "मध", "सम य": "समय", "ति हा": "तिहा", "फि ल्": "फिल्", "ब ो": "बो", "ख े": "खे", "ग र": "गर", "दे वा": "देवा", "ं क": "ंक", "द ो": "दो", "न् त": "न्त", "नी य": "नीय", "कृ प": "कृप", "कृप या": "कृपया", "म स्": "मस्", "प श्": "पश्", "रा ष्ट्रीय": "राष्ट्रीय", "ण्ड ल": "ण्डल", "ट े": "टे", "घ ा": "घा", "पूर् व": "पूर्व", "श े": "शे", "न दी": "नदी", "स क": "सक", "रे ल": "रेल", "व ै": "वै", "जि द": "जिद", "प् त": "प्त", "य र": "यर", "ना थ": "नाथ", "ब हु": "बहु", "बि हार": "बिहार", "स न": "सन", "त क": "तक", "य न": "यन", "इंटर सिटी": "इंटरसिटी", "ऊ ँ": "ऊँ", "विकि पी": "विकिपी", "विकिपी डिया": "विकिपीडिया", "ए स": "एस", "कु मा": "कुमा", "देवा सं": "देवासं", "म ह": "मह", "व ्य": "व्य", "मस् जिद": "मस्जिद", "का ल": "काल", "त र": "तर", "प ृ": "पृ", "ल् ली": "ल्ली", "म न": "मन", "२ ०": "२०", "मे ल": "मेल", "परि ष": "परिष", "उप ज़िला": "उपज़िला", "हों ने": "होंने", "वा ल": "वाल", "म ग": "मग", "य ू": "यू", "पश् चि": "पश्चि", "कुमा ऊँ": "कुमाऊँ", "ण ी": "णी", "कु ल": "कुल", "अ ल": "अल", "क ॉ": "कॉ", "सरा य": "सराय", "विध ान": "विधान", "मुख ्य": "मुख्य", "ब ढ़": "बढ़", "ज ै": "जै", "ट ्": "ट्", "फ ा": "फा", "ं ज": "ंज", "म ण्डल": "मण्डल", "बा हरी": "बाहरी", "सि ं": "सिं", "ो र": "ोर", "ग ्": "ग्", "ध ार": "धार", "दे हरा": "देहरा", "देहरा दून": "देहरादून", "व ह": "वह", "च ु": "चु", "ष् ठ": "ष्ठ", "ज्ञ ान": "ज्ञान", "अप ने": "अपने", "स ै": "सै", "फ र": "फर", "पा ल": "पाल", "यु क्त": "युक्त", "ल ु": "लु", "स् कृ": "स्कृ", "ज े": "जे", "परिष द": "परिषद", "ब ै": "बै", "पूर् ण": "पूर्ण", "ल ख": "लख", "सिं ह": "सिंह", "ष य": "षय", "प्र ति": "प्रति", "इन् हें": "इन्हें", "इ तिहा": "इतिहा", "क्ष ि": "क्षि", "त ो": "तो", "अ न्य": "अन्य", "ग ि": "गि", "अ व": "अव", "अ म": "अम", "हु आ": "हुआ", "प ै": "पै", "ौ ली": "ौली", "क ू": "कू", "मध ्य": "मध्य", "ग ी": "गी", "बढ़ ाने": "बढ़ाने", "द क्षि": "दक्षि", "त ह": "तह", "ध ा": "धा", "पश्चि म": "पश्चिम", "म पुर": "मपुर", "बा ग": "बाग", "फ ्": "फ्", "वर् ष": "वर्ष", "दे व": "देव", "ब ना": "बना", "स ब": "सब", "कि सी": "किसी", "हा व": "हाव", "उन् होंने": "उन्होंने", "ज ब": "जब", "इतिहा स": "इतिहास", "ख ्या": "ख्या", "ग त": "गत", "अ र": "अर", "म ंत्री": "मंत्री", "त था": "तथा", "द् वी": "द्वी", "हाव ड़ा": "हावड़ा", "गढ़ वाल": "गढ़वाल", "विश्व सनीय": "विश्वसनीय", "विधान सभा": "विधानसभा", "स् वा": "स्वा", "सं स्कृ": "संस्कृ", "ट ू": "टू", "फिल् म": "फिल्म", "ंग ल": "ंगल", "अ थ": "अथ", "हो ता": "होता", "लै ंड": "लैंड", "वि षय": "विषय", "च न": "चन", "क म": "कम", "ग ू": "गू", "ल न": "लन", "दि ल्ली": "दिल्ली", "ड़ िया": "ड़िया", "पुर स्": "पुरस्", "ख ु": "खु", "भ ो": "भो", "जन् म": "जन्म", "ब ंध": "बंध", "॰ ऍ": "॰ऍ", "अथ वा": "अथवा", "व ल": "वल", "द्वी प": "द्वीप", "पुरस् कार": "पुरस्कार", "जन वरी": "जनवरी", "कर ता": "करता", "ज रा": "जरा", "वं श": "वंश", "गो ल": "गोल", "सा मग्री": "सामग्री", "सं स्थान": "संस्थान", "शा ह": "शाह", "तह सी": "तहसी", "ल क": "लक", "र ह": "रह", "म ंदि": "मंदि", "म ई": "मई", "का शी": "काशी", "प द": "पद", "प ति": "पति", "प्र का": "प्रका", "इ ट": "इट", "म ण": "मण", "मंदि र": "मंदिर", "कर ते": "करते", "रा य": "राय", "तहसी ल": "तहसील", "प्र ौ": "प्रौ", "वे श": "वेश", "स द": "सद", "ज ू": "जू", "ग ंगा": "गंगा", "प्र मुख": "प्रमुख", "र त": "रत", "भाग लपुर": "भागलपुर", "ंगल ौर": "ंगलौर", "कि न": "किन", "सु धार": "सुधार", "पृ ष्ठ": "पृष्ठ", "प्रौ द्योगिकी": "प्रौद्योगिकी", "क ला": "कला", "भ ग": "भग", "य त": "यत", "य श": "यश", "भाषा एँ": "भाषाएँ", "य म": "यम", "दक्षि ण": "दक्षिण", "उन् हें": "उन्हें", "य ी": "यी", "सब से": "सबसे", "१ ९": "१९", "नग ला": "नगला", "हि मा": "हिमा", "प्र या": "प्रया", "ब न्ध": "बन्ध", "ध र्": "धर्", "हो ने": "होने", "ृ त": "ृत", "न ै": "नै", "मे र": "मेर", "ला ई": "लाई", "प्र वेश": "प्रवेश", "निर् वा": "निर्वा", "उ र्": "उर्", "च ौ": "चौ", "झ ा": "झा", "अ ग": "अग", "न न्द": "नन्द", "से वा": "सेवा", "बहु त": "बहुत", "र पुर": "रपुर", "हे म": "हेम", "क ई": "कई", "सं ख्या": "संख्या", "प न": "पन", "न ऊ": "नऊ", "ण िक": "णिक", "टि श": "टिश", "राज वंश": "राजवंश", "हरि द्वार": "हरिद्वार", "वि ज्ञान": "विज्ञान", "म क": "मक", "सक ता": "सकता", "मार् च": "मार्च", "ब्रि टिश": "ब्रिटिश", "को ट": "कोट", "सन्दर् भ": "सन्दर्भ", "पह ले": "पहले", "ल ू": "लू", "हु ए": "हुए", "समा चार": "समाचार", "ज म्": "जम्", "रेल वे": "रेलवे", "मार् ग": "मार्ग", "द ल": "दल", "फ ल": "फल", "छ ा": "छा", "पार् टी": "पार्टी", "२० १": "२०१", "पुरा लेख": "पुरालेख", "ग ई": "गई", "लख नऊ": "लखनऊ", "एस टी": "एसटी", "वर् ण": "वर्ण", "प ौ": "पौ", "ता ल": "ताल", "ब ल": "बल", "ति रु": "तिरु", "ट ल": "टल", "न र": "नर", "च् च": "च्च", "आ ंध": "आंध", "े र": "ेर", "लि ंक": "लिंक", "आ न्ध": "आन्ध", "आन्ध ्र": "आन्ध्र", "जम् मू": "जम्मू", "आ गरा": "आगरा", "आई एसटी": "आईएसटी", "कर ण": "करण", "वे ब": "वेब", "जी वन": "जीवन", "कु छ": "कुछ", "ठ ा": "ठा", "ट ो": "टो", "ै ल": "ैल", "द पुर": "दपुर", "वारा ण": "वाराण", "वाराण सी": "वाराणसी", "भ ु": "भु", "सा हित्य": "साहित्य", "नन्द न": "नन्दन", "वि द्": "विद्", "म त": "मत", "दर भ": "दरभ", "दरभ ंगा": "दरभंगा", "क ं": "कं", "यश वंत": "यशवंत", "यशवंत पुर": "यशवंतपुर", "उ त्": "उत्", "म् बर": "म्बर", "आंध ्र": "आंध्र", "उन के": "उनके", "ं स": "ंस", "अ ख": "अख", "ने ट": "नेट", "ग ए": "गए", "ु र": "ुर", "ज ग": "जग", "ड ु": "डु", "ज हा": "जहा", "प्र भा": "प्रभा", "भू गोल": "भूगोल", "छ ो": "छो", "ब ॉ": "बॉ", "लि ये": "लिये", "ट क": "टक", "सी ता": "सीता", "सं घ": "संघ", "ब ंगलौर": "बंगलौर", "ॉ र्": "ॉर्", "हि न्दी": "हिन्दी", "लो ग": "लोग", "सम् बन्ध": "सम्बन्ध", "निर्वा चन": "निर्वाचन", "क ता": "कता", "जा ती": "जाती", "थ ु": "थु", "अ ंतर्राष्ट्रीय": "अंतर्राष्ट्रीय", "ं ब": "ंब", "राजनी ति": "राजनीति", "य क": "यक", "ज़ ी": "ज़ी", "र ण": "रण", "अ ह": "अह", "पा कि": "पाकि", "अल ंकार": "अलंकार", "च ै": "चै", "गु जरा": "गुजरा", "त मिल": "तमिल", "सा इट": "साइट", "ध न": "धन", "गोर ख": "गोरख", "म् भ": "म्भ", "का म": "काम", "न ॰": "न॰", "उप योग": "उपयोग", "ल ग": "लग", "ड़ े": "ड़े", "स्वा मी": "स्वामी", "का ंग्रेस": "कांग्रेस", "सम्बन्ध ित": "सम्बन्धित", "धर् म": "धर्म", "अप्र ैल": "अप्रैल", "मु ंग": "मुंग", "ग ण": "गण", "पर्य टन": "पर्यटन", "मा ण": "माण", "म ंड": "मंड", "आ व": "आव", "ख ़": "ख़", "उ ल्": "उल्", "ब ंगा": "बंगा", "डी ह": "डीह", "क ौ": "कौ", "विद् वान": "विद्वान", "प्रा प्त": "प्राप्त", "ल् स": "ल्स", "ह टा": "हटा", "त न": "तन", "भि न्न": "भिन्न", "म ौ": "मौ", "मुंग ेर": "मुंगेर", "वि ल": "विल", "पट् टी": "पट्टी", "जा ल": "जाल", "उ द्यान": "उद्यान", "किता बें": "किताबें", "अ ंग्रे": "अंग्रे", "शे ष": "शेष", "हो ते": "होते", "ला ल": "लाल", "त् व": "त्व", "श हर": "शहर", "अख बार": "अखबार", "हु ई": "हुई", "ज़ि ले": "ज़िले", "अ न": "अन", "नाराय ण": "नारायण", "ने ता": "नेता", "थ म": "थम", "ध ी": "धी", "फ़ ि": "फ़ि", "उ से": "उसे", "वेब साइट": "वेबसाइट", "सं युक्त": "संयुक्त", "उल् लेख": "उल्लेख", "ल ॉ": "लॉ", "नै नी": "नैनी", "नैनी ताल": "नैनीताल", "भू मिका": "भूमिका", "आ म": "आम", "ख ि": "खि", "यु द्ध": "युद्ध", "स्था पित": "स्थापित", "स पुर": "सपुर", "दि संबर": "दिसंबर", "अ क्": "अक्", "जु लाई": "जुलाई", "पाकि स्तान": "पाकिस्तान", "ख ी": "खी", "उ च्च": "उच्च", "स् कू": "स्कू", "क ह": "कह", "ू र": "ूर", "स ह": "सह", "म र": "मर", "उन की": "उनकी", "समू ह": "समूह", "ं च": "ंच", "ति लक": "तिलक", "शा मिल": "शामिल", "ब स": "बस", "ब त": "बत", "ले किन": "लेकिन", "च र्": "चर्", "संदर् भ": "संदर्भ", "को ड": "कोड", "भू मि": "भूमि", "घ र": "घर", "पु ण": "पुण", "गुजरा त": "गुजरात", "गोरख पुर": "गोरखपुर", "श ो": "शो", "ज ल": "जल", "गु णा": "गुणा", "महि ला": "महिला", "च् छ": "च्छ", "ध ि": "धि", "ग े": "गे", "पंजा ब": "पंजाब", "सु पर": "सुपर", "वा हा": "वाहा", "द य": "दय", "स्कू ल": "स्कूल", "ऑ फ": "ऑफ", "ना टक": "नाटक", "न ौ": "नौ", "क् स": "क्स", "वे ली": "वेली", "ंड ो": "ंडो", "यो जना": "योजना", "कृ ष": "कृष", "वा यु": "वायु", "ड़ की": "ड़की", "सित ंबर": "सितंबर", "त् मक": "त्मक", "वि भिन्न": "विभिन्न", "प्र खण्ड": "प्रखण्ड", "भू भाग": "भूभाग", "व ो": "वो", "डे ल्": "डेल्", "गु वाहा": "गुवाहा", "गुवाहा टी": "गुवाहाटी", "ज़ ा": "ज़ा", "क्रिके ट": "क्रिकेट", "आ न्दो": "आन्दो", "आन्दो लन": "आन्दोलन", "प्र शा": "प्रशा", "स्रोतही न": "स्रोतहीन", "आ र": "आर", "ंग् ला": "ंग्ला", "आव श्यकता": "आवश्यकता", "से ना": "सेना", "पूर्ण िया": "पूर्णिया", "मण ि": "मणि", "यहा ँ": "यहाँ", "प क": "पक", "ते ह": "तेह", "प्रवेश द्वार": "प्रवेशद्वार", "प्र थम": "प्रथम", "फ ी": "फी", "बा ंग्ला": "बांग्ला", "ब न": "बन", "बे ह": "बेह", "व ृ": "वृ", "हो ती": "होती", "सित म्बर": "सितम्बर", "जू न": "जून", "ख ंड": "खंड", "ह म्": "हम्", "द् दी": "द्दी", "कु म्भ": "कुम्भ", "राज स्थान": "राजस्थान", "रा ष्ट्र": "राष्ट्र", "छ त्ती": "छत्ती", "छत्ती स": "छत्तीस", "पृ ॰": "पृ॰", "श ैली": "शैली", "श री": "शरी", "ग ल": "गल", "मी र": "मीर", "ना डा": "नाडा", "पुण े": "पुणे", "य ल": "यल", "च मो": "चमो", "चमो ली": "चमोली", "च म्": "चम्", "धा म": "धाम", "के दार": "केदार", "ल म": "लम", "अनु सार": "अनुसार", "उ स": "उस", "वेबै क": "वेबैक", "ज पुर": "जपुर", "ंब ई": "ंबई", "डेल् ही": "डेल्ही", "ना गर": "नागर", "विका स": "विकास", "टी म": "टीम", "रु ड़की": "रुड़की", "गु रु": "गुरु", "पा द": "पाद", "प्र दान": "प्रदान", "छत्तीस गढ़": "छत्तीसगढ़", "पह ली": "पहली", "ची न": "चीन", "आई ॰ऍ": "आई॰ऍ", "आई॰ऍ स": "आई॰ऍस", "आई॰ऍस ॰": "आई॰ऍस॰", "आई॰ऍस॰ बी": "आई॰ऍस॰बी", "आई॰ऍस॰बी ॰ऍ": "आई॰ऍस॰बी॰ऍ", "आई॰ऍस॰बी॰ऍ न॰": "आई॰ऍस॰बी॰ऍन॰", "अग स्त": "अगस्त", "वि भाग": "विभाग", "झार खण्ड": "झारखण्ड", "मु ंबई": "मुंबई", "मंड ल": "मंडल", "फ़ि ल्": "फ़िल्", "परि वार": "परिवार", "प्र दर्": "प्रदर्", "है दरा": "हैदरा", "हैदरा बाद": "हैदराबाद", "वि शेष": "विशेष", "ल् ला": "ल्ला", "को विल": "कोविल", "फ ु": "फु", "भू कम्": "भूकम्", "भूकम् प": "भूकम्प", "उत्तर काशी": "उत्तरकाशी", "बहु गुणा": "बहुगुणा", "प्रका शित": "प्रकाशित", "ओ र": "ओर", "य दि": "यदि", "जि समें": "जिसमें", "हि ंदी": "हिंदी", "क श्": "कश्", "कर् नाटक": "कर्नाटक", "शन ल": "शनल", "जय पुर": "जयपुर", "नागर कोविल": "नागरकोविल", "न वंबर": "नवंबर", "कृष ि": "कृषि", "लोक सभा": "लोकसभा", "ब ू": "बू", "म् स": "म्स", "शा ली": "शाली", "ढ़ ी": "ढ़ी", "इ ल": "इल", "उर् फ": "उर्फ", "न व": "नव", "जि से": "जिसे", "बी च": "बीच", "गू सराय": "गूसराय", "बंगा ल": "बंगाल", "जन संख्या": "जनसंख्या", "सा गर": "सागर", "क ल": "कल", "अम ृत": "अमृत", "ए र": "एर", "मु क्त": "मुक्त", "लग भग": "लगभग", "कर ना": "करना", "शि व": "शिव", "कि म": "किम", "ख ो": "खो", "सिकंदरा बाद": "सिकंदराबाद", "सद स्य": "सदस्य", "शु रू": "शुरू", "सा म्राज्य": "साम्राज्य", "को श": "कोश", "बेह तर": "बेहतर", "स भी": "सभी", "स् वी": "स्वी", "पर् वत": "पर्वत", "लै ण्ड": "लैण्ड", "इंद ौर": "इंदौर", "जन ता": "जनता", "अन्तर् गत": "अन्तर्गत", "पोर् टल": "पोर्टल", "ड ॉ": "डॉ", "आ दि": "आदि", "ली ग": "लीग", "मु रा": "मुरा", "मि न": "मिन", "बे गूसराय": "बेगूसराय", "अरु णा": "अरुणा", "हिमा चल": "हिमाचल", "कश् मीर": "कश्मीर", "क ़": "क़", "फ तेह": "फतेह", "चु ना": "चुना", "श ब्": "शब्", "उप युक्त": "उपयुक्त", "ठ ी": "ठी", "तिहा सिक": "तिहासिक", "परि च": "परिच", "वा ह": "वाह", "जि न": "जिन", "रु आ": "रुआ", "पा स": "पास", "जा पुर": "जापुर", "उल्लेख नीयता": "उल्लेखनीयता", "अक् टू": "अक्टू", "अक्टू बर": "अक्टूबर", "ध ्या": "ध्या", "सें ट": "सेंट", "आन्ध्र प्रदेश": "आन्ध्रप्रदेश", "बागे श्वर": "बागेश्वर", "वी ं": "वीं", "डे टा": "डेटा", "त ौर": "तौर", "दा बाद": "दाबाद", "र ॉ": "रॉ", "च ं": "चं", "क टि": "कटि", "पु त्र": "पुत्र", "भा वना": "भावना", "ए शिया": "एशिया", "मै च": "मैच", "संगी त": "संगीत", "ख ्": "ख्", "अ ज": "अज", "कटि हार": "कटिहार", "मु ज": "मुज", "दाना पुर": "दानापुर", "ने शनल": "नेशनल", "फ़ र": "फ़र", "म थु": "मथु", "मथु रा": "मथुरा", "ौ ला": "ौला", "खु र्": "खुर्", "बांग्ला देश": "बांग्लादेश", "ति वारी": "तिवारी", "हि न्दू": "हिन्दू", "शु रुआ": "शुरुआ", "फ़ ा": "फ़ा", "ना ग": "नाग", "ल् तानपुर": "ल्तानपुर", "यमु ना": "यमुना", "सि द्ध": "सिद्ध", "पद क": "पदक", "ड ो": "डो", "इस से": "इससे", "हे तु": "हेतु", "पुरु ष": "पुरुष", "देश क": "देशक", "स्थ ल": "स्थल", "अ सम": "असम", "विके ट": "विकेट", "आ ज": "आज", "२० ०": "२००", "सू ची": "सूची", "वि ंडो": "विंडो", "ज पा": "जपा", "ह ल्": "हल्", "ती र्": "तीर्", "फ ू": "फू", "ल भ": "लभ", "निर् माण": "निर्माण", "ए न": "एन", "स ौ": "सौ", "मा ल": "माल", "ठ न": "ठन", "मा ँ": "माँ", "सिक् किम": "सिक्किम", "प ॉ": "पॉ", "अमृत सर": "अमृतसर", "ना कुलम": "नाकुलम", "ट् स": "ट्स", "खुर् द": "खुर्द", "र ै": "रै", "पौ ड़ी": "पौड़ी", "भा जपा": "भाजपा", "प्रशा सनिक": "प्रशासनिक", "अल् मो": "अल्मो", "गो वि": "गोवि", "ऐ तिहासिक": "ऐतिहासिक", "परि वर्": "परिवर्", "म शी": "मशी", "स फल": "सफल", "भ र": "भर", "भ ौ": "भौ", "ह ता": "हता", "पंचा यत": "पंचायत", "अरुणा चल": "अरुणाचल", "फ़र वरी": "फ़रवरी", "एर नाकुलम": "एरनाकुलम", "स त": "सत", "र न": "रन", "मा ता": "माता", "स् कोर": "स्कोर", "परि योजना": "परियोजना", "सं हार": "संहार", "अल्मो ड़ा": "अल्मोड़ा", "पि थ": "पिथ", "ज्ञान कोश": "ज्ञानकोश", "ले ज": "लेज", "वर् त": "वर्त", "वर्त मान": "वर्तमान", "स्था पना": "स्थापना", "अक्त ू": "अक्तू", "अक्तू बर": "अक्तूबर", "दु र्": "दुर्", "ग ौ": "गौ", "प्र योग": "प्रयोग", "ला इन": "लाइन", "चं पारण": "चंपारण", "म ढ़ी": "मढ़ी", "सो नपुर": "सोनपुर", "मग ध": "मगध", "मुज फ्": "मुजफ्", "ना डु": "नाडु", "ध ु": "धु", "अह मदाबाद": "अहमदाबाद", "व्य व": "व्यव", "खा स": "खास", "खे त": "खेत", "श र्": "शर्", "गा ं": "गां", "क्ष ण": "क्षण", "अंग्रे ज़ी": "अंग्रेज़ी", "फ़िल् म": "फ़िल्म", "ब ड़ी": "बड़ी", "न यी": "नयी", "जि सका": "जिसका", "वा द": "वाद", "ब ह": "बह", "ध ्": "ध्", "सा ल": "साल", "केर ल": "केरल", "सीता मढ़ी": "सीतामढ़ी", "मुजफ् फरपुर": "मुजफ्फरपुर", "परिषद नगर": "परिषदनगर", "हरिया णा": "हरियाणा", "पु दु": "पुदु", "द् दा": "द्दा", "ध र": "धर", "जा मा": "जामा", "न ई": "नई", "फतेह पुर": "फतेहपुर", "प त": "पत", "संग्रहा लय": "संग्रहालय", "राज्य पाल": "राज्यपाल", "ड़िया ँ": "ड़ियाँ", "जै से": "जैसे", "शे ख": "शेख", "प्र स्ता": "प्रस्ता", "ए ल": "एल", "पै सेंज": "पैसेंज", "पैसेंज र": "पैसेंजर", "प्रया गराज": "प्रयागराज", "बा जी": "बाजी", "क प": "कप", "२ १": "२१", "स् व": "स्व", "द त्त": "दत्त", "म ंत्रा": "मंत्रा", "मंत्रा लय": "मंत्रालय", "ग ंज": "गंज", "मशी न": "मशीन", "अने क": "अनेक", "चर् चा": "चर्चा", "ौ न": "ौन", "ती न": "तीन", "घ ो": "घो", "प्रका श": "प्रकाश", "बा ँ": "बाँ", "अज मेर": "अजमेर", "छ परा": "छपरा", "देवासं भारत": "देवासंभारत", "ते ल": "तेल", "सि र": "सिर", "त्रि वेंद्र": "त्रिवेंद्र", "त्रिवेंद्र म": "त्रिवेंद्रम", "ह ्": "ह्", "चुना व": "चुनाव", "ॉ न": "ॉन", "यू नि": "यूनि", "फ ो": "फो", "ग ै": "गै", "राज मार्ग": "राजमार्ग", "अ यो": "अयो", "अयो ध्या": "अयोध्या", "चम् पा": "चम्पा", "चम्पा वत": "चम्पावत", "मु न": "मुन", "टी वी": "टीवी", "ख ने": "खने", "द ृ": "दृ", "परि णा": "परिणा", "त म": "तम", "ला म": "लाम", "दर् श": "दर्श", "न ृत्य": "नृत्य", "का द": "काद", "र ंग": "रंग", "क्र म": "क्रम", "आ यो": "आयो", "नर संहार": "नरसंहार", "न दिया": "नदिया", "अ ति": "अति", "अ ब": "अब", "ं श": "ंश", "द ौरान": "दौरान", "श ू": "शू", "क ड़ियाँ": "कड़ियाँ", "अ च्छ": "अच्छ", "त ृती": "तृती", "तृती य": "तृतीय", "मुरा दाबाद": "मुरादाबाद", "ं ट": "ंट", "यहा ं": "यहां", "मह त्व": "महत्व", "बी घा": "बीघा", "तेल ंगाना": "तेलंगाना", "या द": "याद", "ध पुर": "धपुर", "बी कानेर": "बीकानेर", "उ दय": "उदय", "घ ु": "घु", "जी पुर": "जीपुर", "जाल पृष्ठ": "जालपृष्ठ", "वार् ता": "वार्ता", "दु निया": "दुनिया", "य स": "यस", "अभि नेता": "अभिनेता", "मे घा": "मेघा", "मेघा लय": "मेघालय", "प्रा ंत": "प्रांत", "वि जय": "विजय", "नि म्": "निम्", "ं ख": "ंख", "ट ै": "टै", "ण ्": "ण्", "१ ०": "१०", "गो स्वामी": "गोस्वामी", "झ ी": "झी", "विंडो ज़": "विंडोज़", "वि स्त": "विस्त", "विस्त ृत": "विस्तृत", "का ण्ड": "काण्ड", "पिथ ौरा": "पिथौरा", "पिथौरा गढ़": "पिथौरागढ़", "ऋ ष": "ऋष", "रानी खेत": "रानीखेत", "का ंग": "कांग", "दा स": "दास", "सा द": "साद", "र खा": "रखा", "ह ू": "हू", "सा मान्य": "सामान्य", "प ल": "पल", "जि स": "जिस", "दो नों": "दोनों", "इ ड": "इड", "बना या": "बनाया", "के वल": "केवल", "ह म": "हम", "ज र्": "जर्", "कु ंड": "कुंड", "मणि पुर": "मणिपुर", "ल द्दा": "लद्दा", "दि न": "दिन", "को लका": "कोलका", "स् को": "स्को", "कू ट": "कूट", "फ ै": "फै", "् स": "्स", "र वि": "रवि", "जी व": "जीव", "ख़ ा": "ख़ा", "ल र": "लर", "नदिया ँ": "नदियाँ", "न्या या": "न्याया", "प्रया ग": "प्रयाग", "छो टा": "छोटा", "रा वत": "रावत", "थ ो": "थो", "ए म": "एम", "घ टना": "घटना", "संब द्ध": "संबद्ध", "सक ते": "सकते", "निर् देशक": "निर्देशक", "त ू": "तू", "सो न": "सोन", "ग ़": "ग़", "शुरुआ त": "शुरुआत", "उन का": "उनका", "जै न": "जैन", "इ या": "इया", "प्रा चीन": "प्राचीन", "आ दर्श": "आदर्श", "गो वा": "गोवा", "निको बार": "निकोबार", "लक्ष द्वीप": "लक्षद्वीप", "अर ब": "अरब", "जो धपुर": "जोधपुर", "घा ट": "घाट", "सुपर फा": "सुपरफा", "सुपरफा स्ट": "सुपरफास्ट", "जी ता": "जीता", "तु र्": "तुर्", "टूर् नामेंट": "टूर्नामेंट", "प्र सिद्ध": "प्रसिद्ध", "म ल": "मल", "राष्ट्र पति": "राष्ट्रपति", "गां व": "गांव", "डेटा बेस": "डेटाबेस", "ड़ ते": "ड़ते", "अ ंतर": "अंतर", "मु र": "मुर", "अ ण्ड": "अण्ड", "कह ते": "कहते", "फ े": "फे", "सै न": "सैन", "शा खा": "शाखा", "शी र्": "शीर्", "भ े": "भे", "जहा ं": "जहां", "उर् दू": "उर्दू", "वा ँ": "वाँ", "ए ंड": "एंड", "लि स": "लिस", "खे ड़ा": "खेड़ा", "सं र": "संर", "क क्ष": "कक्ष", "पौरा णिक": "पौराणिक", "जल वायु": "जलवायु", "शार दा": "शारदा", "सा हि": "साहि", "साहि ब": "साहिब", "न ंदा": "नंदा", "कुमाऊँ नी": "कुमाऊँनी", "पहा ड़ी": "पहाड़ी", "गोवि न्द": "गोविन्द", "गुरु कुल": "गुरुकुल", "अति रिक्त": "अतिरिक्त", "कॉ लेज": "कॉलेज", "न ल": "नल", "ज र": "जर", "शू न्य": "शून्य", "श ता": "शता", "शता ब्": "शताब्", "शताब् दी": "शताब्दी", "त ब": "तब", "पु नर्": "पुनर्", "फर वरी": "फरवरी", "ंख ला": "ंखला", "ग ड़िया": "गड़िया", "तु हा": "तुहा", "ओ डि": "ओडि", "ज़ ोर": "ज़ोर", "प्रस्ता वित": "प्रस्तावित", "उ द्योग": "उद्योग", "मह ल": "महल", "कोलका ता": "कोलकाता", "का की": "काकी", "काकी नाडा": "काकीनाडा", "ला सपुर": "लासपुर", "गो दा": "गोदा", "तिरु पति": "तिरुपति", "सी मा": "सीमा", "संग ठन": "संगठन", "मो हम्": "मोहम्", "१ ५": "१५", "जब कि": "जबकि", "शब् द": "शब्द", "र सू": "रसू", "ना ई": "नाई", "ला व": "लाव", "ग ंगो": "गंगो", "कॉर् बे": "कॉर्बे", "कॉर्बे ट": "कॉर्बेट", "वल् लभ": "वल्लभ", "पे ट्रो": "पेट्रो", "शा सन": "शासन", "फि र": "फिर", "जा ते": "जाते", "जु ड़ते": "जुड़ते", "प्रा थमिक": "प्राथमिक", "घो ष": "घोष", "व ु": "वु", "ढ़ ा": "ढ़ा", "मी टर": "मीटर", "ब ख्": "बख्", "वा ई": "वाई", "नि जा": "निजा", "अण्ड मान": "अण्डमान", "द्वीप समूह": "द्वीपसमूह", "बा ंद्रा": "बांद्रा", "टर् मिन": "टर्मिन", "टर्मिन स": "टर्मिनस", "भु बने": "भुबने", "भुबने श्वर": "भुबनेश्वर", "चित्र कूट": "चित्रकूट", "उदय पुर": "उदयपुर", "खि ला": "खिला", "शीर् ष": "शीर्ष", "द् विती": "द्विती", "म ॉ": "मॉ", "अर् थ": "अर्थ", "ट् ट": "ट्ट", "अ क": "अक", "कला ँ": "कलाँ", "ख रा": "खरा", "ौ ल": "ौल", "क् ल": "क्ल", "समा ज": "समाज", "पु लाव": "पुलाव", "क त्यूरी": "कत्यूरी", "उ ध": "उध", "काशी पुर": "काशीपुर", "फू लों": "फूलों", "हो ली": "होली", "लि यम": "लियम", "उ चित": "उचित", "सक ती": "सकती", "हटा या": "हटाया", "को ई": "कोई", "ं भ": "ंभ", "पा ठ": "पाठ", "जी त": "जीत", "दि खा": "दिखा", "राय पुर": "रायपुर", "बे ल": "बेल", "ज़ोर म": "ज़ोरम", "पुदु च्चेरी": "पुदुच्चेरी", "स्टे शन": "स्टेशन", "मै सूर": "मैसूर", "कु र": "कुर", "सू चना": "सूचना", "द्विती य": "द्वितीय", "च र": "चर", "म स": "मस", "टा इ": "टाइ", "वर् ग": "वर्ग", "जा पान": "जापान", "ब ड़ा": "बड़ा", "श पुर": "शपुर", "न्याया लय": "न्यायालय", "उध मसिंह": "उधमसिंह", "उधमसिंह नगर": "उधमसिंहनगर", "हल् द्": "हल्द्", "हल्द् वानी": "हल्द्वानी", "रु द्रपुर": "रुद्रपुर", "ऋष िके": "ऋषिके", "ऋषिके श": "ऋषिकेश", "ब द्री": "बद्री", "बद्री नाथ": "बद्रीनाथ", "जि म": "जिम", "कौ सानी": "कौसानी", "हरी श": "हरीश", "सु मित्रा": "सुमित्रा", "कांग ड़ी": "कांगड़ी", "सम् मानित": "सम्मानित", "निर् देशित": "निर्देशित", "श क्ति": "शक्ति", "प पृ॰": "पपृ॰", "उ द्धरण": "उद्धरण", "जनगण ना": "जनगणना", "द श": "दश", "जा ति": "जाति", "ृ ंखला": "ृंखला", "पी ठ": "पीठ", "थ र": "थर", "उपल ब्": "उपलब्", "ख गड़िया": "खगड़िया", "गा ड़िया": "गाड़िया", "को सी": "कोसी", "औरंगा बाद": "औरंगाबाद", "फ तुहा": "फतुहा", "नागा लैण्ड": "नागालैण्ड", "मि ज़ोरम": "मिज़ोरम", "ह वेली": "हवेली", "द मन": "दमन", "दी व": "दीव", "आ प": "आप", "एक्स प्रेस": "एक्सप्रेस", "नाग पुर": "नागपुर", "हु बली": "हुबली", "ड ू": "डू", "आई सी": "आईसी", "प्र धान": "प्रधान", "राज धानी": "राजधानी", "इंग् लैंड": "इंग्लैंड", "शाह पुर": "शाहपुर", "झी ल": "झील", "न हर": "नहर", "ड ल": "डल", "स्कोर कार्ड": "स्कोरकार्ड", "द्दी नपुर": "द्दीनपुर", "देहरादून इतिहास": "देहरादूनइतिहास", "देहरादूनइतिहास पौराणिक": "देहरादूनइतिहासपौराणिक", "मुज़ ्": "मुज़्", "मुज़् ज़": "मुज़्ज़", "मुज़्ज़ फर": "मुज़्ज़फर", "चि पको": "चिपको", "अधिक भूगोल": "अधिकभूगोल", "अधिकभूगोल हिमालय": "अधिकभूगोलहिमालय", "बु ग्या": "बुग्या", "बुग्या ल": "बुग्याल", "अधिक सरकार": "अधिकसरकार", "राजनीति सरकार": "राजनीतिसरकार", "उ क्रा": "उक्रा", "उक्रा द": "उक्राद", "अधिक जिले": "अधिकजिले", "अधिकजिले अल्मोड़ा": "अधिकजिलेअल्मोड़ा", "टि हरी": "टिहरी", "रू द्र": "रूद्र", "रूद्र प्रयाग": "रूद्रप्रयाग", "अधिक नगर": "अधिकनगर", "अधिकनगर देहरादून": "अधिकनगरदेहरादून", "कोट द्वार": "कोटद्वार", "तीर् था": "तीर्था", "तीर्था टन": "तीर्थाटन", "तीर्थाटन छोटा": "तीर्थाटनछोटा", "चार धाम": "चारधाम", "गंगो त्री": "गंगोत्री", "यमुनो त्री": "यमुनोत्री", "हेमकु ण्ड": "हेमकुण्ड", "औ ली": "औली", "मुन स्यारी": "मुनस्यारी", "अधिक संस्कृति": "अधिकसंस्कृति", "भाषाएँ कुमाऊँनी": "भाषाएँकुमाऊँनी", "दि वाली": "दिवाली", "उत्तराय णी": "उत्तरायणी", "महा कुम्भ": "महाकुम्भ", "अधिकलोग हेम": "अधिकलोगहेम", "अधिकलोगहेम वन्ती": "अधिकलोगहेमवन्ती", "र स्": "रस्", "रस् किन": "रस्किन", "बॉ ण्ड": "बॉण्ड", "अधिक शिक्षा": "अधिकशिक्षा", "अधिकशिक्षा भारतीय": "अधिकशिक्षाभारतीय", "हेम वती": "हेमवती", "पेट्रो लियम": "पेट्रोलियम", "केंब्रि ज": "केंब्रिज", "अधिक सम्बन्धित": "अधिकसम्बन्धित", "विषय उत्तराखण्ड": "विषयउत्तराखण्ड", "प्रदेश द्वार": "प्रदेशद्वार", "र क्षा": "रक्षा", "समस्या ओं": "समस्याओं", "पर्या प्त": "पर्याप्त", "प्रभा व": "प्रभाव", "ब ड़े": "बड़े", "ह ॉ": "हॉ", "महत्व पूर्ण": "महत्वपूर्ण", "सहर सा": "सहरसा", "अ ड": "अड", "ओडि शा": "ओडिशा", "त्रि पुरा": "त्रिपुरा", "लद्दा ख": "लद्दाख", "ए ं": "एं", "याद व": "यादव", "श्र म": "श्रम", "बि लासपुर": "बिलासपुर", "ए ग्": "एग्", "एग् मोर": "एग्मोर", "क न": "कन", "ला पुर": "लापुर", "पा त": "पात", "मा इ": "माइ", "उपनगरी य": "उपनगरीय", "इंजी नि": "इंजीनि", "खे ल": "खेल", "जहा ँ": "जहाँ", "स् ना": "स्ना", "ल ंद": "लंद", "डि वी": "डिवी", "वि जे": "विजे", "च ो": "चो", "एस ॰": "एस॰", "यूनि वर्सिटी": "यूनिवर्सिटी", "ड़ ि": "ड़ि", "विधा यक": "विधायक", "दा ल": "दाल", "अच्छ ी": "अच्छी", "प्र क्रिया": "प्रक्रिया", "ष ण": "षण", "शरी र": "शरीर", "कर के": "करके", "वे द": "वेद", "ल् तान": "ल्तान", "अव ध": "अवध", "या ँ": "याँ", "ति रहु": "तिरहु", "तिरहु त": "तिरहुत", "वै शाली": "वैशाली", "राज्यक्षेत्र राज्य": "राज्यक्षेत्रराज्य", "च ण्डी": "चण्डी", "चण्डी गढ़": "चण्डीगढ़", "दा दरा": "दादरा", "राज धानियाँ": "राजधानियाँ", "गि रि": "गिरि", "मा बाद": "माबाद", "को ल्": "कोल्", "ह टिया": "हटिया", "ए फ": "एफ", "ज ॉन": "जॉन", "न ंद": "नंद", "व ॉ": "वॉ", "प ण": "पण", "प्र साद": "प्रसाद", "भा ई": "भाई", "श्रे ष्ठ": "श्रेष्ठ", "म ृत्यु": "मृत्यु", "कि ए": "किए", "समस्या एँ": "समस्याएँ", "परिच य": "परिचय", "ण ु": "णु", "ँ च": "ँच", "ला ह": "लाह", "मी डिया": "मीडिया", "वु ड": "वुड", "दश क": "दशक", "सा ंस्कृतिक": "सांस्कृतिक", "त पुर": "तपुर", "ज मु": "जमु", "भो जपुर": "भोजपुर", "अर् जु": "अर्जु", "शा ंति": "शांति", "न्दा वन": "न्दावन", "द्दी न": "द्दीन", "ले ने": "लेने", "नि वा": "निवा", "सहा यता": "सहायता", "लेख क": "लेखक", "पु लिस": "पुलिस", "प्रति योगिता": "प्रतियोगिता", "ध ो": "धो", "मेर ठ": "मेरठ", "विजे ता": "विजेता", "ओ पन": "ओपन", "प्रती क": "प्रतीक", "डिवी जन": "डिवीजन", "य ़": "य़", "फिल् टर": "फिल्टर", "संस् करण": "संस्करण", "खा द्य": "खाद्य", "वर्ष ों": "वर्षों", "ई सा": "ईसा", "मू वी": "मूवी", "लि ंग": "लिंग", "प ड़": "पड़", "अंग्रे जी": "अंग्रेजी", "शरी फ": "शरीफ", "ध् व": "ध्व", "भग वान": "भगवान", "बरा बर": "बराबर", "अर रिया": "अररिया", "मध े": "मधे", "ह वाई": "हवाई", "वि मान": "विमान", "अध्य यन": "अध्ययन", "कृष् ण": "कृष्ण", "सुपर फ़ा": "सुपरफ़ा", "सुपरफ़ा स्ट": "सुपरफ़ास्ट", "गोदा वरी": "गोदावरी", "हु सैन": "हुसैन", "त वी": "तवी", "ँ सी": "ँसी", "मन मा": "मनमा", "मनमा ड": "मनमाड", "ब ंदर": "बंदर", "सद् भावना": "सद्भावना", "श्रे णी": "श्रेणी", "आईसी सी": "आईसीसी", "फा इनल": "फाइनल", "आज मगढ़": "आजमगढ़", "बी र": "बीर", "अंतर राष्ट्रीय": "अंतरराष्ट्रीय", "मै न": "मैन", "दि सम्बर": "दिसम्बर", "गु प्त": "गुप्त", "बा ई": "बाई", "प्रता प": "प्रताप", "रसू लपुर": "रसूलपुर", "ख री": "खरी", "ऑ स्ट्रेलिया": "ऑस्ट्रेलिया", "न ू": "नू", "पे शा": "पेशा", "जिन् होंने": "जिन्होंने", "यु ग": "युग", "अ ंति": "अंति", "अंति म": "अंतिम", "उ द्": "उद्", "जिस से": "जिससे", "परिचया त्मक": "परिचयात्मक", "र ख": "रख", "सा य": "साय", "न य": "नय", "राजनीति ज्ञ": "राजनीतिज्ञ", "मु स्": "मुस्", "लि म": "लिम", "गु फा": "गुफा", "बाँ का": "बाँका", "मधे पुरा": "मधेपुरा", "शेख पुरा": "शेखपुरा", "म् ब": "म्ब", "व्यक्ति गत": "व्यक्तिगत", "अर्जु न": "अर्जुन", "नि ज़ा": "निज़ा", "ला इ": "लाइ", "मि र्": "मिर्", "रे डि": "रेडि", "गि र": "गिर", "फ़र्रू ख़ा": "फ़र्रूख़ा", "फ़र्रूख़ा बाद": "फ़र्रूख़ाबाद", "सु ल्तानपुर": "सुल्तानपुर", "जै विकी": "जैविकी", "सि ल": "सिल", "अभि ने": "अभिने", "दे ख": "देख", "अनु संधान": "अनुसंधान", "परिणा म": "परिणाम", "श्र ृंखला": "श्रृंखला", "वै या": "वैया", "सम् मान": "सम्मान", "क् ट": "क्ट", "स ॉ": "सॉ", "घटना ओं": "घटनाओं", "दृ श्य": "दृश्य", "से क्स": "सेक्स", "उ ज्": "उज्", "स ले": "सले", "स्वत ंत्रता": "स्वतंत्रता", "बा त": "बात", "नी ति": "नीति", "थ न": "थन", "मुस् लिम": "मुस्लिम", "दा य": "दाय", "बि षय": "बिषय", "अहि ल्या": "अहिल्या", "बो ध": "बोध", "समस्ती पुर": "समस्तीपुर", "ब क्सर": "बक्सर", "ना लंदा": "नालंदा", "बि हटा": "बिहटा", "मान क": "मानक", "के श": "केश", "क ठ": "कठ", "ह ज़": "हज़", "दा दर": "दादर", "भो पाल": "भोपाल", "न म": "नम", "झा ँसी": "झाँसी", "पा टलि": "पाटलि", "पाटलि पुत्र": "पाटलिपुत्र", "जय ंती": "जयंती", "शा ला": "शाला", "दि ला": "दिला", "का उ": "काउ", "थी ं": "थीं", "पु स्तक": "पुस्तक", "ह सनपुर": "हसनपुर", "बु द्ध": "बुद्ध", "अभिने त्री": "अभिनेत्री", "पि यन": "पियन", "द म": "दम", "क्ल ब": "क्लब", "मि स्र": "मिस्र", "ख र": "खर", "मो बा": "मोबा", "मोबा इल": "मोबाइल", "य़ ा": "य़ा", "नी हारिका": "नीहारिका", "घ ि": "घि", "सर् व": "सर्व", "दू सरे": "दूसरे", "हे ले": "हेले", "दे ता": "देता", "कि लो": "किलो", "उपलब् ध": "उपलब्ध", "गाड़िया ं": "गाड़ियां", "बख् तियारपुर": "बख्तियारपुर", "मध्यकाली न": "मध्यकालीन", "बोध गया": "बोधगया", "छ ठ": "छठ", "कि शनगंज": "किशनगंज", "अड ्डा": "अड्डा", "रो क": "रोक", "ऐ सा": "ऐसा", "पर् व": "पर्व", "ृ ह": "ृह", "सो ल": "सोल", "को यम्बतूर": "कोयम्बतूर", "ध्व ज": "ध्वज", "पोर बंदर": "पोरबंदर", "सा उ": "साउ", "वि शाखा": "विशाखा", "उत् पाद": "उत्पाद", "गेंद बाजी": "गेंदबाजी", "नी चे": "नीचे", "आ बादी": "आबादी", "अनु रूप": "अनुरूप", "फ़ ी": "फ़ी", "दि ए": "दिए", "२ ५": "२५", "व क": "वक", "लंद न": "लंदन", "इन के": "इनके", "कं पनी": "कंपनी", "दे हा": "देहा", "ज्यो ति": "ज्योति", "१९ ९": "१९९", "आ स": "आस", "ल ं": "लं", "क ट": "कट", "श ौर्य": "शौर्य", "उ तरा": "उतरा", "नी दर": "नीदर", "के न्या": "केन्या", "नेट वर्": "नेटवर्", "सम्रा ट": "सम्राट", "अ ंत": "अंत", "स् मार": "स्मार", "बा हर": "बाहर", "पह चान": "पहचान", "भा ष": "भाष", "हा थ": "हाथ", "हि ंदु": "हिंदु", "पटना भूभाग": "पटनाभूभाग", "पटनाभूभाग दक्षिणी": "पटनाभूभागदक्षिणी", "उ तरी": "उतरी", "भूभाग बिषय": "भूभागबिषय", "भूभागबिषय बिहार": "भूभागबिषयबिहार", "संस्कृति पर्यटनगोल": "संस्कृतिपर्यटनगोल", "संस्कृतिपर्यटनगोल घर": "संस्कृतिपर्यटनगोलघर", "मु ंडे": "मुंडे", "मुंडे श्वरी": "मुंडेश्वरी", "राजगी र": "राजगीर", "ना लन्दा": "नालन्दा", "महावि हार": "महाविहार", "गुफा एँ": "गुफाएँ", "म ंदर": "मंदर", "बिहार प्र": "बिहारप्र", "बिहारप्र मंडल": "बिहारप्रमंडल", "बिहारप्रमंडल सारण": "बिहारप्रमंडलसारण", "मुंगेर जिलेसारण": "मुंगेरजिलेसारण", "अर वल": "अरवल", "कै मुर": "कैमुर", "गो पालगंज": "गोपालगंज", "मधु बनी": "मधुबनी", "सु पौल": "सुपौल", "जहाना बाद": "जहानाबाद", "जमु ई": "जमुई", "लखी सराय": "लखीसराय", "रो हता": "रोहता", "रोहता स": "रोहतास", "सी वान": "सीवान", "वैशाली अंतर्राष्ट्रीय": "वैशालीअंतर्राष्ट्रीय", "अड्डा गया": "अड्डागया", "वायु सेना": "वायुसेना", "निगम पटना": "निगमपटना", "बिहार शरीफ": "बिहारशरीफ", "निजा मत": "निजामत", "का ंटी": "कांटी", "बर बीघा": "बरबीघा", "पंचायत सोनपुर": "पंचायतसोनपुर", "ज़िला जनसंख्या": "ज़िलाजनसंख्या", "ढ ा": "ढा", "आ ला": "आला", "क् वी": "क्वी", "शाली मार": "शालीमार", "वा ड़ा": "वाड़ा", "ड ्डी": "ड्डी", "ह ल": "हल", "ग्रामी ण": "ग्रामीण", "जग दी": "जगदी", "२ ३": "२३", "चर् च": "चर्च", "र स": "रस", "मा ध्यम": "माध्यम", "कै रि": "कैरि", "औ सत": "औसत", "आ इ": "आइ", "गु ण": "गुण", "र घु": "रघु", "निर् धारित": "निर्धारित", "नो वा": "नोवा", "कं प्यू": "कंप्यू", "पा ंच": "पांच", "ने पाल": "नेपाल", "नीदर लैंड": "नीदरलैंड", "कक्ष क": "कक्षक", "वि रो": "विरो", "स्मार क": "स्मारक", "छ े": "छे", "सा धारण": "साधारण", "पश् चा": "पश्चा", "हा ला": "हाला", "पे श": "पेश", "वा ं": "वां", "नो द": "नोद", "प्रति नि": "प्रतिनि", "इस् लाम": "इस्लाम", "या त्रा": "यात्रा", "धार् मिक": "धार्मिक", "नामा ंकन": "नामांकन", "मरु धर": "मरुधर", "म ंगलौर": "मंगलौर", "क्वी न": "क्वीन", "जा बाद": "जाबाद", "म छ": "मछ", "बल् ले": "बल्ले", "ब्रा ह्": "ब्राह्", "आ ता": "आता", "बर् ट": "बर्ट", "ज ॉर्": "जॉर्", "बै ंक": "बैंक", "प्र युक्त": "प्रयुक्त", "रह ते": "रहते", "लि पि": "लिपि", "वृ न्दावन": "वृन्दावन", "प् पन": "प्पन", "ग ढ": "गढ", "सू क्ष्": "सूक्ष्", "आ ण्": "आण्", "आण् विक": "आण्विक", "आयो जित": "आयोजित", "वि देश": "विदेश", "र ज": "रज", "त ै": "तै", "स्व य": "स्वय", "शि प": "शिप", "वे यर": "वेयर", "ट बॉ": "टबॉ", "स्वा स्थ": "स्वास्थ", "स्वास्थ ्य": "स्वास्थ्य", "प्र भु": "प्रभु", "प् ले": "प्ले", "नामी बिया": "नामीबिया", "शर् मा": "शर्मा", "सा मा": "सामा", "सामा जिक": "सामाजिक", "पि छ": "पिछ", "नेटवर् क": "नेटवर्क", "आ ने": "आने", "सम झ": "समझ", "तु र": "तुर", "सत्या पन": "सत्यापन", "चु नौ": "चुनौ", "सफल ता": "सफलता", "अ ंड": "अंड", "भारत भाषा": "भारतभाषा", "समर् थन": "समर्थन", "मु गल": "मुगल", "त वा": "तवा", "आ ँ": "आँ", "रा ँची": "राँची", "का व्य": "काव्य", "इन का": "इनका", "अग् नि": "अग्नि", "आसन सोल": "आसनसोल", "को चु": "कोचु", "कोचु वेली": "कोचुवेली", "ई स्ट": "ईस्ट", "गोंड वाना": "गोंडवाना", "कु शी": "कुशी", "कुशी नगर": "कुशीनगर", "लक्ष् मी": "लक्ष्मी", "न ॉर्": "नॉर्", "ओ खा": "ओखा", "वेरा वल": "वेरावल", "साउ थ": "साउथ", "पाद क": "पादक", "वि यतनाम": "वियतनाम", "मुख्या लय": "मुख्यालय", "राजनै तिक": "राजनैतिक", "इन् होंने": "इन्होंने", "अ दिला": "अदिला", "ए ड": "एड", "२ ४": "२४", "निर् माता": "निर्माता", "अब् दु": "अब्दु", "स्ना तक": "स्नातक", "टि ंग": "टिंग", "ल ौ": "लौ", "वी र": "वीर", "रो ड": "रोड", "जन पद": "जनपद", "झ ु": "झु", "म ऊ": "मऊ", "स ल्": "सल्", "लॉ जी": "लॉजी", "सूक्ष् म": "सूक्ष्म", "छ ि": "छि", "स्वय ं": "स्वयं", "वि चार": "विचार", "डे ली": "डेली", "जा ंच": "जांच", "त त्व": "तत्व", "फ् ट": "फ्ट", "टबॉ ल": "टबॉल", "मु हम्": "मुहम्", "शर् बत": "शर्बत", "अमीरा त": "अमीरात", "वि हार": "विहार", "आ ंदो": "आंदो", "ए च": "एच", "पी पु": "पीपु", "त ः": "तः", "ट ॉ": "टॉ", "प्रया स": "प्रयास", "हर् ष": "हर्ष", "जे म्स": "जेम्स", "भाषा ओं": "भाषाओं", "ने त": "नेत", "अ स्": "अस्", "जग ह": "जगह", "क ड़": "कड़", "किलो मीटर": "किलोमीटर", "मूर् ति": "मूर्ति", "सि ने": "सिने", "धन बाद": "धनबाद", "ट ु": "टु", "ण्ड व": "ण्डव", "दुर् ग": "दुर्ग", "बु ंदे": "बुंदे", "पार् क": "पार्क", "कोर बा": "कोरबा", "निज़ा माबाद": "निज़ामाबाद", "र मे": "रमे", "या त": "यात", "बल्ले बाजी": "बल्लेबाजी", "रा धा": "राधा", "जॉर् ज": "जॉर्ज", "डे वि": "डेवि", "मोहम् मद": "मोहम्मद", "ब ौ": "बौ", "बी बी": "बीबी", "रू स": "रूस", "तह त": "तहत", "नवा ब": "नवाब", "ण ि": "णि", "हि स्सा": "हिस्सा", "कैरि यर": "कैरियर", "चा ँ": "चाँ", "देहा त": "देहात", "वै दिक": "वैदिक", "सि स्ट": "सिस्ट", "प्रत्ये क": "प्रत्येक", "निर् देशिका": "निर्देशिका", "अभि नय": "अभिनय", "तै यार": "तैयार", "कंप्यू टर": "कंप्यूटर", "आस पास": "आसपास", "ग न": "गन", "चि न्": "चिन्", "उपन्या स": "उपन्यास", "सु न": "सुन", "जगदी शपुर": "जगदीशपुर", "ख ड़": "खड़", "मे ट्रो": "मेट्रो", "रै पि": "रैपि", "रैपि ड": "रैपिड", "र चना": "रचना", "आंदो लन": "आंदोलन", "दू सरा": "दूसरा", "चुनौ ती": "चुनौती", "नु क": "नुक", "नि यम": "नियम", "ऐ सी": "ऐसी", "गांगु ली": "गांगुली", "गौ तम": "गौतम", "मो ह": "मोह", "ग ये": "गये", "हि ंदू": "हिंदू", "त ट": "तट", "पार ं": "पारं", "मा ई": "माई", "झ े": "झे", "जय द्र": "जयद्र", "जयद्र थ": "जयद्रथ", "ा त": "ात", "गा मा": "गामा", "को ल": "कोल", "दा मो": "दामो", "व ्": "व्", "रा धिका": "राधिका", "रे खा": "रेखा", "भ वन": "भवन", "ख न": "खन", "पद् म": "पद्म", "प् पा": "प्पा", "निर् देशों": "निर्देशों", "पुनर् निर्देशित": "पुनर्निर्देशित", "र चित": "रचित", "पे ट": "पेट", "सि न": "सिन", "सम् मेलन": "सम्मेलन", "स सेर": "ससेर", "मी ॰": "मी॰", "शा दी": "शादी", "श ै": "शै", "सहा यक": "सहायक", "ग् लो": "ग्लो", "ध े": "धे", "मु बार": "मुबार", "ल ह": "लह", "दे ने": "देने", "ए टा": "एटा", "ह ड़": "हड़", "दि व": "दिव", "ऐ से": "ऐसे", "वै ज्ञानिक": "वैज्ञानिक", "आ शा": "आशा", "आ गे": "आगे", "नि य": "निय", "रेडि स": "रेडिस", "क्रा ंति": "क्रांति", "ता ण्डव": "ताण्डव", "मान चित्र": "मानचित्र", "कल्या ण": "कल्याण", "टाइ म्स": "टाइम्स", "अ ंजन": "अंजन", "बी मा": "बीमा", "चै नल": "चैनल", "बा ल": "बाल", "टा टा": "टाटा", "ड न": "डन", "पीपु ल्स": "पीपुल्स", "सर्व श्रेष्ठ": "सर्वश्रेष्ठ", "इस लिए": "इसलिए", "क था": "कथा", "बि ना": "बिना", "त त्": "तत्", "वर्ण न": "वर्णन", "लि खा": "लिखा", "टे ली": "टेली", "श ंकर": "शंकर", "श र": "शर", "ग ठ": "गठ", "बहरा इ": "बहराइ", "बहराइ च": "बहराइच", "महमू द": "महमूद", "मन्दि र": "मन्दिर", "उ म्र": "उम्र", "छ ी": "छी", "महा देव": "महादेव", "का फी": "काफी", "कठ ि": "कठि", "भ द्रा": "भद्रा", "ने ल": "नेल", "चि लि": "चिलि", "क् का": "क्का", "दामो दर": "दामोदर", "गो मती": "गोमती", "का वेरी": "कावेरी", "ग् वालि": "ग्वालि", "ग्वालि यर": "ग्वालियर", "क चे": "कचे", "मु द्दीन": "मुद्दीन", "मो तिहारी": "मोतिहारी", "प्रणा ली": "प्रणाली", "सं पादक": "संपादक", "दर वा": "दरवा", "भारत प्रान्त": "भारतप्रान्त", "प शु": "पशु", "शो ध": "शोध", "अनु वाद": "अनुवाद", "अ शो": "अशो", "२ ६": "२६", "बो ली": "बोली", "मण्डलभा मस": "मण्डलभामस", "ख ै": "खै", "पदार् पण": "पदार्पण", "प्रताप गढ़": "प्रतापगढ़", "ग पुर": "गपुर", "ब पुर": "बपुर", "कन्नौ ज": "कन्नौज", "भी त": "भीत", "मिर् जापुर": "मिर्जापुर", "व स्ती": "वस्ती", "क बीर": "कबीर", "द ै": "दै", "प्रार ंभिक": "प्रारंभिक", "द वा": "दवा", "ड ब्": "डब्", "ह ठ": "हठ", "स ली": "सली", "निम् नलि": "निम्नलि", "निम्नलि खित": "निम्नलिखित", "सिस्ट म": "सिस्टम", "पियन शिप": "पियनशिप", "फ्रा ंस": "फ्रांस", "गिरजा घर": "गिरजाघर", "द हा": "दहा", "पहा ड़": "पहाड़", "म वैया": "मवैया", "वह न": "वहन", "बर् ग": "बर्ग", "ट्रा ंज़ि": "ट्रांज़ि", "ट्रांज़ि ट": "ट्रांज़िट", "प्र पात": "प्रपात", "सी नाई": "सीनाई", "झा मु": "झामु", "झामु मो": "झामुमो", "सार् व": "सार्व", "कन्न ड़": "कन्नड़", "प ब्": "पब्", "आ लो": "आलो", "हा ल": "हाल", "अधिका ंश": "अधिकांश", "छो ड़": "छोड़", "न ए": "नए", "छा या": "छाया", "ब च्चे": "बच्चे", "हु ल": "हुल", "प्रतिनि धित्व": "प्रतिनिधित्व", "ली वुड": "लीवुड", "लोकप्रि य": "लोकप्रिय", "तीर् थ": "तीर्थ", "वि वाह": "विवाह", "मु स": "मुस", "त ला": "तला", "छ ु": "छु", "मे डि": "मेडि", "से न": "सेन", "दी प": "दीप", "बी जापुर": "बीजापुर", "मि थि": "मिथि", "मिथि ला": "मिथिला", "फ़ ्": "फ़्", "नॉर् थ": "नॉर्थ", "सा बर": "साबर", "साबर मती": "साबरमती", "सि म्": "सिम्", "वि भू": "विभू", "शि ला": "शिला", "टे ड": "टेड", "उ दा": "उदा", "वा स्त": "वास्त", "ब्राह् मण": "ब्राह्मण", "हो कर": "होकर", "क्षेत्र फल": "क्षेत्रफल", "घ न": "घन", "श्री का": "श्रीका", "नुक सान": "नुकसान", "नो बेल": "नोबेल", "ग ृह": "गृह", "ज़ र": "ज़र", "ऊ र्": "ऊर्", "१ १": "११", "१ ८": "१८", "कल श": "कलश", "इन की": "इनकी", "भ द्र": "भद्र", "क भी": "कभी", "फो टो": "फोटो", "ल ड़ा": "लड़ा", "चि ह्": "चिह्", "ज ौनपुर": "जौनपुर", "छो टे": "छोटे", "च ू": "चू", "फ ॉ": "फॉ", "रो मन": "रोमन", "थ ्": "थ्", "वि शि": "विशि", "द ौ": "दौ", "कौ श": "कौश", "श्रा वस्ती": "श्रावस्ती", "शु द्ध": "शुद्ध", "मॉ डल": "मॉडल", "प स": "पस", "धनु ष": "धनुष", "पारं परिक": "पारंपरिक", "कि ये": "किये", "आ यु": "आयु", "रो ग": "रोग", "पै रा": "पैरा", "सॉ फ्ट": "सॉफ्ट", "नव म्बर": "नवम्बर", "पी टर": "पीटर", "हेले ना": "हेलेना", "अनो खी": "अनोखी", "मे हता": "मेहता", "ओ लं": "ओलं", "अदिला बादु": "अदिलाबादु", "परि वहन": "परिवहन", "फा यर": "फायर", "इंग् लैण्ड": "इंग्लैण्ड", "आइ ॰": "आइ॰", "क् वाली": "क्वाली", "वा ड़": "वाड़", "डि ग्री": "डिग्री", "लि न": "लिन", "यु वा": "युवा", "ग यी": "गयी", "विरो ध": "विरोध", "बना ए": "बनाए", "महिला ओं": "महिलाओं", "मिन ट": "मिनट", "चौ धरी": "चौधरी", "म् मी": "म्मी", "दे ते": "देते", "जा यस": "जायस", "जायस वाल": "जायसवाल", "अ भ": "अभ", "स्वत ंत्र": "स्वतंत्र", "नेत ृत्व": "नेतृत्व", "सु ल्तान": "सुल्तान", "समर् पित": "समर्पित", "ड़ क": "ड़क", "करि यर": "करियर", "र थ": "रथ", "ञ ्": "ञ्", "अली पुर": "अलीपुर", "अंड मान": "अंडमान", "बर ौनी": "बरौनी", "बु ध": "बुध", "टा उन": "टाउन", "को स्ट": "कोस्ट", "पू जा": "पूजा", "वा डा": "वाडा", "शि मला": "शिमला", "शि मो": "शिमो", "तू फ़ान": "तूफ़ान", "विशाखा पट्टनम": "विशाखापट्टनम", "याता यात": "यातायात", "सि विल": "सिविल", "नगर पालिका": "नगरपालिका", "तेलु गू": "तेलुगू", "फि लि": "फिलि", "डेवि ड": "डेविड", "अशो क": "अशोक", "३ १": "३१", "रह ने": "रहने", "वा स": "वास", "सी रिया": "सीरिया", "हा ई": "हाई", "गण राज्य": "गणराज्य", "अंतर् गत": "अंतर्गत", "शीर्ष क": "शीर्षक", "फोटो ग्रा": "फोटोग्रा", "मक बरा": "मकबरा", "पी ली": "पीली", "ब द्ध": "बद्ध", "एशिया ई": "एशियाई", "हा ट": "हाट", "विशि ष्ट": "विशिष्ट", "व्यव स्था": "व्यवस्था", "बु जु": "बुजु", "बुजु र्": "बुजुर्", "बुजुर् ग": "बुजुर्ग", "रघु नाथ": "रघुनाथ", "पा टन": "पाटन", "ड कर": "डकर", "इटा वा": "इटावा", "औरै या": "औरैया", "गा जीपुर": "गाजीपुर", "बाग पत": "बागपत", "बि जनौर": "बिजनौर", "सीता पुर": "सीतापुर", "मा मलों": "मामलों", "अभिया ंत्रिकी": "अभियांत्रिकी", "विक सित": "विकसित", "इंजीनियरि ंग": "इंजीनियरिंग", "ड र": "डर", "घ ू": "घू", "पु न": "पुन", "रह ती": "रहती", "ऑ ल": "ऑल", "न्यू जी": "न्यूजी", "मेडि सिन": "मेडिसिन", "ह पुर": "हपुर", "गी त": "गीत", "मद्रा स": "मद्रास", "अ फ्री": "अफ्री", "मह तो": "महतो", "रा हुल": "राहुल", "का जीपुर": "काजीपुर", "मु ल्तान": "मुल्तान", "भौ तिक": "भौतिक", "एस॰ एन॰": "एस॰एन॰", "आई पी": "आईपी", "कादम्बि नी": "कादम्बिनी", "क वि": "कवि", "तेलु गु": "तेलुगु", "सर्वे क्षण": "सर्वेक्षण", "कि ंग": "किंग", "आधु निक": "आधुनिक", "ह त्या": "हत्या", "मै प": "मैप", "पुरुष ों": "पुरुषों", "मा मले": "मामले", "स लाह": "सलाह", "हाला ंकि": "हालांकि", "प्र चलित": "प्रचलित", "ग हरा": "गहरा", "कर् ता": "कर्ता", "टेली वि": "टेलीवि", "दू सरी": "दूसरी", "वि नोद": "विनोद", "पूर्वो त्तर": "पूर्वोत्तर", "ता कि": "ताकि", "भौ गोलिक": "भौगोलिक", "गो आ": "गोआ", "मि ठा": "मिठा", "सै दपुर": "सैदपुर", "गे ट": "गेट", "प्रो फेसर": "प्रोफेसर", "रा इ": "राइ", "जाल स्थल": "जालस्थल", "अ त्य": "अत्य", "ज ंक्": "जंक्", "जंक् शन": "जंक्शन", "ऐ श": "ऐश", "अलाहा बाद": "अलाहाबाद", "ब्रह् म": "ब्रह्म", "कै पि": "कैपि", "कैपि टल": "कैपिटल", "मा चिलि": "माचिलि", "माचिलि पट्": "माचिलिपट्", "माचिलिपट् नम": "माचिलिपट्नम", "को इंबा": "कोइंबा", "कोइंबा टोरे": "कोइंबाटोरे", "दार् जि": "दार्जि", "दार्जि लिंग": "दार्जिलिंग", "डे कन": "डेकन", "फर क्का": "फरक्का", "कामा ख्या": "कामाख्या", "बा ज़ार": "बाज़ार", "जयस लमेर": "जयसलमेर", "ज मालपुर": "जमालपुर", "कन्या कुमारी": "कन्याकुमारी", "उज् जैन": "उज्जैन", "व ई": "वई", "मछ ली": "मछली", "श्वर म": "श्वरम", "रा प्ती": "राप्ती", "राप्ती सागर": "राप्तीसागर", "सिया ल्": "सियाल्", "सियाल् दा": "सियाल्दा", "शिमो गा": "शिमोगा", "सिम् हा": "सिम्हा", "ता ज": "ताज", "तु ंग": "तुंग", "ल सी": "लसी", "चि न": "चिन", "ज़ ो": "ज़ो", "खिला ड़ी": "खिलाड़ी", "उदा हरण": "उदाहरण", "ष ित": "षित", "खा ड़ी": "खाड़ी", "श्रीका कुलम": "श्रीकाकुलम", "व्यक्ति यों": "व्यक्तियों", "खा ली": "खाली", "कर् म": "कर्म", "ह नु": "हनु", "ऊर् जा": "ऊर्जा", "पा ँच": "पाँच", "२ ७": "२७", "३ ०": "३०", "ह ृ": "हृ", "सोन भद्र": "सोनभद्र", "रा व": "राव", "हि र": "हिर", "आर् थिक": "आर्थिक", "कि र": "किर", "देवासं उत्तर": "देवासंउत्तर", "मि रजापुर": "मिरजापुर", "अ ंबे": "अंबे", "अंबे डकर": "अंबेडकर", "उन्ना व": "उन्नाव", "कौश म्बी": "कौशम्बी", "गा जिया": "गाजिया", "गाजिया बाद": "गाजियाबाद", "ज्योति बा": "ज्योतिबा", "फु ले": "फुले", "झा ंसी": "झांसी", "पीली भीत": "पीलीभीत", "ब दायू": "बदायू", "बा ंकी": "बांकी", "महा म": "महाम", "महो बा": "महोबा", "मु झ": "मुझ", "राय बरेली": "रायबरेली", "ल लितपुर": "ललितपुर", "रवि दास": "रविदास", "हर दो": "हरदो", "हिंदु स्तानी": "हिंदुस्तानी", "साय िक": "सायिक", "बा यो": "बायो", "हा सिल": "हासिल", "अ ंग": "अंग", "डॉ ॰": "डॉ॰", "पृ थ्": "पृथ्", "पृथ् वी": "पृथ्वी", "ग ंभी": "गंभी", "न्यूजी लैंड": "न्यूजीलैंड", "फु टबॉल": "फुटबॉल", "इंडि यन": "इंडियन", "वि वरण": "विवरण", "डि जा": "डिजा", "प्रयोग शाला": "प्रयोगशाला", "बे टी": "बेटी", "चै म्": "चैम्", "चैम् पियनशिप": "चैम्पियनशिप", "प्र कट": "प्रकट", "अक बर": "अकबर", "मु ला": "मुला", "मा ही": "माही", "प्रो दु": "प्रोदु", "प्रोदु नोवा": "प्रोदुनोवा", "भ व": "भव", "य ौ": "यौ", "टै क्सी": "टैक्सी", "लह सुन": "लहसुन", "खंड ौली": "खंडौली", "छ ड़ि": "छड़ि", "डे मो": "डेमो", "डेमो क्रे": "डेमोक्रे", "डेमोक्रे टिक": "डेमोक्रेटिक", "मि यम": "मियम", "सर याँ": "सरयाँ", "पे पे": "पेपे", "चिन् ह": "चिन्ह", "एल् गोरि": "एल्गोरि", "ता इ": "ताइ", "हि ग्स": "हिग्स", "मो ती": "मोती", "सार्व जनिक": "सार्वजनिक", "मा ं": "मां", "गु आ": "गुआ", "कोशि श": "कोशिश", "डॉ क्टर": "डॉक्टर", "सु र": "सुर", "टि ल": "टिल", "इस्ते माल": "इस्तेमाल", "स पना": "सपना", "सा ंसद": "सांसद", "प्र गति": "प्रगति", "शी ल": "शील", "गठ बंधन": "गठबंधन", "द ह": "दह", "रॉ य": "रॉय", "जाती य": "जातीय", "सह योग": "सहयोग", "लि ख": "लिख", "ऊ पर": "ऊपर", "छो टी": "छोटी", "स ड़क": "सड़क", "य ि": "यि", "मु म्ब": "मुम्ब", "मुम्ब ई": "मुम्बई", "गिरि डीह": "गिरिडीह", "ख ू": "खू", "भी म": "भीम", "ब जे": "बजे", "चंडी गढ़": "चंडीगढ़", "दी क्षा": "दीक्षा", "का ठ": "काठ", "जो ग": "जोग", "ग्रै ंड": "ग्रैंड", "झे लम": "झेलम", "माला बार": "मालाबार", "पि ना": "पिना", "ऊ ंचा": "ऊंचा", "के न्द्र": "केन्द्र", "उत्पाद न": "उत्पादन", "शा स्त्र": "शास्त्र", "आ कर्": "आकर्", "इ मा": "इमा", "वे न": "वेन", "ल् ट": "ल्ट", "टि न": "टिन", "मे न": "मेन", "ष े": "षे", "के ल": "केल", "श प": "शप", "प ढ़ा": "पढ़ा", "ष् णु": "ष्णु", "सेंट्र ल": "सेंट्रल", "उत् पन्न": "उत्पन्न", "डि यो": "डियो", "निर् मित": "निर्मित", "ला ख": "लाख", "सले मपुर": "सलेमपुर", "लखनऊ विषय": "लखनऊविषय", "लखनऊविषय इतिहास": "लखनऊविषयइतिहास", "पर्यटनमंडल आगरा": "पर्यटनमंडलआगरा", "देवी पाटन": "देवीपाटन", "वाराणसी ज़िले": "वाराणसीज़िले", "वाराणसीज़िले अंबेडकर": "वाराणसीज़िलेअंबेडकर", "फिरो जाबाद": "फिरोजाबाद", "बदायू ँ": "बदायूँ", "बु लन्दशहर": "बुलन्दशहर", "बारा बांकी": "बाराबांकी", "बा ंदा": "बांदा", "महाम यानगर": "महामयानगर", "मुझ फ्": "मुझफ्", "मुझफ् फरनगर": "मुझफ्फरनगर", "लखि मपुर": "लखिमपुर", "शाह जहां": "शाहजहां", "शाहजहां पुर": "शाहजहांपुर", "सिद्धार् थनगर": "सिद्धार्थनगर", "हरदो ई": "हरदोई", "हरदोई प्रमुख": "हरदोईप्रमुख", "नगर आगरा": "नगरआगरा", "वृन्दावन इतिहास": "वृन्दावनइतिहास", "हड़ प्पन": "हड़प्पन", "महा जनपद": "महाजनपद", "शु ंग": "शुंग", "कु शा": "कुशा", "कुशा ण": "कुशाण", "सल् तन": "सल्तन", "सल्तन त": "सल्तनत", "मुख्यमंत्री भाषा": "मुख्यमंत्रीभाषा", "मुख्यमंत्रीभाषा हिंदुस्तानी": "मुख्यमंत्रीभाषाहिंदुस्तानी", "बुंदे ली": "बुंदेली", "बुंदेली साहित्य": "बुंदेलीसाहित्य", "दिव स": "दिवस", "मह त्त्व": "महत्त्व", "जी नो": "जीनो", "सूक्ष्म जैविकी": "सूक्ष्मजैविकी", "ज़ न": "ज़न", "क बा": "कबा", "वा पस": "वापस", "सी री": "सीरी", "फ़ ू": "फ़ू", "हठ योग": "हठयोग", "गंभी र": "गंभीर", "आ त्": "आत्", "फै शन": "फैशन", "कै थो": "कैथो", "कैथो लिक": "कैथोलिक", "खिला फ": "खिलाफ", "य ॉर्": "यॉर्", "यॉर् क": "यॉर्क", "थ ू": "थू", "द् वि": "द्वि", "ला गू": "लागू", "द न": "दन", "बौ द्ध": "बौद्ध", "पेरि स": "पेरिस", "मुहम् मद": "मुहम्मद", "चै ं": "चैं", "ठा कुर": "ठाकुर", "ले मी": "लेमी", "पनी र": "पनीर", "उस् मानपुर": "उस्मानपुर", "प्र श": "प्रश", "उप जिला": "उपजिला", "शा ल": "शाल", "जर् मनी": "जर्मनी", "ख़ा गान": "ख़ागान", "बस ई": "बसई", "म जरा": "मजरा", "संका य": "संकाय", "खरा द": "खराद", "आइ॰ एस॰": "आइ॰एस॰", "आइ॰एस॰ एस॰एन॰": "आइ॰एस॰एस॰एन॰", "पौ डी": "पौडी", "उत् कृष्ट": "उत्कृष्ट", "नि भाई": "निभाई", "चु के": "चुके", "का ई": "काई", "चा इना": "चाइना", "त ख्": "तख्", "उद् देश्य": "उद्देश्य", "ना यक": "नायक", "प्रस्तु त": "प्रस्तुत", "तु लना": "तुलना", "ला गत": "लागत", "पड़ ता": "पड़ता", "चा हि": "चाहि", "बॉ लीवुड": "बॉलीवुड", "ईसा ई": "ईसाई", "बना ये": "बनाये", "गा ँ": "गाँ", "सै य": "सैय", "मसू द": "मसूद", "ई स्वी": "ईस्वी", "गा ह": "गाह", "निम् न": "निम्न", "उपा धि": "उपाधि", "न ष्ट": "नष्ट", "के त": "केत", "समु द्र": "समुद्र", "मु केश": "मुकेश", "मौ जू": "मौजू", "ंड व": "ंडव", "भ ्र": "भ्र", "वि रा": "विरा", "प् पु": "प्पु", "अर् चना": "अर्चना", "आ श्रम": "आश्रम", "ब् लै": "ब्लै", "ब्लै क": "ब्लैक", "मु ंडी": "मुंडी", "गरी ब": "गरीब", "आ न": "आन", "गो कुल": "गोकुल", "स् पेश": "स्पेश", "नंदी ग्राम": "नंदीग्राम", "नर् मदा": "नर्मदा", "पु ष्": "पुष्", "श ही": "शही", "ती स्ता": "तीस्ता", "रा पल्ली": "रापल्ली", "बे नी": "बेनी", "चु से": "चुसे", "चुसे ट्स": "चुसेट्स", "ऑ नलाइन": "ऑनलाइन", "क स्": "कस्", "नि ंग": "निंग", "समु दाय": "समुदाय", "वि वादास्": "विवादास्", "वि वादित": "विवादित", "तुर ंत": "तुरंत", "दे ह": "देह", "वि ख्यात": "विख्यात", "निर् मल": "निर्मल", "मह बू": "महबू", "मार् टिन": "मार्टिन", "वे ल": "वेल", "पर माणु": "परमाणु", "रा सायनिक": "रासायनिक", "उ द": "उद", "सर ल": "सरल", "आ ते": "आते", "१ ३": "१३", "१ ६": "१६", "संस्था पक": "संस्थापक", "पाठ क": "पाठक", "घ ी": "घी", "पै दा": "पैदा", "सं पत्ति": "संपत्ति", "ले कर": "लेकर", "दा हि": "दाहि", "बि लि": "बिलि", "पोर् ट": "पोर्ट", "डू ंगरपुर": "डूंगरपुर", "धो पुर": "धोपुर", "ध ू": "धू", "नारायण पुर": "नारायणपुर", "हा जीपुर": "हाजीपुर", "व्या पक": "व्यापक", "की य": "कीय", "जै व": "जैव", "सा इंस": "साइंस", "भ ट्ट": "भट्ट", "र ौ": "रौ", "पो खरी": "पोखरी", "च तुर्": "चतुर्", "ह न": "हन", "चा ह": "चाह", "के ट": "केट", "तकनी क": "तकनीक", "कल् चर": "कल्चर", "फ़ू ड": "फ़ूड", "ग्रह ण": "ग्रहण", "अव स्थिति": "अवस्थिति", "श् चित": "श्चित", "फो न": "फोन", "त ल": "तल", "न्यू क्लि": "न्यूक्लि", "न्यूक्लि यर": "न्यूक्लियर", "फु ल": "फुल", "थ ॉ": "थॉ", "कॉ ल": "कॉल", "बि ल्स": "बिल्स", "फरी दपुर": "फरीदपुर", "लै ब": "लैब", "खो ज": "खोज", "ति ब्": "तिब्", "तुर् की": "तुर्की", "अधी न": "अधीन", "परी क्षा": "परीक्षा", "झ ंग": "झंग", "स् पी": "स्पी", "ब ड़": "बड़", "ए तमा": "एतमा", "ध ौली": "धौली", "कै मरू": "कैमरू", "कैमरू न": "कैमरून", "लॉ स": "लॉस", "पा ड़ा": "पाड़ा", "प पुर": "पपुर", "पहाड़ पुर": "पहाड़पुर", "श ौ": "शौ", "खन न": "खनन", "कै ड": "कैड", "कैड मियम": "कैडमियम", "ह ंस": "हंस", "एल्गोरि दम": "एल्गोरिदम", "शि यन": "शियन", "अव य": "अवय", "प चा": "पचा", "ओ वर": "ओवर", "ओ हि": "ओहि", "ओहि यो": "ओहियो", "आई आई": "आईआई", "अव शेष": "अवशेष", "अक्षा ंश": "अक्षांश", "हा इलैंड": "हाइलैंड", "हाइलैंड ्स": "हाइलैंड्स", "न बर्ग": "नबर्ग", "आयो वा": "आयोवा", "जी न": "जीन", "घि रा": "घिरा", "योग दान": "योगदान", "ज़ ्": "ज़्", "क्ष ी": "क्षी", "रो ज़": "रोज़", "रि पब्": "रिपब्", "आलो चना": "आलोचना", "ब ंद": "बंद", "इ यों": "इयों", "पहु ँच": "पहुँच", "मही ने": "महीने", "र क्त": "रक्त", "जु ड़े": "जुड़े", "पो जी": "पोजी", "पोजी शन": "पोजीशन", "नी त": "नीत", "स्वी कार": "स्वीकार", "स भर": "सभर", "केन्द्री य": "केन्द्रीय", "बो लने": "बोलने", "ज म": "जम", "क्षेत्री य": "क्षेत्रीय", "सु ल": "सुल", "दिखा ई": "दिखाई", "श् ते": "श्ते", "मिल ती": "मिलती", "पूर्णि मा": "पूर्णिमा", "पर् क": "पर्क", "विद्यु त": "विद्युत", "सिने मा": "सिनेमा", "बो ल": "बोल", "दि ल": "दिल", "अ ंदर": "अंदर", "सिर् फ": "सिर्फ", "आजा द": "आजाद", "बे तवा": "बेतवा", "भा वनगर": "भावनगर", "नेल वेली": "नेलवेली", "चा लु": "चालु", "चालु क्य": "चालुक्य", "त्रि ची": "त्रिची", "एक्स प": "एक्सप", "फी ल्ड": "फील्ड", "डे हरी": "डेहरी", "जोग बनी": "जोगबनी", "धार वाड़": "धारवाड़", "म् पल": "म्पल", "गुरु देव": "गुरुदेव", "ह बी": "हबी", "ब गंज": "बगंज", "जान की": "जानकी", "कचे गु": "कचेगु", "कचेगु डा": "कचेगुडा", "स्पेश ल": "स्पेशल", "कोंक ण": "कोंकण", "लनो व": "लनोव", "विजय वाडा": "विजयवाडा", "नन्दे द": "नन्देद", "नी लगिरि": "नीलगिरि", "निजा मुद्दीन": "निजामुद्दीन", "व टी": "वटी", "पर शु": "परशु", "परशु राम": "परशुराम", "राधिका पुर": "राधिकापुर", "रे वंचल": "रेवंचल", "फोर् ट": "फोर्ट", "सा केत": "साकेत", "स या": "सया", "सया जी": "सयाजी", "स्टी ल": "स्टील", "त पो": "तपो", "त पती": "तपती", "का सी": "कासी", "तिरु च्छि": "तिरुच्छि", "तिरुच्छि रापल्ली": "तिरुच्छिरापल्ली", "तिरु वन": "तिरुवन", "तिरुवन न्तपुर": "तिरुवनन्तपुर", "तिरुवनन्तपुर म": "तिरुवनन्तपुरम", "तुंग भद्रा": "तुंगभद्रा", "आ भा": "आभा", "व डो": "वडो", "वडो दरा": "वडोदरा", "विभू ति": "विभूति", "को च": "कोच", "मै सा": "मैसा", "मैसा चुसेट्स": "मैसाचुसेट्स", "लि श": "लिश", "सुनी ल": "सुनील", "विवादास् पक": "विवादास्पक", "हटा ई": "हटाई", "मान हानिकार": "मानहानिकार", "मानहानिकार क": "मानहानिकारक", "नुकसान देह": "नुकसानदेह", "जै सा": "जैसा", "करी मनगर": "करीमनगर", "ड क": "डक", "चार् ल्स": "चार्ल्स", "पॉ ल": "पॉल", "रे ड": "रेड", "लि यो": "लियो", "कार्या लय": "कार्यालय", "ज ौ": "जौ", "लॉ ग": "लॉग", "अ स": "अस", "नि स": "निस", "पो स्टर": "पोस्टर", "२ ८": "२८", "२ ९": "२९", "ग्रे गोरी": "ग्रेगोरी", "ज् वालामुखी": "ज्वालामुखी", "ह जार": "हजार", "महा द्वीप": "महाद्वीप", "टे न": "टेन", "स् काउ": "स्काउ", "भा व": "भाव", "बि शप": "बिशप", "ब् लॉ": "ब्लॉ", "सी धे": "सीधे", "समा प्त": "समाप्त", "जु मा": "जुमा", "आ लम": "आलम", "दी न": "दीन", "स् पर्": "स्पर्", "ग्री ष्": "ग्रीष्", "ऑ परे": "ऑपरे", "आँ कड़े": "आँकड़े", "चिह् न": "चिह्न", "अक्ष र": "अक्षर", "पा या": "पाया", "मा धोपुर": "माधोपुर", "गण े": "गणे", "ब ंस": "बंस", "बायो लॉजी": "बायोलॉजी", "इ म्": "इम्", "श ह": "शह", "प्र क्रम": "प्रक्रम", "रि सर्": "रिसर्", "रिसर् च": "रिसर्च", "जर् नल": "जर्नल", "बल् कि": "बल्कि", "ब दलने": "बदलने", "कि स": "किस", "पा ई": "पाई", "मार् क": "मार्क", "परी क्षण": "परीक्षण", "रमे श": "रमेश", "दया ल": "दयाल", "सॉफ्ट वेयर": "सॉफ्टवेयर", "सा मना": "सामना", "मि थ": "मिथ", "दू पुर": "दूपुर", "डिजा इन": "डिजाइन", "माइ क्रो": "माइक्रो", "सा झा": "साझा", "१९९ ८": "१९९८", "अ ंक": "अंक", "स् कॉ": "स्कॉ", "काली न": "कालीन", "अ ंचल": "अंचल", "कला कार": "कलाकार", "नि जी": "निजी", "दिखा या": "दिखाया", "अ द्": "अद्", "स्त ंभ": "स्तंभ", "प थ": "पथ", "आर म्भ": "आरम्भ", "सो श": "सोश", "फ्र ंट": "फ्रंट", "विंडो ज": "विंडोज", "प्ले ट": "प्लेट", "संर क्षित": "संरक्षित", "गो पालपुर": "गोपालपुर", "हो गा": "होगा", "अफ्री का": "अफ्रीका", "कबा ब": "कबाब", "ं ठा": "ंठा", "मुर् ग": "मुर्ग", "ग वर्": "गवर्", "संसदी य": "संसदीय", "कु ँवर": "कुँवर", "राज शाही": "राजशाही", "ञ् ज": "ञ्ज", "पुरा ण": "पुराण", "द्रवि ड़": "द्रविड़", "१९ ६": "१९६", "मले शिया": "मलेशिया", "इलाहा बाद": "इलाहाबाद", "बीबी पुर": "बीबीपुर", "क सौ": "कसौ", "बीरा पुर": "बीरापुर", "दा पुर": "दापुर", "मु त": "मुत", "ने वादा": "नेवादा", "परता पपुर": "परतापपुर", "ध्या य": "ध्याय", "ग हा": "गहा", "ई पुर": "ईपुर", "उतरा ँव": "उतराँव", "सोरा ँव": "सोराँव", "सै दहा": "सैदहा", "हरी पुर": "हरीपुर", "अब्दु ल": "अब्दुल", "इंदि रा": "इंदिरा", "वि शाल": "विशाल", "गेंद बा": "गेंदबा", "मे डल": "मेडल", "क़ ौ": "क़ौ", "क़ौ मी": "क़ौमी", "इंडी ज": "इंडीज", "क्वाली फायर": "क्वालीफायर", "एकि डना": "एकिडना", "जल प्रपात": "जलप्रपात", "सोरे न": "सोरेन", "तरा ई": "तराई", "टी डी": "टीडी", "ताइ क्": "ताइक्", "ताइक् वांडो": "ताइक्वांडो", "अ णु": "अणु", "बार् थे": "बार्थे", "बार्थे लेमी": "बार्थेलेमी", "गो पी": "गोपी", "नव युग": "नवयुग", "स प्त": "सप्त", "भ क्ति": "भक्ति", "बि ग": "बिग", "डि श": "डिश", "दर् द": "दर्द", "रख ता": "रखता", "संभो ग": "संभोग", "वि परी": "विपरी", "विपरी त": "विपरीत", "चाहि ए": "चाहिए", "ते ज": "तेज", "जिन् हें": "जिन्हें", "तर् क": "तर्क", "प्रार ंभ": "प्रारंभ", "मुखर् जी": "मुखर्जी", "टेलीवि जन": "टेलीविजन", "चल ता": "चलता", "सभर वाल": "सभरवाल", "वरु ण": "वरुण", "सा ंख्यिकी": "सांख्यिकी", "त ंत्र": "तंत्र", "सु विधा": "सुविधा", "मु हि": "मुहि", "इ काई": "इकाई", "आ कर": "आकर", "दर् ज": "दर्ज", "अनु मति": "अनुमति", "प्र दाय": "प्रदाय", "मै थि": "मैथि", "सक्रि य": "सक्रिय", "ढ ो": "ढो", "अभि मन्यु": "अभिमन्यु", "मै ं": "मैं", "ज्ञ ा": "ज्ञा", "मा या": "माया", "संचा लित": "संचालित", "तख् त": "तख्त", "अन न्य": "अनन्य", "तिरु नेलवेली": "तिरुनेलवेली", "ब्रह्म पुत्र": "ब्रह्मपुत्र", "ध ौला": "धौला", "मा पुर": "मापुर", "टे म्पल": "टेम्पल", "री वा": "रीवा", "इस् पात": "इस्पात", "ख जु": "खजु", "कोल् लम": "कोल्लम", "बा घ": "बाघ", "पल् ल": "पल्ल", "पुरुष ो": "पुरुषो", "पुरुषो त्तम": "पुरुषोत्तम", "पुष् पक": "पुष्पक", "रत् ना": "रत्ना", "स च": "सच", "शही द": "शहीद", "सु वर्ण": "सुवर्ण", "ति र": "तिर", "वे णी": "वेणी", "तु लसी": "तुलसी", "दक्षिण पूर्व": "दक्षिणपूर्व", "ज ट": "जट", "मुस लमानों": "मुसलमानों", "नि श": "निश", "दृ ष्टि": "दृष्टि", "बा व": "बाव", "उप विभागों": "उपविभागों", "गा यक": "गायक", "गु ड": "गुड", "क्रॉ स": "क्रॉस", "ड ै": "डै", "सर दार": "सरदार", "फ़ े": "फ़े", "शै क्षिक": "शैक्षिक", "प्रस्ता व": "प्रस्ताव", "आ ए": "आए", "उ ंड": "उंड", "ब्लॉ क": "ब्लॉक", "नि र": "निर", "इ त्यादि": "इत्यादि", "षे क": "षेक", "लड़ा ई": "लड़ाई", "इ ब्रा": "इब्रा", "मी ना": "मीना", "कि ला": "किला", "कु तु": "कुतु", "चौ क": "चौक", "मुबार कपुर": "मुबारकपुर", "परि सर": "परिसर", "म टर": "मटर", "ना श": "नाश", "क्ष मता": "क्षमता", "म ंद": "मंद", "शिको त्सू": "शिकोत्सू", "व्या व": "व्याव", "व्याव सायिक": "व्यावसायिक", "छ ह": "छह", "ख गोल": "खगोल", "ब च": "बच", "ई रान": "ईरान", "व स्तु": "वस्तु", "ङ ्": "ङ्", "कै से": "कैसे", "ड ्राइ": "ड्राइ", "रा शि": "राशि", "सर्वो च्च": "सर्वोच्च", "गुण वत्ता": "गुणवत्ता", "यूरो प": "यूरोप", "जै सी": "जैसी", "फॉ र": "फॉर", "प्र वाह": "प्रवाह", "जा या": "जाया", "सू त्र": "सूत्र", "उ म्मी": "उम्मी", "निय ंत्रित": "नियंत्रित", "ग्री न": "ग्रीन", "न्यू यॉर्क": "न्यूयॉर्क", "न्यू ज़ी": "न्यूज़ी", "भवि ष्य": "भविष्य", "राज कुमार": "राजकुमार", "तारा पुर": "तारापुर", "थॉ मस": "थॉमस", "हॉ ल": "हॉल", "फ़ ु": "फ़ु", "छ ः": "छः", "गो बि": "गोबि", "ल ड": "लड", "क्ष क": "क्षक", "म झ": "मझ", "ती व्र": "तीव्र", "माइ कल": "माइकल", "डब् ल्यू": "डब्ल्यू", "र क्": "रक्", "ख ली": "खली", "वि स": "विस", "हि स्से": "हिस्से", "संसा धन": "संसाधन", "तत् कालीन": "तत्कालीन", "ँ कि": "ँकि", "फा ई": "फाई", "चै तन्य": "चैतन्य", "श द": "शद", "मनो हर": "मनोहर", "ज़ े": "ज़े", "सीरी ज": "सीरीज", "प ढ़": "पढ़", "भ टनागर": "भटनागर", "मै री": "मैरी", "प्लेट फॉर्": "प्लेटफॉर्", "दा ई": "दाई", "टा ई": "टाई", "मिठा ई": "मिठाई", "रो टी": "रोटी", "परा ंठा": "परांठा", "म ठ": "मठ", "लाह ौल": "लाहौल", "स्पी ति": "स्पीति", "बारा कोट": "बाराकोट", "जहांगी र": "जहांगीर", "आ ठ": "आठ", "च ट्ट": "चट्ट", "चट्ट ग्राम": "चट्टग्राम", "राज्यी य": "राज्यीय", "वि भा": "विभा", "ख़ागान त": "ख़ागानत", "न्या य": "न्याय", "ती पुर": "तीपुर", "भवानी पुर": "भवानीपुर", "रॉ बर्ट": "रॉबर्ट", "शु क्ल": "शुक्ल", "मे यर": "मेयर", "कृत्रि म": "कृत्रिम", "ए आई": "एआई", "आई टी": "आईटी", "एंड ्रॉ": "एंड्रॉ", "एंड्रॉ एड": "एंड्रॉएड", "प्राइ ज़": "प्राइज़", "वी ओ": "वीओ", "वीओ आईपी": "वीओआईपी", "वन्य जीव": "वन्यजीव", "डॉ लर": "डॉलर", "लो ढ़ा": "लोढ़ा", "ओ न्": "ओन्", "लाइ ब्रेरी": "लाइब्रेरी", "गु याना": "गुयाना", "से वक": "सेवक", "दै निक": "दैनिक", "ड ्स": "ड्स", "हि चकी": "हिचकी", "स्टी फ": "स्टीफ", "कौशा म्बी": "कौशाम्बी", "ले पचा": "लेपचा", "ग्र ं": "ग्रं", "राजे न्द्र": "राजेन्द्र", "मलया लम": "मलयालम", "रि ली": "रिली", "रिली ज़": "रिलीज़", "संचा लन": "संचालन", "चु न": "चुन", "जि ंग": "जिंग", "पृष्ठ भूमि": "पृष्ठभूमि", "स्था यी": "स्थायी", "समी क्षा": "समीक्षा", "चे तक": "चेतक", "बन्ध्या करण": "बन्ध्याकरण", "घ ंटे": "घंटे", "ए पि": "एपि", "ह सन": "हसन", "भाषा ई": "भाषाई", "पी छे": "पीछे", "स् प": "स्प", "अस् मिता": "अस्मिता", "मिल ते": "मिलते", "्य द": "्यद", "प्रति ष्ठ": "प्रतिष्ठ", "प्रतिष्ठ ित": "प्रतिष्ठित", "मिल ता": "मिलता", "सो मनाथ": "सोमनाथ", "ह त": "हत", "टि प्": "टिप्", "भो जन": "भोजन", "पत् थर": "पत्थर", "सं पर्क": "संपर्क", "ष् ण": "ष्ण", "अनु या": "अनुया", "मैथि ली": "मैथिली", "मध्य प्रदेश": "मध्यप्रदेश", "वर दान": "वरदान", "व ध": "वध", "अत्य धिक": "अत्यधिक", "कठि न": "कठिन", "सो म": "सोम", "नी ल": "नील", "आला प्पु": "आलाप्पु", "आलाप्पु ड़ा": "आलाप्पुड़ा", "प् पी": "प्पी", "भि ंड": "भिंड", "फै जाबाद": "फैजाबाद", "ट्र ंक": "ट्रंक", "हम् पी": "हम्पी", "ही रा": "हीरा", "पु ट": "पुट", "कर् णा": "कर्णा", "को यना": "कोयना", "ि ला": "िला", "ल श्": "लश्", "मछली पट्टनम": "मछलीपट्टनम", "माल वा": "मालवा", "म ंगला": "मंगला", "ग ंधा": "गंधा", "नी म": "नीम", "पद्मा वती": "पद्मावती", "पा ंडि": "पांडि", "पांडि यन": "पांडियन", "पर् ल": "पर्ल", "चेन्नम् मा": "चेन्नम्मा", "ह ट": "हट", "रॉ क": "रॉक", "रु पा": "रुपा", "ब ंगला": "बंगला", "सर यू": "सरयू", "ग ड": "गड", "ते न": "तेन", "फ़ ोर्": "फ़ोर्", "त्रि वेणी": "त्रिवेणी", "खान पान": "खानपान", "स वारी": "सवारी", "ऑ न": "ऑन", "व् ही": "व्ही", "हाथ गेंदबाजी": "हाथगेंदबाजी", "बि सा": "बिसा", "विशेष ज्ञ": "विशेषज्ञ", "घन त्व": "घनत्व", "कर् नू": "कर्नू", "अन ंतपुर": "अनंतपुर", "य ब": "यब", "सूर्या पेट": "सूर्यापेट", "लु ई": "लुई", "च ॉ": "चॉ", "ले न": "लेन", "काउ ंसिल": "काउंसिल", "मुरा द": "मुराद", "अवै ध": "अवैध", "१ ४": "१४", "निर्वा चित": "निर्वाचित", "अ फ़": "अफ़", "लगा या": "लगाया", "क्ष र": "क्षर", "५ २": "५२", "हू ँ": "हूँ", "३ ४": "३४", "पि परी": "पिपरी", "बहु विकल्": "बहुविकल्", "बहुविकल् पी": "बहुविकल्पी", "भे जे": "भेजे", "न क्": "नक्", "ली ला": "लीला", "बे टे": "बेटे", "पानी पत": "पानीपत", "मुबार क": "मुबारक", "उस् मान": "उस्मान", "रो जा": "रोजा", "गु ल": "गुल", "खु द": "खुद", "बा ड़ा": "बाड़ा", "आ कार": "आकार", "वृ द्धि": "वृद्धि", "ऋ तु": "ऋतु", "स्टू डियो": "स्टूडियो", "भू त": "भूत", "ऑ स्ट्रो": "ऑस्ट्रो", "ग़ ल": "ग़ल", "स टी": "सटी", "पसंदी दा": "पसंदीदा", "बिहारी पुर": "बिहारीपुर", "तारी ख़": "तारीख़", "डि ज़ा": "डिज़ा", "र् घ": "र्घ", "पिछ ले": "पिछले", "मि हिर": "मिहिर", "४ ५": "४५", "जन क": "जनक", "नी रज": "नीरज", "व्यव साय": "व्यवसाय", "२०१ ७": "२०१७", "ले ते": "लेते", "मल् हो": "मल्हो", "मल्हो त्रा": "मल्होत्रा", "निर् देशन": "निर्देशन", "ती सरे": "तीसरे", "बि ल्": "बिल्", "आयो जन": "आयोजन", "आ खि": "आखि", "ऑस्ट्रेलिया ई": "ऑस्ट्रेलियाई", "महत्त्व पूर्ण": "महत्त्वपूर्ण", "कल्चर ल": "कल्चरल", "कोशिका ओं": "कोशिकाओं", "वि विध": "विविध", "बि ल": "बिल", "ं घ": "ंघ", "क थ": "कथ", "की र्": "कीर्", "ट मा": "टमा", "मात ृ": "मातृ", "पर ं": "परं", "परं परा": "परंपरा", "पो स्ट": "पोस्ट", "० ०": "००", "आ लू": "आलू", "रु प": "रुप", "स् कै": "स्कै", "स ला": "सला", "ढ ी": "ढी", "पा ंडे": "पांडे", "ज स": "जस", "प्रो जे": "प्रोजे", "प्रोजे क्ट": "प्रोजेक्ट", "आ ंतरिक": "आंतरिक", "हि ल": "हिल", "न ज़र": "नज़र", "यो जित": "योजित", "जा ए": "जाए", "दि यों": "दियों", "७ १": "७१", "वा यरस": "वायरस", "निय ंत्रण": "नियंत्रण", "जीनो म": "जीनोम", "समान ता": "समानता", "करी ब": "करीब", "स् मिथ": "स्मिथ", "रक् खा": "रक्खा", "कर्म चारी": "कर्मचारी", "भ ै": "भै", "पर्या वरण": "पर्यावरण", "प्रा कृतिक": "प्राकृतिक", "हाला ँकि": "हालाँकि", "पेशे वर": "पेशेवर", "यू ना": "यूना", "यूना इटेड": "यूनाइटेड", "जे ल": "जेल", "४ ४": "४४", "सोश लिस्ट": "सोशलिस्ट", "अर शद": "अरशद", "आ या": "आया", "गु न": "गुन", "गा ई": "गाई", "पढ़ा ई": "पढ़ाई", "च ट": "चट", "ग्रीष् मकालीन": "ग्रीष्मकालीन", "ओलं पिक": "ओलंपिक", "मी सा": "मीसा", "राम फल": "रामफल", "प्लेटफॉर् म": "प्लेटफॉर्म", "एम्बे डे": "एम्बेडे", "एम्बेडे ड": "एम्बेडेड", "सचि व": "सचिव", "ग छिया": "गछिया", "ह ौला": "हौला", "ज़ि लों": "ज़िलों", "चा वल": "चावल", "यौ गिक": "यौगिक", "समाज वादी": "समाजवादी", "ल वा": "लवा", "हा उस": "हाउस", "गा वाँ": "गावाँ", "खड़ गपुर": "खड़गपुर", "नया बंस": "नयाबंस", "बरो ली": "बरोली", "सी करी": "सीकरी", "ब गुड़ा": "बगुड़ा", "दि शा": "दिशा", "स ई": "सई", "समारो ह": "समारोह", "गा पुर": "गापुर", "कन कपुर": "कनकपुर", "गोवि ंदपुर": "गोविंदपुर", "दु बे": "दुबे", "गो सा": "गोसा", "दु ब": "दुब", "ब घ": "बघ", "बू पुर": "बूपुर", "पा खी": "पाखी", "लि ल": "लिल", "श्री पुर": "श्रीपुर", "ड बि": "डबि", "डबि ंग": "डबिंग", "उत्स व": "उत्सव", "सह कारी": "सहकारी", "ए वर्": "एवर्", "का ंस्य": "कांस्य", "आ ण": "आण", "म यूर": "मयूर", "दी क्षित": "दीक्षित", "बना स": "बनास", "डा यलर": "डायलर", "क च्छ": "कच्छ", "शिला ंग": "शिलांग", "अवा मी": "अवामी", "वन डे": "वनडे", "गौर व": "गौरव", "ओलं पिया": "ओलंपिया", "ओलंपिया ड": "ओलंपियाड", "ग्रही य": "ग्रहीय", "रत् न": "रत्न", "बि नोद": "बिनोद", "ड ्र": "ड्र", "टॉ स": "टॉस", "माया पुरी": "मायापुरी", "से मैन": "सेमैन", "बे थ": "बेथ", "स्टीफ न": "स्टीफन", "तीर्थ ंकर": "तीर्थंकर", "कम् प्यू": "कम्प्यू", "सेवा ओं": "सेवाओं", "पिछ ला": "पिछला", "म्यू जिक": "म्यूजिक", "मरा ठी": "मराठी", "फ़ ॉ": "फ़ॉ", "म जबू": "मजबू", "मजबू त": "मजबूत", "पत् नी": "पत्नी", "ला भ": "लाभ", "श ल्य": "शल्य", "वै कल्": "वैकल्", "वैकल् पिक": "वैकल्पिक", "ख तरे": "खतरे", "विधि यों": "विधियों", "गहरा ई": "गहराई", "स पने": "सपने", "एपि सो": "एपिसो", "एपिसो ड": "एपिसोड", "महे श": "महेश", "स्प ष्ट": "स्पष्ट", "गाँ धी": "गाँधी", "वित्ती य": "वित्तीय", "सा मने": "सामने", "ग़ ा": "ग़ा", "ग़ा ज़ी": "ग़ाज़ी", "ह जरत": "हजरत", "इ रा": "इरा", "हे नरी": "हेनरी", "उ ड़ी": "उड़ी", "इया ं": "इयां", "बर् तन": "बर्तन", "चा य": "चाय", "जिन का": "जिनका", "यात्रि यों": "यात्रियों", "उप विभाग": "उपविभाग", "ता प": "ताप", "मौजू द": "मौजूद", "ती सरी": "तीसरी", "दिने श": "दिनेश", "गि ल": "गिल", "महा भारत": "महाभारत", "व्यू ह": "व्यूह", "पा ंडव": "पांडव", "बा ण": "बाण", "कर् ण": "कर्ण", "ट्रे न": "ट्रेन", "लु म": "लुम", "लुम डि": "लुमडि", "लुमडि ंग": "लुमडिंग", "अग्नि वी": "अग्निवी", "अग्निवी णा": "अग्निवीणा", "ऐश बाग़": "ऐशबाग़", "अज ंता": "अजंता", "अमर कंटक": "अमरकंटक", "अ ंबिका": "अंबिका", "अंबिका पुर": "अंबिकापुर", "आम्र पाली": "आम्रपाली", "अन न्तपुरी": "अनन्तपुरी", "अ त्तारी": "अत्तारी", "हि ंद": "हिंद", "अजी माबाद": "अजीमाबाद", "बै द्यनाथ": "बैद्यनाथ", "बैद्यनाथ धाम": "बैद्यनाथधाम", "बालु र": "बालुर", "बालुर घाट": "बालुरघाट", "बर् मेर": "बर्मेर", "बस वा": "बसवा", "भागी रती": "भागीरती", "भ टि": "भटि", "भटि ंडा": "भटिंडा", "पारा दीप": "पारादीप", "डा यमंड": "डायमंड", "ब्रि न्दावन": "ब्रिन्दावन", "बुंदे लखंड": "बुंदेलखंड", "चा मुंडी": "चामुंडी", "चार मिनार": "चारमिनार", "से लम": "सेलम", "चित्तौर गढ़": "चित्तौरगढ़", "सिर कार": "सिरकार", "कोल फील्ड": "कोलफील्ड", "कोरो मंडल": "कोरोमंडल", "दयो दय": "दयोदय", "दीक्षा भूमि": "दीक्षाभूमि", "काठ गोदा": "काठगोदा", "काठगोदा म": "काठगोदाम", "प ठान": "पठान", "पठान कोट": "पठानकोट", "देव गिरि": "देवगिरि", "धौला धार": "धौलाधार", "धु ली": "धुली", "डि ब्रू": "डिब्रू", "डिब्रू गढ़": "डिब्रूगढ़", "दी घा": "दीघा", "द्वार का": "द्वारका", "फलकनु मा": "फलकनुमा", "फ् लाइंग": "फ्लाइंग", "गण देवता": "गणदेवता", "गांधी धाम": "गांधीधाम", "सतल ज": "सतलज", "वी क्ली": "वीक्ली", "गीता ंजलि": "गीतांजलि", "गोरख धाम": "गोरखधाम", "हबी बगंज": "हबीबगंज", "हल् दि": "हल्दि", "हल्दि बारी": "हल्दिबारी", "कोल् कता": "कोल्कता", "हा पा": "हापा", "हरि हर": "हरिहर", "हज़र दु": "हज़रदु", "हज़रदु आरी": "हज़रदुआरी", "हेमकु ंट": "हेमकुंट", "हि मगिरि": "हिमगिरि", "हि मसागर": "हिमसागर", "हिरा खण्ड": "हिराखण्ड", "प्यु रे": "प्युरे", "व ॅ": "वॅ", "वॅ स्को": "वॅस्को", "हु तात्": "हुतात्", "हुतात् मा": "हुतात्मा", "इन्द्र यानी": "इन्द्रयानी", "आई लैंड": "आईलैंड", "जन्म भूमि": "जन्मभूमि", "ज्ञाने श्वरी": "ज्ञानेश्वरी", "कचे गू": "कचेगू", "कचेगू डा": "कचेगूडा", "कै फि": "कैफि", "कैफि यत": "कैफियत", "उत् कल": "उत्कल", "कामा यनी": "कामायनी", "कंचन ज": "कंचनज", "कंचनज ंगा": "कंचनजंगा", "कर्णा वती": "कर्णावती", "केंदु झार्": "केंदुझार्", "केंदुझार् गढ़": "केंदुझार्गढ़", "निज़ा मुद्दीन": "निज़ामुद्दीन", "को णार्": "कोणार्", "कोणार् क": "कोणार्क", "को वई": "कोवई", "कृष क": "कृषक", "कुमा ओं": "कुमाओं", "कु त्": "कुत्", "कुत् च": "कुत्च", "क़ िला": "क़िला", "लाल बाग़": "लालबाग़", "लश् कर": "लश्कर", "लि च्छा": "लिच्छा", "लिच्छा वी": "लिच्छावी", "लो हित": "लोहित", "लोक शक्ति": "लोकशक्ति", "पत् नाम": "पत्नाम", "महा बोधि": "महाबोधि", "महा कोश": "महाकोश", "महाकोश ल": "महाकोशल", "ऐश बाघ": "ऐशबाघ", "माल दा": "मालदा", "मांडो वी": "मांडोवी", "म ंगलोरे": "मंगलोरे", "मनो हार": "मनोहार", "मनोहार बाद": "मनोहारबाद", "मरु सागर": "मरुसागर", "मत्स्य गंधा": "मत्स्यगंधा", "मा वेली": "मावेली", "मे वार": "मेवार", "मिल् लेन्नियम": "मिल्लेन्नियम", "मिथिला ंचल": "मिथिलांचल", "नरसा पुर": "नरसापुर", "नारायना दरी": "नारायनादरी", "नौ चंदी": "नौचंदी", "नव जीवन": "नवजीवन", "नीला चल": "नीलाचल", "पल्ल वन": "पल्लवन", "पल् ना": "पल्ना", "पल्ना दु": "पल्नादु", "पंच वटी": "पंचवटी", "पिना किनी": "पिनाकिनी", "पूर बिया": "पूरबिया", "पुदु चेर्री": "पुदुचेर्री", "राज कोट": "राजकोट", "रामे श्वरम": "रामेश्वरम", "रण कपुर": "रणकपुर", "रा ंची": "रांची", "रान् था": "रान्था", "रान्था म्भोर": "रान्थाम्भोर", "रत्ना चल": "रत्नाचल", "रे वांचल": "रेवांचल", "रुपा शी": "रुपाशी", "श बरी": "शबरी", "सच खंड": "सचखंड", "सप्त गिरि": "सप्तगिरि", "सर्वो दय": "सर्वोदय", "सता वाहना": "सतावाहना", "सत्या ग्रह": "सत्याग्रह", "सेंगो त्त": "सेंगोत्त", "सेंगोत्त ई": "सेंगोत्तई", "सेवा ग्राम": "सेवाग्राम", "श क्": "शक्", "शक् थि": "शक्थि", "शक्थि पुन्": "शक्थिपुन्", "शक्थिपुन् ज": "शक्थिपुन्ज", "शान्ति निकेतन": "शान्तिनिकेतन", "श्रम जीवी": "श्रमजीवी", "सिद्धा गंगा": "सिद्धागंगा", "सिद्धे श्वर": "सिद्धेश्वर", "सिम्हा दरी": "सिम्हादरी", "सिम्हा पुरी": "सिम्हापुरी", "सिंह गड": "सिंहगड", "शो लापुर": "शोलापुर", "सूर्या ण": "सूर्याण", "सूर्याण गरी": "सूर्याणगरी", "ना डू": "नाडू", "त पस्वि": "तपस्वि", "तपस्वि नी": "तपस्विनी", "तपो वन": "तपोवन", "तोर् षा": "तोर्षा", "तेलन् गाना": "तेलन्गाना", "तेन कासी": "तेनकासी", "उ र": "उर", "रोक क": "रोकक", "रोकक फ़ोर्": "रोककफ़ोर्", "रोककफ़ोर् ट": "रोककफ़ोर्ट", "तिरु क्": "तिरुक्", "तिरुक् कुर": "तिरुक्कुर", "तिरुक्कुर ल": "तिरुक्कुरल", "तिरु माला": "तिरुमाला", "ति प्": "तिप्", "तिप् पू": "तिप्पू", "तिर छेंडु": "तिरछेंडु", "तिरछेंडु र": "तिरछेंडुर", "त्रि बेनी": "त्रिबेनी", "उद्योग कर्मी": "उद्योगकर्मी", "उत्तरा ँचल": "उत्तराँचल", "वै गई": "वैगई", "वना ंचल": "वनांचल", "वन् चिन": "वन्चिन", "वन्चिन द": "वन्चिनद", "वेना द": "वेनाद", "वेंकटा दि": "वेंकटादि", "वेंकटादि री": "वेंकटादिरी", "वि दर्": "विदर्", "विदर् भा": "विदर्भा", "विक्रम शिला": "विक्रमशिला", "वि न्ध्या": "विन्ध्या", "विन्ध्या चल": "विन्ध्याचल", "वै नगंगा": "वैनगंगा", "येर का": "येरका", "येरका ड": "येरकाड", "लिमि टेड": "लिमिटेड", "तटी य": "तटीय", "विरा सत": "विरासत", "व्ही ल्स": "व्हील्स", "द क्": "दक्", "जानकारी पूरा": "जानकारीपूरा", "ज्ञ प्ति": "ज्ञप्ति", "आव श्यक": "आवश्यक", "जु ड़ी": "जुड़ी", "आकर् षित": "आकर्षित", "दरवा जा": "दरवाजा", "बिसा ऊ": "बिसाऊ", "शास्त्री य": "शास्त्रीय", "को इ": "कोइ", "चौ थे": "चौथे", "उच्च तम": "उच्चतम", "द स": "दस", "जन जाति": "जनजाति", "क ड": "कड", "पू नम": "पूनम", "सु दर्शन": "सुदर्शन", "गा यब": "गायब", "हो ना": "होना", "महबू बनगर": "महबूबनगर", "२०० ३": "२००३", "सक्ष म": "सक्षम", "ड ्यू": "ड्यू", "न ॉ": "नॉ", "चि यन": "चियन", "मार् श": "मार्श", "स् कर": "स्कर", "स्था पन": "स्थापन", "बि न": "बिन", "था ई": "थाई", "ख़ ्": "ख़्", "मनु ष्य": "मनुष्य", "गै र": "गैर", "हि म": "हिम", "ंज क": "ंजक", "१ २": "१२", "१ ७": "१७", "२ २": "२२", "गी र": "गीर", "इ ताल": "इताल", "इताल वी": "इतालवी", "ह स्ता": "हस्ता", "हस्ता क्षर": "हस्ताक्षर", "यू नी": "यूनी", "पद्ध ति": "पद्धति", "सि ए": "सिए", "बन ता": "बनता", "बि ष्णु": "बिष्णु", "अग्र वाल": "अग्रवाल", "एक् शन": "एक्शन", "फोटोग्रा फी": "फोटोग्राफी", "का सि": "कासि", "सर्वा धिक": "सर्वाधिक", "क्ष ति": "क्षति", "चल चित्र": "चलचित्र", "वॉ ल्ट": "वॉल्ट", "अनु मानित": "अनुमानित", "सटी क": "सटीक", "वै श्विक": "वैश्विक", "मि यों": "मियों", "डे ट": "डेट", "अर्थ व्यवस्था": "अर्थव्यवस्था", "बु ला": "बुला", "लो हा": "लोहा", "रघुनाथ पुर": "रघुनाथपुर", "सु जानपुर": "सुजानपुर", "उ ड": "उड", "मना या": "मनाया", "गां ठ": "गांठ", "पिथोरा गढ": "पिथोरागढ", "न्यूरो साइंस": "न्यूरोसाइंस", "वा ज": "वाज", "न ट": "नट", "बता या": "बताया", "ज्योति ष": "ज्योतिष", "वहा ं": "वहां", "बु ङ": "बुङ", "लक्ष्मी पुर": "लक्ष्मीपुर", "वर्ण ों": "वर्णों", "मतल ब": "मतलब", "जिन के": "जिनके", "शुद्ध ता": "शुद्धता", "संघर् ष": "संघर्ष", "टे लर": "टेलर", "सी ई": "सीई", "दा दा": "दादा", "बो स्टन": "बोस्टन", "बिलि यन": "बिलियन", "चो पड़ा": "चोपड़ा", "सै गल": "सैगल", "ड्राइ वर": "ड्राइवर", "दे ती": "देती", "ब दला": "बदला", "ज क": "जक", "कु ंभ": "कुंभ", "अर् ध": "अर्ध", "शि ल्": "शिल्", "धरो हर": "धरोहर", "हनु मान": "हनुमान", "राव ण": "रावण", "ल व": "लव", "को प": "कोप", "म ृ": "मृ", "प्रति द्": "प्रतिद्", "शै क्षणिक": "शैक्षणिक", "कमी शन": "कमीशन", "घ टक": "घटक", "ग ॉ": "गॉ", "व्यव स्थित": "व्यवस्थित", "बु रा": "बुरा", "मान ते": "मानते", "खो ल": "खोल", "कै मरा": "कैमरा", "हृ दय": "हृदय", "ख प": "खप", "ई स्": "ईस्", "ईस् माइलपुर": "ईस्माइलपुर", "दौल तपुर": "दौलतपुर", "बि शु": "बिशु", "उम्मी दवार": "उम्मीदवार", "पो लिश": "पोलिश", "ले फ्टिनेंट": "लेफ्टिनेंट", "शि ंग": "शिंग", "फिलि पो": "फिलिपो", "प्रो टो": "प्रोटो", "सा इड": "साइड", "ब फलो": "बफलो", "खिता ब": "खिताब", "त्रि पाठी": "त्रिपाठी", "ब छ": "बछ", "दा दूपुर": "दादूपुर", "मो दी": "मोदी", "खा ल": "खाल", "एस ए": "एसए", "एसए आर": "एसएआर", "एसएआर एस": "एसएआरएस", "वा यर": "वायर", "ना ल्ड": "नाल्ड", "पंक्ति यों": "पंक्तियों", "मि ट": "मिट", "आ त": "आत", "शु दा": "शुदा", "मिलि यन": "मिलियन", "फ़्रा ंस": "फ़्रांस", "मा सिक": "मासिक", "देख भा": "देखभा", "देखभा ल": "देखभाल", "र ग्": "रग्", "रग् बी": "रग्बी", "र व": "रव", "बन ने": "बनने", "शि खर": "शिखर", "थ ली": "थली", "स्पर् धा": "स्पर्धा", "एफ सी": "एफसी", "वि न": "विन", "आर् मी": "आर्मी", "तार कीय": "तारकीय", "भ ल्ला": "भल्ला", "जिम् ना": "जिम्ना", "ष िक": "षिक", "सलाह कार": "सलाहकार", "सुल तानगंज": "सुलतानगंज", "नव गछिया": "नवगछिया", "सन हौला": "सनहौला", "वॉर् ट": "वॉर्ट", "अफ़्री का": "अफ़्रीका", "मी ठा": "मीठा", "टमा टर": "टमाटर", "बर् फ़ी": "बर्फ़ी", "पन्तो ली": "पन्तोली", "जिन की": "जिनकी", "कि ल": "किल", "भू टान": "भूटान", "बारा ब": "बाराब", "बाराब ंकी": "बाराबंकी", "वकी ल": "वकील", "मा थु": "माथु", "माथु र": "माथुर", "मु श्": "मुश्", "म ंगोलिया": "मंगोलिया", "कर्नू लु": "कर्नूलु", "नै ना": "नैना", "मुर ली": "मुरली", "देवासं आगरा": "देवासंआगरा", "गांव आगरा": "गांवआगरा", "इतिहास अकबर": "इतिहासअकबर", "मु ग़ल": "मुग़ल", "अवध आगरा": "अवधआगरा", "सैया ं": "सैयां", "सैयां आगरा": "सैयांआगरा", "स्थल ताजमहल": "स्थलताजमहल", "शी श": "शीश", "मुसम् मन": "मुसम्मन", "बु लंद": "बुलंद", "एतमा दु": "एतमादु", "एतमादु द्": "एतमादुद्", "एतमादुद् दौला": "एतमादुद्दौला", "राम बाग": "रामबाग", "मरि यम": "मरियम", "मेहता ब": "मेहताब", "कै मरु": "कैमरु", "कैमरु न": "कैमरुन", "ना इ": "नाइ", "दिखा एँ": "दिखाएँ", "स्वी डिश": "स्वीडिश", "ह ौ": "हौ", "इला कों": "इलाकों", "सी मित": "सीमित", "ग ञ्ज": "गञ्ज", "दे बी": "देबी", "चाँ दपुर": "चाँदपुर", "गू गल": "गूगल", "सूची बद्ध": "सूचीबद्ध", "शि रो": "शिरो", "सी टें": "सीटें", "निर् भर": "निर्भर", "धी श": "धीश", "तुर् क": "तुर्क", "सु भाष": "सुभाष", "सा हे": "साहे", "मा स्टर": "मास्टर", "दू लापुर": "दूलापुर", "अ तरौरा": "अतरौरा", "बस गित": "बसगित", "कसौ धन": "कसौधन", "क सि": "कसि", "उ तरौन": "उतरौन", "केश व": "केशव", "ग हरपुर": "गहरपुर", "गो ठ": "गोठ", "रति पुर": "रतिपुर", "बि दा": "बिदा", "स थर": "सथर", "छ त": "छत", "छत ौना": "छतौना", "छिया ली": "छियाली", "छियाली स": "छियालीस", "जनु वा": "जनुवा", "मर दापुर": "मरदापुर", "दुब की": "दुबकी", "दु मा": "दुमा", "धो वहा": "धोवहा", "व साना": "वसाना", "बरु ना": "बरुना", "उपा ध्याय": "उपाध्याय", "ठ कुराइन": "ठकुराइन", "बरि स्ता": "बरिस्ता", "मा फ़ी": "माफ़ी", "ब गहा": "बगहा", "बो झ": "बोझ", "बि झ": "बिझ", "मल पाखी": "मलपाखी", "मो लवा": "मोलवा", "म पट्टी": "मपट्टी", "वली पुर": "वलीपुर", "शी की": "शीकी", "सदरे पुर": "सदरेपुर", "हरि पुर": "हरिपुर", "सारी पुर": "सारीपुर", "सिंध ौरा": "सिंधौरा", "हा किम": "हाकिम", "है बतपुर": "हैबतपुर", "में ढ": "मेंढ", "जा वेद": "जावेद", "एवर् टन": "एवर्टन", "अज़ी ज़": "अज़ीज़", "सिद्धार् थ": "सिद्धार्थ", "आई ॰": "आई॰", "जि ंक": "जिंक", "स्ट्रो मेयर": "स्ट्रोमेयर", "रवि शंकर": "रविशंकर", "स्नातको त्तर": "स्नातकोत्तर", "कर्ता ओं": "कर्ताओं", "एना लॉग": "एनालॉग", "अवय व": "अवयव", "सम मित": "सममित", "के म्": "केम्", "मीना क्षी": "मीनाक्षी", "ग ंग": "गंग", "गढ़ िया": "गढ़िया", "राज पू": "राजपू", "फोटोग्रा फर": "फोटोग्राफर", "कि ॰": "कि॰", "कि॰ मी॰": "कि॰मी॰", "गि नी": "गिनी", "ओन् गी": "ओन्गी", "राय गढ़": "रायगढ़", "बा स्": "बास्", "बास् केटबॉल": "बास्केटबॉल", "प्राय द्वीप": "प्रायद्वीप", "सु ए": "सुए", "सुए ज़": "सुएज़", "जे नेट": "जेनेट", "रज त": "रजत", "आ य": "आय", "फ् लिक्स": "फ्लिक्स", "मि र": "मिर", "एक्सप्रेस वे": "एक्सप्रेसवे", "४ ७": "४७", "किर दार": "किरदार", "स वैया": "सवैया", "जॉन सन": "जॉनसन", "शे ड्स": "शेड्स", "अकी ल": "अकील", "हेरा ल्ड": "हेराल्ड", "ड्र ल": "ड्रल", "एर केल": "एरकेल", "पार माण्": "पारमाण्", "पारमाण् विक": "पारमाण्विक", "भ दोरिया": "भदोरिया", "अरु ंध": "अरुंध", "गोपी नाथ": "गोपीनाथ", "सम् पादन": "सम्पादन", "धी न": "धीन", "मनोर ंजन": "मनोरंजन", "न्यू ज़": "न्यूज़", "ए यर": "एयर", "रिपब् लिक": "रिपब्लिक", "सेवानि वृत्ति": "सेवानिवृत्ति", "बेह द": "बेहद", "उ ठा": "उठा", "जे न": "जेन", "चुन ने": "चुनने", "आम ंत्रित": "आमंत्रित", "नामालू म": "नामालूम", "न सबंदी": "नसबंदी", "जो खि": "जोखि", "सप्ता ह": "सप्ताह", "प्रति भागी": "प्रतिभागी", "अधि नियम": "अधिनियम", "मैनु अल": "मैनुअल", "सिन् हा": "सिन्हा", "उस से": "उससे", "चु की": "चुकी", "शर द": "शरद", "पुनर् गठन": "पुनर्गठन", "ह थ": "हथ", "संगठ ित": "संगठित", "पो षण": "पोषण", "सैय ्यद": "सैय्यद", "सैय द": "सैयद", "समा धि": "समाधि", "दर गाह": "दरगाह", "ज ंग": "जंग", "ग़ ज़नवी": "ग़ज़नवी", "मुस लमान": "मुसलमान", "हिंदु ओं": "हिंदुओं", "श ृंखला": "शृंखला", "व्य ंजन": "व्यंजन", "मुगल ई": "मुगलई", "उड़ी सा": "उड़ीसा", "महाद्वीपी य": "महाद्वीपीय", "पे य": "पेय", "पदार् थ": "पदार्थ", "क स": "कस", "लो चन": "लोचन", "वास्तु कला": "वास्तुकला", "खु टिया": "खुटिया", "तट स्थ": "तटस्थ", "द गा": "दगा", "दु ः": "दुः", "नरे श": "नरेश", "बा की": "बाकी", "पा ए": "पाए", "अत्य ंत": "अत्यंत", "क च": "कच", "चा ल": "चाल", "छ ू": "छू", "पहु ंच": "पहुंच", "बी ना": "बीना", "भु ज": "भुज", "के प": "केप", "कालि ंदी": "कालिंदी", "हा पुर": "हापुर", "विजय वाड़ा": "विजयवाड़ा", "पर्वती य": "पर्वतीय", "गल त": "गलत", "प्रति ज्ञप्ति": "प्रतिज्ञप्ति", "जान ते": "जानते", "टी सी": "टीसी", "आ ग": "आग", "आग ंतु": "आगंतु", "पत्र कार": "पत्रकार", "छ वि": "छवि", "आस् क": "आस्क", "इमा म": "इमाम", "कस् बा": "कस्बा", "जन जातीय": "जनजातीय", "केंद्री य": "केंद्रीय", "परि स्थिति": "परिस्थिति", "तना व": "तनाव", "का ंत": "कांत", "मि श्र": "मिश्र", "म म": "मम", "सि द्": "सिद्", "य दा": "यदा", "अल् बर्ट": "अल्बर्ट", "गु स्ता": "गुस्ता", "फ्रै ंक": "फ्रैंक", "कार् ल": "कार्ल", "हॉ क्स": "हॉक्स", "सु फ़": "सुफ़", "लक्ष् मण": "लक्ष्मण", "पु ंजक": "पुंजक", "म ं": "मं", "मौ त": "मौत", "हॉ की": "हॉकी", "कु श": "कुश", "अफ़ ग़ानिस्तान": "अफ़ग़ानिस्तान", "वि श": "विश", "रख ते": "रखते", "फ़ ौ": "फ़ौ", "उप महाद्वीप": "उपमहाद्वीप", "क़ ा": "क़ा", "स्थाना ंतरित": "स्थानांतरित", "ब ंगलु": "बंगलु", "बंगलु रु": "बंगलुरु", "कॉ टन": "कॉटन", "अनु भाग": "अनुभाग", "सिए शन": "सिएशन", "दू त": "दूत", "ए ण्ड": "एण्ड", "प वन": "पवन", "उप भाषा": "उपभाषा", "म् परा": "म्परा", "भारत जनसंख्या": "भारतजनसंख्या", "बिष्णु पुर": "बिष्णुपुर", "छाया कार": "छायाकार", "मिनट देश": "मिनटदेश", "कारो बार": "कारोबार", "बे टा": "बेटा", "सौ ं": "सौं", "पुदु चेरी": "पुदुचेरी", "श त्रु": "शत्रु", "सा ग": "साग", "ठी क": "ठीक", "भूत पूर्व": "भूतपूर्व", "फ़ि लि": "फ़िलि", "फ़िलि पी": "फ़िलिपी", "न् ज़": "न्ज़", "उत्तरा खंड": "उत्तराखंड", "बेरी नाग": "बेरीनाग", "कस् बे": "कस्बे", "स्थि र": "स्थिर", "ध् द": "ध्द", "झु ं": "झुं", "झुं झु": "झुंझु", "झुंझु नू": "झुंझुनू", "सिरो ही": "सिरोही", "कि शन": "किशन", "म ट": "मट", "आ का": "आका", "धर मपुर": "धरमपुर", "बा जिदपुर": "बाजिदपुर", "बाली पुर": "बालीपुर", "उड ्ड": "उड्ड", "उड्ड यन": "उड्डयन", "ज ड़": "जड़", "बी स": "बीस", "डिज़ा इन": "डिज़ाइन", "प्रा णी": "प्राणी", "खो कर": "खोकर", "से ल": "सेल", "गणित ज्ञ": "गणितज्ञ", "गणिती य": "गणितीय", "भ क्त": "भक्त", "इ तनी": "इतनी", "झ ो": "झो", "ब जार": "बजार", "सो या": "सोया", "२०० २": "२००२", "नि देशक": "निदेशक", "भूमिका ओं": "भूमिकाओं", "जिम् मे": "जिम्मे", "देशा ंक": "देशांक", "पिना क": "पिनाक", "श्री राम": "श्रीराम", "देख ते": "देखते", "पुन ः": "पुनः", "रामा य": "रामाय", "रामाय ण": "रामायण", "ला स": "लास", "अमरी की": "अमरीकी", "प्रो फ़ेसर": "प्रोफ़ेसर", "डब् लिन": "डब्लिन", "एग्री कल्चरल": "एग्रीकल्चरल", "ट्यू ट": "ट्यूट", "२०० ४": "२००४", "२०० ८": "२००८", "श त": "शत", "प्रेसि डेंट": "प्रेसिडेंट", "मु द्रा": "मुद्रा", "त्रु टि": "त्रुटि", "औ पचारिक": "औपचारिक", "लक्षण ों": "लक्षणों", "ं व": "ंव", "प्रतिनि धि": "प्रतिनिधि", "बॉ क्स": "बॉक्स", "दृष्टिको ण": "दृष्टिकोण", "भी ड़": "भीड़", "मूर्ति यों": "मूर्तियों", "न्यूज़ी लैंड": "न्यूज़ीलैंड", "द् द": "द्द", "ती सरा": "तीसरा", "ठ े": "ठे", "रा धन": "राधन", "पि न": "पिन", "४ २": "४२", "गु र्": "गुर्", "ष् क": "ष्क", "नाथ पुर": "नाथपुर", "रा हा": "राहा", "ल स": "लस", "बिशु नपुर": "बिशुनपुर", "ग्रन् थ": "ग्रन्थ", "वर्गी करण": "वर्गीकरण", "अरु ण": "अरुण", "वास्त विक": "वास्तविक", "स् क": "स्क", "मे ज़": "मेज़", "से वन": "सेवन", "ऐ ंड": "ऐंड", "स स": "सस", "शिंग टन": "शिंगटन", "दिवसी य": "दिवसीय", "अकिनगा म": "अकिनगाम", "समा योजित": "समायोजित", "अभि व्यक्ति": "अभिव्यक्ति", "इ च्छा": "इच्छा", "अभ ्या": "अभ्या", "अ ं": "अं", "बि र": "बिर", "बा जार": "बाजार", "धनरू आ": "धनरूआ", "ज वान": "जवान", "श्व सन": "श्वसन", "प् टर": "प्टर", "इले क्ट्रॉन": "इलेक्ट्रॉन", "टोर ंटो": "टोरंटो", "अब् बा": "अब्बा", "१९ ७": "१९७", "फ़्रांसी सी": "फ़्रांसीसी", "लू सी": "लूसी", "डि फ़ार्": "डिफ़ार्", "डिफ़ार् गे": "डिफ़ार्गे", "शरा ब": "शराब", "दि ख": "दिख", "ब ग्": "बग्", "गणे श": "गणेश", "नक् शा": "नक्शा", "सू चित": "सूचित", "ग्रे ट": "ग्रेट", "ब्रि टेन": "ब्रिटेन", "हि स्सों": "हिस्सों", "ड़ि यों": "ड़ियों", "इन् हीं": "इन्हीं", "ँ ग": "ँग", "हु ँ": "हुँ", "ऑ टो": "ऑटो", "आर्मी निया": "आर्मीनिया", "अल् पसंख्यक": "अल्पसंख्यक", "गि ना": "गिना", "क्रि स्टो": "क्रिस्टो", "ड ्": "ड्", "गो स्वा": "गोस्वा", "गोस्वा मियों": "गोस्वामियों", "० ५": "०५", "श्री कृष्ण": "श्रीकृष्ण", "दी हा": "दीहा", "एल् ब": "एल्ब", "मा ध": "माध", "रू ढ़": "रूढ़", "रूढ़ ि": "रूढ़ि", "रूढ़ि वादी": "रूढ़िवादी", "मुला कात": "मुलाकात", "सा हा": "साहा", "एस आई": "एसआई", "२०० ९": "२००९", "खरा ब": "खराब", "कानू नी": "कानूनी", "वा णि": "वाणि", "कॉ म्": "कॉम्", "जो शी": "जोशी", "गौरा डीह": "गौराडीह", "पी र": "पीर", "पीर पै": "पीरपै", "पीरपै ंती": "पीरपैंती", "बी हपुर": "बीहपुर", "रंगरा चौक": "रंगराचौक", "सह कुंड": "सहकुंड", "मो नो": "मोनो", "चतुर् थ": "चतुर्थ", "वहा ँ": "वहाँ", "क ढ़ी": "कढ़ी", "कोर मा": "कोरमा", "वे ज": "वेज", "खी र": "खीर", "बादा म": "बादाम", "गुला ब": "गुलाब", "कार् बनिक": "कार्बनिक", "गवर् नमेंट": "गवर्नमेंट", "पढ़ ने": "पढ़ने", "आर एल": "आरएल", "मुश् किल": "मुश्किल", "एम एल": "एमएल", "हो गी": "होगी", "पा क": "पाक", "ब्लॉक बस्टर": "ब्लॉकबस्टर", "उ जरा": "उजरा", "उजरा ई": "उजराई", "कु बेरपुर": "कुबेरपुर", "गु रहा": "गुरहा", "च मरौला": "चमरौला", "बु ढ़": "बुढ़", "प चौरी": "पचौरी", "बी ल": "बील", "दा ऊ": "दाऊ", "परि हार": "परिहार", "बा मन": "बामन", "ओ ँ": "ओँ", "बा हूर": "बाहूर", "बो हमन": "बोहमन", "शे ल": "शेल", "ष क": "षक", "ल लित": "ललित", "शाह जहाँ": "शाहजहाँ", "शाहजहाँ पुर": "शाहजहाँपुर", "अधिकारि यों": "अधिकारियों", "कड़ गम": "कड़गम", "विचार धारा": "विचारधारा", "सी टों": "सीटों", "गृह स्वामी": "गृहस्वामी", "क वरे": "कवरे", "कवरे ज": "कवरेज", "प्रा धिकरण": "प्राधिकरण", "दि ग्": "दिग्", "गो एक": "गोएक", "आत् माराम": "आत्माराम", "वा पुर": "वापुर", "बरे ठी": "बरेठी", "की म": "कीम", "रानी पुर": "रानीपुर", "बा जपुर": "बाजपुर", "मेंढ क": "मेंढक", "गिर फ्": "गिरफ्", "गिरफ् तार": "गिरफ्तार", "न्याया धीश": "न्यायाधीश", "कोर् ट": "कोर्ट", "हे ना": "हेना", "हेना वी": "हेनावी", "वि रु": "विरु", "विरु द्ध": "विरुद्ध", "प्र बंध": "प्रबंध", "मि यर": "मियर", "स्व देशी": "स्वदेशी", "कार् बो": "कार्बो", "च यन": "चयन", "वर् धन": "वर्धन", "गेंदबा ज": "गेंदबाज", "श्री लंका": "श्रीलंका", "नि गरानी": "निगरानी", "से ट": "सेट", "सा इ": "साइ", "बा ह": "बाह", "रो मांटिक": "रोमांटिक", "सौ म्या": "सौम्या", "मौ सम": "मौसम", "मेट्रो पॉलि": "मेट्रोपॉलि", "मेट्रोपॉलि टन": "मेट्रोपॉलिटन", "फ् लाई": "फ्लाई", "दा दपुर": "दादपुर", "खि रिया": "खिरिया", "बस इया": "बसइया", "राजपू त": "राजपूत", "हि सा": "हिसा", "ऊंचा ई": "ऊंचाई", "य ंस": "यंस", "टाइटै निक": "टाइटैनिक", "मा व": "माव", "ख बर": "खबर", "दारा पुर": "दारापुर", "मु कु": "मुकु", "रु स्तमपुर": "रुस्तमपुर", "पं थ": "पंथ", "मू व": "मूव", "मूव मेंट": "मूवमेंट", "डा यबि": "डायबि", "डायबि टी": "डायबिटी", "डायबिटी ज": "डायबिटीज", "आईआई आईटी": "आईआईआईटी", "तिब् बती": "तिब्बती", "रसी दपुर": "रसीदपुर", "स्ट्री ट": "स्ट्रीट", "सै ं": "सैं", "दी र्घ": "दीर्घ", "प्रा गै": "प्रागै", "प्रागै तिहासिक": "प्रागैतिहासिक", "समी प": "समीप", "शि बू": "शिबू", "मु ंडा": "मुंडा", "ब ृ": "बृ", "नेट फ्लिक्स": "नेटफ्लिक्स", "फ्रांसी सी": "फ्रांसीसी", "जसली न": "जसलीन", "ब् लू": "ब्लू", "क्वाली फाई": "क्वालीफाई", "क ण": "कण", "मि शि": "मिशि", "मिशि गन": "मिशिगन", "एंजि ल्स": "एंजिल्स", "रि प्पन": "रिप्पन", "रि डे": "रिडे", "रिडे म्": "रिडेम्", "रिडेम् प्": "रिडेम्प्", "रिडेम्प् शन": "रिडेम्प्शन", "उत् खनन": "उत्खनन", "फी फा": "फीफा", "अ ट": "अट", "अट सेनी": "अटसेनी", "कु ं": "कुं", "हिल दा": "हिलदा", "हिलदा मित": "हिलदामित", "अरुंध ति": "अरुंधति", "थो ड़ा": "थोड़ा", "क्टि व": "क्टिव", "डि जि": "डिजि", "डिजि टल": "डिजिटल", "न जर": "नजर", "बहा दु": "बहादु", "अ दाल": "अदाल", "अदाल त": "अदालत", "ना ंग": "नांग", "छे द": "छेद", "का टा": "काटा", "थु न": "थुन", "आर ंभ": "आरंभ", "तत् काल": "तत्काल", "अ तः": "अतः", "शारी रिक": "शारीरिक", "अभि नीत": "अभिनीत", "रा णा": "राणा", "सह देव": "सहदेव", "देश भारतमूल": "देशभारतमूल", "ल ता": "लता", "त ृ": "तृ", "वर् मा": "वर्मा", "शे ट्टी": "शेट्टी", "पंद्रह वीं": "पंद्रहवीं", "व यन": "वयन", "चौ दह": "चौदह", "१९ ५": "१९५", "सि फारि": "सिफारि", "न ज": "नज", "अंग्रे जों": "अंग्रेजों", "भाष ी": "भाषी", "भ ले": "भले", "अध्यक्ष ता": "अध्यक्षता", "गा ज़ी": "गाज़ी", "ँ जा": "ँजा", "श्र द्धा": "श्रद्धा", "प्र भ": "प्रभ", "टिप् पणी": "टिप्पणी", "शा सकों": "शासकों", "का टने": "काटने", "म चा": "मचा", "था ली": "थाली", "ढ ू": "ढू", "वरा ह": "वराह", "रा स्ते": "रास्ते", "वै ष्ण": "वैष्ण", "हा स्य": "हास्य", "नि भाने": "निभाने", "ज़ मी": "ज़मी", "जम शे": "जमशे", "लो हर": "लोहर", "लोहर दगा": "लोहरदगा", "महा काव्य": "महाकाव्य", "ये गा": "येगा", "टु कड़े": "टुकड़े", "द्रो ण": "द्रोण", "नि भा": "निभा", "न ही": "नही", "शि र": "शिर", "गो द": "गोद", "ह ण": "हण", "वृ ष": "वृष", "व्या स": "व्यास", "पा यन": "पायन", "सौ ती": "सौती", "ह स्ति": "हस्ति", "ना पुर": "नापुर", "पहुंच ती": "पहुंचती", "अहि ंसा": "अहिंसा", "सू प": "सूप", "छत्र पति": "छत्रपति", "बा ड़": "बाड़", "बाड़ मेर": "बाड़मेर", "खजु रा": "खजुरा", "खजुरा हो": "खजुराहो", "महु वा": "महुवा", "मुज़ फ़्": "मुज़फ़्", "नीम च": "नीमच", "को न": "कोन", "रा ई": "राई", "प् पल्ली": "प्पल्ली", "ला ड़": "लाड़", "भर् ती": "भर्ती", "या ंत्रिक": "यांत्रिक", "ब जट": "बजट", "बा या": "बाया", "खेल ते": "खेलते", "वास्त व": "वास्तव", "पंजी कृत": "पंजीकृत", "प्रति दिन": "प्रतिदिन", "वि ज्ञा": "विज्ञा", "शेखा वा": "शेखावा", "शेखावा टी": "शेखावाटी", "ओ बा": "ओबा", "भू षण": "भूषण", "पड़ ो": "पड़ो", "चा म": "चाम", "कम् पोंग": "कम्पोंग", "प्रि य": "प्रिय", "सी ट": "सीट", "संक्षि प्त": "संक्षिप्त", "प्रचलित तेलुगू": "प्रचलिततेलुगू", "हैदराबाद विषय": "हैदराबादविषय", "अदिला बाद": "अदिलाबाद", "भद्रा द्री": "भद्राद्री", "को ठा": "कोठा", "कोठा गुड": "कोठागुड", "कोठागुड म": "कोठागुडम", "जगित्या ल": "जगित्याल", "भू पल": "भूपल", "भूपल पल्ली": "भूपलपल्ली", "ग द्": "गद्", "गद् वाल": "गद्वाल", "ख म्": "खम्", "खम् मम": "खम्मम", "को माराम": "कोमाराम", "आसि फ़ा": "आसिफ़ा", "आसिफ़ा बाद": "आसिफ़ाबाद", "महबू बा": "महबूबा", "महबूबा बाद": "महबूबाबाद", "मंचेरि यल": "मंचेरियल", "मे डक": "मेडक", "नगर करनू": "नगरकरनू", "नगरकरनू ल": "नगरकरनूल", "पे द्दा": "पेद्दा", "पेद्दा पल्ली": "पेद्दापल्ली", "सिद्दि पेट": "सिद्दिपेट", "विकारा बाद": "विकाराबाद", "वान पर्": "वानपर्", "वानपर् ति": "वानपर्ति", "हनु मकोंडा": "हनुमकोंडा", "यदा द्री": "यदाद्री", "भु वनगरी": "भुवनगरी", "रो बेर्": "रोबेर्", "सरली फ": "सरलीफ", "ं झा": "ंझा", "थि यो": "थियो", "क्रि श्": "क्रिश्", "क्रिश् चियन": "क्रिश्चियन", "ब् लो": "ब्लो", "डे ल": "डेल", "बॉ य": "बॉय", "ल् फ": "ल्फ", "मार्श ल": "मार्शल", "फिलि प": "फिलिप", "रोकथा म": "रोकथाम", "ग वा": "गवा", "ब् ला": "ब्ला", "शिया ई": "शियाई", "मु क": "मुक", "मे मोरि": "मेमोरि", "मेमोरि यल": "मेमोरियल", "भे द": "भेद", "पी ला": "पीला", "दा वा": "दावा", "वर्ष ी": "वर्षी", "वर्षी य": "वर्षीय", "च ढ़": "चढ़", "स वी": "सवी", "अधिक तर": "अधिकतर", "स्काउ ट्स": "स्काउट्स", "पे क्ष": "पेक्ष", "मि शन": "मिशन", "लौ ट": "लौट", "सम् पूर्ण": "सम्पूर्ण", "पर म्परा": "परम्परा", "प्राय ः": "प्रायः", "मे गा": "मेगा", "ध मा": "धमा", "कार् तिक": "कार्तिक", "आर् ट्स": "आर्ट्स", "कॉ मे": "कॉमे", "कॉमे डी": "कॉमेडी", "स्पे न": "स्पेन", "वि वे": "विवे", "उ ल": "उल", "मा स": "मास", "का बु": "काबु", "बे गम": "बेगम", "बा बा": "बाबा", "जु म्": "जुम्", "सा ह": "साह", "इ ब्": "इब्", "इब् न": "इब्न", "ह यात": "हयात", "बख् शी": "बख्शी", "कुतु ब": "कुतुब", "हा जी": "हाजी", "चौ खुटिया": "चौखुटिया", "मा हू": "माहू", "दर्श क": "दर्शक", "अ त": "अत", "ए व": "एव", "फॉ क्स": "फॉक्स", "दाहि ना": "दाहिना", "फ़िलिपी न्ज़": "फ़िलिपीन्ज़", "सि बु": "सिबु", "अव साद": "अवसाद", "ग हरी": "गहरी", "बाव जू": "बावजू", "बावजू द": "बावजूद", "ताप मान": "तापमान", "आगंतु क": "आगंतुक", "सिद्धा ंत": "सिद्धांत", "बा ंस": "बांस", "बांस वाड़ा": "बांसवाड़ा", "ौ ड़": "ौड़", "नर बारी": "नरबारी", "चाँ द": "चाँद", "बि छ": "बिछ", "की पुर": "कीपुर", "स लपुर": "सलपुर", "है वतपुर": "हैवतपुर", "जनर ल": "जनरल", "पाद प": "पादप", "पारि स्थितिकी": "पारिस्थितिकी", "अनु वांशिकी": "अनुवांशिकी", "नो लॉजी": "नोलॉजी", "टेलीवि ज़न": "टेलीविज़न", "गा यिका": "गायिका", "बच पन": "बचपन", "पूर्ण तः": "पूर्णतः", "त प्पा": "तप्पा", "मझु वा": "मझुवा", "डा ँ": "डाँ", "सा ँ": "साँ", "का ग": "काग", "प्रॉ सेस": "प्रॉसेस", "श्वे त": "श्वेत", "संतो ष": "संतोष", "नुक़ ्": "नुक़्", "गु र": "गुर", "उन को": "उनको", "ध्वनिया ं": "ध्वनियां", "फे यर": "फेयर", "जि ल": "जिल", "दिली प": "दिलीप", "इंड स्ट्री": "इंडस्ट्री", "बा ज़": "बाज़", "बन ती": "बनती", "अव स्था": "अवस्था", "व्या पारी": "व्यापारी", "सा ध": "साध", "तो ड़": "तोड़", "वि ष्णु": "विष्णु", "रामे श्वर": "रामेश्वर", "भि षेक": "भिषेक", "क द": "कद", "प्रतिद् वंदी": "प्रतिद्वंदी", "वि च": "विच", "सम् मिलित": "सम्मिलित", "के ॰": "के॰", "प्रति शत": "प्रतिशत", "टे क्": "टेक्", "क् वालि": "क्वालि", "चे क": "चेक", "इ ज": "इज", "१९९ ९": "१९९९", "कॉ मन्स": "कॉमन्स", "प्रक्रिया ओं": "प्रक्रियाओं", "तार क": "तारक", "आ श": "आश", "मनो विज्ञान": "मनोविज्ञान", "झ ू": "झू", "त्या ग": "त्याग", "आत् मा": "आत्मा", "बढ़ा वा": "बढ़ावा", "का व": "काव", "ज दूर": "जदूर", "ौ टा": "ौटा", "गो पाल": "गोपाल", "मा उ": "माउ", "ह द": "हद", "ची जों": "चीजों", "ऐ नी": "ऐनी", "द ंड": "दंड", "व्या ख्या": "व्याख्या", "ले बल": "लेबल", "र द्द": "रद्द", "भ य": "भय", "निकल ती": "निकलती", "क ब्": "कब्", "ग हन": "गहन", "स्कै न": "स्कैन", "कै ंसर": "कैंसर", "मस्ति ष्क": "मस्तिष्क", "चन्द्र मुखी": "चन्द्रमुखी", "य ंत्र": "यंत्र", "डु मरी": "डुमरी", "ना सिर": "नासिर", "महादेव पुर": "महादेवपुर", "नेस् ले": "नेस्ले", "खरी द": "खरीद", "स फे": "सफे", "सफे द": "सफेद", "नि न": "निन", "सेस ल": "सेसल", "वृ क्ष": "वृक्ष", "मु ल्ला": "मुल्ला", "रा ठ": "राठ", "सैन फिलिपो": "सैनफिलिपो", "प्र माण": "प्रमाण", "टाइ प": "टाइप", "हमे शा": "हमेशा", "आर डी": "आरडी", "डु प्": "डुप्", "डुप् लिकेट": "डुप्लिकेट", "रेडब्रि ज": "रेडब्रिज", "वुड फ़र्ड": "वुडफ़र्ड", "का ं": "कां", "पो लिस": "पोलिस", "पि परौर": "पिपरौर", "थ ौली": "थौली", "मलही पुर": "मलहीपुर", "दा हा": "दाहा", "टे घरा": "टेघरा", "इ मे": "इमे", "हे न": "हेन", "सं प्रदाय": "संप्रदाय", "सम्बद्ध ता": "सम्बद्धता", "अभ्या स": "अभ्यास", "झ रना": "झरना", "मो न": "मोन", "पुन पुन": "पुनपुन", "वॉ र": "वॉर", "आखि र": "आखिर", "कोरो ना": "कोरोना", "प्र कोप": "प्रकोप", "का स": "कास", "वायर ल": "वायरल", "रोगि यों": "रोगियों", "ंकू वर": "ंकूवर", "जु ड़ा": "जुड़ा", "हि न्द": "हिन्द", "ब जा": "बजा", "जब् त": "जब्त", "जब्त शुदा": "जब्तशुदा", "नज् में": "नज्में", "वि ष": "विष", "क्रो ध": "क्रोध", "अंत तः": "अंततः", "चला या": "चलाया", "सं योग": "संयोग", "मार किस": "मारकिस", "पूर् ति": "पूर्ति", "उ छा": "उछा", "बुला या": "बुलाया", "ता ंडव": "तांडव", "परि भाषित": "परिभाषित", "मु द्दों": "मुद्दों", "नगरी य": "नगरीय", "औ द्योगिक": "औद्योगिक", "६ ६": "६६", "ओ ख": "ओख", "तन हुँ": "तनहुँ", "चैं पियन": "चैंपियन", "उ मर": "उमर", "मै थ्यू": "मैथ्यू", "आर्मीनिया ई": "आर्मीनियाई", "प्र चार": "प्रचार", "महा प्रभु": "महाप्रभु", "पर म": "परम", "८ ६": "८६", "८ ८": "८८", "अ दृश्य": "अदृश्य", "भ ट": "भट", "अद् भु": "अद्भु", "अद्भु त": "अद्भुत", "उ भरते": "उभरते", "शाहो पुर": "शाहोपुर", "शर फ": "शरफ", "भावना ओं": "भावनाओं", "एल्ब म": "एल्बम", "फ़र् नान्डि": "फ़र्नान्डि", "फ़र्नान्डि स": "फ़र्नान्डिस", "सदा शिव": "सदाशिव", "ऐ ं": "ऐं", "२० २०": "२०२०", "ग्री क": "ग्रीक", "थी म": "थीम", "क्रि ए": "क्रिए", "टि व": "टिव", "श गुन": "शगुन", "स गाई": "सगाई", "ब बली": "बबली", "चटर् जी": "चटर्जी", "जिम्ना स्ट": "जिम्नास्ट", "कानू न": "कानून", "दे ना": "देना", "गई ं": "गईं", "वार् षिक": "वार्षिक", "अ ण्": "अण्", "माइक्रो सॉफ्ट": "माइक्रोसॉफ्ट", "वाता वरण": "वातावरण", "पै क्ट": "पैक्ट", "पॉ केट": "पॉकेट", "ए एसआई": "एएसआई", "सू स": "सूस", "भीड़ चक": "भीड़चक", "कल्याण पुर": "कल्याणपुर", "च तुर": "चतुर", "आयु र्": "आयुर्", "मौ खिक": "मौखिक", "व्या पी": "व्यापी", "चना ब": "चनाब", "न दियों": "नदियों", "बा ंध": "बांध", "वॉर्ट हॉ": "वॉर्टहॉ", "वॉर्टहॉ ग": "वॉर्टहॉग", "उद् भव": "उद्भव", "उ ट": "उट", "जले बी": "जलेबी", "माल पु": "मालपु", "पो ली": "पोली", "सब् जी": "सब्जी", "हलु आ": "हलुआ", "झ िया": "झिया", "स्टे ट": "स्टेट", "गा व": "गाव", "अन ंतराम": "अनंतराम", "श म्भू": "शम्भू", "गु गल": "गुगल", "फ़ौ ंट": "फ़ौंट", "एचटी एमएल": "एचटीएमएल", "प् लै": "प्लै", "बा सु": "बासु", "घ े": "घे", "ग ट्टे": "गट्टे", "ज़ ु": "ज़ु", "फि श": "फिश", "प्रणा लियों": "प्रणालियों", "का जी": "काजी", "ब ंग": "बंग", "एतमा दपुर": "एतमादपुर", "अग वरखास": "अगवरखास", "अमन बाद": "अमनबाद", "कुर गावाँ": "कुरगावाँ", "खे ड़िया": "खेड़िया", "खे ड़ी": "खेड़ी", "पि र्": "पिर्", "पिर् थी": "पिर्थी", "ग दु": "गदु", "गदु पुरा": "गदुपुरा", "गि जौली": "गिजौली", "चा ओ": "चाओ", "चाओ ली": "चाओली", "चि रहौली": "चिरहौली", "चौ गान": "चौगान", "छु हारपुर": "छुहारपुर", "जमनी पुर": "जमनीपुर", "भ ई": "भई", "भई ंस": "भईंस", "जा मपुर": "जामपुर", "तमंच गढ़": "तमंचगढ़", "तला ब": "तलाब", "बुढ़ िया": "बुढ़िया", "ध ंगरौली": "धंगरौली", "ध उर्रा": "धउर्रा", "धोरा उ": "धोराउ", "शु माली": "शुमाली", "निश ंख": "निशंख", "बरि आमदन": "बरिआमदन", "महा सिंह": "महासिंह", "न दाऊ": "नदाऊ", "ने कपुर": "नेकपुर", "पर बतपुर": "परबतपुर", "पेसा ई": "पेसाई", "पो इया": "पोइया", "बिरु नी": "बिरुनी", "बे नई": "बेनई", "बैलो थ": "बैलोथ", "भगु पुर": "भगुपुर", "भी खनपुर": "भीखनपुर", "ब करपुर": "बकरपुर", "मलु पुर": "मलुपुर", "मह बतपुर": "महबतपुर", "मित ौली": "मितौली", "मुख वर": "मुखवर", "नि धौली": "निधौली", "मुरली धरपुर": "मुरलीधरपुर", "मोहि सिना": "मोहिसिना", "मोहिसिना बाद": "मोहिसिनाबाद", "यू सुफ़": "यूसुफ़", "यूसुफ़ पुर": "यूसुफ़पुर", "र मनगढ़": "रमनगढ़", "रूप धनु": "रूपधनु", "जनू बी": "जनूबी", "सि योरा": "सियोरा", "सि होर": "सिहोर", "सिहोर गढ़": "सिहोरगढ़", "सुरे हरा": "सुरेहरा", "से मरा": "सेमरा", "सै फ़ु": "सैफ़ु", "सैफ़ु द्दीनपुर": "सैफ़ुद्दीनपुर", "हसना बाद": "हसनाबाद", "को सा": "कोसा", "तालु का": "तालुका", "बो हमैन": "बोहमैन", "रु चि": "रुचि", "व ू": "वू", "जोड़ ती": "जोड़ती", "प्रश ंसा": "प्रशंसा", "ढा का": "ढाका", "समझ ने": "समझने", "जन सांख्यिकी": "जनसांख्यिकी", "उप ज़िलों": "उपज़िलों", "देबी द्": "देबीद्", "देबीद् बार": "देबीद्बार", "कु मिल्ला": "कुमिल्ला", "सिरी चंदपुर": "सिरीचंदपुर", "मू सी": "मूसी", "सु चंद्र": "सुचंद्र", "पटे ल": "पटेल", "ए ॰": "ए॰", "मोर् चा": "मोर्चा", "कै थ": "कैथ", "एम ॰": "एम॰", "विभा जित": "विभाजित", "क वर": "कवर", "गोएक तुर्क": "गोएकतुर्क", "परि संघ": "परिसंघ", "इंडो ने": "इंडोने", "शास्त्रार् थ": "शास्त्रार्थ", "ह ंडिया": "हंडिया", "मु गरा": "मुगरा", "कट हरा": "कटहरा", "कि शु": "किशु", "रु द्दीनपुर": "रुद्दीनपुर", "गुड़ गाँव": "गुड़गाँव", "छा पा": "छापा", "घि री": "घिरी", "चं पा": "चंपा", "बा ढ़": "बाढ़", "सी पुर": "सीपुर", "गै या": "गैया", "सा बाद": "साबाद", "भगौ तीपुर": "भगौतीपुर", "भागी पुर": "भागीपुर", "मनी पुर": "मनीपुर", "रि थ": "रिथ", "सा ओ": "साओ", "शाही पुर": "शाहीपुर", "धी पुर": "धीपुर", "इस् माइल": "इस्माइल", "सले हपुर": "सलेहपुर", "हर चंदपुर": "हरचंदपुर", "हर दासपुर": "हरदासपुर", "बा इडे": "बाइडे", "बाइडे न": "बाइडेन", "दुर् लभ": "दुर्लभ", "केशो पुर": "केशोपुर", "र म": "रम", "अना स्ता": "अनास्ता", "अनास्ता सिया": "अनास्तासिया", "वी डियो": "वीडियो", "शिया ओं": "शियाओं", "मध्य युगी": "मध्ययुगी", "मध्ययुगी न": "मध्ययुगीन", "मिर् जा": "मिर्जा", "दे ल": "देल", "वै त": "वैत", "पार् वती": "पार्वती", "गो नन्द": "गोनन्द", "गै स": "गैस", "को यला": "कोयला", "प्री मियर": "प्रीमियर", "थाई लैंड": "थाईलैंड", "मा जरा": "माजरा", "ए जेंसी": "एजेंसी", "सेवा एं": "सेवाएं", "भागी दारी": "भागीदारी", "वेश्या वृत्ति": "वेश्यावृत्ति", "को सो": "कोसो", "कोसो वो": "कोसोवो", "ऑ क्सी": "ऑक्सी", "कार्बो नेट": "कार्बोनेट", "पक्षि यों": "पक्षियों", "१९६ ४": "१९६४", "पं ॰": "पं॰", "श्री मती": "श्रीमती", "वै भव": "वैभव", "ट्रॉ फी": "ट्रॉफी", "लर् निंग": "लर्निंग", "डी प": "डीप", "पै सि": "पैसि", "पैसि व": "पैसिव", "व्या करण": "व्याकरण", "ग ंडक": "गंडक", "घा घरा": "घाघरा", "यू क्रे": "यूक्रे", "कन्दु कोंदै": "कन्दुकोंदै", "कन्दुकोंदै न": "कन्दुकोंदैन", "डि पो": "डिपो", "रे न": "रेन", "इमा दपुर": "इमादपुर", "उपयोग कर्ताओं": "उपयोगकर्ताओं", "ब्र दर": "ब्रदर", "रू चि": "रूचि", "शति मान": "शतिमान", "रि यल": "रियल", "शा सक": "शासक", "लख मार": "लखमार", "गोसा ई": "गोसाई", "जम् हूरी": "जम्हूरी", "कम्यु निस्ट": "कम्युनिस्ट", "शि ष्य": "शिष्य", "प्ले ऑफ": "प्लेऑफ", "ऋ चा": "ऋचा", "आयर लैंड": "आयरलैंड", "ब् लड": "ब्लड", "शु गर": "शुगर", "पार् श्व": "पार्श्व", "मेज़ बान": "मेज़बान", "बुद्ध देव": "बुद्धदेव", "समर् पणानन्द": "समर्पणानन्द", "आण विक": "आणविक", "खगोल शास्त्र": "खगोलशास्त्र", "दीर्घ चोंच": "दीर्घचोंच", "मोनो ट्री": "मोनोट्री", "टै की": "टैकी", "टैकी ग्लो": "टैकीग्लो", "सी ॰": "सी॰", "मो क्ष": "मोक्ष", "मल् लिका": "मल्लिका", "सारा भाई": "साराभाई", "ब प्पी": "बप्पी", "मनी षा": "मनीषा", "फि फ्टी": "फिफ्टी", "चै प्टर": "चैप्टर", "हावर् थ": "हावर्थ", "ऑस्ट्रो ने": "ऑस्ट्रोने", "ऑस्ट्रोने शियन": "ऑस्ट्रोनेशियन", "भूगोलवे त्ता": "भूगोलवेत्ता", "घि रनी": "घिरनी", "बै ठ": "बैठ", "मा हिया": "माहिया", "पि च": "पिच", "पि ंक": "पिंक", "रि ंग": "रिंग", "एक्स टेंशन": "एक्सटेंशन", "कड़कड़ डू": "कड़कड़डू", "कड़कड़डू मा": "कड़कड़डूमा", "उपलब्धि यों": "उपलब्धियों", "दूता वास": "दूतावास", "अफ्री की": "अफ्रीकी", "ट्रू मैन": "ट्रूमैन", "रि श्ते": "रिश्ते", "एडि नबर्ग": "एडिनबर्ग", "बो सॉन": "बोसॉन", "से वर्त्": "सेवर्त्", "सेवर्त् ज़ो": "सेवर्त्ज़ो", "गॉ ड": "गॉड", "सर्व प्रथम": "सर्वप्रथम", "एलि ज़ा": "एलिज़ा", "एलिज़ा बेथ": "एलिज़ाबेथ", "शो ले": "शोले", "ग्लो बल": "ग्लोबल", "क्रे ग": "क्रेग", "लीग चैम्पियनशिप": "लीगचैम्पियनशिप", "वा इसी": "वाइसी", "वाइसी रॉय": "वाइसीरॉय", "पू ंजी": "पूंजी", "बा य": "बाय", "हा ंदे": "हांदे", "कपि मी": "कपिमी", "दा ह": "दाह", "ऐ वन": "ऐवन", "मरा ंडी": "मरांडी", "गुस्ता विया": "गुस्ताविया", "मुस्त फ़ा": "मुस्तफ़ा", "गण धर": "गणधर", "ह वा": "हवा", "ज़ म्बो": "ज़म्बो", "ज़म्बो आ": "ज़म्बोआ", "ज़म्बोआ ंगा": "ज़म्बोआंगा", "बली पुर": "बलीपुर", "ग्रं थों": "ग्रंथों", "संस्था ओं": "संस्थाओं", "डा यरे": "डायरे", "कॉलो नी": "कॉलोनी", "स्वा धीन": "स्वाधीन", "मंत्री मंडल": "मंत्रीमंडल", "कह कर": "कहकर", "डी डी": "डीडी", "जै मिनी": "जैमिनी", "सा क्षी": "साक्षी", "फ् ले": "फ्ले", "टे ल": "टेल", "फ़ॉ र": "फ़ॉर", "दर बार": "दरबार", "गुआ ंग्": "गुआंग्", "गुआंग् शु": "गुआंग्शु", "बुद्धि मान": "बुद्धिमान", "प्रो त्साहित": "प्रोत्साहित", "क् वार्": "क्वार्", "निरो ध": "निरोध", "प्र यो": "प्रयो", "फा य": "फाय", "फाय दे": "फायदे", "जोखि म": "जोखिम", "जन नांग": "जननांग", "कि ंतु": "किंतु", "मै थुन": "मैथुन", "नियो जन": "नियोजन", "क् शन": "क्शन", "गति विधियों": "गतिविधियों", "ं ह": "ंह", "यू ष": "यूष", "शिव पुरी": "शिवपुरी", "का कुल": "काकुल", "ऋष भ": "ऋषभ", "आ हू": "आहू", "आहू जा": "आहूजा", "दो स्त": "दोस्त", "ओ म": "ओम", "ने हा": "नेहा", "रे श": "रेश", "क्रियान् वयन": "क्रियान्वयन", "प्रगति शील": "प्रगतिशील", "यो ल": "योल", "ज ॉ": "जॉ", "जॉ य": "जॉय", "स्वा यत्त": "स्वायत्त", "गठ ित": "गठित", "सिफारि श": "सिफारिश", "ब ंट": "बंट", "नज दी": "नजदी", "नवी न": "नवीन", "ब ँ": "बँ", "ख़ ु": "ख़ु", "उन् होने": "उन्होने", "आ क्रमण": "आक्रमण", "फ ौ": "फौ", "मिठा इयां": "मिठाइयां", "डे जर्": "डेजर्", "डेजर् ट": "डेजर्ट", "होने वाले": "होनेवाले", "पै री": "पैरी", "प वित्र": "पवित्र", "तेली न": "तेलीन", "दे कर": "देकर", "पु ल": "पुल", "वैष्ण व": "वैष्णव", "सम् प्रदाय": "सम्प्रदाय", "पाल घर": "पालघर", "अडा णी": "अडाणी", "न कारात्मक": "नकारात्मक", "एं थो": "एंथो", "एंथो नी": "एंथोनी", "आँ ख": "आँख", "दु मका": "दुमका", "जमशे दपुर": "जमशेदपुर", "श ला": "शला", "क्ष त्र": "क्षत्र", "विरा ट": "विराट", "भी ष्": "भीष्", "भीष् म": "भीष्म", "उ ग्र": "उग्र", "कुरु क्षेत्र": "कुरुक्षेत्र", "छू ट": "छूट", "छूट ती": "छूटती", "रेलगाड़ियाँ अगरतला": "रेलगाड़ियाँअगरतला", "अल् ले": "अल्ले", "अल्ले प्पी": "अल्लेप्पी", "हाव डा": "हावडा", "अग्नि बीना": "अग्निबीना", "बल् हार": "बल्हार", "बल्हार शाह": "बल्हारशाह", "बल् लिया": "बल्लिया", "बा पू": "बापू", "बापू धाम": "बापूधाम", "बारी पदा": "बारीपदा", "भाग यनागर": "भागयनागर", "कन्न नोरे": "कन्ननोरे", "वि ज़": "विज़", "विज़ ग": "विज़ग", "डा यो": "डायो", "डायो डा": "डायोडा", "डायोडा या": "डायोडाया", "रो हिल्ला": "रोहिल्ला", "देव गिरी": "देवगिरी", "धु ले": "धुले", "दी मापुर": "दीमापुर", "डू न": "डून", "गुरीवा यूर": "गुरीवायूर", "झा झा": "झाझा", "हरि प्रिया": "हरिप्रिया", "हीरा कु": "हीराकु", "हीराकु ड": "हीराकुड", "हीरा खंड": "हीराखंड", "कोरा पुट": "कोरापुट", "ओ स्": "ओस्", "ओस् माना": "ओस्माना", "ओस्माना बाद": "ओस्मानाबाद", "इ बाद": "इबाद", "इबाद त": "इबादत", "भो नगीर": "भोनगीर", "ग् वेलियार": "ग्वेलियार", "जा मनगर": "जामनगर", "ज्ञ म्": "ज्ञम्", "ज्ञम् नगर्": "ज्ञम्नगर्", "ज्ञम्नगर् श्रु": "ज्ञम्नगर्श्रु", "ज्ञम्नगर्श्रु रत": "ज्ञम्नगर्श्रुरत", "गाँधी धाम": "गाँधीधाम", "खुर् जा": "खुर्जा", "अल् लहा": "अल्लहा", "अल्लहा बाद": "अल्लहाबाद", "क क्": "कक्", "कक् वल": "कक्वल", "ब् व्": "ब्व्", "ब्व् क": "ब्व्क", "एक् शप्रेस": "एक्शप्रेस", "कोल् हापुर": "कोल्हापुर", "म च्": "मच्", "मच् लि": "मच्लि", "मच्लि पत्नाम": "मच्लिपत्नाम", "म चिलि": "मचिलि", "मचिलि पत्नाम": "मचिलिपत्नाम", "मदु र": "मदुर", "मदुर ई": "मदुरई", "मै त्री": "मैत्री", "मंडु आ": "मंडुआ", "मंडुआ डीह": "मंडुआडीह", "मराठ वाडा": "मराठवाडा", "म यिला": "मयिला", "मयिला डु": "मयिलाडु", "मयिलाडु तुर": "मयिलाडुतुर", "मयिलाडुतुर ई": "मयिलाडुतुरई", "मुज़फ़् फ़रपुर": "मुज़फ़्फ़रपुर", "माइज़ ॉ": "माइज़ॉ", "माइज़ॉ यर": "माइज़ॉयर", "नाग वली": "नागवली", "ना सिक": "नासिक", "कु च्": "कुच्", "कुच् बेहर": "कुच्बेहर", "पलामो ऊ": "पलामोऊ", "पुरु लिया": "पुरुलिया", "राय गडा": "रायगडा", "रे वारी": "रेवारी", "सीमान चल": "सीमानचल", "शेषा द्री": "शेषाद्री", "सि उरी": "सिउरी", "त ँजा": "तँजा", "तँजा उर": "तँजाउर", "कुंब कोन": "कुंबकोन", "कुंबकोन ं": "कुंबकोनं", "माइल दु": "माइलदु", "माइलदु टु": "माइलदुटु", "माइलदुटु राई": "माइलदुटुराई", "तिरु च्चि": "तिरुच्चि", "तिरुच्चि रा": "तिरुच्चिरा", "तिरुच्चिरा प्पल्ली": "तिरुच्चिराप्पल्ली", "तू तिकोरि": "तूतिकोरि", "तूतिकोरि न": "तूतिकोरिन", "टू टी": "टूटी", "टूटी कोरि": "टूटीकोरि", "टूटीकोरि न": "टूटीकोरिन", "उ अभा": "उअभा", "भी लाड़": "भीलाड़", "रेल देवासंभारतीय": "रेलदेवासंभारतीय", "रेल प्राधिकारी": "रेलप्राधिकारी", "रेलप्राधिकारी रेल": "रेलप्राधिकारीरेल", "भवन संबंधित": "भवनसंबंधित", "विद्युती करण": "विद्युतीकरण", "ज़ो नमध्य": "ज़ोनमध्य", "पूर्व मध्य": "पूर्वमध्य", "रेले वे": "रेलेवे", "रेलवे उत्पादन": "रेलवेउत्पादन", "इकाई याँ": "इकाईयाँ", "इकाईयाँ बनारस": "इकाईयाँबनारस", "डि ब्": "डिब्", "डिब् बा": "डिब्बा", "गाड़िया एक्सप्रेस": "गाड़ियाएक्सप्रेस", "जन शताब्दी": "जनशताब्दी", "गाड़िया पैलेस": "गाड़ियापैलेस", "दक् खन": "दक्खन", "संस्थान भारतीय": "संस्थानभारतीय", "संस्थान संबंधित": "संस्थानसंबंधित", "लेख तत्काल": "लेखतत्काल", "अथर् व": "अथर्व", "हर फ": "हरफ", "वा क्य": "वाक्य", "ब्राह्मण ों": "ब्राह्मणों", "चित्र कला": "चित्रकला", "हा ओबा": "हाओबा", "हाओबा म": "हाओबाम", "रा स": "रास", "विशेषज्ञ ता": "विशेषज्ञता", "मोन्दू लकिरी": "मोन्दूलकिरी", "सीमा एँ": "सीमाएँ", "पड़ो सी": "पड़ोसी", "बहु संख्यक": "बहुसंख्यक", "जीवन चरित": "जीवनचरित", "लू णी": "लूणी", "वि रह": "विरह", "भारतप्रान्त तमिल": "भारतप्रान्ततमिल", "लिमा ह": "लिमाह", "रोबेर् ता": "रोबेर्ता", "ग बो": "गबो", "गबो वी": "गबोवी", "लाइ बेरिया": "लाइबेरिया", "लियो न": "लियोन", "आर् थर": "आर्थर", "शरणार् थियों": "शरणार्थियों", "गि न": "गिन", "जो से": "जोसे", "जोसे फ": "जोसेफ", "जो डी": "जोडी", "दे ई": "देई", "यु नु": "युनु", "युनु स": "युनुस", "यूरोपी य": "यूरोपीय", "षे ध": "षेध", "कैला श": "कैलाश", "पशु गमन": "पशुगमन", "आकर् षण": "आकर्षण", "य द्य": "यद्य", "यद्य पि": "यद्यपि", "अपरा ध": "अपराध", "मुज़ ता": "मुज़ता", "मुज़ता ग़": "मुज़ताग़", "उद ग्रता": "उदग्रता", "जगदी श": "जगदीश", "रो चक": "रोचक", "बौ क्स": "बौक्स", "जा वा": "जावा", "पै ट्रिक": "पैट्रिक", "हुई ं": "हुईं", "बर् ष": "बर्ष", "शा यर": "शायर", "बोल ते": "बोलते", "नूरि स्तानी": "नूरिस्तानी", "अनुया यी": "अनुयायी", "अनु मान": "अनुमान", "क़ ्": "क़्", "रो मानिया": "रोमानिया", "ट्रि ब्यू": "ट्रिब्यू", "ट्रिब्यू न": "ट्रिब्यून", "मि स": "मिस", "गुप्त चरी": "गुप्तचरी", "कलक त्ता": "कलकत्ता", "स्वे च्छा": "स्वेच्छा", "ओ ल्ड": "ओल्ड", "एसो सिएशन": "एसोसिएशन", "राज दूत": "राजदूत", "वर् ल्ड": "वर्ल्ड", "सा क्षात्": "साक्षात्", "साक्षात् कार": "साक्षात्कार", "उ क": "उक", "पक वान": "पकवान", "गु ज़रता": "गुज़रता", "धमा का": "धमाका", "अभिनेता ओं": "अभिनेताओं", "बै क": "बैक", "आलो चकों": "आलोचकों", "दो हरी": "दोहरी", "आ दमी": "आदमी", "काबु ली": "काबुली", "इब्रा हिम": "इब्राहिम", "मि श": "मिश", "जुम् मा": "जुम्मा", "कासि म": "कासिम", "कि द": "किद", "का ज़ि": "काज़ि", "मे ट": "मेट", "ज़ ल": "ज़ल", "रा बाद": "राबाद", "खि ल": "खिल", "ब द": "बद", "हु गली": "हुगली", "धर्म शाला": "धर्मशाला", "की ट": "कीट", "पौ धों": "पौधों", "मि मी": "मिमी", "ँ ड़": "ँड़", "फ स": "फस", "इन से": "इनसे", "मा दा": "मादा", "डि ज़नी": "डिज़नी", "स्वा मित्व": "स्वामित्व", "एनएसबु गा": "एनएसबुगा", "बा ज": "बाज", "ले यते": "लेयते", "राज भाषा": "राजभाषा", "कोड आइ": "कोडआइ", "कोडआइ एस": "कोडआइएस", "कोडआइएस ओ": "कोडआइएसओ", "त गा": "तगा", "गंगोली हाट": "गंगोलीहाट", "बोल चाल": "बोलचाल", "एनी वा": "एनीवा", "चि टो": "चिटो", "अनु पात": "अनुपात", "पर्य टकों": "पर्यटकों", "मी मांसा": "मीमांसा", "स वाई": "सवाई", "जै स": "जैस", "जैस लमेर": "जैसलमेर", "खै र": "खैर", "आ दमपुर": "आदमपुर", "उन्त सनी": "उन्तसनी", "बरा ह": "बराह", "हबी बपुर": "हबीबपुर", "वर्ष गांठ": "वर्षगांठ", "उप भो": "उपभो", "उपभो क्ता": "उपभोक्ता", "उपकरण ों": "उपकरणों", "पर्य वे": "पर्यवे", "उप पा": "उपपा", "उपपा च": "उपपाच", "उद् गम": "उद्गम", "सूरी नाम": "सूरीनाम", "बारि श": "बारिश", "वाज पेयी": "वाजपेयी", "बहु मत": "बहुमत", "१९ ३१": "१९३१", "वर ः": "वरः", "वरः मिहिर": "वरःमिहिर", "झ लक": "झलक", "ऋ ग्": "ऋग्", "ऋग् वेद": "ऋग्वेद", "उन् हीं": "उन्हीं", "बाँ झो": "बाँझो", "जिला के": "जिलाके", "चो क": "चोक", "सा पानी": "सापानी", "चु ला": "चुला", "पशु पति": "पशुपति", "पु वा": "पुवा", "बो टे": "बोटे", "माइ पोखरी": "माइपोखरी", "सा क": "साक", "आ ंशिक": "आंशिक", "लिपि यों": "लिपियों", "जी म": "जीम", "मान ना": "मानना", "कॉर् नेल": "कॉर्नेल", "१९९ ५": "१९९५", "स्टी व": "स्टीव", "फ़े यर": "फ़ेयर", "७ ०": "७०", "कैलि फोर्": "कैलिफोर्", "कैलिफोर् निया": "कैलिफोर्निया", "दिल् लगी": "दिल्लगी", "का जो": "काजो", "काजो ल": "काजोल", "समृ द्ध": "समृद्ध", "चो ट": "चोट", "बॉ म्बे": "बॉम्बे", "स्व भाव": "स्वभाव", "ले ता": "लेता", "ची ज": "चीज", "तीर्थ यात्री": "तीर्थयात्री", "बता ई": "बताई", "आध्यात् मिक": "आध्यात्मिक", "कॉ मंस": "कॉमंस", "घ ्": "घ्", "मे घना": "मेघना", "राज्या भिषेक": "राज्याभिषेक", "स् लै": "स्लै", "स्लै म": "स्लैम", "रो म": "रोम", "छे त्र": "छेत्र", "कम्प्यू टरी": "कम्प्यूटरी", "कम्प्यूटरी कृत": "कम्प्यूटरीकृत", "अन्तर राष्ट्रीय": "अन्तरराष्ट्रीय", "२०० ६": "२००६", "मेरि ट": "मेरिट", "यू ॰": "यू॰", "इंस्टि ट्यूट": "इंस्टिट्यूट", "फे लो": "फेलो", "श्र ंखला": "श्रंखला", "ग्रं थ": "ग्रंथ", "मान सिक": "मानसिक", "दाहि नी": "दाहिनी", "जीव विज्ञान": "जीवविज्ञान", "आश य": "आशय", "का य": "काय", "त्रुटि यों": "त्रुटियों", "कल् पना": "कल्पना", "कठ ोर": "कठोर", "ख तरा": "खतरा", "दार् शनिक": "दार्शनिक", "जि ंद": "जिंद", "जिंद गी": "जिंदगी", "स्थिति यों": "स्थितियों", "डा ला": "डाला", "कार्य वाही": "कार्यवाही", "बा इ": "बाइ", "घू मर": "घूमर", "ब ई": "बई", "माउ ंट": "माउंट", "प्रथा ओं": "प्रथाओं", "डी एनए": "डीएनए", "वि यत": "वियत", "से ब": "सेब", "लि वर": "लिवर", "लिवर पू": "लिवरपू", "लिवरपू ल": "लिवरपूल", "अव स्थित": "अवस्थित", "नि ः": "निः", "दाहि ने": "दाहिने", "दूर भाष": "दूरभाष", "बिल् हौर": "बिल्हौर", "जा ँच": "जाँच", "देखरे ख": "देखरेख", "था यराइड": "थायराइड", "मांस पेशि": "मांसपेशि", "मांसपेशि यों": "मांसपेशियों", "इला ज": "इलाज", "गम्भी र": "गम्भीर", "बीमारि यों": "बीमारियों", "श् त": "श्त", "सिरी यल": "सिरीयल", "प च": "पच", "य पुरा": "यपुरा", "ब थानी": "बथानी", "कि ट": "किट", "कै ट": "कैट", "आरो प": "आरोप", "पो लैंड": "पोलैंड", "सेसल पिनिया": "सेसलपिनिया", "पे ड़": "पेड़", "न न्": "नन्", "फू ल": "फूल", "पी ले": "पीले", "ब ंश": "बंश", "वि र्": "विर्", "पा णि": "पाणि", "र ंजीत": "रंजीत", "अनु ज": "अनुज", "जस वंत": "जसवंत", "वा टोर": "वाटोर", "ऑपरे टिंग": "ऑपरेटिंग", "फै सला": "फैसला", "बी एम": "बीएम", "आ देश": "आदेश", "ता ओं": "ताओं", "डि स्क": "डिस्क", "प्र कृति": "प्रकृति", "हा उ": "हाउ", "टा वर": "टावर", "कां फ्रेंस": "कांफ्रेंस", "मै दान": "मैदान", "फा ल्": "फाल्", "लुई स": "लुईस", "य ज्ञ": "यज्ञ", "े श्वर": "ेश्वर", "बा ढ": "बाढ", "भा स्करा": "भास्करा", "सि स": "सिस", "से मरिया": "सेमरिया", "ह ँ": "हँ", "खुदा बंदपुर": "खुदाबंदपुर", "गढ पुरा": "गढपुरा", "छ ौरा": "छौरा", "छौरा ही": "छौराही", "दन डारी": "दनडारी", "नवको थी": "नवकोथी", "ब खरी": "बखरी", "बछ वारा": "बछवारा", "मन सूर": "मनसूर", "मनसूर चक": "मनसूरचक", "अन ंतनाग": "अनंतनाग", "क्यो टो": "क्योटो", "यू नेस्को": "यूनेस्को", "जो कि": "जोकि", "जाए गी": "जाएगी", "ओ टो": "ओटो", "सा मू": "सामू", "व जी": "वजी", "स श": "सश", "सश स्त्र": "सशस्त्र", "जमी न": "जमीन", "नी ंव": "नींव", "योगे श": "योगेश", "समन् व": "समन्व", "स्क्रि प्": "स्क्रिप्", "स्क्रिप् ट": "स्क्रिप्ट", "सं लक्षण": "संलक्षण", "कोरोना वायरस": "कोरोनावायरस", "कोरो नोवायरस": "कोरोनोवायरस", "प्रेर क": "प्रेरक", "समानता एं": "समानताएं", "वै ंकूवर": "वैंकूवर", "लड़ ने": "लड़ने", "डो नाल्ड": "डोनाल्ड", "उत् पत्ति": "उत्पत्ति", "त ड़": "तड़", "क ब": "कब", "जि र": "जिर", "उ ठ": "उठ", "३ २": "३२", "डिके न्स": "डिकेन्स", "अभि जात्य": "अभिजात्य", "क्रांतिकारि यों": "क्रांतिकारियों", "स वार": "सवार", "कै द": "कैद", "धा गा": "धागा", "गौरी पुर": "गौरीपुर", "जानी पुर": "जानीपुर", "देवासं मुंगेर": "देवासंमुंगेर", "असर गंज": "असरगंज", "फे डरेशन": "फेडरेशन", "ऋष ि": "ऋषि", "स्तो त्र": "स्तोत्र", "भै रव": "भैरव", "पंच म": "पंचम", "मृ दा": "मृदा", "ब ंजर": "बंजर", "तिब् बत": "तिब्बत", "रामे छा": "रामेछा", "रामेछा प": "रामेछाप", "ढ ु": "ढु", "जर कोट": "जरकोट", "फा इटिंग": "फाइटिंग", "प्रति स्पर्धा": "प्रतिस्पर्धा", "किंगड म": "किंगडम", "टे ट": "टेट", "ऑटो मान": "ऑटोमान", "जन संहार": "जनसंहार", "रे गि": "रेगि", "क्रिस्टो फर": "क्रिस्टोफर", "वृ ंदा": "वृंदा", "वृंदा वन": "वृंदावन", "चे तना": "चेतना", "प धारे": "पधारे", "अनुया ई": "अनुयाई", "भे जा": "भेजा", "८ ९": "८९", "१५ ५": "१५५", "६ ४": "६४", "पा ट्टु": "पाट्टु", "ना यर": "नायर", "भारत आवास": "भारतआवास", "भारतीय पेशा": "भारतीयपेशा", "भारतप्रान्त पश्चिम": "भारतप्रान्तपश्चिम", "बंगाल ज़िला": "बंगालज़िला", "मे दिनी": "मेदिनी", "मेदिनी पुर": "मेदिनीपुर", "प्रचलितबंगाली समय": "प्रचलितबंगालीसमय", "कॉ फ़ी": "कॉफ़ी", "१९ २६": "१९२६", "४ ०": "४०", "अ शरफ": "अशरफ", "भ खरी": "भखरी", "शा ंत": "शांत", "मुला यम": "मुलायम", "निशा द": "निशाद", "कि शोर": "किशोर", "नि धन": "निधन", "है ँ": "हैँ", "ट्रा ंस": "ट्रांस", "ट्रांस पोर्ट": "ट्रांसपोर्ट", "लो हिया": "लोहिया", "वृ क": "वृक", "कांति मान": "कांतिमान", "लू पाई": "लूपाई", "बि थि": "बिथि", "बिथि निया": "बिथिनिया", "ए ट": "एट", "कॉन्स्टेंटि यस": "कॉन्स्टेंटियस", "फ् लाविया": "फ्लाविया", "जू लिया": "जूलिया", "लू थरन": "लूथरन", "कॉन्स टेंटाइन": "कॉन्सटेंटाइन", "हेलेनो पोलिस": "हेलेनोपोलिस", "शा य": "शाय", "शाय द": "शायद", "चौ थी": "चौथी", "प्र चु": "प्रचु", "कीर् ति": "कीर्ति", "व चन": "वचन", "गंगो पा": "गंगोपा", "बे दी": "बेदी", "दे बत्तमा": "देबत्तमा", "करण वीर": "करणवीर", "प् लस": "प्लस", "कै म्ब्रि": "कैम्ब्रि", "कैम्ब्रि ज": "कैम्ब्रिज", "अही र": "अहीर", "अपर् णा": "अपर्णा", "अम् मा": "अम्मा", "नौ सेना": "नौसेना", "ये लेना": "येलेना", "फा दवा": "फादवा", "को वा": "कोवा", "प्रति बंधित": "प्रतिबंधित", "धि म्मी": "धिम्मी", "बी जो": "बीजो", "इसी लिए": "इसीलिए", "विलु प्त": "विलुप्त", "अण् टी": "अण्टी", "अण्टी गुआ": "अण्टीगुआ", "बार बू": "बारबू", "बारबू डा": "बारबूडा", "लोकेश्वर ं": "लोकेश्वरं", "पदो न्न": "पदोन्न", "स्वा गत": "स्वागत", "हो म": "होम", "वि फलता": "विफलता", "जिम्मे दारी": "जिम्मेदारी", "मह सूस": "महसूस", "बजा य": "बजाय", "अ फ": "अफ", "बेल् लं": "बेल्लं", "बेल्लं पल्लि": "बेल्लंपल्लि", "भ त्तु": "भत्तु", "भत्तु वानि": "भत्तुवानि", "भत्तुवानि पल्लि": "भत्तुवानिपल्लि", "पशु ओं": "पशुओं", "उत्तर दायी": "उत्तरदायी", "आयुर् विज्ञान": "आयुर्विज्ञान", "तपो सिरि": "तपोसिरि", "तपोसिरि स": "तपोसिरिस", "मा ग्": "माग्", "माग् ना": "माग्ना", "तो ले": "तोले", "लि यन": "लियन", "ल् क": "ल्क", "विश्व व्यापी": "विश्वव्यापी", "टॉ म": "टॉम", "सिया ल": "सियाल", "क् कर": "क्कर", "हार्ड वेयर": "हार्डवेयर", "व ट": "वट", "धा गों": "धागों", "अमरी का": "अमरीका", "स्तन धारी": "स्तनधारी", "फै को": "फैको", "फैको को": "फैकोको", "फैकोको एरस": "फैकोकोएरस", "खु र": "खुर", "गे हू": "गेहू", "गेहू ं": "गेहूं", "च मन": "चमन", "मे थी": "मेथी", "को फ़्": "कोफ़्", "कोफ़् ता": "कोफ़्ता", "म खानी": "मखानी", "जी रा": "जीरा", "मालपु आ": "मालपुआ", "बिर यानी": "बिरयानी", "गा जर": "गाजर", "गु झिया": "गुझिया", "जा मुन": "जामुन", "ठ ंडा": "ठंडा", "सा ंध्य": "सांध्य", "हु नेरिक": "हुनेरिक", "८ ४": "८४", "वै ंडल": "वैंडल", "सोमन द": "सोमनद", "सोमनद ॊ": "सोमनदॊ", "सोमनदॊ ड्डि": "सोमनदॊड्डि", "प्रतिनिधि यों": "प्रतिनिधियों", "ध ै": "धै", "बो ड़": "बोड़", "बोड़ नदी": "बोड़नदी", "बा क्सा": "बाक्सा", "कड प": "कडप", "व ॆ": "वॆ", "वॆ ल्लाल": "वॆल्लाल", "गरिकपा टिवारि": "गरिकपाटिवारि", "ख ंद्रिक": "खंद्रिक", "दा खिला": "दाखिला", "अमिता भ": "अमिताभ", "चन्द्र चू": "चन्द्रचू", "चन्द्रचू ढ़": "चन्द्रचूढ़", "वि जू": "विजू", "मैं ने": "मैंने", "लि प्य": "लिप्य", "लिप्य ंतरण": "लिप्यंतरण", "यू आरएल": "यूआरएल", "सर् बिया": "सर्बिया", "जा कर": "जाकर", "ख मण": "खमण", "भा जी": "भाजी", "मू ंगा": "मूंगा", "ध ौरी": "धौरी", "क ॊ": "कॊ", "कॊ म्": "कॊम्", "कॊम् मे": "कॊम्मे", "कॊम्मे मर्रि": "कॊम्मेमर्रि", "मत दाता": "मतदाता", "मार कंडा": "मारकंडा", "मत दान": "मतदान", "ठ ि": "ठि", "चे हरा": "चेहरा", "शान दार": "शानदार", "भाषा ओँ": "भाषाओँ", "स्वी डन": "स्वीडन", "समी क्षक": "समीक्षक", "फि न": "फिन", "लिख ते": "लिखते", "उप जिले": "उपजिले", "ई श्वर": "ईश्वर", "ब्राह् मन": "ब्राह्मन", "रा ङ्": "राङ्", "भारतप्रान्त तेलंगाना": "भारतप्रान्ततेलंगाना", "प्रचलिततेलुगू समय": "प्रचलिततेलुगूसमय", "वृष भानु": "वृषभानु", "व सु": "वसु", "बी जू": "बीजू", "शिव सेना": "शिवसेना", "स्टू डेंट्स": "स्टूडेंट्स", "३ ३": "३३", "८ ०": "८०", "शि ंदे": "शिंदे", "२० २१": "२०२१", "रजिस्ट्री कृत": "रजिस्ट्रीकृत", "पी ॰": "पी॰", "२०० ७": "२००७", "संविली न": "संविलीन", "एल ए": "एलए", "वस्तु ओं": "वस्तुओं", "श्रे णि": "श्रेणि", "श्रेणि यों": "श्रेणियों", "ई सवी": "ईसवी", "व्या पार": "व्यापार", "बो स": "बोस", "नो किया": "नोकिया", "ज वा": "जवा", "मिला कर": "मिलाकर", "गाँव प्रखण्ड": "गाँवप्रखण्ड", "अजे हरा": "अजेहरा", "अतरसु इया": "अतरसुइया", "अनु वा": "अनुवा", "अन्ना व": "अन्नाव", "अमे पुर": "अमेपुर", "अव सानपुर": "अवसानपुर", "अस वा": "असवा", "दौ तपुर": "दौतपुर", "इना यत": "इनायत", "उद गी": "उदगी", "उपर दहा": "उपरदहा", "ऊ अन": "ऊअन", "ऊअन क": "ऊअनक", "ऊअनक त": "ऊअनकत", "ऊ गापुर": "ऊगापुर", "ओ वासपुर": "ओवासपुर", "मासू मा": "मासूमा", "कटे हारी": "कटेहारी", "म विया": "मविया", "भ दैली": "भदैली", "करु वा": "करुवा", "करौ हा": "करौहा", "क वई": "कवई", "कसि यौ": "कसियौ", "कसियौ ंझा": "कसियौंझा", "कसो धन": "कसोधन", "स थेर": "सथेर", "काली पुर": "कालीपुर", "काशी नाथपुर": "काशीनाथपुर", "कि चिकिला": "किचिकिला", "किरा ँव": "किराँव", "किशु नी": "किशुनी", "किशुनी पुर": "किशुनीपुर", "किसुनी पुर": "किसुनीपुर", "कि हु": "किहु", "किहु नी": "किहुनी", "कु कुरहा": "कुकुरहा", "कु नवरपुर": "कुनवरपुर", "कुरा कथ": "कुराकथ", "कु सरी": "कुसरी", "कोइ त": "कोइत", "कोरी पुर": "कोरीपुर", "ख ख": "खख", "खख ई": "खखई", "खखई चा": "खखईचा", "ख मरिया": "खमरिया", "खी जिरपुर": "खीजिरपुर", "खी जी": "खीजी", "खुर्रम शाहपुर": "खुर्रमशाहपुर", "खेरु या": "खेरुया", "गढ़ वा": "गढ़वा", "गणेशी पुर": "गणेशीपुर", "गर घनपुर": "गरघनपुर", "धो बहा": "धोबहा", "गिर् दा": "गिर्दा", "गोठ वा": "गोठवा", "गोपाली पुर": "गोपालीपुर", "गोबि ंदापुर": "गोबिंदापुर", "गोल छापा": "गोलछापा", "गौ हरपुर": "गौहरपुर", "गौ हारपुर": "गौहारपुर", "घ महा": "घमहा", "घाट मपुर": "घाटमपुर", "घाटू पुर": "घाटूपुर", "री ही": "रीही", "न हा": "नहा", "चंपा पुर": "चंपापुर", "अजी ज": "अजीज", "आज़ म": "आज़म", "कस वो": "कसवो", "कसवो धन": "कसवोधन", "काठ र": "काठर", "जली ल": "जलील", "ठ कुरै": "ठकुरै", "ठकुरै न": "ठकुरैन", "दौल त": "दौलत", "पुरे मिया": "पुरेमिया", "सई दाबाद": "सईदाबाद", "मधु कर": "मधुकर", "मुजा मिल": "मुजामिल", "अमी न": "अमीन", "इसरा ल": "इसराल", "शु भा": "शुभा", "शुभा ंश": "शुभांश", "सन दा": "सनदा", "सर ग": "सरग", "हा फि": "हाफि", "हाफि ज़": "हाफिज़", "हौ दा": "हौदा", "रि हा": "रिहा", "टो डर": "टोडर", "गिर् ध": "गिर्ध", "चंदो पारा": "चंदोपारा", "चट पुर": "चटपुर", "च फला": "चफला", "च बिलहा": "चबिलहा", "चाँदो पारा": "चाँदोपारा", "चाने थू": "चानेथू", "चिनिता मनपुर": "चिनितामनपुर", "चे तरा": "चेतरा", "छ प्पन": "छप्पन", "छी नी": "छीनी", "सो ढ़ा": "सोढ़ा", "जगु वा": "जगुवा", "जटा पुर": "जटापुर", "जन घी": "जनघी", "जनुवा डीह": "जनुवाडीह", "जमसे धपुर": "जमसेधपुर", "जमु वा": "जमुवा", "जरा ँव": "जराँव", "चंदो पाड़ा": "चंदोपाड़ा", "मुत फ": "मुतफ", "मुतफ करा": "मुतफकरा", "जस वाँ": "जसवाँ", "जौरा डीह": "जौराडीह", "त ंधर": "तंधर", "तर छ": "तरछ", "तरछ ंदपुर": "तरछंदपुर", "तिवारी पुर": "तिवारीपुर", "तो डे": "तोडे", "तोडे पुर": "तोडेपुर", "थरै या": "थरैया", "था टा": "थाटा", "थु लमा": "थुलमा", "दत्ते पुर": "दत्तेपुर", "दल पतपुर": "दलपतपुर", "दि घरी": "दिघरी", "दि घ": "दिघ", "दिघ ौटा": "दिघौटा", "दि ह": "दिह", "दिह खास": "दिहखास", "दु घेरा": "दुघेरा", "दुबे पुर": "दुबेपुर", "दु भेरा": "दुभेरा", "दु सौती": "दुसौती", "देवतै या": "देवतैया", "देव दहना": "देवदहना", "देव बाड़ा": "देवबाड़ा", "देवानी पुर": "देवानीपुर", "दो या": "दोया", "दोया धु": "दोयाधु", "दोयाधु या": "दोयाधुया", "धन केशरा": "धनकेशरा", "धन सीपुर": "धनसीपुर", "धनु पुर": "धनुपुर", "धु डेहरी": "धुडेहरी", "धु र्रावाँ": "धुर्रावाँ", "धे ना": "धेना", "ध ौरहारा": "धौरहारा", "नंदा पट्टी": "नंदापट्टी", "नगन थ": "नगनथ", "नगनथ पुर": "नगनथपुर", "न दौला": "नदौला", "नाइ कीपुर": "नाइकीपुर", "नासिर पट्टी": "नासिरपट्टी", "ना हरपुर": "नाहरपुर", "नि मि": "निमि", "निमि वारी": "निमिवारी", "ने कानामे": "नेकानामे", "नेकानामे पुर": "नेकानामेपुर", "ज ंघ": "जंघ", "जंघ ई": "जंघई", "नो नारा": "नोनारा", "पकलु र": "पकलुर", "पट वा": "पटवा", "मुतफ़र् का": "मुतफ़र्का", "पटा या": "पटाया", "पटिया ला": "पटियाला", "प वारत": "पवारत", "पट्टी राम": "पट्टीराम", "पर भू": "परभू", "परभू पुर": "परभूपुर", "परसो त्तमपुर": "परसोत्तमपुर", "परे तीपुर": "परेतीपुर", "पि ंदौना": "पिंदौना", "भ दो": "भदो", "भदो ही": "भदोही", "पि लखि": "पिलखि", "पिलखि नी": "पिलखिनी", "ग देरिया": "गदेरिया", "गो बाई": "गोबाई", "मथुरा दास": "मथुरादास", "रु दा": "रुदा", "रुदा ए": "रुदाए", "लु टा": "लुटा", "लुटा ए": "लुटाए", "सदा भ": "सदाभ", "सदाभ ला": "सदाभला", "सु खा": "सुखा", "सुखा व": "सुखाव", "पुरे ठकुराइन": "पुरेठकुराइन", "भ नाई": "भनाई", "पृथ्वी पुर": "पृथ्वीपुर", "पै गवा": "पैगवा", "पै गहा": "पैगहा", "पो आ": "पोआ", "पोआ दन": "पोआदन", "प्या गी": "प्यागी", "प्यागी पुर": "प्यागीपुर", "प्यारे पुर": "प्यारेपुर", "फ़ तुहा": "फ़तुहा", "फ़ तेहपुर": "फ़तेहपुर", "फी रोज़": "फीरोज़", "फीरोज़ पुर": "फीरोज़पुर", "रसू लहा": "रसूलहा", "बख् तियारा": "बख्तियारा", "ह व": "हव", "हव साबाद": "हवसाबाद", "बघा पुर": "बघापुर", "ब ज़": "बज़", "बज़ टी": "बज़टी", "ब जहा": "बजहा", "बड़ गाँव": "बड़गाँव", "सराय पीठ": "सरायपीठ", "बनी पुर": "बनीपुर", "ब बु": "बबु", "बबु वापुर": "बबुवापुर", "ब बूपुर": "बबूपुर", "ब बूरी": "बबूरी", "ब मलि": "बमलि", "बमलि आ": "बमलिआ", "बरौ त": "बरौत", "बल दिहा": "बलदिहा", "बसने हटा": "बसनेहटा", "बसे गि": "बसेगि", "बसेगि ट": "बसेगिट", "बहू पुर": "बहूपुर", "बाग दहा": "बागदहा", "विक्रम शाह": "विक्रमशाह", "बा थू": "बाथू", "बाथू पुर": "बाथूपुर", "बा बूपुर": "बाबूपुर", "बि ंदरवाँ": "बिंदरवाँ", "बि ंदा": "बिंदा", "बिंदा चक": "बिंदाचक", "बिग हिया": "बिगहिया", "बिझ वनिया": "बिझवनिया", "बिझ ौली": "बिझौली", "बि यौर": "बियौर", "बिरही मपुर": "बिरहीमपुर", "बीबी वारी": "बीबीवारी", "कसौ धा": "कसौधा", "कसौधा ँ": "कसौधाँ", "बुध या": "बुधया", "भ दरी": "भदरी", "भ दवान": "भदवान", "भये लखा": "भयेलखा", "भरत ौ": "भरतौ", "भरतौ टी": "भरतौटी", "भ हारपुर": "भहारपुर", "भारो पुर": "भारोपुर", "भि सकी": "भिसकी", "भू ई": "भूई", "भू पतपुर": "भूपतपुर", "भू पत्ती": "भूपत्ती", "भू लेंड": "भूलेंड", "भू संड": "भूसंड", "भूसंड पुर": "भूसंडपुर", "भू सलपुर": "भूसलपुर", "भे मपुर": "भेमपुर", "भे लसी": "भेलसी", "भो गवारा": "भोगवारा", "भो जा": "भोजा", "मकदू मपुर": "मकदूमपुर", "मकसू दना": "मकसूदना", "मझ यार": "मझयार", "म थो": "मथो", "मथो य": "मथोय", "मदारी पुर": "मदारीपुर", "मले थु": "मलेथु", "मलेथु वा": "मलेथुवा", "हिंदू बनी": "हिंदूबनी", "मसु इ": "मसुइ", "मसुइ दिया": "मसुइदिया", "महती कर": "महतीकर", "महर छा": "महरछा", "महा खरा": "महाखरा", "महा जना": "महाजना", "को ठी": "कोठी", "महुआ डीह": "महुआडीह", "मा कनपुर": "माकनपुर", "मि दि": "मिदि", "मिदि उरा": "मिदिउरा", "मी ठ": "मीठ", "मीठ ू": "मीठू", "मीठू पुर": "मीठूपुर", "मु ंत": "मुंत", "मुंत जि": "मुंतजि", "मुंतजि बपुर": "मुंतजिबपुर", "मु इनु": "मुइनु", "मुइनु द्दीनपुर": "मुइनुद्दीनपुर", "मु गरसों": "मुगरसों", "मु गा": "मुगा", "मु लनापुर": "मुलनापुर", "मुहि उद्दीनपुर": "मुहिउद्दीनपुर", "मुहि द्दिनपुर": "मुहिद्दिनपुर", "मै र": "मैर", "मैर दान": "मैरदान", "मो तिहा": "मोतिहा", "या कू": "याकू", "याकू बपुर": "याकूबपुर", "या सिनपुर": "यासिनपुर", "रघु पुर": "रघुपुर", "रन का": "रनका", "रव थू": "रवथू", "फ तू": "फतू", "फतू हा": "फतूहा", "रसू ला": "रसूला", "रही मपट्टी": "रहीमपट्टी", "रानिया डीह": "रानियाडीह", "रामन थी": "रामनथी", "रामी पुर": "रामीपुर", "रिथ वा": "रिथवा", "री खी": "रीखी", "रीखी पुर": "रीखीपुर", "असे पुर": "असेपुर", "लोका पुर": "लोकापुर", "वकसा पुर": "वकसापुर", "वन पूर्व": "वनपूर्व", "वरी भीत": "वरीभीत", "वि ट्": "विट्", "विट् ठ": "विट्ठ", "विट्ठ लपुर": "विट्ठलपुर", "वि ठ": "विठ", "विठ ौली": "विठौली", "वीरा पुर": "वीरापुर", "शु कुलपुर": "शुकुलपुर", "शेख ौरा": "शेखौरा", "समरु वा": "समरुवा", "समो धीपुर": "समोधीपुर", "ब क्सा": "बक्सा", "य़ ू": "य़ू", "य़ू सु": "य़ूसु", "य़ूसु फ": "य़ूसुफ", "ममरे ज": "ममरेज", "माँ ड": "माँड", "सर पो": "सरपो", "सरपो असबीर": "सरपोअसबीर", "हरि राम": "हरिराम", "हू सी": "हूसी", "बाँ की": "बाँकी", "सरी फ": "सरीफ", "सरीफ पुर": "सरीफपुर", "सली मपुर": "सलीमपुर", "सले मपट्टी": "सलेमपट्टी", "स वरन": "सवरन", "सह बाजपुर": "सहबाजपुर", "साहे बपुर": "साहेबपुर", "परसो त्तम": "परसोत्तम", "सि थौली": "सिथौली", "सि ध": "सिध", "सिध वर": "सिधवर", "सु आरा": "सुआरा", "सु जौला": "सुजौला", "से मरी": "सेमरी", "सै फा": "सैफा", "सैफा बाद": "सैफाबाद", "सो ई": "सोई", "सोई राय": "सोईराय", "सोना बरसा": "सोनाबरसा", "हरी राम": "हरीराम", "मुतफर का": "मुतफरका", "ह सहपुर": "हसहपुर", "हिम् मत": "हिम्मत", "है वत": "हैवत", "हो लापुर": "होलापुर", "चै न": "चैन", "कु सा": "कुसा", "खजु रिया": "खजुरिया", "स्था पत्य": "स्थापत्य", "मे के": "मेके", "मेके वा": "मेकेवा", "त्स व": "त्सव", "अले क्": "अलेक्", "अलेक् जेंडर": "अलेक्जेंडर", "डी ज": "डीज", "अम ज": "अमज", "अमज द": "अमजद", "ई शा": "ईशा", "रो हि": "रोहि", "ब् बर": "ब्बर", "बलू चि": "बलूचि", "बलूचि स्तान": "बलूचिस्तान", "खली फा": "खलीफा", "शासन काल": "शासनकाल", "नूरु ल्ला": "नूरुल्ला", "ल त": "लत", "म य": "मय", "फै न": "फैन", "सीरिया ई": "सीरियाई", "अब् देल": "अब्देल", "वहा ब": "वहाब", "अंतरा ल": "अंतराल", "कु वैत": "कुवैत", "मू ठा": "मूठा", "ति यों": "तियों", "वै श्यम्": "वैश्यम्", "वैश्यम् पायन": "वैश्यम्पायन", "जन्मे जय": "जन्मेजय", "यशो वती": "यशोवती", "कै बिनेट": "कैबिनेट", "वाणि ज्य": "वाणिज्य", "उर् वर": "उर्वर", "प्रबंध क": "प्रबंधक", "ऎ र्रमट": "ऎर्रमट", "ऎर्रमट ं": "ऎर्रमटं", "त स्वीरों": "तस्वीरों", "आण ंद": "आणंद", "ज़िला प्रान्त": "ज़िलाप्रान्त", "फतेह गढ़": "फतेहगढ़", "प्रौ द्योगिकि": "प्रौद्योगिकि", "प्रौद्योगिकि यों": "प्रौद्योगिकियों", "एफ ॰": "एफ॰", "व यस्क": "वयस्क", "है या": "हैया", "भौ मिक": "भौमिक", "स्वी कृत": "स्वीकृत", "डि ट": "डिट", "ऋ ण": "ऋण", "प पड़ी": "पपड़ी", "अ शुद्धता": "अशुद्धता", "दल पत": "दलपत", "तर फ": "तरफ", "बहु चरा": "बहुचरा", "गरिया बंद": "गरियाबंद", "सं पूर्ण": "संपूर्ण", "बाई ं": "बाईं", "गण ना": "गणना", "बुद्धि मत्ता": "बुद्धिमत्ता", "आ उट": "आउट", "अनु प्रयोगों": "अनुप्रयोगों", "विश् ले": "विश्ले", "प्रोटो कॉल": "प्रोटोकॉल", "स् लो": "स्लो", "कं पनियों": "कंपनियों", "स्टा फ": "स्टाफ", "अनुकू लन": "अनुकूलन", "मॉर् गन": "मॉर्गन", "कर् ट": "कर्ट", "वर् क्स": "वर्क्स", "आर् मा": "आर्मा", "आर्मा गे": "आर्मागे", "आर्मागे डन": "आर्मागेडन", "धू मकेतु": "धूमकेतु", "ड ब": "डब", "पार् थ": "पार्थ", "कि ग्रा": "किग्रा", "डब्ल्यू टी": "डब्ल्यूटी", "ऐ क्टिव": "ऐक्टिव", "मार्ग दर्शक": "मार्गदर्शक", "डा लकर": "डालकर", "डा कु": "डाकु", "डाकु ओं": "डाकुओं", "विभा जन": "विभाजन", "पहुँच ते": "पहुँचते", "के न": "केन", "जैन थ": "जैनथ", "कट्टरता वाद": "कट्टरतावाद", "ऑनोरि स": "ऑनोरिस", "टो न": "टोन", "आत ंक": "आतंक", "निरा श": "निराश", "पड़ ने": "पड़ने", "य ्या": "य्या", "असमर् थ": "असमर्थ", "मालवी य": "मालवीय", "स्टॉ प": "स्टॉप", "पेर ंबूर": "पेरंबूर", "कालि ज": "कालिज", "क् कम": "क्कम", "चै पल": "चैपल", "पब् लिक": "पब्लिक", "एलि वे": "एलिवे", "एलिवे टेड": "एलिवेटेड", "को य": "कोय", "एयर पोर्ट": "एयरपोर्ट", "पटिया ली": "पटियाली", "बा स": "बास", "दहल ई": "दहलई", "अलिया पुर": "अलियापुर", "अंगरै या": "अंगरैया", "बिल्स ड़": "बिल्सड़", "अस गरपुर": "असगरपुर", "द त": "दत", "शना बाद": "शनाबाद", "इ कु": "इकु", "ए प्": "एप्", "प्र दाता": "प्रदाता", "सि ग्": "सिग्", "वा इस": "वाइस", "वॉ यस": "वॉयस", "जा ट": "जाट", "गू जर": "गूजर", "मंगरो ली": "मंगरोली", "थ्रि लर": "थ्रिलर", "जे डी": "जेडी", "फोर् ब्स": "फोर्ब्स", "गवर् नर": "गवर्नर", "ये ल": "येल", "हार् ट": "हार्ट", "आ चरण": "आचरण", "त ंजानिया": "तंजानिया", "मनी ष": "मनीष", "आ बू": "आबू", "ब् बी": "ब्बी", "सा ंता": "सांता", "त ॉ": "तॉ", "खली हृ": "खलीहृ", "खलीहृ यत": "खलीहृयत", "ल घु": "लघु", "मछु आ": "मछुआ", "सु ब": "सुब", "ब झेरा": "बझेरा", "जै तपुर": "जैतपुर", "दरिया पुर": "दरियापुर", "मा फी": "माफी", "बि स": "बिस", "मुकु ट": "मुकुट", "सिंघा पुर": "सिंघापुर", "मे द": "मेद", "हंसा पुर": "हंसापुर", "ज ह": "जह", "पहाड़ ों": "पहाड़ों", "सी धी": "सीधी", "खू ब": "खूब", "रि यूनी": "रियूनी", "महात् मा": "महात्मा", "इ त्तेहा": "इत्तेहा", "इत्तेहा द": "इत्तेहाद", "तहरी क": "तहरीक", "आज़ा द": "आज़ाद", "जे ऐ": "जेऐ", "लि बर": "लिबर", "लिबर ल": "लिबरल", "कैटलॉगि ंग": "कैटलॉगिंग", "न्या सी": "न्यासी", "मुख्य भूमि": "मुख्यभूमि", "थो ड़े": "थोड़े", "मू सा": "मूसा", "गौरव शाली": "गौरवशाली", "स्कॉ टलैंड": "स्कॉटलैंड", "सं पन्न": "संपन्न", "समे त": "समेत", "फर् मेंट": "फर्मेंट", "ने गी": "नेगी", "फि जिक्स": "फिजिक्स", "एले क्स": "एलेक्स", "ता ई": "ताई", "हि ंड्स": "हिंड्स", "जिम्बा ब्": "जिम्बाब्", "जिम्बाब् वे": "जिम्बाब्वे", "पु जा": "पुजा", "इन् होने": "इन्होने", "न्यूज़ी लैण्ड": "न्यूज़ीलैण्ड", "जी पी": "जीपी", "जीपी एक्स": "जीपीएक्स", "विद्या लंकार": "विद्यालंकार", "नी हरिका": "नीहरिका", "नीहरिका एँ": "नीहरिकाएँ", "७ २": "७२", "ज़े ग्लो": "ज़ेग्लो", "ज़ेग्लो सस": "ज़ेग्लोसस", "मेगा लि": "मेगालि", "मेगालि बग्": "मेगालिबग्", "मेगालिबग् विलिया": "मेगालिबग्विलिया", "मोनोट्री म": "मोनोट्रीम", "हो यसाल": "होयसाल", "अनि ल": "अनिल", "डी ॰": "डी॰", "विश्वेश्वरै या": "विश्वेश्वरैया", "यो द्धा": "योद्धा", "आदिवासि यों": "आदिवासियों", "विजये न्द्र": "विजयेन्द्र", "रु क्": "रुक्", "बो थ": "बोथ", "ए शियन": "एशियन", "पा यर": "पायर", "सॉ ल्": "सॉल्", "सॉल् वै": "सॉल्वै", "किता ब": "किताब", "ओ टी": "ओटी", "रुप ये": "रुपये", "गुण सूत्र": "गुणसूत्र", "उच्च भूमि": "उच्चभूमि", "डा क": "डाक", "चै मिक": "चैमिक", "मॉन् टै": "मॉन्टै", "मॉन्टै ग्": "मॉन्टैग्", "मॉन्टैग् नार्ड्स": "मॉन्टैग्नार्ड्स", "वा या": "वाया", "रा हत": "राहत", "ह् वेन": "ह्वेन", "औ जार": "औजार", "नेतृ भ्रमि": "नेतृभ्रमि", "शिरो दंड": "शिरोदंड", "ई षा": "ईषा", "मो टर": "मोटर", "बा एँ": "बाएँ", "अभिनेत्री कार्यकाल": "अभिनेत्रीकार्यकाल", "भा लो": "भालो", "आई ं": "आईं", "विकल् प": "विकल्प", "निर् ण": "निर्ण", "निर्ण य": "निर्णय", "कार्य प्रवाह": "कार्यप्रवाह", "परियोजना ओं": "परियोजनाओं", "म जलिस": "मजलिस", "मौ जपुर": "मौजपुर", "बा बरपुर": "बाबरपुर", "छा वनी": "छावनी", "कै ं": "कैं", "कैं पस": "कैंपस", "बा ध्य": "बाध्य", "टन कपुर": "टनकपुर", "बो दवा": "बोदवा", "बोदवा ड": "बोदवाड", "अल बर्ट": "अलबर्ट", "निर् झ": "निर्झ", "निर्झ रि": "निर्झरि", "निर्झरि णी": "निर्झरिणी", "प्रे म": "प्रेम", "प्रेम चंद": "प्रेमचंद", "मु ंशी": "मुंशी", "वा णी": "वाणी", "टेरि टोरियल": "टेरिटोरियल", "स्तरी य": "स्तरीय", "फ़ि जी": "फ़िजी", "थे म": "थेम", "ट्रि पै": "ट्रिपै", "ट्रिपै नो": "ट्रिपैनो", "ट्रिपैनो सोमा": "ट्रिपैनोसोमा", "ब्रु से": "ब्रुसे", "आ दो": "आदो", "आदो नि": "आदोनि", "चैं पि": "चैंपि", "चैंपि यंस": "चैंपियंस", "नन्द गोकुल": "नन्दगोकुल", "चन्द्र शेखर": "चन्द्रशेखर", "बू ढ़ी": "बूढ़ी", "फर किया": "फरकिया", "कु वाजरवाला": "कुवाजरवाला", "सु मित": "सुमित", "मेटा बेले": "मेटाबेले", "मेटाबेले लैंड": "मेटाबेलेलैंड", "काग ज्": "कागज्", "कागज् नगर": "कागज्नगर", "बहु मूल्य": "बहुमूल्य", "टु डे": "टुडे", "रि चार्ड": "रिचार्ड", "कू पर": "कूपर", "श् मिट": "श्मिट", "ग्लो ब": "ग्लोब", "बि म्ब": "बिम्ब", "हि पो": "हिपो", "हिपो क्रि": "हिपोक्रि", "हिपोक्रि ट": "हिपोक्रिट", "सेवर्त्ज़ो व": "सेवर्त्ज़ोव", "सुले मान": "सुलेमान", "सी मैन": "सीमैन", "खु श": "खुश", "माध वन": "माधवन", "बर् धमान": "बर्धमान", "पैरा लं": "पैरालं", "पैरालं पिक": "पैरालंपिक", "पेट्रो ल": "पेट्रोल", "एलि जा": "एलिजा", "एलिजा बेथ": "एलिजाबेथ", "हु दा": "हुदा", "न्यूरो बायोलॉजी": "न्यूरोबायोलॉजी", "स्टै न": "स्टैन", "स्टैन फोर्ड": "स्टैनफोर्ड", "बेरु त": "बेरुत", "पाठ ्यक्रम": "पाठ्यक्रम", "६ ०": "६०", "टेलीग्रा फ": "टेलीग्राफ", "टाई म्स": "टाईम्स", "लोहा घाट": "लोहाघाट", "पे ग": "पेग", "दिना जपुर": "दिनाजपुर", "अह सान": "अहसान", "ओ धिया": "ओधिया", "ओधिया म्बो": "ओधियाम्बो", "सचो ल्ट्": "सचोल्ट्", "सचोल्ट् ज़": "सचोल्ट्ज़", "सं यमन": "संयमन", "वै न": "वैन", "रो जर": "रोजर", "रे ट": "रेट", "फा ल": "फाल", "गरौ ठा": "गरौठा", "मणि पाल": "मणिपाल", "रचना ओं": "रचनाओं", "मै ट्रिक्स": "मैट्रिक्स", "कथी ड्रल": "कथीड्रल", "कैथे ड्रल": "कैथेड्रल", "आमो दरा": "आमोदरा", "इंद्राय णी": "इंद्रायणी", "सह याद्रि": "सहयाद्रि", "ला फ्": "लाफ्", "लाफ् तान": "लाफ्तान", "बुरा क": "बुराक", "डे नि": "डेनि", "डेनि ज़": "डेनिज़", "टिप् पणियाँ": "टिप्पणियाँ", "केम् पटी": "केम्पटी", "मं झ": "मंझ", "दे त": "देत", "खो ङ": "खोङ", "खोङ जि": "खोङजि", "म खोल": "मखोल", "पे न": "पेन", "भारो त्तो": "भारोत्तो", "भारोत्तो लन": "भारोत्तोलन", "सी धा": "सीधा", "ओ ड़िया": "ओड़िया", "मुकना सर": "मुकनासर", "म जी": "मजी", "मजी द": "मजीद", "सली म": "सलीम", "कल्याण क": "कल्याणक", "परमाण् वों": "परमाण्वों", "आ बन्धन": "आबन्धन", "आ बन्ध": "आबन्ध", "इंड स्ट्रियल": "इंडस्ट्रियल", "कमर् शि": "कमर्शि", "कमर्शि यल": "कमर्शियल", "आईसी बीसी": "आईसीबीसी", "ची पुर": "चीपुर", "मंगली पुर": "मंगलीपुर", "र शी": "रशी", "रशी दाबाद": "रशीदाबाद", "७ ए": "७ए", "९ ए": "९ए", "कॉलि ज": "कॉलिज", "कोर् नबर्ग": "कोर्नबर्ग", "मह ड": "महड", "फ़ ो": "फ़ो", "संस्करण ों": "संस्करणों", "आवासी य": "आवासीय", "स्वाधीन ता": "स्वाधीनता", "डोंगर गांव": "डोंगरगांव", "डि ज़्": "डिज़्", "डिज़् नी": "डिज़्नी", "ई टीवी": "ईटीवी", "घ ंटा": "घंटा", "ए पी": "एपी", "डायरे क्ट": "डायरेक्ट", "ज़ ू": "ज़ू", "हा ंग": "हांग", "हांग कांग": "हांगकांग", "डो वे": "डोवे", "डोवे गर": "डोवेगर", "तख्तापल ट": "तख्तापलट", "शि शु": "शिशु", "गुआ ंग": "गुआंग", "गुआंग क्सू": "गुआंगक्सू", "स वाल": "सवाल", "व श": "वश", "क्वार् टर": "क्वार्टर", "गर् भ": "गर्भ", "अनु स्मारक": "अनुस्मारक", "शु क्रा": "शुक्रा", "शुक्रा णु": "शुक्राणु", "नमू नों": "नमूनों", "सू जन": "सूजन", "अवरु द्ध": "अवरुद्ध", "छोड़ ना": "छोड़ना", "नि ष्": "निष्", "चि ंता": "चिंता", "थ ैली": "थैली", "मा मूली": "मामूली", "पुरू ष": "पुरूष", "इंजे क्शन": "इंजेक्शन", "श्रेणिया ं": "श्रेणियां", "गु दा": "गुदा", "मु ंह": "मुंह", "गा इड": "गाइड", "को ण": "कोण", "वर्गी कृत": "वर्गीकृत", "द वे": "दवे", "उज् ज्": "उज्ज्", "पी यूष": "पीयूष", "टू ट": "टूट", "दा मिनी": "दामिनी", "नय ्यर": "नय्यर", "सु जीत": "सुजीत", "दा दी": "दादी", "विक् की": "विक्की", "वि ंध्या": "विंध्या", "तू लिका": "तूलिका", "नागे श": "नागेश", "रेश म": "रेशम", "श्री प्रकाश": "श्रीप्रकाश", "दे योल": "देयोल", "स्वायत्त ता": "स्वायत्तता", "नजदी क": "नजदीक", "नवीन तम": "नवीनतम", "सु स्पष्ट": "सुस्पष्ट", "उपनि वेश": "उपनिवेश", "या ल": "याल", "तरी के": "तरीके", "बाँ टा": "बाँटा", "ख़ु द": "ख़ुद", "बु नियादी": "बुनियादी", "जा गरू": "जागरू", "जबर दस्त": "जबरदस्त", "ने हरू": "नेहरू", "पद वी": "पदवी", "मा मा": "मामा", "तीर्थ यात्रा": "तीर्थयात्रा", "टि यर": "टियर", "स य": "सय", "अजी ब": "अजीब", "सेना पति": "सेनापति", "त्रि पुरी": "त्रिपुरी", "क ढ़ा": "कढ़ा", "कढ़ा ही": "कढ़ाही", "च मचा": "चमचा", "छु री": "छुरी", "पै न": "पैन", "लो टा": "लोटा", "शक्ति पीठ": "शक्तिपीठ", "न दि": "नदि", "य ॉ": "यॉ", "मा घ": "माघ", "प्रति वर्ष": "प्रतिवर्ष", "वा मन": "वामन", "राम चन्द्र": "रामचन्द्र", "कथानु सार": "कथानुसार", "जग पाल": "जगपाल", "जोड़ ता": "जोड़ता", "तीर्थ यात्रियों": "तीर्थयात्रियों", "रेल् वे": "रेल्वे", "मन सी": "मनसी", "गो गरी": "गोगरी", "प्रचलितमराठी समय": "प्रचलितमराठीसमय", "पॉ वर": "पॉवर", "ताप विद्युत": "तापविद्युत", "पारं पारिक": "पारंपारिक", "पु तला": "पुतला", "पुर् णिया": "पुर्णिया", "अभिनेता कार्यकाल": "अभिनेताकार्यकाल", "बेहतरी न": "बेहतरीन", "श्या मलाल": "श्यामलाल", "ज़मी न": "ज़मीन", "धु ंध": "धुंध", "फ़र् ज़": "फ़र्ज़", "रो ल": "रोल", "च तरा": "चतरा", "गो ड्डा": "गोड्डा", "हजारी बाग": "हजारीबाग", "खू ँ": "खूँ", "खूँ टी": "खूँटी", "सिंह भू": "सिंहभू", "सिंहभू म": "सिंहभूम", "सरा कार": "सराकार", "दुः शला": "दुःशला", "वृ द्ध": "वृद्ध", "वृद्ध क्षत्र": "वृद्धक्षत्र", "सूर्या स्त": "सूर्यास्त", "अ श्व": "अश्व", "हरि वंश": "हरिवंश", "दु र": "दुर", "दुर्यो धन": "दुर्योधन", "दुः शासन": "दुःशासन", "श कु": "शकु", "शकु नि": "शकुनि", "यु धि": "युधि", "युधि ष्ठि": "युधिष्ठि", "युधिष्ठि र": "युधिष्ठिर", "न कुल": "नकुल", "ध ृ": "धृ", "घ टो": "घटो", "घटो त्": "घटोत्", "घटोत् कच": "घटोत्कच", "सु त": "सुत", "मया सुर": "मयासुर", "हि डि": "हिडि", "वै श": "वैश", "हस्ति नापुर": "हस्तिनापुर", "इंद्र प्रस्थ": "इंद्रप्रस्थ", "बाया ं": "बायां", "बा एं": "बाएं", "ऑ र्": "ऑर्", "धी मा": "धीमा", "तर्क शास्त्र": "तर्कशास्त्र", "सर् किल्स": "सर्किल्स", "इंग् लिश": "इंग्लिश", "वरि ष्ठ": "वरिष्ठ", "टीसी एन": "टीसीएन", "त स्वीर": "तस्वीर", "विज्ञा पन": "विज्ञापन", "सचे त": "सचेत", "राजा ओं": "राजाओं", "ड़िया ं": "ड़ियां", "ओंग बी": "ओंगबी", "निंग बी": "निंगबी", "पद्म श्री": "पद्मश्री", "ख् मेर": "ख्मेर", "कम्बो डिया": "कम्बोडिया", "ला एँ": "लाएँ", "मि यन": "मियन", "मियन चि": "मियनचि", "मियनचि य": "मियनचिय", "थो म": "थोम", "को ह": "कोह", "प्रे अह": "प्रेअह", "नगरपालिका एँ": "नगरपालिकाएँ", "एलु रु": "एलुरु", "विशाखा पत्तनम": "विशाखापत्तनम", "ओ वेन": "ओवेन", "पाठ शाला": "पाठशाला", "तनाव ड़ा": "तनावड़ा", "काशी कांत": "काशीकांत", "जान सन": "जानसन", "तवा कुल": "तवाकुल", "लाइ बेरि": "लाइबेरि", "लाइबेरि यन": "लाइबेरियन", "मु फ्": "मुफ्", "ने न्": "नेन्", "क्रे मर": "क्रेमर", "अर् नो": "अर्नो", "अर्नो ल्ड": "अर्नोल्ड", "रू ट": "रूट", "नान सेन": "नानसेन", "ऑ स्टेन": "ऑस्टेन", "स्टी ड": "स्टीड", "ब्लो म": "ब्लोम", "कार्लो स": "कार्लोस", "कोर डेल": "कोरडेल", "बी ॰": "बी॰", "सो साइटी": "सोसाइटी", "खारो व": "खारोव", "इ रे": "इरे", "इ ण्": "इण्", "पेरे ज़": "पेरेज़", "आ ंग": "आंग", "विले म": "विलेम", "ख़ ो": "ख़ो", "प्रति बंध": "प्रतिबंध", "सा ं": "सां", "नि षेध": "निषेध", "ज़ ई": "ज़ई", "जु आन": "जुआन", "ना भिकीय": "नाभिकीय", "नर गि": "नरगि", "निर् धारण": "निर्धारण", "कारा कोरम": "काराकोरम", "आरो हण": "आरोहण", "नि मा": "निमा", "लद्दाख़ ी": "लद्दाख़ी", "नि गर": "निगर", "त्रि नि": "त्रिनि", "त्रिनि दा": "त्रिनिदा", "त्रिनिदा द": "त्रिनिदाद", "प्रवी ण": "प्रवीण", "मे हरु": "मेहरु", "मेहरु निस्सा": "मेहरुनिस्सा", "वि द": "विद", "दा ग": "दाग", "गा इन": "गाइन", "नि बंध": "निबंध", "निबंध कार": "निबंधकार", "ग ज": "गज", "आशु तो": "आशुतो", "आशुतो ष": "आशुतोष", "चित्रा ल": "चित्राल", "वंश ज": "वंशज", "त्यो हार": "त्योहार", "पा यी": "पायी", "शा म": "शाम", "गरु ङ": "गरुङ", "प्रति मा": "प्रतिमा", "रोमानिया ई": "रोमानियाई", "डो ना": "डोना", "यूनी वर्स": "यूनीवर्स", "सो साय": "सोसाय", "सोसाय टी": "सोसायटी", "धर्मनिर पेक्ष": "धर्मनिरपेक्ष", "परिकल् पित": "परिकल्पित", "वि वि": "विवि", "विवि यन": "विवियन", "पाठ ्य": "पाठ्य", "पिक फोर्ड": "पिकफोर्ड", "रा उंड": "राउंड", "चाहि ये": "चाहिये", "नामांकन कर्ता": "नामांकनकर्ता", "ऐ ब्यू": "ऐब्यू", "ऐब्यू ज़": "ऐब्यूज़", "राजे श": "राजेश", "था पा": "थापा", "परम्परा गत": "परम्परागत", "नै न": "नैन", "लि टिल": "लिटिल", "प्रचलित तमिलसमय": "प्रचलिततमिलसमय", "चौ ंस": "चौंस", "चौंस ठ": "चौंसठ", "ल पसी": "लपसी", "भो ज": "भोज", "अव सरों": "अवसरों", "ला पसी": "लापसी", "खा या": "खाया", "वि मो": "विमो", "नक् की": "नक्की", "नक्की ना": "नक्कीना", "घ ट्टा": "घट्टा", "कं पनिया": "कंपनिया", "कंपनिया ं": "कंपनियां", "पी पल": "पीपल", "फै क्ट्री": "फैक्ट्री", "प्रि ंसि": "प्रिंसि", "प्रिंसि पल": "प्रिंसिपल", "बैक ग्राउंड": "बैकग्राउंड", "विवे क": "विवेक", "बि जनेस": "बिजनेस", "ख लनायक": "खलनायक", "स जा": "सजा", "बा बर": "बाबर", "गु ंबद": "गुंबद", "हु मा": "हुमा", "हुमा यू": "हुमायू", "हुमायू ं": "हुमायूं", "नगी ना": "नगीना", "स फा": "सफा", "के व": "केव", "सि दी": "सिदी", "साह ब": "साहब", "ब ट": "बट", "अंदा वर": "अंदावर", "ट्रि प्": "ट्रिप्", "ट्रिप् लिकेन": "ट्रिप्लिकेन", "मिया ं": "मियां", "मु शी": "मुशी", "शो ना": "शोना", "क तरा": "कतरा", "टी पू": "टीपू", "क़ा दिया": "क़ादिया", "क़ादिया ं": "क़ादियां", "शा सित": "शासित", "प्रचलितकन्नड़ समय": "प्रचलितकन्नड़समय", "तु मकूर": "तुमकूर", "विनाश कारी": "विनाशकारी", "द्रु मयू": "द्रुमयू", "द्रुमयू का": "द्रुमयूका", "स्पर् श": "स्पर्श", "ग्रीष् म": "ग्रीष्म", "काला ढू": "कालाढू", "कालाढू गी": "कालाढूगी", "स्टूडियो ज": "स्टूडियोज", "दु ग्": "दुग्", "सेंचु री": "सेंचुरी", "ब्रे क": "ब्रेक", "बो त्सवाना": "बोत्सवाना", "क़ तर": "क़तर", "बल्ले बाज": "बल्लेबाज", "न् गा": "न्गा", "बिलि रान": "बिलिरान", "गो न": "गोन", "सिबु आनो": "सिबुआनो", "हिलि गा": "हिलिगा", "हिलिगा यनो": "हिलिगायनो", "हिलिगायनो न": "हिलिगायनोन", "रि पोर्ट": "रिपोर्ट", "भु वनेश्वर": "भुवनेश्वर", "जिला जनसंख्या": "जिलाजनसंख्या", "मण्डल आईएसटी": "मण्डलआईएसटी", "ज्वालामुखी य": "ज्वालामुखीय", "खो ख": "खोख", "खोख ला": "खोखला", "प्पु शी": "प्पुशी", "चिटो ज": "चिटोज", "विस् फो": "विस्फो", "विस्फो ट": "विस्फोट", "ओ न": "ओन", "प्रशि ध्द": "प्रशिध्द", "अमूर् त": "अमूर्त", "भी लवाड़ा": "भीलवाड़ा", "ध ौलपुर": "धौलपुर", "दौ सा": "दौसा", "सी कर": "सीकर", "बू ंदी": "बूंदी", "चित्त ौड़": "चित्तौड़", "उ त": "उत", "खे डिया": "खेडिया", "गिर धरपुर": "गिरधरपुर", "ज् जू": "ज्जू", "ड ंडा": "डंडा", "गू ना": "गूना", "पा इ": "पाइ", "भ मरौला": "भमरौला", "भो गपुर": "भोगपुर", "देवासं अलीगढ़": "देवासंअलीगढ़", "इ गलास": "इगलास", "ग भाना": "गभाना", "माली पुरा": "मालीपुरा", "त्व चा": "त्वचा", "पर्यवे क्षण": "पर्यवेक्षण", "दै र्घ्य": "दैर्घ्य", "उपपाच यी": "उपपाचयी", "अंतरिक्ष जैविकी": "अंतरिक्षजैविकी", "जैव सूचना": "जैवसूचना", "जैव सांख्यिकी": "जैवसांख्यिकी", "क्रो नो": "क्रोनो", "क्रोनो बायोलॉजी": "क्रोनोबायोलॉजी", "जैव विकास": "जैवविकास", "इम् म्यु": "इम्म्यु", "इम्म्यु नोलॉजी": "इम्म्युनोलॉजी", "सागरी य": "सागरीय", "जीवा श्": "जीवाश्", "जीवाश् म": "जीवाश्म", "जीवाश्म विज्ञान": "जीवाश्मविज्ञान", "टै क्सोनॉ": "टैक्सोनॉ", "टैक्सोनॉ मी": "टैक्सोनॉमी", "जैव प्रौद्योगिकी": "जैवप्रौद्योगिकी", "धर्मे श": "धर्मेश", "चौ हान": "चौहान", "खगोल ज्ञ": "खगोलज्ञ", "विक्रमा दित्य": "विक्रमादित्य", "घ ट": "घट", "शह ंशाह": "शहंशाह", "वे ध": "वेध", "वेध शाला": "वेधशाला", "जन हित": "जनहित", "कु सु": "कुसु", "आर्य भट्ट": "आर्यभट्ट", "ध्ये य": "ध्येय", "चन्द्र गुप्त": "चन्द्रगुप्त", "मे ची": "मेची", "जिला की": "जिलाकी", "देवासं इलाम": "देवासंइलाम", "आम चोक": "आमचोक", "इ भा": "इभा", "इभा ङ": "इभाङ", "इ रौ": "इरौ", "इरौ ंटार": "इरौंटार", "एक तप्पा": "एकतप्पा", "कोल् बुङ": "कोल्बुङ", "गजु रमुखी": "गजुरमुखी", "गोद क": "गोदक", "गोर् खे": "गोर्खे", "च मै": "चमै", "चमै ता": "चमैता", "चि सापानी": "चिसापानी", "चुला चु": "चुलाचु", "चुलाचु ली": "चुलाचुली", "जिर् मले": "जिर्मले", "दाना वारी": "दानावारी", "धु सेनी": "धुसेनी", "नयाँ बजार": "नयाँबजार", "नाम्सालि ङ": "नाम्सालिङ", "पशुपति नगर": "पशुपतिनगर", "पुवा मझुवा": "पुवामझुवा", "प्या ङ": "प्याङ", "फा क": "फाक", "फाक फो": "फाकफो", "फाकफो क": "फाकफोक", "फु ँ": "फुँ", "फुँ ए": "फुँए", "फुँए तप्पा": "फुँएतप्पा", "बर बोटे": "बरबोटे", "मंगल बारे": "मंगलबारे", "माइ मझुवा": "माइमझुवा", "लुम् दे": "लुम्दे", "शान्ति डाँ": "शान्तिडाँ", "शान्तिडाँ डा": "शान्तिडाँडा", "शान्ति पुर": "शान्तिपुर", "श्री अन्तु": "श्रीअन्तु", "समाल बुङ": "समालबुङ", "साँ खे": "साँखे", "साँखे जु": "साँखेजु", "साँखेजु ङ": "साँखेजुङ", "साक फारा": "साकफारा", "सा ङ्": "साङ्", "साङ् गरू": "साङ्गरू", "साङ्गरू म्बा": "साङ्गरूम्बा", "सिद्धि थु": "सिद्धिथु", "सिद्धिथु म्": "सिद्धिथुम्", "सिद्धिथुम् का": "सिद्धिथुम्का", "सु म्बे": "सुम्बे", "सुम्बे क": "सुम्बेक", "सुलु बुङ": "सुलुबुङ", "सोया क": "सोयाक", "सोया ङ": "सोयाङ", "सोयाङ नगरपालिका": "सोयाङनगरपालिका", "सूर्यो दय": "सूर्योदय", "रंगी न": "रंगीन", "पर् तें": "पर्तें", "स्या ही": "स्याही", "नुक़् ता": "नुक़्ता", "उदाहरणार् थ": "उदाहरणार्थ", "लगा कर": "लगाकर", "लगी ं": "लगीं", "अरब पति": "अरबपति", "वे फेयर": "वेफेयर", "सीई ओ": "सीईओ", "जल् दी": "जल्दी", "वे फ़ेयर": "वेफ़ेयर", "डर ल": "डरल", "रि जर्": "रिजर्", "रिजर् व": "रिजर्व", "शे यर": "शेयर", "फा उंडे": "फाउंडे", "फाउंडे शन": "फाउंडेशन", "मल्होत्रा लेखक": "मल्होत्रालेखक", "सै फ": "सैफ", "इ कलौ": "इकलौ", "साद गी": "सादगी", "अंतर् मुखी": "अंतर्मुखी", "इ श्": "इश्", "इश् कबाज": "इश्कबाज", "स पनों": "सपनों", "किस् मत": "किस्मत", "मे हन": "मेहन", "समझ ता": "समझता", "कना ली": "कनाली", "कनाली छी": "कनालीछी", "कनालीछी ना": "कनालीछीना", "सो च": "सोच", "किद वई": "किदवई", "सौं पा": "सौंपा", "रु क": "रुक", "पूर्व ज": "पूर्वज", "सो पान": "सोपान", "कि ष्किन्धा": "किष्किन्धा", "उर् मिला": "उर्मिला", "जा म्ब": "जाम्ब", "भी षण": "भीषण", "मेघना द": "मेघनाद", "औ ष": "औष", "रा क्ष": "राक्ष", "स्तानिस् लास": "स्तानिस्लास", "वा वरि": "वावरि", "वावरि न्": "वावरिन्", "वावरिन् का": "वावरिन्का", "ज़र लैंड": "ज़रलैंड", "व ज़न": "वज़न", "वि म्बलडन": "विम्बलडन", "नोवा क": "नोवाक", "जो को": "जोको", "जोको विच": "जोकोविच", "दा वेन": "दावेन", "प्रशी तन": "प्रशीतन", "निरी क्षण": "निरीक्षण", "झ ि": "झि", "झि ल्ली": "झिल्ली", "विश्व विधा": "विश्वविधा", "आयरि श": "आयरिश", "अनु सन्धान": "अनुसन्धान", "श ंघा": "शंघा", "शंघा ई": "शंघाई", "यू॰ के॰": "यू॰के॰", "मे कै": "मेकै", "मेकै निकल": "मेकैनिकल", "फेलो शिप": "फेलोशिप", "प्रो सेस": "प्रोसेस", "टेक् नोलॉजी": "टेक्नोलॉजी", "सम् पादक": "सम्पादक", "मेंटे शन": "मेंटेशन", "असो सिएशन": "असोसिएशन", "साइंटि स्ट": "साइंटिस्ट", "जा ग्रत": "जाग्रत", "ना ड़ी": "नाड़ी", "सह स्रार": "सहस्रार", "शै व": "शैव", "आ चार्य": "आचार्य", "ष ट्": "षट्", "संतु लन": "संतुलन", "शाखा ओं": "शाखाओं", "प्रोटी न": "प्रोटीन", "कॉ पीराइट": "कॉपीराइट", "जर् मन": "जर्मन", "उम्मी द": "उम्मीद", "अती त": "अतीत", "ढ क्": "ढक्", "ढक् कन": "ढक्कन", "घ ृ": "घृ", "न स्ट": "नस्ट", "ब्लो ख": "ब्लोख", "यू टो": "यूटो", "छवि यों": "छवियों", "खु ले": "खुले", "अव सर": "अवसर", "द बाव": "दबाव", "व् हाट": "व्हाट", "कै न": "कैन", "बाइ बिल": "बाइबिल", "रा उ": "राउ", "कोला ट्ट्": "कोलाट्ट्", "कीर् तन": "कीर्तन", "री ना": "रीना", "पु ंग": "पुंग", "पर क": "परक", "समझ ते": "समझते", "टेली फोन": "टेलीफोन", "डि यन": "डियन", "कम्यु निकेशन": "कम्युनिकेशन", "पॉ प": "पॉप", "ई सी": "ईसी", "हथ ौड़ा": "हथौड़ा", "सा म्य": "साम्य", "साम्य वाद": "साम्यवाद", "ट् वेंटी": "ट्वेंटी", "साध क": "साधक", "पला यन": "पलायन", "शिल् प": "शिल्प", "अंध कार": "अंधकार", "बि खरे": "बिखरे", "भय ंकर": "भयंकर", "पिन कोड": "पिनकोड", "२० ९": "२०९", "७ ८": "७८", "मही नों": "महीनों", "कब् जा": "कब्जा", "फस ल": "फसल", "जी ॰": "जी॰", "टी ॰": "टी॰", "अग्नि हो": "अग्निहो", "अग्निहो त्री": "अग्निहोत्री", "घू मकर": "घूमकर", "बढ़ ता": "बढ़ता", "रेडियो धर्मी": "रेडियोधर्मी", "अवशो षित": "अवशोषित", "ले ती": "लेती", "सम् पन्न": "सम्पन्न", "अत्या धु": "अत्याधु", "अत्याधु निक": "अत्याधुनिक", "अपटे क": "अपटेक", "कहा ँ": "कहाँ", "ह डि": "हडि", "हडि ्ड": "हडि्ड", "हडि्ड यों": "हडि्डयों", "जोड़ ों": "जोड़ों", "क् चर": "क्चर", "मूल्या ंकन": "मूल्यांकन", "प्रत्यारो पण": "प्रत्यारोपण", "दा श्त": "दाश्त", "अमाव स": "अमावस", "न ता": "नता", "नता शा": "नताशा", "देसा ई": "देसाई", "ट हरी": "टहरी", "ई टा": "ईटा", "ईटा वा": "ईटावा", "ं रा": "ंरा", "जल पा": "जलपा", "झ राहा": "झराहा", "ध मौल": "धमौल", "मा ह": "माह", "परसा वां": "परसावां", "आ चक": "आचक", "भरौ ंधा": "भरौंधा", "म ख": "मख", "र कसा": "रकसा", "सरै या": "सरैया", "स लिमपुर": "सलिमपुर", "शेर घाटी": "शेरघाटी", "दो भी": "दोभी", "बा ंके": "बांके", "घो टा": "घोटा", "घोटा ले": "घोटाले", "ब्रा ंड": "ब्रांड", "बा धा": "बाधा", "बाधा ओं": "बाधाओं", "र च": "रच", "रच यिता": "रचयिता", "ग्रो तो": "ग्रोतो", "ग्रोतो व्सकी": "ग्रोतोव्सकी", "अवधारणा ओं": "अवधारणाओं", "रा लन": "रालन", "द्वि पद": "द्विपद", "जीव वैज्ञानिक": "जीववैज्ञानिक", "ढा ंचे": "ढांचे", "थॉर् न": "थॉर्न", "श स": "शस", "देहा ंत": "देहांत", "कर् नल": "कर्नल", "हर बंश": "हरबंश", "उ ग": "उग", "राठ ौड़": "राठौड़", "सी स": "सीस", "रचना कार": "रचनाकार", "साल् वाटोर": "साल्वाटोर", "सैन् फिलिपो": "सैन्फिलिपो", "डे वल": "डेवल", "डा टा": "डाटा", "स्ट्री म": "स्ट्रीम", "एस डी": "एसडी", "रि मो": "रिमो", "रिमो ट": "रिमोट", "प्रोटो टाइप": "प्रोटोटाइप", "ह फ्": "हफ्", "न्यू ज": "न्यूज", "कर् षण": "कर्षण", "रू बी": "रूबी", "वी एम": "वीएम", "वीएम वेयर": "वीएमवेयर", "भ ंडारण": "भंडारण", "आरडी बीएम": "आरडीबीएम", "आरडीबीएम एस": "आरडीबीएमएस", "पे ज": "पेज", "ली डर": "लीडर", "बार् किंग": "बार्किंग", "ब्रि ज": "ब्रिज", "है मरस्मिथ": "हैमरस्मिथ", "रि च": "रिच", "वॉ ल्": "वॉल्", "मिया मी": "मियामी", "ए गो": "एगो", "ज़ो ना": "ज़ोना", "फिला डेल्फिया": "फिलाडेल्फिया", "वा शिंगटन": "वाशिंगटन", "मिनेसो टा": "मिनेसोटा", "राधा वल्लभ": "राधावल्लभ", "त्रिपाठी देश": "त्रिपाठीदेश", "चि र्रावूरु": "चिर्रावूरु", "यज्ञ ेश्वर": "यज्ञेश्वर", "चिन्ता मणि": "चिन्तामणि", "यि न": "यिन", "अधि वर्ष": "अधिवर्ष", "बा भ": "बाभ", "हँ स": "हँस", "मु हल्ला": "मुहल्ला", "अल् प": "अल्प", "प्रा ण": "प्राण", "टो कागावा": "टोकागावा", "इमे त्सु": "इमेत्सु", "की ल": "कील", "ई डो": "ईडो", "ष ि": "षि", "ताला ब": "तालाब", "मनो कामना": "मनोकामना", "सर् दियों": "सर्दियों", "पेगो ड़ा": "पेगोड़ा", "डु मरा": "डुमरा", "चक् की": "चक्की", "च ँ": "चँ", "देवासं पटना": "देवासंपटना", "खु सरुपूर": "खुसरुपूर", "घो सवारी": "घोसवारी", "दनिया वान": "दनियावान", "दु ल्": "दुल्", "दुल् हि": "दुल्हि", "दुल्हि न": "दुल्हिन", "दुल्हिन बाजार": "दुल्हिनबाजार", "नौ बतपुर": "नौबतपुर", "पान दार": "पानदार", "पानदार क": "पानदारक", "फुलवारी शरीफ़": "फुलवारीशरीफ़", "ब ख़्": "बख़्", "बख़् तियारपुर": "बख़्तियारपुर", "बेल् छी": "बेल्छी", "मसौ ढी": "मसौढी", "मो कामा": "मोकामा", "सम पत": "समपत", "समपत चक": "समपतचक", "बलि दान": "बलिदान", "ऑफि सर": "ऑफिसर", "राधा कृष्ण": "राधाकृष्ण", "स् मृति": "स्मृति", "वी बी": "वीबी", "पिछ ली": "पिछली", "भिकिया सै": "भिकियासै", "भिकियासै ण": "भिकियासैण", "मॉ ड्यू": "मॉड्यू", "मॉड्यू ल": "मॉड्यूल", "आर एनए": "आरएनए", "प्रयोगशाला ओं": "प्रयोगशालाओं", "माइक्रो बायोलॉजी": "माइक्रोबायोलॉजी", "इरास् मस": "इरास्मस", "ए जेंट": "एजेंट", "साइंसे ज": "साइंसेज", "टो बा": "टोबा", "मुखम् मस": "मुखम्मस", "दि ये": "दिये", "जिस पे": "जिसपे", "तड़ पाने": "तड़पाने", "इ तना": "इतना", "अ श्": "अश्", "रु ख": "रुख", "फ् ल": "फ्ल", "क़ दम": "क़दम", "आ बाद": "आबाद", "मौ का": "मौका", "श्रो ता": "श्रोता", "बता ये": "बताये", "खली क": "खलीक", "अंजु म": "अंजुम", "मुज् तबा": "मुज्तबा", "नूरन बी": "नूरनबी", "बु क्स": "बुक्स", "कविता एँ": "कविताएँ", "ट्यू ब": "ट्यूब", "विष म": "विषम", "सि डनी": "सिडनी", "बै रि": "बैरि", "बैरि स्टर": "बैरिस्टर", "लॉ री": "लॉरी", "अर् नेस्ट": "अर्नेस्ट", "नौ कर": "नौकर", "हु नर": "हुनर", "दो ष": "दोष", "दिख ता": "दिखता", "क्षति पूर्ति": "क्षतिपूर्ति", "उछा ल": "उछाल", "बग् घी": "बग्घी", "मुस्त फा": "मुस्तफा", "मुस्तफा पुर": "मुस्तफापुर", "अजु री": "अजुरी", "स्कॉ टलैण्ड": "स्कॉटलैण्ड", "वी भ": "वीभ", "वीभ त्स": "वीभत्स", "तृ ण": "तृण", "स्त्रि यों": "स्त्रियों", "त ण्डु": "तण्डु", "पा ये": "पाये", "रा घ": "राघ", "पू जन": "पूजन", "श्रीराम चंद्र": "श्रीरामचंद्र", "दि शत्": "दिशत्", "चारा गाह": "चारागाह", "ई ॰": "ई॰", "म् प": "म्प", "बि ंदु": "बिंदु", "वन स्पति": "वनस्पति", "बो या": "बोया", "बढ़ ो": "बढ़ो", "तरी कों": "तरीकों", "जा येगा": "जायेगा", "दो लखा": "दोलखा", "सर् लाही": "सर्लाही", "भि मान": "भिमान", "वा कोट": "वाकोट", "रुकु म": "रुकुम", "झा ंग": "झांग", "वेल्टरवे ट": "वेल्टरवेट", "यू एफसी": "यूएफसी", "समर् थ": "समर्थ", "नि ंदा": "निंदा", "भा इयों": "भाइयों", "एंड्र यू": "एंड्रयू", "योजना बद्ध": "योजनाबद्ध", "पो ल": "पोल", "चरण ों": "चरणों", "भू खे": "भूखे", "हत्या एँ": "हत्याएँ", "ओ ट्टो": "ओट्टो", "ओट्टो मन": "ओट्टोमन", "इ तने": "इतने", "१९ ४": "१९४", "यहू दी": "यहूदी", "जेनि फ़र": "जेनिफ़र", "जेनो साइड": "जेनोसाइड", "पार् लिया": "पार्लिया", "असे म्बली": "असेम्बली", "ष ड्": "षड्", "प्रचार क": "प्रचारक", "९ ४": "९४", "१५ ०": "१५०", "१५ ३": "१५३", "१५ ४२": "१५४२", "कु ण्ड": "कुण्ड", "१५५ ८": "१५५८", "वै रा": "वैरा", "रह स्य": "रहस्य", "शुभार ंभ": "शुभारंभ", "इड स्सेरी": "इडस्सेरी", "वी क": "वीक", "शादी शुदा": "शादीशुदा", "बंगालज़िला पूर्व": "बंगालज़िलापूर्व", "उद्दीन चक": "उद्दीनचक", "नि मन": "निमन", "बी नै": "बीनै", "बीनै का": "बीनैका", "रे मंड": "रेमंड", "प्रण ब": "प्रणब", "निती श": "नितीश", "राजनीतिकसंबद्ध ता": "राजनीतिकसंबद्धता", "राजनीतिकसंबद्धता ऐं": "राजनीतिकसंबद्धताऐं", "रो ज": "रोज", "मुज फ़्": "मुजफ़्", "जनता ंत्रिक": "जनतांत्रिक", "उन् के": "उन्के", "से मिनरी": "सेमिनरी", "हो टल": "होटल", "तला श": "तलाश", "समाचार पत्र": "समाचारपत्र", "फु ट": "फुट", "प्रे क्षण": "प्रेक्षण", "त थ्य": "तथ्य", "विष ु": "विषु", "वे ग": "वेग", "आका श": "आकाश", "नाम फ्लाविया": "नामफ्लाविया", "कॉन्स्टेंटिनो पल": "कॉन्स्टेंटिनोपल", "ओरि एंटल": "ओरिएंटल", "एंग् लिकन": "एंग्लिकन", "कम्यु नियन": "कम्युनियन", "पोंट स": "पोंटस", "तारी ख": "तारीख", "एम्ब्रो स": "एम्ब्रोस", "बो ना": "बोना", "अन देखी": "अनदेखी", "बार् न्स": "बार्न्स", "सु झा": "सुझा", "सुझा व": "सुझाव", "उन से": "उनसे", "भी ल": "भील", "फा ग": "फाग", "स्व च्छता": "स्वच्छता", "रा केश": "राकेश", "घ ई": "घई", "रचै यता": "रचैयता", "का श": "काश", "मिनट उत्पादन": "मिनटउत्पादन", "यूनि ट": "यूनिट", "मे क": "मेक", "बह स": "बहस", "खालि द": "खालिद", "चट वाल": "चटवाल", "हिते श": "हितेश", "भार द्": "भारद्", "भारद् वाज": "भारद्वाज", "पंक ज": "पंकज", "भा टिया": "भाटिया", "वाद क": "वादक", "सू चकांक": "सूचकांक", "उ ज़्": "उज़्", "उज़् बे": "उज़्बे", "उज़्बे किस्तान": "उज़्बेकिस्तान", "लैंडि ंग": "लैंडिंग", "ये क": "येक", "येक तरीना": "येकतरीना", "त्स्वे त्": "त्स्वेत्", "त्स्वेत् कोवा": "त्स्वेत्कोवा", "वि वाद": "विवाद", "राज द": "राजद", "द्वि वार्षिक": "द्विवार्षिक", "दवा इयां": "दवाइयां", "एन् टी": "एन्टी", "एव म": "एवम", "स्क्री न": "स्क्रीन", "बे ची": "बेची", "जीवन काल": "जीवनकाल", "इ रो": "इरो", "अभि लेखा": "अभिलेखा", "अभिलेखा गार": "अभिलेखागार", "पुरातत्व विद्": "पुरातत्वविद्", "पुरातत्व विदों": "पुरातत्वविदों", "उत् थान": "उत्थान", "अफ जु": "अफजु", "र बि": "रबि", "साल् मन": "साल्मन", "तोले मि": "तोलेमि", "तोलेमी य": "तोलेमीय", "मिस्री य": "मिस्रीय", "ने पोलियन": "नेपोलियन", "निः शु": "निःशु", "निःशु ल्क": "निःशुल्क", "ति न": "तिन", "शोर कोट": "शोरकोट", "ल इया": "लइया", "शा ब": "शाब", "इला क़ा": "इलाक़ा", "ही र": "हीर", "म ज़ार": "मज़ार", "वि पण": "विपण", "विपण न": "विपणन", "नमू ना": "नमूना", "सू ती": "सूती", "बु ना": "बुना", "बुना वट": "बुनावट", "मही न": "महीन", "मो टे": "मोटे", "चढ़ कर": "चढ़कर", "मो टा": "मोटा", "प् प": "प्प", "छी ंट": "छींट", "बेल बारी": "बेलबारी", "यि ंग": "यिंग", "ज ंतु": "जंतु", "रज् जु": "रज्जु", "रज्जु की": "रज्जुकी", "टि यो": "टियो", "सू इडा": "सूइडा", "सूइडा ए": "सूइडाए", "उप जाति": "उपजाति", "सू अर": "सूअर", "उद्भव संबंधित": "उद्भवसंबंधित", "भारत देश": "भारतदेश", "ना देर": "नादेर", "जो श": "जोश", "कुल् लू": "कुल्लू", "अनार दाना": "अनारदाना", "त ंदूरी": "तंदूरी", "ल च्छा": "लच्छा", "मक् के": "मक्के", "को फ्": "कोफ्", "पा पड़ी": "पापड़ी", "ति ल": "तिल", "ख स्ता": "खस्ता", "खि च": "खिच", "लै म्ब": "लैम्ब", "मू ंग": "मूंग", "खा जा": "खाजा", "बो टी": "बोटी", "आ लु": "आलु", "चावल आम": "चावलआम", "नी बू": "नीबू", "पु दीना": "पुदीना", "बिसि बेले": "बिसिबेले", "ज़ा फ़रानी": "ज़ाफ़रानी", "मै करो": "मैकरो", "मैकरो नी": "मैकरोनी", "मसाले मिठाई": "मसालेमिठाई", "कला कंद": "कलाकंद", "का जू": "काजू", "क तली": "कतली", "छे ना": "छेना", "कि श": "किश", "किश मिश": "किशमिश", "रस गुल्": "रसगुल्", "रसगुल् ले": "रसगुल्ले", "पेय अनार": "पेयअनार", "फ़ा लसे": "फ़ालसे", "बदा म": "बदाम", "मू ँगिया": "मूँगिया", "सु ंदरी": "सुंदरी", "मधु रि": "मधुरि", "मधुरि मा": "मधुरिमा", "अन्य प्रयुक्त": "अन्यप्रयुक्त", "खान सा": "खानसा", "खानसा मे": "खानसामे", "यू डो": "यूडो", "भू मध्य": "भूमध्य", "खु जे": "खुजे", "खुजे ठी": "खुजेठी", "अक्सो डा": "अक्सोडा", "ओख लकाण्डा": "ओखलकाण्डा", "जा ँ": "जाँ", "का ँ": "काँ", "थ ला": "थला", "चू ली": "चूली", "न द": "नद", "पो खरा": "पोखरा", "ल द": "लद", "लद फो": "लदफो", "लदफो डा": "लदफोडा", "स लिया": "सलिया", "सलिया कोट": "सलियाकोट", "सु ई": "सुई", "नि चली": "निचली", "बी ए": "बीए", "कर्मचारि यों": "कर्मचारियों", "० ४": "०४", "यू पी": "यूपी", "ऑ ग": "ऑग", "शाह प्रदर्शन": "शाहप्रदर्शन", "सि मरन": "सिमरन", "म शहूर": "मशहूर", "शम्भू नाथ": "शम्भूनाथ", "जाए गा": "जाएगा", "दु सरे": "दुसरे", "इंडस्ट्री ज़": "इंडस्ट्रीज़", "नव भारत": "नवभारत", "लि प": "लिप", "आ कृति": "आकृति", "क ष्ट": "कष्ट", "भे ज": "भेज", "पृष्ठ ों": "पृष्ठों", "कु की": "कुकी", "टै क्स्ट": "टैक्स्ट", "ढो कला": "ढोकला", "भर् ता": "भर्ता", "घे वर": "घेवर", "धु री": "धुरी", "पा पड़": "पापड़", "के क": "केक", "गो अन": "गोअन", "स्वी ट": "स्वीट", "वे ट": "वेट", "पा यस": "पायस", "करा ची": "कराची", "सा स": "सास", "ब म्बोर": "बम्बोर", "बर दीहा": "बरदीहा", "भु न्ना": "भुन्ना", "जु रा": "जुरा", "मो क्सी": "मोक्सी", "मोक्सी बस्टन": "मोक्सीबस्टन", "मग वॉर्ट": "मगवॉर्ट", "अनु सूचित": "अनुसूचित", "निर् दली": "निर्दली", "निर्दली य": "निर्दलीय", "संबद्ध ता": "संबद्धता", "फू ंचो": "फूंचो", "फूंचो ग": "फूंचोग", "बै जनाथ": "बैजनाथ", "जोगि ंदर": "जोगिंदर", "सर का": "सरका", "ना ला": "नाला", "अर् जक": "अर्जक", "टाइ गर": "टाइगर", "टाइ म": "टाइम", "राठ ौर": "राठौर", "बा ंटू": "बांटू", "नाइजी रिया": "नाइजीरिया", "बाहूर बाहूर": "बाहूरबाहूर", "डेलार गी": "डेलारगी", "चि ड़िया": "चिड़िया", "चिड़िया घर": "चिड़ियाघर", "वा इल्डलाइ": "वाइल्डलाइ", "वाइल्डलाइ फ": "वाइल्डलाइफ", "बो हमान": "बोहमान", "बे क": "बेक", "प्रश ंसक": "प्रशंसक", "आकर् षक": "आकर्षक", "त्रै मासिक": "त्रैमासिक", "बात ची": "बातची", "बातची त": "बातचीत", "लिख ती": "लिखती", "थ ल": "थल", "सेन् ट": "सेन्ट", "उपजिला उपज़िला": "उपजिलाउपज़िला", "उपजिलाउपज़िला बांग्लादेश": "उपजिलाउपज़िलाबांग्लादेश", "अवस्थिति देश": "अवस्थितिदेश", "जिला शासन": "जिलाशासन", "अधिकारी सूचीजनसंख्या": "अधिकारीसूचीजनसंख्या", "मण्डल बांग्लादेश": "मण्डलबांग्लादेश", "जो की": "जोकी", "उप ज़िले": "उपज़िले", "मातृ भाषा": "मातृभाषा", "निकट ता": "निकटता", "जनसांख्यिकी क": "जनसांख्यिकीक", "प्रमुख तः": "प्रमुखतः", "उप ज़ि": "उपज़ि", "उपज़ि लो": "उपज़िलो", "जिलानु सार": "जिलानुसार", "शि बगंज": "शिबगंज", "न ओ": "नओ", "नओ गाँ": "नओगाँ", "ना टोर": "नाटोर", "पा बना": "पाबना", "चा ट": "चाट", "देव ड़ा": "देवड़ा", "को मिला": "कोमिला", "ं छड़ि": "ंछड़ि", "फरि द": "फरिद", "दा उद": "दाउद", "फे नी": "फेनी", "खा गड़ा": "खागड़ा", "खागड़ा छड़ि": "खागड़ाछड़ि", "मल् ही": "मल्ही", "मल्ही पुर": "मल्हीपुर", "वा य": "वाय", "शुरू आत": "शुरूआत", "बहुता यत": "बहुतायत", "अनु पालन": "अनुपालन", "रें रिया": "रेंरिया", "द् वा": "द्वा", "द्वा पर": "द्वापर", "पुनर् जन्म": "पुनर्जन्म", "आशीर् वाद": "आशीर्वाद", "एन॰ आर": "एन॰आर", "एन॰आर ॰": "एन॰आर॰", "जन शक्ति": "जनशक्ति", "गो मांतक": "गोमांतक", "पा ट्टा": "पाट्टा", "पाट्टा ली": "पाट्टाली", "मक् कल": "मक्कल", "क्रमानु सार": "क्रमानुसार", "प्रोग्रेसि व": "प्रोग्रेसिव", "सु देश": "सुदेश", "मि ड": "मिड", "लि ज": "लिज", "मि जोरम": "मिजोरम", "सई द": "सईद", "श्र य": "श्रय", "हे ल्": "हेल्", "दे यता": "देयता", "प्री मियम": "प्रीमियम", "भु गतान": "भुगतान", "वाह क": "वाहक", "बीमाधार क": "बीमाधारक", "अनु बंध": "अनुबंध", "दिग् विजयनाथ": "दिग्विजयनाथ", "तेन् कासी": "तेन्कासी", "क़ बीलों": "क़बीलों", "७ ४४": "७४४", "हटा कर": "हटाकर", "उ ई": "उई", "उई ग़": "उईग़", "उईग़ ु": "उईग़ु", "उईग़ु र": "उईग़ुर", "उ भरी": "उभरी", "डी न": "डीन", "भूमि हार": "भूमिहार", "इंडोने शियाई": "इंडोनेशियाई", "समाजसुधार क": "समाजसुधारक", "बना कर": "बनाकर", "जवा ब": "जवाब", "अनू दित": "अनूदित", "ह ंटर": "हंटर", "क्रि स्टी": "क्रिस्टी", "स भ": "सभ", "सभ ्यता": "सभ्यता", "मी मों": "मीमों", "सु श्री": "सुश्री", "ओनिस वान": "ओनिसवान", "कुसा पुर": "कुसापुर", "भु सका": "भुसका", "मथुरा पुर": "मथुरापुर", "मसु दनपुर": "मसुदनपुर", "हा बी": "हाबी", "वासिलि वेना": "वासिलिवेना", "महो त्सव": "महोत्सव", "प्रस्तो ता": "प्रस्तोता", "क्रास् नो": "क्रास्नो", "क्रास्नो डार": "क्रास्नोडार", "टु कड़ी": "टुकड़ी", "भूमिका एँ": "भूमिकाएँ", "निभाई ं": "निभाईं", "ए ज": "एज", "हरफ नमौला": "हरफनमौला", "सोना ली": "सोनाली", "गुल शन": "गुलशन", "रोहि णी": "रोहिणी", "गै विन": "गैविन", "चंद्र शेखर": "चंद्रशेखर", "हि ंसा": "हिंसा", "व्यापारि यों": "व्यापारियों", "दस्ता वेज़": "दस्तावेज़", "तालि ब": "तालिब", "हदी स": "हदीस", "अभि जात": "अभिजात", "आठ वीं": "आठवीं", "पो ते": "पोते", "समा पन": "समापन", "पा ंडु": "पांडु", "पांडु लिपियों": "पांडुलिपियों", "लिख कर": "लिखकर", "शौ श्तारी": "शौश्तारी", "हरि औ": "हरिऔ", "हरिऔ ध": "हरिऔध", "अन ंत": "अनंत", "र ंजन": "रंजन", "इन्दि रा": "इन्दिरा", "ध्रु व": "ध्रुव", "हेने वी": "हेनेवी", "मौ जी": "मौजी", "हम् दी": "हम्दी", "गा या": "गाया", "सा मी": "सामी", "पदोन्न त": "पदोन्नत", "लॉन् च": "लॉन्च", "उ म्": "उम्", "शौ चालय": "शौचालय", "बाँ ध": "बाँध", "दो आ": "दोआ", "दोआ ब": "दोआब", "गा था": "गाथा", "कश्य प": "कश्यप", "पै ट्रोलियम": "पैट्रोलियम", "रोज़ गार": "रोज़गार", "जहा ज़रानी": "जहाज़रानी", "उर्वर क": "उर्वरक", "मि ंगो": "मिंगो", "गुडि सन": "गुडिसन", "अनु भव": "अनुभव", "एफ ए": "एफए", "उ ँग": "उँग", "उँग कु": "उँगकु", "भारतप्रान्त गुजरात": "भारतप्रान्तगुजरात", "प्रचलित गुजराती": "प्रचलितगुजराती", "प्रचलितगुजराती समय": "प्रचलितगुजरातीसमय", "से म": "सेम", "डी आरडी": "डीआरडी", "डीआरडी ओ": "डीआरडीओ", "चुनौ तियों": "चुनौतियों", "डी एफ": "डीएफ", "डीएफ आरएल": "डीएफआरएल", "तत्वा वधान": "तत्वावधान", "आई॰ एस॰एन॰": "आई॰एस॰एन॰", "आई॰एस॰एन॰ आई॰": "आई॰एस॰एन॰आई॰", "वी ॰": "वी॰", "वी॰ आई॰": "वी॰आई॰", "वी॰आई॰ एफ॰": "वी॰आई॰एफ॰", "वी॰आई॰एफ॰ ए॰": "वी॰आई॰एफ॰ए॰", "वर् कर": "वर्कर", "मु हैया": "मुहैया", "सार्व भौमिक": "सार्वभौमिक", "रति चित्रण": "रतिचित्रण", "पोर् न": "पोर्न", "संतु ष्टि": "संतुष्टि", "ग्रा फी": "ग्राफी", "गे म": "गेम", "डिट मोर": "डिटमोर", "हो प": "होप", "पब् लिशिंग": "पब्लिशिंग", "दे नदार": "देनदार", "लु कास": "लुकास", "पा वेल": "पावेल", "ढा ंचा": "ढांचा", "धातु ओं": "धातुओं", "सै मु": "सैमु", "सैमु अल": "सैमुअल", "ऑ क्साइड": "ऑक्साइड", "सल्फा इड": "सल्फाइड", "गर् म": "गर्म", "निर ंतर": "निरंतर", "यो जक": "योजक", "बे चराजी": "बेचराजी", "महेसा णा": "महेसाणा", "सु पथा": "सुपथा", "४ ६": "४६", "वैभव पूर्ण": "वैभवपूर्ण", "रेखा ओं": "रेखाओं", "दाई ं": "दाईं", "अर्ध वृत्ता": "अर्धवृत्ता", "अर्धवृत्ता कार": "अर्धवृत्ताकार", "दीक्षा ंत": "दीक्षांत", "ट ंडन": "टंडन", "अर् शदीप": "अर्शदीप", "जानकारी जन्म": "जानकारीजन्म", "वर्ष टीम": "वर्षटीम", "इले वन": "इलेवन", "सरा हना": "सराहना", "जरि ए": "जरिए", "शाब् दिक": "शाब्दिक", "विश्ले षण": "विश्लेषण", "नि दान": "निदान", "बोर्डि ंग": "बोर्डिंग", "शोध कर्ताओं": "शोधकर्ताओं", "कंप्यू टिंग": "कंप्यूटिंग", "बढ़ा या": "बढ़ाया", "करना ल": "करनाल", "रवि ंदर्": "रविंदर्", "मछ रौली": "मछरौली", "दू वैल": "दूवैल", "फ्रि मैन": "फ्रिमैन", "मै क": "मैक", "ब् ले": "ब्ले", "ब्ले यर": "ब्लेयर", "लकड़ी केतहत": "लकड़ीकेतहत", "स्कॉ ट": "स्कॉट", "कर्ट वुड": "कर्टवुड", "ड्री म": "ड्रीम", "अमेरिका भाषा": "अमेरिकाभाषा", "अंग्रेज़ी लागत": "अंग्रेज़ीलागत", "क कर": "ककर", "साइ मन": "साइमन", "गण वेश": "गणवेश", "कु आ": "कुआ", "ंघ म": "ंघम", "फ़ा इनल": "फ़ाइनल", "ऑ स्ट्रेलियन": "ऑस्ट्रेलियन", "यू एस": "यूएस", "प्रतिरो ध": "प्रतिरोध", "चे बिसे": "चेबिसे", "चेबिसे व": "चेबिसेव", "विकि फ़ा": "विकिफ़ा", "विकिफ़ा इ": "विकिफ़ाइ", "ले आउट": "लेआउट", "मार्क अप": "मार्कअप", "दो नो": "दोनो", "रोज़ मर्रा": "रोज़मर्रा", "वस्तु एँ": "वस्तुएँ", "लगा एँ": "लगाएँ", "ज्ञान सन्दू": "ज्ञानसन्दू", "ज्ञानसन्दू क": "ज्ञानसन्दूक", "टै ग": "टैग", "हटा एँ": "हटाएँ", "अप्रति म": "अप्रतिम", "द्रोणा चार्य": "द्रोणाचार्य", "बी त": "बीत", "१९ ०५": "१९०५", "भा ंति": "भांति", "ला या": "लाया", "बिस् मिल": "बिस्मिल", "अंग्रे ज": "अंग्रेज", "यु वक": "युवक", "ता ंबर": "तांबर", "तांबर परानी": "तांबरपरानी", "क्षि प्रा": "क्षिप्रा", "ता म्र": "ताम्र", "ताम्र पर्": "ताम्रपर्", "ताम्रपर् णी": "ताम्रपर्णी", "फल् गू": "फल्गू", "बरा कर": "बराकर", "बाण गंगा": "बाणगंगा", "बै गाई": "बैगाई", "बै गुल": "बैगुल", "ब्या स": "ब्यास", "ब कुलाही": "बकुलाही", "ला छु": "लाछु", "लाछु ंग": "लाछुंग", "लू नी": "लूनी", "सतलु ज": "सतलुज", "सुवर्ण रेखा": "सुवर्णरेखा", "टि स्टा": "टिस्टा", "नदिया ं": "नदियां", "ल ई": "लई", "महा बलेश्वर": "महाबलेश्वर", "गै प": "गैप", "मु लै": "मुलै", "बेल् गाव": "बेल्गाव", "विविध ता": "विविधता", "नौ ग": "नौग", "नौग ट": "नौगट", "सं पादित": "संपादित", "अनु चित": "अनुचित", "प्रि स्टिना": "प्रिस्टिना", "जि यस": "जियस", "ग् वे": "ग्वे", "ग्री स": "ग्रीस", "स्ट डीज": "स्टडीज", "बेल् जि": "बेल्जि", "बेल्जि यम": "बेल्जियम", "मेन न": "मेनन", "मा मू": "मामू", "मामू ट्टी": "मामूट्टी", "मे जर": "मेजर", "पै र": "पैर", "शू टिंग": "शूटिंग", "खो ने": "खोने", "पी ना": "पीना", "सी खने": "सीखने", "जीवन शैली": "जीवनशैली", "देवासं मध्य": "देवासंमध्य", "दिग् विजय": "दिग्विजय", "मह ंत": "महंत", "निम् मू": "निम्मू", "ले ह": "लेह", "ज़ ंस्कार": "ज़ंस्कार", "तिरु वल्": "तिरुवल्", "तिरुवन् मि": "तिरुवन्मि", "तिरुवन्मि यूर": "तिरुवन्मियूर", "पट्ट बिराम": "पट्टबिराम", "ब क्कम": "बक्कम", "पैरी ज़": "पैरीज़", "वेटरि नरी": "वेटरिनरी", "इंस्टी ट्यूट": "इंस्टीट्यूट", "मै टिक": "मैटिक", "यातायात चेन्नई": "यातायातचेन्नई", "इ को": "इको", "कोय ंबटूर": "कोयंबटूर", "ट्रा ंजि": "ट्रांजि", "ट्रांजि ट": "ट्रांजिट", "आर टी": "आरटी", "निर्माणा धीन": "निर्माणाधीन", "बड़ा गाँव": "बड़ागाँव", "मंग दपुर": "मंगदपुर", "बल् लू": "बल्लू", "भा ऊ": "भाऊ", "भाऊ पुरा": "भाऊपुरा", "भी कमपुर": "भीकमपुर", "लालसहा य": "लालसहाय", "अमो गपुर": "अमोगपुर", "अंग दपुर": "अंगदपुर", "सि मर": "सिमर", "बी ज": "बीज", "दु इया": "दुइया", "भि र": "भिर", "कलु आपुर": "कलुआपुर", "कू ल्": "कूल्", "कूल् हापुर": "कूल्हापुर", "एप् लिकेशन": "एप्लिकेशन", "डि वाइस": "डिवाइस", "हैंड सेट": "हैंडसेट", "तरी का": "तरीका", "ब कंडा": "बकंडा", "गो बरा": "गोबरा", "चौ मा": "चौमा", "दौलता बाद": "दौलताबाद", "न नऊ": "ननऊ", "बै रा": "बैरा", "लो ह": "लोह", "रिया ं": "रियां", "सीमा ओं": "सीमाओं", "भ्र ष्ट": "भ्रष्ट", "फ ंसे": "फंसे", "भ्रष्टा चार": "भ्रष्टाचार", "सी नेटर": "सीनेटर", "वो ट": "वोट", "सी नेट": "सीनेट", "रि प्रे": "रिप्रे", "काउ ंटी": "काउंटी", "अटॉर् नी": "अटॉर्नी", "धनो आ": "धनोआ", "प्रिय ंका": "प्रियंका", "डै नी": "डैनी", "फरी दा": "फरीदा", "शह बाज़": "शहबाज़", "सु हा": "सुहा", "सुहा सिनी": "सुहासिनी", "वि ंग": "विंग", "उत्कृष्ट ता": "उत्कृष्टता", "सहा य": "सहाय", "स्वरूप गंज": "स्वरूपगंज", "नदी शीर्ष": "नदीशीर्ष", "निर् देशांक": "निर्देशांक", "बह कर": "बहकर", "आर् द्र": "आर्द्र", "इस पर": "इसपर", "कैथरी न": "कैथरीन", "कनाडा ई": "कनाडाई", "ग हरे": "गहरे", "अन् वे": "अन्वे", "अन्वे षक": "अन्वेषक", "ऑफि स": "ऑफिस", "क्रम श": "क्रमश", "क्रमश ः": "क्रमशः", "बि एन": "बिएन", "सैंतिया गो": "सैंतियागो", "ऍ बे": "ऍबे", "तॉ र": "तॉर", "श यल्ला": "शयल्ला", "राजधानी और": "राजधानीऔर", "प्रा क्": "प्राक्", "प्राक् कलन": "प्राक्कलन", "दिना ंक": "दिनांक", "टी एलडी": "टीएलडी", "का फ़ी": "काफ़ी", "९ ३": "९३", "स घन": "सघन", "सी रियल": "सीरियल", "की रतपुर": "कीरतपुर", "खेरि आ": "खेरिआ", "फ गो": "फगो", "फगो ई": "फगोई", "जट पुरा": "जटपुरा", "देव सैनी": "देवसैनी", "ध ौर्रा": "धौर्रा", "झा ऊ": "झाऊ", "बे ग": "बेग", "क तपुर": "कतपुर", "भ त": "भत", "मदर क": "मदरक", "मू सपुर": "मूसपुर", "स लै": "सलै", "सलै मपुर": "सलैमपुर", "सु खरावाली": "सुखरावाली", "हि ंगो": "हिंगो", "अ दमपुर": "अदमपुर", "उ मेद": "उमेद", "करी म": "करीम", "खर गपुर": "खरगपुर", "सरा पुर": "सरापुर", "सिया ं": "सियां", "व जह": "वजह", "१९९ ७": "१९९७", "९ ६": "९६", "शह डो": "शहडो", "शहडो ल": "शहडोल", "घर घो": "घरघो", "घरघो डा": "घरघोडा", "छत्तीस गढ": "छत्तीसगढ", "जनजातिया ं": "जनजातियां", "लोक गीत": "लोकगीत", "प्रपात दर्शनीय": "प्रपातदर्शनीय", "संरक्षित जिले": "संरक्षितजिले", "कबीर धाम": "कबीरधाम", "ज शपुर": "जशपुर", "दन्ते वाड़ा": "दन्तेवाड़ा", "ध मतरी": "धमतरी", "महा समुन्द": "महासमुन्द", "राजना ंदगाँव": "राजनांदगाँव", "सरगु जा": "सरगुजा", "बालो द": "बालोद", "बलौ दा": "बलौदा", "बे मे": "बेमे", "बेमे तरा": "बेमेतरा", "कोंडा गाँव": "कोंडागाँव", "मुंगे ली": "मुंगेली", "सु कमा": "सुकमा", "द्वि पक्षी": "द्विपक्षी", "द्विपक्षी य": "द्विपक्षीय", "गे न": "गेन", "गोसाई ं": "गोसाईं", "बर्ष ों": "बर्षों", "धु न": "धुन", "मुत्ता हि": "मुत्ताहि", "मुत्ताहि दा": "मुत्ताहिदा", "तर क़्": "तरक़्", "तरक़् क़": "तरक़्क़", "तरक़्क़ ी": "तरक़्क़ी", "म जदूर": "मजदूर", "जन्न त": "जन्नत", "बलो च": "बलोच", "जमी यत": "जमीयत", "मु हा": "मुहा", "मुहा जिर": "मुहाजिर", "क्रि स्": "क्रिस्", "क्रिस् चियन": "क्रिस्चियन", "म ज़": "मज़", "लाभ कारी": "लाभकारी", "एल ॰": "एल॰", "कार्य पालक": "कार्यपालक", "ओ सी": "ओसी", "ओसी एलसी": "ओसीएलसी", "ओ हा": "ओहा", "ओहा यो": "ओहायो", "उपा ध्यक्ष": "उपाध्यक्ष", "उपाध्यक्ष ों": "उपाध्यक्षों", "लाइब्रेरि यन": "लाइब्रेरियन", "सा झे": "साझे", "त्रि गुणाती": "त्रिगुणाती", "त्रिगुणाती तानन्द": "त्रिगुणातीतानन्द", "नै ट्स": "नैट्स", "संभ ल": "संभल", "अक़ा बा": "अक़ाबा", "१९६ ७": "१९६७", "१९७ ३": "१९७३", "८ २": "८२" }, "merge_history": [ { "step": 1, "pair": [ "्", "र" ], "new_token": "्र", "frequency": 12929, "vocab_size": 60, "learned_vocab_size": 1, "compression_ratio": 0.692542484738492, "example_words": [ "प्रामाणिक", "प्रभा", "ब्रिटिश" ] }, { "step": 2, "pair": [ "स", "्" ], "new_token": "स्", "frequency": 8468, "vocab_size": 61, "learned_vocab_size": 2, "compression_ratio": 0.7030972979675477, "example_words": [] }, { "step": 3, "pair": [ "प", "्र" ], "new_token": "प्र", "frequency": 7478, "vocab_size": 62, "learned_vocab_size": 3, "compression_ratio": 0.7101892878605934, "example_words": [] }, { "step": 4, "pair": [ "ा", "र" ], "new_token": "ार", "frequency": 7330, "vocab_size": 63, "learned_vocab_size": 4, "compression_ratio": 0.7163255038763126, "example_words": [] }, { "step": 5, "pair": [ "क", "्" ], "new_token": "क्", "frequency": 6997, "vocab_size": 64, "learned_vocab_size": 5, "compression_ratio": 0.7227835914936249, "example_words": [] }, { "step": 6, "pair": [ "र", "ा" ], "new_token": "रा", "frequency": 5298, "vocab_size": 65, "learned_vocab_size": 6, "compression_ratio": 0.7287728962300632, "example_words": [] }, { "step": 7, "pair": [ "य", "ा" ], "new_token": "या", "frequency": 5238, "vocab_size": 66, "learned_vocab_size": 7, "compression_ratio": 0.7339111538509573, "example_words": [] }, { "step": 8, "pair": [ "क", "े" ], "new_token": "के", "frequency": 4933, "vocab_size": 67, "learned_vocab_size": 8, "compression_ratio": 0.7387988397104305, "example_words": [] }, { "step": 9, "pair": [ "े", "स" ], "new_token": "ेस", "frequency": 4870, "vocab_size": 68, "learned_vocab_size": 9, "compression_ratio": 0.743035639364802, "example_words": [] }, { "step": 10, "pair": [ "ए", "क्" ], "new_token": "एक्", "frequency": 4608, "vocab_size": 69, "learned_vocab_size": 10, "compression_ratio": 0.7472651585300581, "example_words": [] }, { "step": 11, "pair": [ "े", "ं" ], "new_token": "ें", "frequency": 4595, "vocab_size": 70, "learned_vocab_size": 11, "compression_ratio": 0.7512880502179777, "example_words": [] }, { "step": 12, "pair": [ "प्र", "ेस" ], "new_token": "प्रेस", "frequency": 4576, "vocab_size": 71, "learned_vocab_size": 12, "compression_ratio": 0.756979413073518, "example_words": [] }, { "step": 13, "pair": [ "एक्", "स्" ], "new_token": "एक्स्", "frequency": 4534, "vocab_size": 72, "learned_vocab_size": 13, "compression_ratio": 0.7610791909011703, "example_words": [] }, { "step": 14, "pair": [ "एक्स्", "प्रेस" ], "new_token": "एक्स्प्रेस", "frequency": 4531, "vocab_size": 73, "learned_vocab_size": 14, "compression_ratio": 0.765176516823076, "example_words": [] }, { "step": 15, "pair": [ "प", "ु" ], "new_token": "पु", "frequency": 4375, "vocab_size": 74, "learned_vocab_size": 15, "compression_ratio": 0.7693136201292712, "example_words": [] }, { "step": 16, "pair": [ "र", "्" ], "new_token": "र्", "frequency": 3928, "vocab_size": 75, "learned_vocab_size": 16, "compression_ratio": 0.7739698800518203, "example_words": [] }, { "step": 17, "pair": [ "ा", "न" ], "new_token": "ान", "frequency": 3813, "vocab_size": 76, "learned_vocab_size": 17, "compression_ratio": 0.778720369498096, "example_words": [] }, { "step": 18, "pair": [ "पु", "र" ], "new_token": "पुर", "frequency": 3607, "vocab_size": 77, "learned_vocab_size": 18, "compression_ratio": 0.7827894461505672, "example_words": [] }, { "step": 19, "pair": [ "क", "ा" ], "new_token": "का", "frequency": 3413, "vocab_size": 78, "learned_vocab_size": 19, "compression_ratio": 0.7865508283292875, "example_words": [] }, { "step": 20, "pair": [ "म", "ें" ], "new_token": "में", "frequency": 3372, "vocab_size": 79, "learned_vocab_size": 20, "compression_ratio": 0.7903533643647426, "example_words": [] }, { "step": 21, "pair": [ "व", "ि" ], "new_token": "वि", "frequency": 3205, "vocab_size": 80, "learned_vocab_size": 21, "compression_ratio": 0.7939197280298499, "example_words": [] }, { "step": 22, "pair": [ "न", "्" ], "new_token": "न्", "frequency": 3092, "vocab_size": 81, "learned_vocab_size": 22, "compression_ratio": 0.7973452866564945, "example_words": [] }, { "step": 23, "pair": [ "ह", "ै" ], "new_token": "है", "frequency": 2920, "vocab_size": 82, "learned_vocab_size": 23, "compression_ratio": 0.8010833707180088, "example_words": [] }, { "step": 24, "pair": [ "ल", "ा" ], "new_token": "ला", "frequency": 2820, "vocab_size": 83, "learned_vocab_size": 24, "compression_ratio": 0.8045311076483445, "example_words": [] }, { "step": 25, "pair": [ "न", "ा" ], "new_token": "ना", "frequency": 2806, "vocab_size": 84, "learned_vocab_size": 25, "compression_ratio": 0.807699708615097, "example_words": [] }, { "step": 26, "pair": [ "क", "ी" ], "new_token": "की", "frequency": 2788, "vocab_size": 85, "learned_vocab_size": 26, "compression_ratio": 0.8109462660203334, "example_words": [] }, { "step": 27, "pair": [ "स", "े" ], "new_token": "से", "frequency": 2625, "vocab_size": 86, "learned_vocab_size": 27, "compression_ratio": 0.8139227420904385, "example_words": [] }, { "step": 28, "pair": [ "त", "ा" ], "new_token": "ता", "frequency": 2488, "vocab_size": 87, "learned_vocab_size": 28, "compression_ratio": 0.8167074968824583, "example_words": [] }, { "step": 29, "pair": [ "क", "ो" ], "new_token": "को", "frequency": 2445, "vocab_size": 88, "learned_vocab_size": 29, "compression_ratio": 0.8196173601680785, "example_words": [] }, { "step": 30, "pair": [ "व", "ा" ], "new_token": "वा", "frequency": 2369, "vocab_size": 89, "learned_vocab_size": 30, "compression_ratio": 0.8223157369821051, "example_words": [] }, { "step": 31, "pair": [ "त", "ि" ], "new_token": "ति", "frequency": 2323, "vocab_size": 90, "learned_vocab_size": 31, "compression_ratio": 0.8255893554575248, "example_words": [] }, { "step": 32, "pair": [ "्", "य" ], "new_token": "्य", "frequency": 2196, "vocab_size": 91, "learned_vocab_size": 32, "compression_ratio": 0.828317710902812, "example_words": [] }, { "step": 33, "pair": [ "ि", "या" ], "new_token": "िया", "frequency": 2111, "vocab_size": 92, "learned_vocab_size": 33, "compression_ratio": 0.8311646063760573, "example_words": [] }, { "step": 34, "pair": [ "न", "े" ], "new_token": "ने", "frequency": 2015, "vocab_size": 93, "learned_vocab_size": 34, "compression_ratio": 0.8339213907999861, "example_words": [] }, { "step": 35, "pair": [ "ल", "े" ], "new_token": "ले", "frequency": 1996, "vocab_size": 94, "learned_vocab_size": 35, "compression_ratio": 0.8363576846989169, "example_words": [] }, { "step": 36, "pair": [ "ं", "ग" ], "new_token": "ंग", "frequency": 1875, "vocab_size": 95, "learned_vocab_size": 36, "compression_ratio": 0.8390260047895021, "example_words": [] }, { "step": 37, "pair": [ "द", "े" ], "new_token": "दे", "frequency": 1833, "vocab_size": 96, "learned_vocab_size": 37, "compression_ratio": 0.8415678524374176, "example_words": [] }, { "step": 38, "pair": [ "ो", "ं" ], "new_token": "ों", "frequency": 1826, "vocab_size": 97, "learned_vocab_size": 38, "compression_ratio": 0.8442089316381636, "example_words": [] }, { "step": 39, "pair": [ "ल", "ी" ], "new_token": "ली", "frequency": 1800, "vocab_size": 98, "learned_vocab_size": 39, "compression_ratio": 0.8463022920591612, "example_words": [] }, { "step": 40, "pair": [ "ि", "त" ], "new_token": "ित", "frequency": 1759, "vocab_size": 99, "learned_vocab_size": 40, "compression_ratio": 0.8485040606225281, "example_words": [] }, { "step": 41, "pair": [ "क", "र" ], "new_token": "कर", "frequency": 1750, "vocab_size": 100, "learned_vocab_size": 41, "compression_ratio": 0.852440489456173, "example_words": [] }, { "step": 42, "pair": [ "ब", "ा" ], "new_token": "बा", "frequency": 1721, "vocab_size": 101, "learned_vocab_size": 42, "compression_ratio": 0.8559180646955232, "example_words": [] }, { "step": 43, "pair": [ "म", "ा" ], "new_token": "मा", "frequency": 1709, "vocab_size": 102, "learned_vocab_size": 43, "compression_ratio": 0.8581451537961156, "example_words": [] }, { "step": 44, "pair": [ "ि", "क" ], "new_token": "िक", "frequency": 1690, "vocab_size": 103, "learned_vocab_size": 44, "compression_ratio": 0.860673690545458, "example_words": [] }, { "step": 45, "pair": [ "औ", "र" ], "new_token": "और", "frequency": 1675, "vocab_size": 104, "learned_vocab_size": 45, "compression_ratio": 0.8632425329384019, "example_words": [] }, { "step": 46, "pair": [ "ड", "़" ], "new_token": "ड़", "frequency": 1545, "vocab_size": 105, "learned_vocab_size": 46, "compression_ratio": 0.8651893829378012, "example_words": [] }, { "step": 47, "pair": [ "स", "ा" ], "new_token": "सा", "frequency": 1526, "vocab_size": 106, "learned_vocab_size": 47, "compression_ratio": 0.8672986099930231, "example_words": [] }, { "step": 48, "pair": [ "र", "ी" ], "new_token": "री", "frequency": 1518, "vocab_size": 107, "learned_vocab_size": 48, "compression_ratio": 0.8693772208010888, "example_words": [] }, { "step": 49, "pair": [ "ह", "ा" ], "new_token": "हा", "frequency": 1514, "vocab_size": 108, "learned_vocab_size": 49, "compression_ratio": 0.8720665906684025, "example_words": [] }, { "step": 50, "pair": [ "त", "्" ], "new_token": "त्", "frequency": 1508, "vocab_size": 109, "learned_vocab_size": 50, "compression_ratio": 0.8742792840922462, "example_words": [] }, { "step": 51, "pair": [ "प", "र" ], "new_token": "पर", "frequency": 1441, "vocab_size": 163, "learned_vocab_size": 51, "compression_ratio": 0.8582875807447438, "example_words": [] }, { "step": 52, "pair": [ "स", "ं" ], "new_token": "सं", "frequency": 1436, "vocab_size": 164, "learned_vocab_size": 52, "compression_ratio": 0.8601457317056943, "example_words": [] }, { "step": 53, "pair": [ "रा", "ज" ], "new_token": "राज", "frequency": 1431, "vocab_size": 165, "learned_vocab_size": 53, "compression_ratio": 0.8635135261499332, "example_words": [] }, { "step": 54, "pair": [ "ल", "्" ], "new_token": "ल्", "frequency": 1375, "vocab_size": 166, "learned_vocab_size": 54, "compression_ratio": 0.8653770206499548, "example_words": [] }, { "step": 55, "pair": [ "त", "ी" ], "new_token": "ती", "frequency": 1366, "vocab_size": 167, "learned_vocab_size": 55, "compression_ratio": 0.8671927299167842, "example_words": [] }, { "step": 56, "pair": [ "द", "्" ], "new_token": "द्", "frequency": 1348, "vocab_size": 168, "learned_vocab_size": 56, "compression_ratio": 0.8689249588332157, "example_words": [] }, { "step": 57, "pair": [ "ल", "ि" ], "new_token": "लि", "frequency": 1325, "vocab_size": 169, "learned_vocab_size": 57, "compression_ratio": 0.8711557639955796, "example_words": [] }, { "step": 58, "pair": [ "ज", "ि" ], "new_token": "जि", "frequency": 1301, "vocab_size": 170, "learned_vocab_size": 58, "compression_ratio": 0.8729085924945647, "example_words": [] }, { "step": 59, "pair": [ "म", "ु" ], "new_token": "मु", "frequency": 1299, "vocab_size": 171, "learned_vocab_size": 59, "compression_ratio": 0.8745477864875761, "example_words": [] }, { "step": 60, "pair": [ "न", "ग" ], "new_token": "नग", "frequency": 1292, "vocab_size": 172, "learned_vocab_size": 60, "compression_ratio": 0.8762465958799472, "example_words": [] }, { "step": 61, "pair": [ "भ", "ा" ], "new_token": "भा", "frequency": 1285, "vocab_size": 173, "learned_vocab_size": 61, "compression_ratio": 0.8778625954198473, "example_words": [] }, { "step": 62, "pair": [ "न", "ि" ], "new_token": "नि", "frequency": 1229, "vocab_size": 174, "learned_vocab_size": 62, "compression_ratio": 0.8797419084403725, "example_words": [] }, { "step": 63, "pair": [ "ए", "क" ], "new_token": "एक", "frequency": 1191, "vocab_size": 175, "learned_vocab_size": 63, "compression_ratio": 0.8818048751873997, "example_words": [] }, { "step": 64, "pair": [ "न", "ी" ], "new_token": "नी", "frequency": 1176, "vocab_size": 176, "learned_vocab_size": 64, "compression_ratio": 0.87232667228052, "example_words": [] }, { "step": 65, "pair": [ "म", "्" ], "new_token": "म्", "frequency": 1170, "vocab_size": 177, "learned_vocab_size": 65, "compression_ratio": 0.8742213470594441, "example_words": [] }, { "step": 66, "pair": [ "स", "ी" ], "new_token": "सी", "frequency": 1127, "vocab_size": 178, "learned_vocab_size": 66, "compression_ratio": 0.8760316578351787, "example_words": [] }, { "step": 67, "pair": [ "ज", "ा" ], "new_token": "जा", "frequency": 1102, "vocab_size": 179, "learned_vocab_size": 67, "compression_ratio": 0.8777302834362126, "example_words": [] }, { "step": 68, "pair": [ "ज", "़" ], "new_token": "ज़", "frequency": 1069, "vocab_size": 180, "learned_vocab_size": 68, "compression_ratio": 0.8794211518734882, "example_words": [] }, { "step": 69, "pair": [ "क्", "ष" ], "new_token": "क्ष", "frequency": 1037, "vocab_size": 181, "learned_vocab_size": 69, "compression_ratio": 0.8810164709730618, "example_words": [] }, { "step": 70, "pair": [ "श", "्" ], "new_token": "श्", "frequency": 1027, "vocab_size": 182, "learned_vocab_size": 70, "compression_ratio": 0.8824019231110498, "example_words": [] }, { "step": 71, "pair": [ "्", "ड" ], "new_token": "्ड", "frequency": 1026, "vocab_size": 183, "learned_vocab_size": 71, "compression_ratio": 0.883935555154439, "example_words": [] }, { "step": 72, "pair": [ "क", "ि" ], "new_token": "कि", "frequency": 1021, "vocab_size": 184, "learned_vocab_size": 72, "compression_ratio": 0.885399331308906, "example_words": [] }, { "step": 73, "pair": [ "नग", "र" ], "new_token": "नगर", "frequency": 1000, "vocab_size": 185, "learned_vocab_size": 73, "compression_ratio": 0.8871138180141408, "example_words": [] }, { "step": 74, "pair": [ "ट", "ी" ], "new_token": "टी", "frequency": 998, "vocab_size": 186, "learned_vocab_size": 74, "compression_ratio": 0.8883829853318509, "example_words": [] }, { "step": 75, "pair": [ "ण", "्ड" ], "new_token": "ण्ड", "frequency": 961, "vocab_size": 187, "learned_vocab_size": 75, "compression_ratio": 0.8898786907633176, "example_words": [] }, { "step": 76, "pair": [ "स", "ि" ], "new_token": "सि", "frequency": 960, "vocab_size": 188, "learned_vocab_size": 76, "compression_ratio": 0.8911877310120343, "example_words": [] }, { "step": 77, "pair": [ "क", "ु" ], "new_token": "कु", "frequency": 953, "vocab_size": 189, "learned_vocab_size": 77, "compression_ratio": 0.8925942905117109, "example_words": [] }, { "step": 78, "pair": [ "द", "ा" ], "new_token": "दा", "frequency": 945, "vocab_size": 190, "learned_vocab_size": 78, "compression_ratio": 0.8939125745025099, "example_words": [] }, { "step": 79, "pair": [ "दे", "श" ], "new_token": "देश", "frequency": 921, "vocab_size": 191, "learned_vocab_size": 79, "compression_ratio": 0.8953227948824847, "example_words": [] }, { "step": 80, "pair": [ "प", "ा" ], "new_token": "पा", "frequency": 907, "vocab_size": 192, "learned_vocab_size": 80, "compression_ratio": 0.8968643773846687, "example_words": [] }, { "step": 81, "pair": [ "त्", "त" ], "new_token": "त्त", "frequency": 892, "vocab_size": 193, "learned_vocab_size": 81, "compression_ratio": 0.8999773061731385, "example_words": [] }, { "step": 82, "pair": [ "इ", "स" ], "new_token": "इस", "frequency": 891, "vocab_size": 194, "learned_vocab_size": 82, "compression_ratio": 0.9012282854195132, "example_words": [] }, { "step": 83, "pair": [ "स्", "थ" ], "new_token": "स्थ", "frequency": 888, "vocab_size": 195, "learned_vocab_size": 83, "compression_ratio": 0.9023681029211814, "example_words": [] }, { "step": 84, "pair": [ "द", "ी" ], "new_token": "दी", "frequency": 844, "vocab_size": 196, "learned_vocab_size": 84, "compression_ratio": 0.9037735585258095, "example_words": [] }, { "step": 85, "pair": [ "म", "े" ], "new_token": "मे", "frequency": 835, "vocab_size": 197, "learned_vocab_size": 85, "compression_ratio": 0.9050427239137709, "example_words": [] }, { "step": 86, "pair": [ "ग", "म" ], "new_token": "गम", "frequency": 834, "vocab_size": 198, "learned_vocab_size": 86, "compression_ratio": 0.9015940717102134, "example_words": [] }, { "step": 87, "pair": [ "ं", "ड" ], "new_token": "ंड", "frequency": 825, "vocab_size": 199, "learned_vocab_size": 87, "compression_ratio": 0.9026869114831567, "example_words": [] }, { "step": 88, "pair": [ "ले", "ख" ], "new_token": "लेख", "frequency": 822, "vocab_size": 200, "learned_vocab_size": 88, "compression_ratio": 0.9039947417367652, "example_words": [] }, { "step": 89, "pair": [ "ह", "ी" ], "new_token": "ही", "frequency": 817, "vocab_size": 201, "learned_vocab_size": 89, "compression_ratio": 0.9054788322619777, "example_words": [] }, { "step": 90, "pair": [ "ष", "्" ], "new_token": "ष्", "frequency": 773, "vocab_size": 202, "learned_vocab_size": 90, "compression_ratio": 0.906611631680741, "example_words": [] }, { "step": 91, "pair": [ "म", "ि" ], "new_token": "मि", "frequency": 766, "vocab_size": 203, "learned_vocab_size": 91, "compression_ratio": 0.9076975572493358, "example_words": [] }, { "step": 92, "pair": [ "द", "ि" ], "new_token": "दि", "frequency": 761, "vocab_size": 204, "learned_vocab_size": 92, "compression_ratio": 0.909004618041298, "example_words": [] }, { "step": 93, "pair": [ "ढ", "़" ], "new_token": "ढ़", "frequency": 760, "vocab_size": 205, "learned_vocab_size": 93, "compression_ratio": 0.9100885992366359, "example_words": [] }, { "step": 94, "pair": [ "व", "े" ], "new_token": "वे", "frequency": 757, "vocab_size": 206, "learned_vocab_size": 94, "compression_ratio": 0.9111083861183229, "example_words": [] }, { "step": 95, "pair": [ "ग", "ा" ], "new_token": "गा", "frequency": 752, "vocab_size": 207, "learned_vocab_size": 95, "compression_ratio": 0.9122385877564729, "example_words": [] }, { "step": 96, "pair": [ "उ", "त्त" ], "new_token": "उत्त", "frequency": 752, "vocab_size": 208, "learned_vocab_size": 96, "compression_ratio": 0.9134141878305645, "example_words": [] }, { "step": 97, "pair": [ "ज", "ो" ], "new_token": "जो", "frequency": 720, "vocab_size": 209, "learned_vocab_size": 97, "compression_ratio": 0.9145061300481293, "example_words": [] }, { "step": 98, "pair": [ "त", "े" ], "new_token": "ते", "frequency": 709, "vocab_size": 210, "learned_vocab_size": 98, "compression_ratio": 0.9154774988103601, "example_words": [] }, { "step": 99, "pair": [ "भ", "ि" ], "new_token": "भि", "frequency": 708, "vocab_size": 211, "learned_vocab_size": 99, "compression_ratio": 0.916492512554692, "example_words": [] }, { "step": 100, "pair": [ "ब", "र" ], "new_token": "बर", "frequency": 699, "vocab_size": 212, "learned_vocab_size": 100, "compression_ratio": 0.9174446693216687, "example_words": [] }, { "step": 101, "pair": [ "म", "ू" ], "new_token": "मू", "frequency": 694, "vocab_size": 248, "learned_vocab_size": 101, "compression_ratio": 0.9185332228769714, "example_words": [ "मूल", "मूवी", "नमूनों" ] }, { "step": 102, "pair": [ "श", "ा" ], "new_token": "शा", "frequency": 691, "vocab_size": 249, "learned_vocab_size": 102, "compression_ratio": 0.9194817793494078, "example_words": [] }, { "step": 103, "pair": [ "ह", "ि" ], "new_token": "हि", "frequency": 685, "vocab_size": 250, "learned_vocab_size": 103, "compression_ratio": 0.9205070075957155, "example_words": [] }, { "step": 104, "pair": [ "व", "ी" ], "new_token": "वी", "frequency": 681, "vocab_size": 251, "learned_vocab_size": 104, "compression_ratio": 0.9216081003822361, "example_words": [] }, { "step": 105, "pair": [ "म", "ी" ], "new_token": "मी", "frequency": 678, "vocab_size": 252, "learned_vocab_size": 105, "compression_ratio": 0.9226077908880322, "example_words": [] }, { "step": 106, "pair": [ "श्", "व" ], "new_token": "श्व", "frequency": 677, "vocab_size": 253, "learned_vocab_size": 106, "compression_ratio": 0.9236914793438856, "example_words": [] }, { "step": 107, "pair": [ "भार", "त" ], "new_token": "भारत", "frequency": 676, "vocab_size": 254, "learned_vocab_size": 107, "compression_ratio": 0.9246374987305125, "example_words": [] }, { "step": 108, "pair": [ "ह", "ो" ], "new_token": "हो", "frequency": 671, "vocab_size": 255, "learned_vocab_size": 108, "compression_ratio": 0.924638821341725, "example_words": [] }, { "step": 109, "pair": [ "ह", "ु" ], "new_token": "हु", "frequency": 664, "vocab_size": 256, "learned_vocab_size": 109, "compression_ratio": 0.9255523259976232, "example_words": [] }, { "step": 110, "pair": [ "ज", "ी" ], "new_token": "जी", "frequency": 658, "vocab_size": 257, "learned_vocab_size": 110, "compression_ratio": 0.926503490790362, "example_words": [] }, { "step": 111, "pair": [ "है", "ं" ], "new_token": "हैं", "frequency": 652, "vocab_size": 258, "learned_vocab_size": 111, "compression_ratio": 0.9275444461982179, "example_words": [] }, { "step": 112, "pair": [ "राज", "्य" ], "new_token": "राज्य", "frequency": 649, "vocab_size": 259, "learned_vocab_size": 112, "compression_ratio": 0.9286384356023439, "example_words": [] }, { "step": 113, "pair": [ "भ", "ी" ], "new_token": "भी", "frequency": 619, "vocab_size": 260, "learned_vocab_size": 113, "compression_ratio": 0.9296133364204677, "example_words": [] }, { "step": 114, "pair": [ "र", "े" ], "new_token": "रे", "frequency": 619, "vocab_size": 261, "learned_vocab_size": 114, "compression_ratio": 0.930481783765888, "example_words": [] }, { "step": 115, "pair": [ "ग", "ो" ], "new_token": "गो", "frequency": 617, "vocab_size": 262, "learned_vocab_size": 115, "compression_ratio": 0.9318472751595809, "example_words": [] }, { "step": 116, "pair": [ "बा", "द" ], "new_token": "बाद", "frequency": 613, "vocab_size": 263, "learned_vocab_size": 116, "compression_ratio": 0.9328464288136645, "example_words": [] }, { "step": 117, "pair": [ "अ", "भि" ], "new_token": "अभि", "frequency": 609, "vocab_size": 264, "learned_vocab_size": 117, "compression_ratio": 0.9337708356506126, "example_words": [] }, { "step": 118, "pair": [ "र", "ू" ], "new_token": "रू", "frequency": 607, "vocab_size": 265, "learned_vocab_size": 118, "compression_ratio": 0.934682209639265, "example_words": [] }, { "step": 119, "pair": [ "ल", "य" ], "new_token": "लय", "frequency": 606, "vocab_size": 266, "learned_vocab_size": 119, "compression_ratio": 0.9355940102530851, "example_words": [] }, { "step": 120, "pair": [ "ल", "ो" ], "new_token": "लो", "frequency": 604, "vocab_size": 267, "learned_vocab_size": 120, "compression_ratio": 0.9365265869439865, "example_words": [] }, { "step": 121, "pair": [ "स", "ु" ], "new_token": "सु", "frequency": 595, "vocab_size": 268, "learned_vocab_size": 121, "compression_ratio": 0.9374419913219018, "example_words": [] }, { "step": 122, "pair": [ "ब", "ि" ], "new_token": "बि", "frequency": 590, "vocab_size": 269, "learned_vocab_size": 122, "compression_ratio": 0.9383101519202687, "example_words": [] }, { "step": 123, "pair": [ "प", "ू" ], "new_token": "पू", "frequency": 579, "vocab_size": 270, "learned_vocab_size": 123, "compression_ratio": 0.9392577072123844, "example_words": [] }, { "step": 124, "pair": [ "थ", "ा" ], "new_token": "था", "frequency": 569, "vocab_size": 271, "learned_vocab_size": 124, "compression_ratio": 0.9401169301473261, "example_words": [] }, { "step": 125, "pair": [ "थ", "ि" ], "new_token": "थि", "frequency": 560, "vocab_size": 272, "learned_vocab_size": 125, "compression_ratio": 0.9410256708874027, "example_words": [] }, { "step": 126, "pair": [ "ग", "ु" ], "new_token": "गु", "frequency": 550, "vocab_size": 273, "learned_vocab_size": 126, "compression_ratio": 0.941834611618799, "example_words": [] }, { "step": 127, "pair": [ "र", "ु" ], "new_token": "रु", "frequency": 547, "vocab_size": 274, "learned_vocab_size": 127, "compression_ratio": 0.9426518175229424, "example_words": [] }, { "step": 128, "pair": [ "क", "ृ" ], "new_token": "कृ", "frequency": 537, "vocab_size": 275, "learned_vocab_size": 128, "compression_ratio": 0.9435296590439686, "example_words": [] }, { "step": 129, "pair": [ "ह", "र" ], "new_token": "हर", "frequency": 536, "vocab_size": 276, "learned_vocab_size": 129, "compression_ratio": 0.944359467699828, "example_words": [] }, { "step": 130, "pair": [ "य", "ह" ], "new_token": "यह", "frequency": 534, "vocab_size": 277, "learned_vocab_size": 130, "compression_ratio": 0.9452156149973461, "example_words": [] }, { "step": 131, "pair": [ "लि", "ए" ], "new_token": "लिए", "frequency": 533, "vocab_size": 278, "learned_vocab_size": 131, "compression_ratio": 0.9459570202459958, "example_words": [] }, { "step": 132, "pair": [ "य", "ो" ], "new_token": "यो", "frequency": 519, "vocab_size": 279, "learned_vocab_size": 132, "compression_ratio": 0.9467231602010568, "example_words": [] }, { "step": 133, "pair": [ "स", "र" ], "new_token": "सर", "frequency": 518, "vocab_size": 280, "learned_vocab_size": 133, "compression_ratio": 0.9477822790526502, "example_words": [] }, { "step": 134, "pair": [ "ब", "ी" ], "new_token": "बी", "frequency": 511, "vocab_size": 281, "learned_vocab_size": 134, "compression_ratio": 0.9485652989290735, "example_words": [] }, { "step": 135, "pair": [ "ति", "थि" ], "new_token": "तिथि", "frequency": 509, "vocab_size": 282, "learned_vocab_size": 135, "compression_ratio": 0.9493705278988614, "example_words": [] }, { "step": 136, "pair": [ "गम", "न" ], "new_token": "गमन", "frequency": 500, "vocab_size": 283, "learned_vocab_size": 136, "compression_ratio": 0.9500947280078899, "example_words": [] }, { "step": 137, "pair": [ "अ", "ध" ], "new_token": "अध", "frequency": 499, "vocab_size": 284, "learned_vocab_size": 137, "compression_ratio": 0.950766891017344, "example_words": [] }, { "step": 138, "pair": [ "ष्", "ट" ], "new_token": "ष्ट", "frequency": 499, "vocab_size": 285, "learned_vocab_size": 138, "compression_ratio": 0.9514876216746913, "example_words": [] }, { "step": 139, "pair": [ "ख", "ण्ड" ], "new_token": "खण्ड", "frequency": 496, "vocab_size": 286, "learned_vocab_size": 139, "compression_ratio": 0.952230486283279, "example_words": [] }, { "step": 140, "pair": [ "न्", "द" ], "new_token": "न्द", "frequency": 495, "vocab_size": 287, "learned_vocab_size": 140, "compression_ratio": 0.9530110410489955, "example_words": [] }, { "step": 141, "pair": [ "व", "ं" ], "new_token": "वं", "frequency": 492, "vocab_size": 288, "learned_vocab_size": 141, "compression_ratio": 0.9541786415964408, "example_words": [] }, { "step": 142, "pair": [ "प्र", "देश" ], "new_token": "प्रदेश", "frequency": 491, "vocab_size": 289, "learned_vocab_size": 142, "compression_ratio": 0.9548848078752533, "example_words": [] }, { "step": 143, "pair": [ "अभि", "गमन" ], "new_token": "अभिगमन", "frequency": 490, "vocab_size": 290, "learned_vocab_size": 143, "compression_ratio": 0.9549553409188277, "example_words": [] }, { "step": 144, "pair": [ "उ", "प" ], "new_token": "उप", "frequency": 489, "vocab_size": 291, "learned_vocab_size": 144, "compression_ratio": 0.9556471165673195, "example_words": [] }, { "step": 145, "pair": [ "पर", "ि" ], "new_token": "परि", "frequency": 489, "vocab_size": 292, "learned_vocab_size": 145, "compression_ratio": 0.9564120584427593, "example_words": [] }, { "step": 146, "pair": [ "वि", "श्व" ], "new_token": "विश्व", "frequency": 487, "vocab_size": 293, "learned_vocab_size": 146, "compression_ratio": 0.9571583835296765, "example_words": [] }, { "step": 147, "pair": [ "ट", "र" ], "new_token": "टर", "frequency": 481, "vocab_size": 294, "learned_vocab_size": 147, "compression_ratio": 0.9579016158287198, "example_words": [] }, { "step": 148, "pair": [ "ग", "या" ], "new_token": "गया", "frequency": 476, "vocab_size": 295, "learned_vocab_size": 148, "compression_ratio": 0.9586303649206375, "example_words": [] }, { "step": 149, "pair": [ "व", "र्" ], "new_token": "वर्", "frequency": 476, "vocab_size": 296, "learned_vocab_size": 149, "compression_ratio": 0.9593360195305833, "example_words": [] }, { "step": 150, "pair": [ "स", "म" ], "new_token": "सम", "frequency": 468, "vocab_size": 297, "learned_vocab_size": 150, "compression_ratio": 0.9601411065725957, "example_words": [] }, { "step": 151, "pair": [ "ग", "ढ़" ], "new_token": "गढ़", "frequency": 466, "vocab_size": 303, "learned_vocab_size": 151, "compression_ratio": 0.9609789746128448, "example_words": [] }, { "step": 152, "pair": [ "उत्त", "रा" ], "new_token": "उत्तरा", "frequency": 456, "vocab_size": 304, "learned_vocab_size": 152, "compression_ratio": 0.9616809388073291, "example_words": [] }, { "step": 153, "pair": [ "ज़", "ि" ], "new_token": "ज़ि", "frequency": 456, "vocab_size": 305, "learned_vocab_size": 153, "compression_ratio": 0.9624197505866098, "example_words": [] }, { "step": 154, "pair": [ "ज", "न" ], "new_token": "जन", "frequency": 456, "vocab_size": 306, "learned_vocab_size": 154, "compression_ratio": 0.9631166470491828, "example_words": [] }, { "step": 155, "pair": [ "च", "े" ], "new_token": "चे", "frequency": 456, "vocab_size": 307, "learned_vocab_size": 155, "compression_ratio": 0.9640402250766934, "example_words": [] }, { "step": 156, "pair": [ "फ", "़" ], "new_token": "फ़", "frequency": 453, "vocab_size": 308, "learned_vocab_size": 156, "compression_ratio": 0.9647740281216746, "example_words": [] }, { "step": 157, "pair": [ "आ", "ध" ], "new_token": "आध", "frequency": 447, "vocab_size": 309, "learned_vocab_size": 157, "compression_ratio": 0.9654916440011411, "example_words": [] }, { "step": 158, "pair": [ "ट", "ा" ], "new_token": "टा", "frequency": 442, "vocab_size": 310, "learned_vocab_size": 158, "compression_ratio": 0.966187221334545, "example_words": [] }, { "step": 159, "pair": [ "म", "ो" ], "new_token": "मो", "frequency": 439, "vocab_size": 311, "learned_vocab_size": 159, "compression_ratio": 0.9669445470768706, "example_words": [] }, { "step": 160, "pair": [ "ं", "द" ], "new_token": "ंद", "frequency": 435, "vocab_size": 312, "learned_vocab_size": 160, "compression_ratio": 0.9676972662887185, "example_words": [] }, { "step": 161, "pair": [ "न्", "न" ], "new_token": "न्न", "frequency": 435, "vocab_size": 313, "learned_vocab_size": 161, "compression_ratio": 0.9686543299971678, "example_words": [] }, { "step": 162, "pair": [ "प", "ी" ], "new_token": "पी", "frequency": 424, "vocab_size": 314, "learned_vocab_size": 162, "compression_ratio": 0.96937627842528, "example_words": [] }, { "step": 163, "pair": [ "ब", "े" ], "new_token": "बे", "frequency": 423, "vocab_size": 315, "learned_vocab_size": 163, "compression_ratio": 0.9701196863392488, "example_words": [] }, { "step": 164, "pair": [ "भ", "ू" ], "new_token": "भू", "frequency": 422, "vocab_size": 316, "learned_vocab_size": 164, "compression_ratio": 0.9708132023927347, "example_words": [] }, { "step": 165, "pair": [ "रू", "प" ], "new_token": "रूप", "frequency": 418, "vocab_size": 317, "learned_vocab_size": 165, "compression_ratio": 0.9715193916121226, "example_words": [] }, { "step": 166, "pair": [ "पू", "र्" ], "new_token": "पूर्", "frequency": 414, "vocab_size": 318, "learned_vocab_size": 166, "compression_ratio": 0.9721476535300443, "example_words": [] }, { "step": 167, "pair": [ "क्ष", "े" ], "new_token": "क्षे", "frequency": 406, "vocab_size": 319, "learned_vocab_size": 167, "compression_ratio": 0.9728030796689777, "example_words": [] }, { "step": 168, "pair": [ "मू", "ल" ], "new_token": "मूल", "frequency": 391, "vocab_size": 320, "learned_vocab_size": 168, "compression_ratio": 0.9734681860690658, "example_words": [] }, { "step": 169, "pair": [ "क्षे", "त्र" ], "new_token": "क्षेत्र", "frequency": 387, "vocab_size": 321, "learned_vocab_size": 169, "compression_ratio": 0.9740696148264903, "example_words": [] }, { "step": 170, "pair": [ "प", "्" ], "new_token": "प्", "frequency": 387, "vocab_size": 322, "learned_vocab_size": 170, "compression_ratio": 0.9740696148264903, "example_words": [] }, { "step": 171, "pair": [ "य", "ु" ], "new_token": "यु", "frequency": 384, "vocab_size": 322, "learned_vocab_size": 171, "compression_ratio": 0.9740696148264903, "example_words": [] }, { "step": 172, "pair": [ "ड़", "ा" ], "new_token": "ड़ा", "frequency": 381, "vocab_size": 323, "learned_vocab_size": 172, "compression_ratio": 0.9748511139496691, "example_words": [] }, { "step": 173, "pair": [ "स्", "ट" ], "new_token": "स्ट", "frequency": 381, "vocab_size": 324, "learned_vocab_size": 173, "compression_ratio": 0.9754395336589753, "example_words": [] }, { "step": 174, "pair": [ "र", "ो" ], "new_token": "रो", "frequency": 374, "vocab_size": 325, "learned_vocab_size": 174, "compression_ratio": 0.9762276563226793, "example_words": [] }, { "step": 175, "pair": [ "स", "ू" ], "new_token": "सू", "frequency": 374, "vocab_size": 326, "learned_vocab_size": 175, "compression_ratio": 0.9776332266592459, "example_words": [] }, { "step": 176, "pair": [ "द", "ू" ], "new_token": "दू", "frequency": 371, "vocab_size": 327, "learned_vocab_size": 176, "compression_ratio": 0.9782679429457833, "example_words": [] }, { "step": 177, "pair": [ "जि", "ला" ], "new_token": "जिला", "frequency": 370, "vocab_size": 328, "learned_vocab_size": 177, "compression_ratio": 0.9788604959303426, "example_words": [] }, { "step": 178, "pair": [ "उत्तरा", "खण्ड" ], "new_token": "उत्तराखण्ड", "frequency": 366, "vocab_size": 329, "learned_vocab_size": 178, "compression_ratio": 0.9794359585870631, "example_words": [] }, { "step": 179, "pair": [ "अध", "िक" ], "new_token": "अधिक", "frequency": 360, "vocab_size": 330, "learned_vocab_size": 179, "compression_ratio": 0.9800626170278895, "example_words": [] }, { "step": 180, "pair": [ "वि", "द्या" ], "new_token": "विद्या", "frequency": 357, "vocab_size": 331, "learned_vocab_size": 180, "compression_ratio": 0.9806796632026095, "example_words": [] }, { "step": 181, "pair": [ "च", "ि" ], "new_token": "चि", "frequency": 352, "vocab_size": 332, "learned_vocab_size": 181, "compression_ratio": 0.9806796632026095, "example_words": [] }, { "step": 182, "pair": [ "ज़ि", "ला" ], "new_token": "ज़िला", "frequency": 346, "vocab_size": 333, "learned_vocab_size": 182, "compression_ratio": 0.9813675063155849, "example_words": [] }, { "step": 183, "pair": [ "स्रो", "त" ], "new_token": "स्रोत", "frequency": 345, "vocab_size": 334, "learned_vocab_size": 183, "compression_ratio": 0.981917580990371, "example_words": [] }, { "step": 184, "pair": [ "विद्या", "लय" ], "new_token": "विद्यालय", "frequency": 344, "vocab_size": 335, "learned_vocab_size": 184, "compression_ratio": 0.981917580990371, "example_words": [] }, { "step": 185, "pair": [ "द्", "ध" ], "new_token": "द्ध", "frequency": 343, "vocab_size": 336, "learned_vocab_size": 185, "compression_ratio": 0.981917580990371, "example_words": [] }, { "step": 186, "pair": [ "ख", "ा" ], "new_token": "खा", "frequency": 341, "vocab_size": 337, "learned_vocab_size": 186, "compression_ratio": 0.982469765893709, "example_words": [] }, { "step": 187, "pair": [ "नि", "र्" ], "new_token": "निर्", "frequency": 340, "vocab_size": 338, "learned_vocab_size": 187, "compression_ratio": 0.9832004988896663, "example_words": [] }, { "step": 188, "pair": [ "मु", "ख" ], "new_token": "मुख", "frequency": 337, "vocab_size": 339, "learned_vocab_size": 188, "compression_ratio": 0.9840970920788417, "example_words": [] }, { "step": 189, "pair": [ "ष", "ा" ], "new_token": "षा", "frequency": 335, "vocab_size": 340, "learned_vocab_size": 189, "compression_ratio": 0.9846412327227196, "example_words": [] }, { "step": 190, "pair": [ "म", "द" ], "new_token": "मद", "frequency": 334, "vocab_size": 341, "learned_vocab_size": 190, "compression_ratio": 0.9855509748556165, "example_words": [] }, { "step": 191, "pair": [ "च", "ा" ], "new_token": "चा", "frequency": 332, "vocab_size": 342, "learned_vocab_size": 191, "compression_ratio": 0.9861463685514481, "example_words": [] }, { "step": 192, "pair": [ "ौ", "र" ], "new_token": "ौर", "frequency": 332, "vocab_size": 343, "learned_vocab_size": 192, "compression_ratio": 0.9868494372004903, "example_words": [] }, { "step": 193, "pair": [ "ँ", "व" ], "new_token": "ँव", "frequency": 330, "vocab_size": 344, "learned_vocab_size": 193, "compression_ratio": 0.9874554517305275, "example_words": [] }, { "step": 194, "pair": [ "इ", "ं" ], "new_token": "इं", "frequency": 330, "vocab_size": 345, "learned_vocab_size": 194, "compression_ratio": 0.9880576801971178, "example_words": [] }, { "step": 195, "pair": [ "र", "ि" ], "new_token": "रि", "frequency": 328, "vocab_size": 346, "learned_vocab_size": 195, "compression_ratio": 0.9886183064492695, "example_words": [] }, { "step": 196, "pair": [ "न", "ु" ], "new_token": "नु", "frequency": 327, "vocab_size": 347, "learned_vocab_size": 196, "compression_ratio": 0.9901235021742694, "example_words": [] }, { "step": 197, "pair": [ "प", "ट" ], "new_token": "पट", "frequency": 326, "vocab_size": 348, "learned_vocab_size": 197, "compression_ratio": 0.9907198798412188, "example_words": [] }, { "step": 198, "pair": [ "भारती", "य" ], "new_token": "भारतीय", "frequency": 323, "vocab_size": 349, "learned_vocab_size": 198, "compression_ratio": 0.9912303299628604, "example_words": [] }, { "step": 199, "pair": [ "भा", "ग" ], "new_token": "भाग", "frequency": 322, "vocab_size": 350, "learned_vocab_size": 199, "compression_ratio": 0.9912303299628604, "example_words": [] }, { "step": 200, "pair": [ "स्", "त" ], "new_token": "स्त", "frequency": 320, "vocab_size": 351, "learned_vocab_size": 200, "compression_ratio": 0.991789998250906, "example_words": [] }, { "step": 201, "pair": [ "ज", "्" ], "new_token": "ज्", "frequency": 319, "vocab_size": 367, "learned_vocab_size": 201, "compression_ratio": 0.9925788639658011, "example_words": [ "ज्ञानकोश", "विज्ञान", "साम्राज्ञी" ] }, { "step": 202, "pair": [ "ं", "त" ], "new_token": "ंत", "frequency": 317, "vocab_size": 368, "learned_vocab_size": 202, "compression_ratio": 0.9931690483836026, "example_words": [] }, { "step": 203, "pair": [ "ण", "ा" ], "new_token": "णा", "frequency": 312, "vocab_size": 369, "learned_vocab_size": 203, "compression_ratio": 0.9938638327444704, "example_words": [] }, { "step": 204, "pair": [ "भा", "षा" ], "new_token": "भाषा", "frequency": 307, "vocab_size": 370, "learned_vocab_size": 204, "compression_ratio": 0.9944096521954499, "example_words": [] }, { "step": 205, "pair": [ "फ", "ि" ], "new_token": "फि", "frequency": 306, "vocab_size": 371, "learned_vocab_size": 205, "compression_ratio": 0.9951276209242895, "example_words": [] }, { "step": 206, "pair": [ "ट", "ि" ], "new_token": "टि", "frequency": 304, "vocab_size": 372, "learned_vocab_size": 206, "compression_ratio": 0.9956472249904119, "example_words": [] }, { "step": 207, "pair": [ "ह", "े" ], "new_token": "हे", "frequency": 301, "vocab_size": 373, "learned_vocab_size": 207, "compression_ratio": 0.9962042171255614, "example_words": [] }, { "step": 208, "pair": [ "ना", "म" ], "new_token": "नाम", "frequency": 301, "vocab_size": 374, "learned_vocab_size": 208, "compression_ratio": 0.996717262051611, "example_words": [] }, { "step": 209, "pair": [ "ल", "पुर" ], "new_token": "लपुर", "frequency": 298, "vocab_size": 375, "learned_vocab_size": 209, "compression_ratio": 0.9973000701981748, "example_words": [] }, { "step": 210, "pair": [ "जो", "ड़" ], "new_token": "जोड़", "frequency": 296, "vocab_size": 376, "learned_vocab_size": 210, "compression_ratio": 0.9978142447644525, "example_words": [] }, { "step": 211, "pair": [ "अ", "प" ], "new_token": "अप", "frequency": 296, "vocab_size": 377, "learned_vocab_size": 211, "compression_ratio": 0.9982842387796012, "example_words": [] }, { "step": 212, "pair": [ "म", "ै" ], "new_token": "मै", "frequency": 296, "vocab_size": 378, "learned_vocab_size": 212, "compression_ratio": 0.998947605919369, "example_words": [] }, { "step": 213, "pair": [ "ं", "ध" ], "new_token": "ंध", "frequency": 294, "vocab_size": 379, "learned_vocab_size": 213, "compression_ratio": 0.9994681171812067, "example_words": [] }, { "step": 214, "pair": [ "श", "ि" ], "new_token": "शि", "frequency": 294, "vocab_size": 380, "learned_vocab_size": 214, "compression_ratio": 0.9999427645053306, "example_words": [] }, { "step": 215, "pair": [ "स", "ो" ], "new_token": "सो", "frequency": 290, "vocab_size": 381, "learned_vocab_size": 215, "compression_ratio": 1.000722968412318, "example_words": [] }, { "step": 216, "pair": [ "गा", "ँव" ], "new_token": "गाँव", "frequency": 287, "vocab_size": 382, "learned_vocab_size": 216, "compression_ratio": 1.0012298236891304, "example_words": [] }, { "step": 217, "pair": [ "श", "ी" ], "new_token": "शी", "frequency": 282, "vocab_size": 383, "learned_vocab_size": 217, "compression_ratio": 1.0017915286729824, "example_words": [] }, { "step": 218, "pair": [ "चे", "न्न" ], "new_token": "चेन्न", "frequency": 280, "vocab_size": 384, "learned_vocab_size": 218, "compression_ratio": 1.0023025754733073, "example_words": [] }, { "step": 219, "pair": [ "ष्ट", "्री" ], "new_token": "ष्ट्री", "frequency": 275, "vocab_size": 385, "learned_vocab_size": 219, "compression_ratio": 1.002783030649017, "example_words": [] }, { "step": 220, "pair": [ "ष्ट्री", "य" ], "new_token": "ष्ट्रीय", "frequency": 274, "vocab_size": 386, "learned_vocab_size": 220, "compression_ratio": 1.002783030649017, "example_words": [] }, { "step": 221, "pair": [ "उत्त", "र" ], "new_token": "उत्तर", "frequency": 273, "vocab_size": 387, "learned_vocab_size": 221, "compression_ratio": 1.002783030649017, "example_words": [] }, { "step": 222, "pair": [ "न", "ो" ], "new_token": "नो", "frequency": 273, "vocab_size": 388, "learned_vocab_size": 222, "compression_ratio": 1.0018784785563613, "example_words": [] }, { "step": 223, "pair": [ "ड", "े" ], "new_token": "डे", "frequency": 273, "vocab_size": 389, "learned_vocab_size": 223, "compression_ratio": 1.0023849509286267, "example_words": [] }, { "step": 224, "pair": [ "चेन्न", "ई" ], "new_token": "चेन्नई", "frequency": 273, "vocab_size": 390, "learned_vocab_size": 224, "compression_ratio": 1.0028841559150796, "example_words": [] }, { "step": 225, "pair": [ "विश्व", "विद्यालय" ], "new_token": "विश्वविद्यालय", "frequency": 272, "vocab_size": 391, "learned_vocab_size": 225, "compression_ratio": 1.0033542671058309, "example_words": [] }, { "step": 226, "pair": [ "ब", "्" ], "new_token": "ब्", "frequency": 272, "vocab_size": 392, "learned_vocab_size": 226, "compression_ratio": 1.0033542671058309, "example_words": [] }, { "step": 227, "pair": [ "ही", "ं" ], "new_token": "हीं", "frequency": 271, "vocab_size": 393, "learned_vocab_size": 227, "compression_ratio": 1.0042271638387184, "example_words": [] }, { "step": 228, "pair": [ "ज्", "ञ" ], "new_token": "ज्ञ", "frequency": 267, "vocab_size": 394, "learned_vocab_size": 228, "compression_ratio": 1.0046610590970695, "example_words": [] }, { "step": 229, "pair": [ "क्", "त" ], "new_token": "क्त", "frequency": 263, "vocab_size": 395, "learned_vocab_size": 229, "compression_ratio": 1.0051078320090805, "example_words": [] }, { "step": 230, "pair": [ "आध", "िकारिक" ], "new_token": "आधिकारिक", "frequency": 259, "vocab_size": 396, "learned_vocab_size": 230, "compression_ratio": 1.0056097534415356, "example_words": [] }, { "step": 231, "pair": [ "श", "न" ], "new_token": "शन", "frequency": 259, "vocab_size": 397, "learned_vocab_size": 231, "compression_ratio": 1.0056097534415356, "example_words": [] }, { "step": 232, "pair": [ "इ", "न" ], "new_token": "इन", "frequency": 258, "vocab_size": 398, "learned_vocab_size": 232, "compression_ratio": 1.0061106104540312, "example_words": [] }, { "step": 233, "pair": [ "ड़", "ी" ], "new_token": "ड़ी", "frequency": 257, "vocab_size": 399, "learned_vocab_size": 233, "compression_ratio": 1.0065320295225935, "example_words": [] }, { "step": 234, "pair": [ "द", "ु" ], "new_token": "दु", "frequency": 257, "vocab_size": 400, "learned_vocab_size": 234, "compression_ratio": 1.0069820370661735, "example_words": [] }, { "step": 235, "pair": [ "च", "्" ], "new_token": "च्", "frequency": 254, "vocab_size": 401, "learned_vocab_size": 235, "compression_ratio": 1.0074607093206656, "example_words": [] }, { "step": 236, "pair": [ "स", "भा" ], "new_token": "सभा", "frequency": 253, "vocab_size": 402, "learned_vocab_size": 236, "compression_ratio": 1.0079036900518596, "example_words": [] }, { "step": 237, "pair": [ "उ", "न" ], "new_token": "उन", "frequency": 253, "vocab_size": 403, "learned_vocab_size": 237, "compression_ratio": 1.0083738009849512, "example_words": [] }, { "step": 238, "pair": [ "आ", "ई" ], "new_token": "आई", "frequency": 252, "vocab_size": 404, "learned_vocab_size": 238, "compression_ratio": 1.0087845240064546, "example_words": [] }, { "step": 239, "pair": [ "प", "ि" ], "new_token": "पि", "frequency": 252, "vocab_size": 405, "learned_vocab_size": 239, "compression_ratio": 1.0092664876342743, "example_words": [] }, { "step": 240, "pair": [ "न", "हीं" ], "new_token": "नहीं", "frequency": 252, "vocab_size": 406, "learned_vocab_size": 240, "compression_ratio": 1.0098088531187124, "example_words": [] }, { "step": 241, "pair": [ "नि", "गम" ], "new_token": "निगम", "frequency": 250, "vocab_size": 407, "learned_vocab_size": 241, "compression_ratio": 1.0102175886928269, "example_words": [] }, { "step": 242, "pair": [ "न", "पुर" ], "new_token": "नपुर", "frequency": 249, "vocab_size": 408, "learned_vocab_size": 242, "compression_ratio": 1.0106772193262517, "example_words": [] }, { "step": 243, "pair": [ "य", "े" ], "new_token": "ये", "frequency": 246, "vocab_size": 409, "learned_vocab_size": 243, "compression_ratio": 1.011428374726769, "example_words": [] }, { "step": 244, "pair": [ "द्", "वारा" ], "new_token": "द्वारा", "frequency": 243, "vocab_size": 410, "learned_vocab_size": 244, "compression_ratio": 1.0119001961450378, "example_words": [] }, { "step": 245, "pair": [ "सि", "टी" ], "new_token": "सिटी", "frequency": 242, "vocab_size": 411, "learned_vocab_size": 245, "compression_ratio": 1.0119001961450378, "example_words": [] }, { "step": 246, "pair": [ "ड", "ि" ], "new_token": "डि", "frequency": 241, "vocab_size": 412, "learned_vocab_size": 246, "compression_ratio": 1.0122868476233577, "example_words": [] }, { "step": 247, "pair": [ "त", "ु" ], "new_token": "तु", "frequency": 239, "vocab_size": 413, "learned_vocab_size": 247, "compression_ratio": 1.0127769247642027, "example_words": [] }, { "step": 248, "pair": [ "रा", "म" ], "new_token": "राम", "frequency": 239, "vocab_size": 414, "learned_vocab_size": 248, "compression_ratio": 1.0132039480180755, "example_words": [] }, { "step": 249, "pair": [ "इं", "टर" ], "new_token": "इंटर", "frequency": 235, "vocab_size": 415, "learned_vocab_size": 249, "compression_ratio": 1.0136472263341445, "example_words": [] }, { "step": 250, "pair": [ "जि", "ले" ], "new_token": "जिले", "frequency": 234, "vocab_size": 416, "learned_vocab_size": 250, "compression_ratio": 1.014030442169134, "example_words": [] }, { "step": 251, "pair": [ "ल", "ै" ], "new_token": "लै", "frequency": 232, "vocab_size": 424, "learned_vocab_size": 251, "compression_ratio": 1.0144394190962533, "example_words": [] }, { "step": 252, "pair": [ "प", "े" ], "new_token": "पे", "frequency": 231, "vocab_size": 425, "learned_vocab_size": 252, "compression_ratio": 1.0148630657447704, "example_words": [] }, { "step": 253, "pair": [ "ज", "य" ], "new_token": "जय", "frequency": 230, "vocab_size": 426, "learned_vocab_size": 253, "compression_ratio": 1.015344477150567, "example_words": [] }, { "step": 254, "pair": [ "क", "ै" ], "new_token": "कै", "frequency": 230, "vocab_size": 427, "learned_vocab_size": 254, "compression_ratio": 1.0157305736607565, "example_words": [] }, { "step": 255, "pair": [ "वि", "ध" ], "new_token": "विध", "frequency": 229, "vocab_size": 428, "learned_vocab_size": 255, "compression_ratio": 1.0162016258219897, "example_words": [] }, { "step": 256, "pair": [ "म", "हा" ], "new_token": "महा", "frequency": 228, "vocab_size": 429, "learned_vocab_size": 256, "compression_ratio": 1.0166379380846633, "example_words": [] }, { "step": 257, "pair": [ "जा", "ता" ], "new_token": "जाता", "frequency": 227, "vocab_size": 430, "learned_vocab_size": 257, "compression_ratio": 1.0172843042213802, "example_words": [] }, { "step": 258, "pair": [ "द्", "वार" ], "new_token": "द्वार", "frequency": 224, "vocab_size": 431, "learned_vocab_size": 258, "compression_ratio": 1.0176478459709857, "example_words": [] }, { "step": 259, "pair": [ "जोड़", "कर" ], "new_token": "जोड़कर", "frequency": 224, "vocab_size": 432, "learned_vocab_size": 259, "compression_ratio": 1.0176478459709857, "example_words": [] }, { "step": 260, "pair": [ "सा", "थ" ], "new_token": "साथ", "frequency": 224, "vocab_size": 433, "learned_vocab_size": 260, "compression_ratio": 1.018010044426666, "example_words": [] }, { "step": 261, "pair": [ "ब", "ु" ], "new_token": "बु", "frequency": 223, "vocab_size": 434, "learned_vocab_size": 261, "compression_ratio": 1.0184142158754865, "example_words": [] }, { "step": 262, "pair": [ "व", "त" ], "new_token": "वत", "frequency": 222, "vocab_size": 435, "learned_vocab_size": 262, "compression_ratio": 1.0188363721188278, "example_words": [] }, { "step": 263, "pair": [ "ओ", "ं" ], "new_token": "ओं", "frequency": 222, "vocab_size": 436, "learned_vocab_size": 263, "compression_ratio": 1.0192267364215313, "example_words": [] }, { "step": 264, "pair": [ "प", "ो" ], "new_token": "पो", "frequency": 221, "vocab_size": 437, "learned_vocab_size": 264, "compression_ratio": 1.0196109668728766, "example_words": [] }, { "step": 265, "pair": [ "यो", "ग" ], "new_token": "योग", "frequency": 221, "vocab_size": 438, "learned_vocab_size": 265, "compression_ratio": 1.0200099726383625, "example_words": [] }, { "step": 266, "pair": [ "श", "ु" ], "new_token": "शु", "frequency": 220, "vocab_size": 439, "learned_vocab_size": 266, "compression_ratio": 1.0206799743572739, "example_words": [] }, { "step": 267, "pair": [ "सर", "कार" ], "new_token": "सरकार", "frequency": 217, "vocab_size": 440, "learned_vocab_size": 267, "compression_ratio": 1.0210765916041145, "example_words": [] }, { "step": 268, "pair": [ "व", "न" ], "new_token": "वन", "frequency": 217, "vocab_size": 441, "learned_vocab_size": 268, "compression_ratio": 1.0210765916041145, "example_words": [] }, { "step": 269, "pair": [ "व", "री" ], "new_token": "वरी", "frequency": 217, "vocab_size": 442, "learned_vocab_size": 269, "compression_ratio": 1.0214961157500173, "example_words": [] }, { "step": 270, "pair": [ "ज", "ु" ], "new_token": "जु", "frequency": 216, "vocab_size": 443, "learned_vocab_size": 270, "compression_ratio": 1.0220193900911954, "example_words": [] }, { "step": 271, "pair": [ "मद", "द" ], "new_token": "मदद", "frequency": 215, "vocab_size": 444, "learned_vocab_size": 271, "compression_ratio": 1.022439689479112, "example_words": [] }, { "step": 272, "pair": [ "द", "र" ], "new_token": "दर", "frequency": 215, "vocab_size": 445, "learned_vocab_size": 272, "compression_ratio": 1.022850623601604, "example_words": [] }, { "step": 273, "pair": [ "च", "ल" ], "new_token": "चल", "frequency": 215, "vocab_size": 446, "learned_vocab_size": 273, "compression_ratio": 1.0232375917117145, "example_words": [] }, { "step": 274, "pair": [ "दू", "न" ], "new_token": "दून", "frequency": 214, "vocab_size": 447, "learned_vocab_size": 274, "compression_ratio": 1.0236556517497866, "example_words": [] }, { "step": 275, "pair": [ "लो", "क" ], "new_token": "लोक", "frequency": 213, "vocab_size": 448, "learned_vocab_size": 275, "compression_ratio": 1.0240059183127106, "example_words": [] }, { "step": 276, "pair": [ "कर", "ने" ], "new_token": "करने", "frequency": 213, "vocab_size": 449, "learned_vocab_size": 276, "compression_ratio": 1.0243921378460057, "example_words": [] }, { "step": 277, "pair": [ "अ", "नु" ], "new_token": "अनु", "frequency": 212, "vocab_size": 450, "learned_vocab_size": 277, "compression_ratio": 1.0247477821954205, "example_words": [] }, { "step": 278, "pair": [ "प", "ं" ], "new_token": "पं", "frequency": 211, "vocab_size": 451, "learned_vocab_size": 278, "compression_ratio": 1.0251410646375774, "example_words": [] }, { "step": 279, "pair": [ "च", "ी" ], "new_token": "ची", "frequency": 208, "vocab_size": 452, "learned_vocab_size": 279, "compression_ratio": 1.0255216331814547, "example_words": [] }, { "step": 280, "pair": [ "व", "र" ], "new_token": "वर", "frequency": 208, "vocab_size": 453, "learned_vocab_size": 280, "compression_ratio": 1.025974129037378, "example_words": [] }, { "step": 281, "pair": [ "ए", "वं" ], "new_token": "एवं", "frequency": 207, "vocab_size": 454, "learned_vocab_size": 281, "compression_ratio": 1.0250061445028502, "example_words": [] }, { "step": 282, "pair": [ "मि", "ल" ], "new_token": "मिल", "frequency": 207, "vocab_size": 455, "learned_vocab_size": 282, "compression_ratio": 1.0253426982510572, "example_words": [] }, { "step": 283, "pair": [ "जान", "कारी" ], "new_token": "जानकारी", "frequency": 206, "vocab_size": 456, "learned_vocab_size": 283, "compression_ratio": 1.0257575973963118, "example_words": [] }, { "step": 284, "pair": [ "ड", "ा" ], "new_token": "डा", "frequency": 204, "vocab_size": 457, "learned_vocab_size": 284, "compression_ratio": 1.0257575973963118, "example_words": [] }, { "step": 285, "pair": [ "ड", "ी" ], "new_token": "डी", "frequency": 203, "vocab_size": 458, "learned_vocab_size": 285, "compression_ratio": 1.0261467686016534, "example_words": [] }, { "step": 286, "pair": [ "च", "क" ], "new_token": "चक", "frequency": 202, "vocab_size": 459, "learned_vocab_size": 286, "compression_ratio": 1.0266699278774758, "example_words": [] }, { "step": 287, "pair": [ "न्", "ध" ], "new_token": "न्ध", "frequency": 200, "vocab_size": 460, "learned_vocab_size": 287, "compression_ratio": 1.0271152776674346, "example_words": [] }, { "step": 288, "pair": [ "थ", "ी" ], "new_token": "थी", "frequency": 200, "vocab_size": 461, "learned_vocab_size": 288, "compression_ratio": 1.0275430464418334, "example_words": [] }, { "step": 289, "pair": [ "थ", "े" ], "new_token": "थे", "frequency": 199, "vocab_size": 462, "learned_vocab_size": 289, "compression_ratio": 1.0279384777831138, "example_words": [] }, { "step": 290, "pair": [ "प", "ह" ], "new_token": "पह", "frequency": 198, "vocab_size": 463, "learned_vocab_size": 290, "compression_ratio": 1.0283342135907503, "example_words": [] }, { "step": 291, "pair": [ "ट", "न" ], "new_token": "टन", "frequency": 197, "vocab_size": 464, "learned_vocab_size": 291, "compression_ratio": 1.0286860527475814, "example_words": [] }, { "step": 292, "pair": [ "ए", "ँ" ], "new_token": "एँ", "frequency": 197, "vocab_size": 465, "learned_vocab_size": 292, "compression_ratio": 1.029044685355875, "example_words": [] }, { "step": 293, "pair": [ "म", "ध" ], "new_token": "मध", "frequency": 197, "vocab_size": 466, "learned_vocab_size": 293, "compression_ratio": 1.0295773638398011, "example_words": [] }, { "step": 294, "pair": [ "सम", "य" ], "new_token": "समय", "frequency": 193, "vocab_size": 467, "learned_vocab_size": 294, "compression_ratio": 1.0299300543313736, "example_words": [] }, { "step": 295, "pair": [ "ति", "हा" ], "new_token": "तिहा", "frequency": 193, "vocab_size": 468, "learned_vocab_size": 295, "compression_ratio": 1.0302550714659118, "example_words": [] }, { "step": 296, "pair": [ "फि", "ल्" ], "new_token": "फिल्", "frequency": 193, "vocab_size": 469, "learned_vocab_size": 296, "compression_ratio": 1.030669026435792, "example_words": [] }, { "step": 297, "pair": [ "ब", "ो" ], "new_token": "बो", "frequency": 193, "vocab_size": 470, "learned_vocab_size": 297, "compression_ratio": 1.0310093098107893, "example_words": [] }, { "step": 298, "pair": [ "ख", "े" ], "new_token": "खे", "frequency": 192, "vocab_size": 471, "learned_vocab_size": 298, "compression_ratio": 1.0313695644543155, "example_words": [] }, { "step": 299, "pair": [ "ग", "र" ], "new_token": "गर", "frequency": 192, "vocab_size": 472, "learned_vocab_size": 299, "compression_ratio": 1.0316987841431067, "example_words": [] }, { "step": 300, "pair": [ "दे", "वा" ], "new_token": "देवा", "frequency": 191, "vocab_size": 473, "learned_vocab_size": 300, "compression_ratio": 1.0320974210936402, "example_words": [] }, { "step": 301, "pair": [ "ं", "क" ], "new_token": "ंक", "frequency": 191, "vocab_size": 480, "learned_vocab_size": 301, "compression_ratio": 1.0325112089716497, "example_words": [ "वेंकटेश्वर", "क्योंकि", "लिंक" ] }, { "step": 302, "pair": [ "द", "ो" ], "new_token": "दो", "frequency": 190, "vocab_size": 481, "learned_vocab_size": 302, "compression_ratio": 1.0334322936900382, "example_words": [] }, { "step": 303, "pair": [ "न्", "त" ], "new_token": "न्त", "frequency": 189, "vocab_size": 482, "learned_vocab_size": 303, "compression_ratio": 1.0337595253516283, "example_words": [] }, { "step": 304, "pair": [ "नी", "य" ], "new_token": "नीय", "frequency": 189, "vocab_size": 483, "learned_vocab_size": 304, "compression_ratio": 1.034277238748656, "example_words": [] }, { "step": 305, "pair": [ "कृ", "प" ], "new_token": "कृप", "frequency": 188, "vocab_size": 484, "learned_vocab_size": 305, "compression_ratio": 1.0345967263071805, "example_words": [] }, { "step": 306, "pair": [ "कृप", "या" ], "new_token": "कृपया", "frequency": 188, "vocab_size": 485, "learned_vocab_size": 306, "compression_ratio": 1.0349081268181317, "example_words": [] }, { "step": 307, "pair": [ "म", "स्" ], "new_token": "मस्", "frequency": 188, "vocab_size": 486, "learned_vocab_size": 307, "compression_ratio": 1.035219714840741, "example_words": [] }, { "step": 308, "pair": [ "प", "श्" ], "new_token": "पश्", "frequency": 186, "vocab_size": 487, "learned_vocab_size": 308, "compression_ratio": 1.0356011682284165, "example_words": [] }, { "step": 309, "pair": [ "रा", "ष्ट्रीय" ], "new_token": "राष्ट्रीय", "frequency": 186, "vocab_size": 488, "learned_vocab_size": 309, "compression_ratio": 1.035933095403314, "example_words": [] }, { "step": 310, "pair": [ "ण्ड", "ल" ], "new_token": "ण्डल", "frequency": 185, "vocab_size": 489, "learned_vocab_size": 310, "compression_ratio": 1.035933095403314, "example_words": [] }, { "step": 311, "pair": [ "ट", "े" ], "new_token": "टे", "frequency": 185, "vocab_size": 490, "learned_vocab_size": 311, "compression_ratio": 1.0362486233634658, "example_words": [] }, { "step": 312, "pair": [ "घ", "ा" ], "new_token": "घा", "frequency": 184, "vocab_size": 491, "learned_vocab_size": 312, "compression_ratio": 1.0366624221799556, "example_words": [] }, { "step": 313, "pair": [ "पूर्", "व" ], "new_token": "पूर्व", "frequency": 184, "vocab_size": 492, "learned_vocab_size": 313, "compression_ratio": 1.0369966936872046, "example_words": [] }, { "step": 314, "pair": [ "श", "े" ], "new_token": "शे", "frequency": 184, "vocab_size": 493, "learned_vocab_size": 314, "compression_ratio": 1.0373494923299864, "example_words": [] }, { "step": 315, "pair": [ "न", "दी" ], "new_token": "नदी", "frequency": 184, "vocab_size": 494, "learned_vocab_size": 315, "compression_ratio": 1.037694201953979, "example_words": [] }, { "step": 316, "pair": [ "स", "क" ], "new_token": "सक", "frequency": 183, "vocab_size": 495, "learned_vocab_size": 316, "compression_ratio": 1.0380274724039478, "example_words": [] }, { "step": 317, "pair": [ "रे", "ल" ], "new_token": "रेल", "frequency": 183, "vocab_size": 496, "learned_vocab_size": 317, "compression_ratio": 1.0383809728812796, "example_words": [] }, { "step": 318, "pair": [ "व", "ै" ], "new_token": "वै", "frequency": 181, "vocab_size": 497, "learned_vocab_size": 318, "compression_ratio": 1.0387130155883681, "example_words": [] }, { "step": 319, "pair": [ "जि", "द" ], "new_token": "जिद", "frequency": 181, "vocab_size": 498, "learned_vocab_size": 319, "compression_ratio": 1.0390352498673912, "example_words": [] }, { "step": 320, "pair": [ "प्", "त" ], "new_token": "प्त", "frequency": 179, "vocab_size": 499, "learned_vocab_size": 320, "compression_ratio": 1.039402807480182, "example_words": [] }, { "step": 321, "pair": [ "य", "र" ], "new_token": "यर", "frequency": 179, "vocab_size": 500, "learned_vocab_size": 321, "compression_ratio": 1.0397522281611258, "example_words": [] }, { "step": 322, "pair": [ "ना", "थ" ], "new_token": "नाथ", "frequency": 178, "vocab_size": 501, "learned_vocab_size": 322, "compression_ratio": 1.0401119252887434, "example_words": [] }, { "step": 323, "pair": [ "ब", "हु" ], "new_token": "बहु", "frequency": 178, "vocab_size": 502, "learned_vocab_size": 323, "compression_ratio": 1.0404501001152453, "example_words": [] }, { "step": 324, "pair": [ "बि", "हार" ], "new_token": "बिहार", "frequency": 178, "vocab_size": 503, "learned_vocab_size": 324, "compression_ratio": 1.0407683861058068, "example_words": [] }, { "step": 325, "pair": [ "स", "न" ], "new_token": "सन", "frequency": 177, "vocab_size": 504, "learned_vocab_size": 325, "compression_ratio": 1.040770061810389, "example_words": [] }, { "step": 326, "pair": [ "त", "क" ], "new_token": "तक", "frequency": 177, "vocab_size": 505, "learned_vocab_size": 326, "compression_ratio": 1.04037307067098, "example_words": [] }, { "step": 327, "pair": [ "य", "न" ], "new_token": "यन", "frequency": 177, "vocab_size": 506, "learned_vocab_size": 327, "compression_ratio": 1.0407650347128303, "example_words": [] }, { "step": 328, "pair": [ "इंटर", "सिटी" ], "new_token": "इंटरसिटी", "frequency": 177, "vocab_size": 507, "learned_vocab_size": 328, "compression_ratio": 1.0410801600237072, "example_words": [] }, { "step": 329, "pair": [ "ऊ", "ँ" ], "new_token": "ऊँ", "frequency": 175, "vocab_size": 508, "learned_vocab_size": 329, "compression_ratio": 1.041377021608394, "example_words": [] }, { "step": 330, "pair": [ "विकि", "पी" ], "new_token": "विकिपी", "frequency": 174, "vocab_size": 509, "learned_vocab_size": 330, "compression_ratio": 1.0416807670614778, "example_words": [] }, { "step": 331, "pair": [ "विकिपी", "डिया" ], "new_token": "विकिपीडिया", "frequency": 174, "vocab_size": 510, "learned_vocab_size": 331, "compression_ratio": 1.0416807670614778, "example_words": [] }, { "step": 332, "pair": [ "ए", "स" ], "new_token": "एस", "frequency": 173, "vocab_size": 511, "learned_vocab_size": 332, "compression_ratio": 1.0416807670614778, "example_words": [] }, { "step": 333, "pair": [ "कु", "मा" ], "new_token": "कुमा", "frequency": 173, "vocab_size": 512, "learned_vocab_size": 333, "compression_ratio": 1.0421056364934862, "example_words": [] }, { "step": 334, "pair": [ "देवा", "सं" ], "new_token": "देवासं", "frequency": 173, "vocab_size": 513, "learned_vocab_size": 334, "compression_ratio": 1.0425443038791296, "example_words": [] }, { "step": 335, "pair": [ "म", "ह" ], "new_token": "मह", "frequency": 172, "vocab_size": 514, "learned_vocab_size": 335, "compression_ratio": 1.0429446368010222, "example_words": [] }, { "step": 336, "pair": [ "व", "्य" ], "new_token": "व्य", "frequency": 172, "vocab_size": 515, "learned_vocab_size": 336, "compression_ratio": 1.0426670623892071, "example_words": [] }, { "step": 337, "pair": [ "मस्", "जिद" ], "new_token": "मस्जिद", "frequency": 172, "vocab_size": 516, "learned_vocab_size": 337, "compression_ratio": 1.0431062026586972, "example_words": [] }, { "step": 338, "pair": [ "का", "ल" ], "new_token": "काल", "frequency": 171, "vocab_size": 517, "learned_vocab_size": 338, "compression_ratio": 1.043458118170827, "example_words": [] }, { "step": 339, "pair": [ "त", "र" ], "new_token": "तर", "frequency": 171, "vocab_size": 518, "learned_vocab_size": 339, "compression_ratio": 1.043801843727242, "example_words": [] }, { "step": 340, "pair": [ "प", "ृ" ], "new_token": "पृ", "frequency": 170, "vocab_size": 519, "learned_vocab_size": 340, "compression_ratio": 1.044110378513534, "example_words": [] }, { "step": 341, "pair": [ "ल्", "ली" ], "new_token": "ल्ली", "frequency": 170, "vocab_size": 520, "learned_vocab_size": 341, "compression_ratio": 1.0444258457084046, "example_words": [] }, { "step": 342, "pair": [ "म", "न" ], "new_token": "मन", "frequency": 170, "vocab_size": 521, "learned_vocab_size": 342, "compression_ratio": 1.044765143409437, "example_words": [] }, { "step": 343, "pair": [ "२", "०" ], "new_token": "२०", "frequency": 169, "vocab_size": 522, "learned_vocab_size": 343, "compression_ratio": 1.0450776272244164, "example_words": [] }, { "step": 344, "pair": [ "मे", "ल" ], "new_token": "मेल", "frequency": 169, "vocab_size": 523, "learned_vocab_size": 344, "compression_ratio": 1.045586446511989, "example_words": [] }, { "step": 345, "pair": [ "परि", "ष" ], "new_token": "परिष", "frequency": 168, "vocab_size": 524, "learned_vocab_size": 345, "compression_ratio": 1.0458808073028745, "example_words": [] }, { "step": 346, "pair": [ "उप", "ज़िला" ], "new_token": "उपज़िला", "frequency": 168, "vocab_size": 525, "learned_vocab_size": 346, "compression_ratio": 1.0461651750311545, "example_words": [] }, { "step": 347, "pair": [ "हों", "ने" ], "new_token": "होंने", "frequency": 167, "vocab_size": 526, "learned_vocab_size": 347, "compression_ratio": 1.046456473665977, "example_words": [] }, { "step": 348, "pair": [ "वा", "ल" ], "new_token": "वाल", "frequency": 166, "vocab_size": 527, "learned_vocab_size": 348, "compression_ratio": 1.046456473665977, "example_words": [] }, { "step": 349, "pair": [ "म", "ग" ], "new_token": "मग", "frequency": 166, "vocab_size": 528, "learned_vocab_size": 349, "compression_ratio": 1.0467648849621722, "example_words": [] }, { "step": 350, "pair": [ "य", "ू" ], "new_token": "यू", "frequency": 166, "vocab_size": 529, "learned_vocab_size": 350, "compression_ratio": 1.0470717820378874, "example_words": [] }, { "step": 351, "pair": [ "पश्", "चि" ], "new_token": "पश्चि", "frequency": 166, "vocab_size": 538, "learned_vocab_size": 351, "compression_ratio": 1.0480428286771848, "example_words": [] }, { "step": 352, "pair": [ "कुमा", "ऊँ" ], "new_token": "कुमाऊँ", "frequency": 165, "vocab_size": 539, "learned_vocab_size": 352, "compression_ratio": 1.0483453750780483, "example_words": [] }, { "step": 353, "pair": [ "ण", "ी" ], "new_token": "णी", "frequency": 164, "vocab_size": 540, "learned_vocab_size": 353, "compression_ratio": 1.0486276825444205, "example_words": [] }, { "step": 354, "pair": [ "कु", "ल" ], "new_token": "कुल", "frequency": 162, "vocab_size": 541, "learned_vocab_size": 354, "compression_ratio": 1.048959503053985, "example_words": [] }, { "step": 355, "pair": [ "अ", "ल" ], "new_token": "अल", "frequency": 162, "vocab_size": 542, "learned_vocab_size": 355, "compression_ratio": 1.0493341168525903, "example_words": [] }, { "step": 356, "pair": [ "क", "ॉ" ], "new_token": "कॉ", "frequency": 161, "vocab_size": 543, "learned_vocab_size": 356, "compression_ratio": 1.0496697936271062, "example_words": [] }, { "step": 357, "pair": [ "सरा", "य" ], "new_token": "सराय", "frequency": 161, "vocab_size": 544, "learned_vocab_size": 357, "compression_ratio": 1.050010801995364, "example_words": [] }, { "step": 358, "pair": [ "विध", "ान" ], "new_token": "विधान", "frequency": 160, "vocab_size": 545, "learned_vocab_size": 358, "compression_ratio": 1.050010801995364, "example_words": [] }, { "step": 359, "pair": [ "मुख", "्य" ], "new_token": "मुख्य", "frequency": 160, "vocab_size": 546, "learned_vocab_size": 359, "compression_ratio": 1.0503366718878973, "example_words": [] }, { "step": 360, "pair": [ "ब", "ढ़" ], "new_token": "बढ़", "frequency": 160, "vocab_size": 547, "learned_vocab_size": 360, "compression_ratio": 1.0506610363984488, "example_words": [] }, { "step": 361, "pair": [ "ज", "ै" ], "new_token": "जै", "frequency": 160, "vocab_size": 548, "learned_vocab_size": 361, "compression_ratio": 1.050936049489095, "example_words": [] }, { "step": 362, "pair": [ "ट", "्" ], "new_token": "ट्", "frequency": 160, "vocab_size": 549, "learned_vocab_size": 362, "compression_ratio": 1.0512351401018034, "example_words": [] }, { "step": 363, "pair": [ "फ", "ा" ], "new_token": "फा", "frequency": 159, "vocab_size": 550, "learned_vocab_size": 363, "compression_ratio": 1.0518783338269322, "example_words": [] }, { "step": 364, "pair": [ "ं", "ज" ], "new_token": "ंज", "frequency": 159, "vocab_size": 551, "learned_vocab_size": 364, "compression_ratio": 1.0522087895810308, "example_words": [] }, { "step": 365, "pair": [ "म", "ण्डल" ], "new_token": "मण्डल", "frequency": 157, "vocab_size": 552, "learned_vocab_size": 365, "compression_ratio": 1.0525925841492745, "example_words": [] }, { "step": 366, "pair": [ "बा", "हरी" ], "new_token": "बाहरी", "frequency": 156, "vocab_size": 553, "learned_vocab_size": 366, "compression_ratio": 1.0529166286600382, "example_words": [] }, { "step": 367, "pair": [ "सि", "ं" ], "new_token": "सिं", "frequency": 156, "vocab_size": 554, "learned_vocab_size": 367, "compression_ratio": 1.0529166286600382, "example_words": [] }, { "step": 368, "pair": [ "ो", "र" ], "new_token": "ोर", "frequency": 156, "vocab_size": 555, "learned_vocab_size": 368, "compression_ratio": 1.0532305762165068, "example_words": [] }, { "step": 369, "pair": [ "ग", "्" ], "new_token": "ग्", "frequency": 156, "vocab_size": 556, "learned_vocab_size": 369, "compression_ratio": 1.0535567308554246, "example_words": [] }, { "step": 370, "pair": [ "ध", "ार" ], "new_token": "धार", "frequency": 155, "vocab_size": 557, "learned_vocab_size": 370, "compression_ratio": 1.0546172696096505, "example_words": [] }, { "step": 371, "pair": [ "दे", "हरा" ], "new_token": "देहरा", "frequency": 154, "vocab_size": 558, "learned_vocab_size": 371, "compression_ratio": 1.0550699800057126, "example_words": [] }, { "step": 372, "pair": [ "देहरा", "दून" ], "new_token": "देहरादून", "frequency": 153, "vocab_size": 559, "learned_vocab_size": 372, "compression_ratio": 1.0550699800057126, "example_words": [] }, { "step": 373, "pair": [ "व", "ह" ], "new_token": "वह", "frequency": 153, "vocab_size": 560, "learned_vocab_size": 373, "compression_ratio": 1.0550699800057126, "example_words": [] }, { "step": 374, "pair": [ "च", "ु" ], "new_token": "चु", "frequency": 151, "vocab_size": 561, "learned_vocab_size": 374, "compression_ratio": 1.0553438604052792, "example_words": [] }, { "step": 375, "pair": [ "ष्", "ठ" ], "new_token": "ष्ठ", "frequency": 150, "vocab_size": 562, "learned_vocab_size": 375, "compression_ratio": 1.055643741569254, "example_words": [] }, { "step": 376, "pair": [ "ज्ञ", "ान" ], "new_token": "ज्ञान", "frequency": 150, "vocab_size": 563, "learned_vocab_size": 376, "compression_ratio": 1.055940343368672, "example_words": [] }, { "step": 377, "pair": [ "अप", "ने" ], "new_token": "अपने", "frequency": 150, "vocab_size": 564, "learned_vocab_size": 377, "compression_ratio": 1.0562854388287009, "example_words": [] }, { "step": 378, "pair": [ "स", "ै" ], "new_token": "सै", "frequency": 149, "vocab_size": 565, "learned_vocab_size": 378, "compression_ratio": 1.0565444084861562, "example_words": [] }, { "step": 379, "pair": [ "फ", "र" ], "new_token": "फर", "frequency": 147, "vocab_size": 566, "learned_vocab_size": 379, "compression_ratio": 1.0568415166893377, "example_words": [] }, { "step": 380, "pair": [ "पा", "ल" ], "new_token": "पाल", "frequency": 147, "vocab_size": 567, "learned_vocab_size": 380, "compression_ratio": 1.0571405208716629, "example_words": [] }, { "step": 381, "pair": [ "यु", "क्त" ], "new_token": "युक्त", "frequency": 147, "vocab_size": 568, "learned_vocab_size": 381, "compression_ratio": 1.0574379644791536, "example_words": [] }, { "step": 382, "pair": [ "ल", "ु" ], "new_token": "लु", "frequency": 147, "vocab_size": 569, "learned_vocab_size": 382, "compression_ratio": 1.0577373063014417, "example_words": [] }, { "step": 383, "pair": [ "स्", "कृ" ], "new_token": "स्कृ", "frequency": 146, "vocab_size": 570, "learned_vocab_size": 383, "compression_ratio": 1.0580298906149492, "example_words": [] }, { "step": 384, "pair": [ "ज", "े" ], "new_token": "जे", "frequency": 146, "vocab_size": 571, "learned_vocab_size": 384, "compression_ratio": 1.0583555592666998, "example_words": [] }, { "step": 385, "pair": [ "परिष", "द" ], "new_token": "परिषद", "frequency": 146, "vocab_size": 572, "learned_vocab_size": 385, "compression_ratio": 1.0589311661569258, "example_words": [] }, { "step": 386, "pair": [ "ब", "ै" ], "new_token": "बै", "frequency": 144, "vocab_size": 573, "learned_vocab_size": 386, "compression_ratio": 1.0591844927453118, "example_words": [] }, { "step": 387, "pair": [ "पूर्", "ण" ], "new_token": "पूर्ण", "frequency": 144, "vocab_size": 574, "learned_vocab_size": 387, "compression_ratio": 1.0594553044470194, "example_words": [] }, { "step": 388, "pair": [ "ल", "ख" ], "new_token": "लख", "frequency": 143, "vocab_size": 575, "learned_vocab_size": 388, "compression_ratio": 1.0597123564118158, "example_words": [] }, { "step": 389, "pair": [ "सिं", "ह" ], "new_token": "सिंह", "frequency": 142, "vocab_size": 576, "learned_vocab_size": 389, "compression_ratio": 1.0599677950426667, "example_words": [] }, { "step": 390, "pair": [ "ष", "य" ], "new_token": "षय", "frequency": 141, "vocab_size": 577, "learned_vocab_size": 390, "compression_ratio": 1.0602424854761303, "example_words": [] }, { "step": 391, "pair": [ "प्र", "ति" ], "new_token": "प्रति", "frequency": 141, "vocab_size": 578, "learned_vocab_size": 391, "compression_ratio": 1.0604999196112466, "example_words": [] }, { "step": 392, "pair": [ "इन्", "हें" ], "new_token": "इन्हें", "frequency": 140, "vocab_size": 579, "learned_vocab_size": 392, "compression_ratio": 1.0604999196112466, "example_words": [] }, { "step": 393, "pair": [ "इ", "तिहा" ], "new_token": "इतिहा", "frequency": 140, "vocab_size": 580, "learned_vocab_size": 393, "compression_ratio": 1.0604999196112466, "example_words": [] }, { "step": 394, "pair": [ "क्ष", "ि" ], "new_token": "क्षि", "frequency": 140, "vocab_size": 581, "learned_vocab_size": 394, "compression_ratio": 1.0607992569326152, "example_words": [] }, { "step": 395, "pair": [ "त", "ो" ], "new_token": "तो", "frequency": 140, "vocab_size": 582, "learned_vocab_size": 395, "compression_ratio": 1.0610917960991335, "example_words": [] }, { "step": 396, "pair": [ "अ", "न्य" ], "new_token": "अन्य", "frequency": 139, "vocab_size": 583, "learned_vocab_size": 396, "compression_ratio": 1.0613827539156464, "example_words": [] }, { "step": 397, "pair": [ "ग", "ि" ], "new_token": "गि", "frequency": 136, "vocab_size": 584, "learned_vocab_size": 397, "compression_ratio": 1.0613827539156464, "example_words": [] }, { "step": 398, "pair": [ "अ", "व" ], "new_token": "अव", "frequency": 136, "vocab_size": 585, "learned_vocab_size": 398, "compression_ratio": 1.0616599219540397, "example_words": [] }, { "step": 399, "pair": [ "अ", "म" ], "new_token": "अम", "frequency": 136, "vocab_size": 586, "learned_vocab_size": 399, "compression_ratio": 1.061977361218354, "example_words": [] }, { "step": 400, "pair": [ "हु", "आ" ], "new_token": "हुआ", "frequency": 136, "vocab_size": 587, "learned_vocab_size": 400, "compression_ratio": 1.0622565855422084, "example_words": [] }, { "step": 401, "pair": [ "प", "ै" ], "new_token": "पै", "frequency": 136, "vocab_size": 592, "learned_vocab_size": 401, "compression_ratio": 1.0625202382067758, "example_words": [ "फ्राईपैन", "पैरी", "पैसेंजर" ] }, { "step": 402, "pair": [ "ौ", "ली" ], "new_token": "ौली", "frequency": 136, "vocab_size": 593, "learned_vocab_size": 402, "compression_ratio": 1.0628014955164102, "example_words": [] }, { "step": 403, "pair": [ "क", "ू" ], "new_token": "कू", "frequency": 135, "vocab_size": 594, "learned_vocab_size": 403, "compression_ratio": 1.0630566774987174, "example_words": [] }, { "step": 404, "pair": [ "मध", "्य" ], "new_token": "मध्य", "frequency": 135, "vocab_size": 595, "learned_vocab_size": 404, "compression_ratio": 1.0633119820504469, "example_words": [] }, { "step": 405, "pair": [ "ग", "ी" ], "new_token": "गी", "frequency": 135, "vocab_size": 596, "learned_vocab_size": 405, "compression_ratio": 1.0635761589403974, "example_words": [] }, { "step": 406, "pair": [ "बढ़", "ाने" ], "new_token": "बढ़ाने", "frequency": 133, "vocab_size": 597, "learned_vocab_size": 406, "compression_ratio": 1.0640085724443977, "example_words": [] }, { "step": 407, "pair": [ "द", "क्षि" ], "new_token": "दक्षि", "frequency": 133, "vocab_size": 598, "learned_vocab_size": 407, "compression_ratio": 1.0640085724443977, "example_words": [] }, { "step": 408, "pair": [ "त", "ह" ], "new_token": "तह", "frequency": 132, "vocab_size": 599, "learned_vocab_size": 408, "compression_ratio": 1.0642730956226527, "example_words": [] }, { "step": 409, "pair": [ "ध", "ा" ], "new_token": "धा", "frequency": 132, "vocab_size": 600, "learned_vocab_size": 409, "compression_ratio": 1.0645430097344797, "example_words": [] }, { "step": 410, "pair": [ "पश्चि", "म" ], "new_token": "पश्चिम", "frequency": 132, "vocab_size": 601, "learned_vocab_size": 410, "compression_ratio": 1.064616646436565, "example_words": [] }, { "step": 411, "pair": [ "म", "पुर" ], "new_token": "मपुर", "frequency": 132, "vocab_size": 602, "learned_vocab_size": 411, "compression_ratio": 1.0648621757014765, "example_words": [] }, { "step": 412, "pair": [ "बा", "ग" ], "new_token": "बाग", "frequency": 131, "vocab_size": 603, "learned_vocab_size": 412, "compression_ratio": 1.0651323887313453, "example_words": [] }, { "step": 413, "pair": [ "फ", "्" ], "new_token": "फ्", "frequency": 131, "vocab_size": 604, "learned_vocab_size": 413, "compression_ratio": 1.0653693766151575, "example_words": [] }, { "step": 414, "pair": [ "वर्", "ष" ], "new_token": "वर्ष", "frequency": 130, "vocab_size": 605, "learned_vocab_size": 414, "compression_ratio": 1.0657909489012583, "example_words": [] }, { "step": 415, "pair": [ "दे", "व" ], "new_token": "देव", "frequency": 130, "vocab_size": 606, "learned_vocab_size": 415, "compression_ratio": 1.0657927061504242, "example_words": [] }, { "step": 416, "pair": [ "ब", "ना" ], "new_token": "बना", "frequency": 128, "vocab_size": 607, "learned_vocab_size": 416, "compression_ratio": 1.0652745688078233, "example_words": [] }, { "step": 417, "pair": [ "स", "ब" ], "new_token": "सब", "frequency": 128, "vocab_size": 608, "learned_vocab_size": 417, "compression_ratio": 1.065666199019755, "example_words": [] }, { "step": 418, "pair": [ "कि", "सी" ], "new_token": "किसी", "frequency": 127, "vocab_size": 609, "learned_vocab_size": 418, "compression_ratio": 1.06592451635457, "example_words": [] }, { "step": 419, "pair": [ "हा", "व" ], "new_token": "हाव", "frequency": 127, "vocab_size": 610, "learned_vocab_size": 419, "compression_ratio": 1.0661530646241337, "example_words": [] }, { "step": 420, "pair": [ "उन्", "होंने" ], "new_token": "उन्होंने", "frequency": 126, "vocab_size": 611, "learned_vocab_size": 420, "compression_ratio": 1.0664010624169986, "example_words": [] }, { "step": 421, "pair": [ "ज", "ब" ], "new_token": "जब", "frequency": 126, "vocab_size": 612, "learned_vocab_size": 421, "compression_ratio": 1.0664010624169986, "example_words": [] }, { "step": 422, "pair": [ "इतिहा", "स" ], "new_token": "इतिहास", "frequency": 125, "vocab_size": 613, "learned_vocab_size": 422, "compression_ratio": 1.0666262950941938, "example_words": [] }, { "step": 423, "pair": [ "ख", "्या" ], "new_token": "ख्या", "frequency": 125, "vocab_size": 614, "learned_vocab_size": 423, "compression_ratio": 1.0669079697694417, "example_words": [] }, { "step": 424, "pair": [ "ग", "त" ], "new_token": "गत", "frequency": 124, "vocab_size": 615, "learned_vocab_size": 424, "compression_ratio": 1.0669079697694417, "example_words": [] }, { "step": 425, "pair": [ "अ", "र" ], "new_token": "अर", "frequency": 124, "vocab_size": 616, "learned_vocab_size": 425, "compression_ratio": 1.0671439868062857, "example_words": [] }, { "step": 426, "pair": [ "म", "ंत्री" ], "new_token": "मंत्री", "frequency": 123, "vocab_size": 617, "learned_vocab_size": 426, "compression_ratio": 1.067411834059621, "example_words": [] }, { "step": 427, "pair": [ "त", "था" ], "new_token": "तथा", "frequency": 123, "vocab_size": 618, "learned_vocab_size": 427, "compression_ratio": 1.067411834059621, "example_words": [] }, { "step": 428, "pair": [ "द्", "वी" ], "new_token": "द्वी", "frequency": 123, "vocab_size": 619, "learned_vocab_size": 428, "compression_ratio": 1.06763044063508, "example_words": [] }, { "step": 429, "pair": [ "हाव", "ड़ा" ], "new_token": "हावड़ा", "frequency": 123, "vocab_size": 620, "learned_vocab_size": 429, "compression_ratio": 1.0678614851916952, "example_words": [] }, { "step": 430, "pair": [ "गढ़", "वाल" ], "new_token": "गढ़वाल", "frequency": 122, "vocab_size": 621, "learned_vocab_size": 430, "compression_ratio": 1.0680943946173522, "example_words": [] }, { "step": 431, "pair": [ "विश्व", "सनीय" ], "new_token": "विश्वसनीय", "frequency": 122, "vocab_size": 622, "learned_vocab_size": 431, "compression_ratio": 1.0683574220525407, "example_words": [] }, { "step": 432, "pair": [ "विधान", "सभा" ], "new_token": "विधानसभा", "frequency": 121, "vocab_size": 623, "learned_vocab_size": 432, "compression_ratio": 1.0683574220525407, "example_words": [] }, { "step": 433, "pair": [ "स्", "वा" ], "new_token": "स्वा", "frequency": 121, "vocab_size": 624, "learned_vocab_size": 433, "compression_ratio": 1.0686223456575825, "example_words": [] }, { "step": 434, "pair": [ "सं", "स्कृ" ], "new_token": "संस्कृ", "frequency": 120, "vocab_size": 625, "learned_vocab_size": 434, "compression_ratio": 1.0688644240436003, "example_words": [] }, { "step": 435, "pair": [ "ट", "ू" ], "new_token": "टू", "frequency": 120, "vocab_size": 626, "learned_vocab_size": 435, "compression_ratio": 1.0691490505402683, "example_words": [] }, { "step": 436, "pair": [ "फिल्", "म" ], "new_token": "फिल्म", "frequency": 120, "vocab_size": 627, "learned_vocab_size": 436, "compression_ratio": 1.069414366944216, "example_words": [] }, { "step": 437, "pair": [ "ंग", "ल" ], "new_token": "ंगल", "frequency": 120, "vocab_size": 628, "learned_vocab_size": 437, "compression_ratio": 1.0696975162875209, "example_words": [] }, { "step": 438, "pair": [ "अ", "थ" ], "new_token": "अथ", "frequency": 119, "vocab_size": 629, "learned_vocab_size": 438, "compression_ratio": 1.0699329983249581, "example_words": [] }, { "step": 439, "pair": [ "हो", "ता" ], "new_token": "होता", "frequency": 118, "vocab_size": 630, "learned_vocab_size": 439, "compression_ratio": 1.0701455523107588, "example_words": [] }, { "step": 440, "pair": [ "लै", "ंड" ], "new_token": "लैंड", "frequency": 118, "vocab_size": 631, "learned_vocab_size": 440, "compression_ratio": 1.0703546460990254, "example_words": [] }, { "step": 441, "pair": [ "वि", "षय" ], "new_token": "विषय", "frequency": 117, "vocab_size": 632, "learned_vocab_size": 441, "compression_ratio": 1.0705992831921138, "example_words": [] }, { "step": 442, "pair": [ "च", "न" ], "new_token": "चन", "frequency": 117, "vocab_size": 633, "learned_vocab_size": 442, "compression_ratio": 1.0708191974343344, "example_words": [] }, { "step": 443, "pair": [ "क", "म" ], "new_token": "कम", "frequency": 117, "vocab_size": 634, "learned_vocab_size": 443, "compression_ratio": 1.0708830604279458, "example_words": [] }, { "step": 444, "pair": [ "ग", "ू" ], "new_token": "गू", "frequency": 117, "vocab_size": 635, "learned_vocab_size": 444, "compression_ratio": 1.0711368136739108, "example_words": [] }, { "step": 445, "pair": [ "ल", "न" ], "new_token": "लन", "frequency": 116, "vocab_size": 636, "learned_vocab_size": 445, "compression_ratio": 1.071374705602543, "example_words": [] }, { "step": 446, "pair": [ "दि", "ल्ली" ], "new_token": "दिल्ली", "frequency": 116, "vocab_size": 637, "learned_vocab_size": 446, "compression_ratio": 1.0715682926586676, "example_words": [] }, { "step": 447, "pair": [ "ड़", "िया" ], "new_token": "ड़िया", "frequency": 116, "vocab_size": 638, "learned_vocab_size": 447, "compression_ratio": 1.0718117077457492, "example_words": [] }, { "step": 448, "pair": [ "पुर", "स्" ], "new_token": "पुरस्", "frequency": 115, "vocab_size": 639, "learned_vocab_size": 448, "compression_ratio": 1.0723308886835552, "example_words": [] }, { "step": 449, "pair": [ "ख", "ु" ], "new_token": "खु", "frequency": 115, "vocab_size": 640, "learned_vocab_size": 449, "compression_ratio": 1.0725942273070446, "example_words": [] }, { "step": 450, "pair": [ "भ", "ो" ], "new_token": "भो", "frequency": 114, "vocab_size": 641, "learned_vocab_size": 450, "compression_ratio": 1.0728220839550102, "example_words": [] }, { "step": 451, "pair": [ "जन्", "म" ], "new_token": "जन्म", "frequency": 113, "vocab_size": 645, "learned_vocab_size": 451, "compression_ratio": 1.073089226693139, "example_words": [] }, { "step": 452, "pair": [ "ब", "ंध" ], "new_token": "बंध", "frequency": 112, "vocab_size": 646, "learned_vocab_size": 452, "compression_ratio": 1.073089226693139, "example_words": [] }, { "step": 453, "pair": [ "॰", "ऍ" ], "new_token": "॰ऍ", "frequency": 112, "vocab_size": 647, "learned_vocab_size": 453, "compression_ratio": 1.0733048188009948, "example_words": [] }, { "step": 454, "pair": [ "अथ", "वा" ], "new_token": "अथवा", "frequency": 112, "vocab_size": 648, "learned_vocab_size": 454, "compression_ratio": 1.073504452349399, "example_words": [] }, { "step": 455, "pair": [ "व", "ल" ], "new_token": "वल", "frequency": 112, "vocab_size": 649, "learned_vocab_size": 455, "compression_ratio": 1.073705943615136, "example_words": [] }, { "step": 456, "pair": [ "द्वी", "प" ], "new_token": "द्वीप", "frequency": 112, "vocab_size": 650, "learned_vocab_size": 456, "compression_ratio": 1.0739021582207928, "example_words": [] }, { "step": 457, "pair": [ "पुरस्", "कार" ], "new_token": "पुरस्कार", "frequency": 111, "vocab_size": 651, "learned_vocab_size": 457, "compression_ratio": 1.0741216467710633, "example_words": [] }, { "step": 458, "pair": [ "जन", "वरी" ], "new_token": "जनवरी", "frequency": 111, "vocab_size": 652, "learned_vocab_size": 458, "compression_ratio": 1.0741216467710633, "example_words": [] }, { "step": 459, "pair": [ "कर", "ता" ], "new_token": "करता", "frequency": 109, "vocab_size": 653, "learned_vocab_size": 459, "compression_ratio": 1.0741216467710633, "example_words": [] }, { "step": 460, "pair": [ "ज", "रा" ], "new_token": "जरा", "frequency": 109, "vocab_size": 654, "learned_vocab_size": 460, "compression_ratio": 1.0743162278813825, "example_words": [] }, { "step": 461, "pair": [ "वं", "श" ], "new_token": "वंश", "frequency": 108, "vocab_size": 655, "learned_vocab_size": 461, "compression_ratio": 1.0745305271626835, "example_words": [] }, { "step": 462, "pair": [ "गो", "ल" ], "new_token": "गोल", "frequency": 108, "vocab_size": 656, "learned_vocab_size": 462, "compression_ratio": 1.0747324038266501, "example_words": [] }, { "step": 463, "pair": [ "सा", "मग्री" ], "new_token": "सामग्री", "frequency": 108, "vocab_size": 657, "learned_vocab_size": 463, "compression_ratio": 1.0750702255366495, "example_words": [] }, { "step": 464, "pair": [ "सं", "स्थान" ], "new_token": "संस्थान", "frequency": 107, "vocab_size": 658, "learned_vocab_size": 464, "compression_ratio": 1.0750702255366495, "example_words": [] }, { "step": 465, "pair": [ "शा", "ह" ], "new_token": "शाह", "frequency": 107, "vocab_size": 659, "learned_vocab_size": 465, "compression_ratio": 1.0750702255366495, "example_words": [] }, { "step": 466, "pair": [ "तह", "सी" ], "new_token": "तहसी", "frequency": 106, "vocab_size": 660, "learned_vocab_size": 466, "compression_ratio": 1.0752776710398713, "example_words": [] }, { "step": 467, "pair": [ "ल", "क" ], "new_token": "लक", "frequency": 105, "vocab_size": 661, "learned_vocab_size": 467, "compression_ratio": 1.075486985977732, "example_words": [] }, { "step": 468, "pair": [ "र", "ह" ], "new_token": "रह", "frequency": 105, "vocab_size": 662, "learned_vocab_size": 468, "compression_ratio": 1.0755764616618468, "example_words": [] }, { "step": 469, "pair": [ "म", "ंदि" ], "new_token": "मंदि", "frequency": 105, "vocab_size": 663, "learned_vocab_size": 469, "compression_ratio": 1.0759828685663493, "example_words": [] }, { "step": 470, "pair": [ "म", "ई" ], "new_token": "मई", "frequency": 104, "vocab_size": 664, "learned_vocab_size": 470, "compression_ratio": 1.0759828685663493, "example_words": [] }, { "step": 471, "pair": [ "का", "शी" ], "new_token": "काशी", "frequency": 103, "vocab_size": 665, "learned_vocab_size": 471, "compression_ratio": 1.0761870830579385, "example_words": [] }, { "step": 472, "pair": [ "प", "द" ], "new_token": "पद", "frequency": 103, "vocab_size": 666, "learned_vocab_size": 472, "compression_ratio": 1.0763734516250965, "example_words": [] }, { "step": 473, "pair": [ "प", "ति" ], "new_token": "पति", "frequency": 103, "vocab_size": 667, "learned_vocab_size": 473, "compression_ratio": 1.0765688495103591, "example_words": [] }, { "step": 474, "pair": [ "प्र", "का" ], "new_token": "प्रका", "frequency": 103, "vocab_size": 668, "learned_vocab_size": 474, "compression_ratio": 1.0767894295847027, "example_words": [] }, { "step": 475, "pair": [ "इ", "ट" ], "new_token": "इट", "frequency": 103, "vocab_size": 669, "learned_vocab_size": 475, "compression_ratio": 1.0767912232890677, "example_words": [] }, { "step": 476, "pair": [ "म", "ण" ], "new_token": "मण", "frequency": 103, "vocab_size": 670, "learned_vocab_size": 476, "compression_ratio": 1.0770136889528683, "example_words": [] }, { "step": 477, "pair": [ "मंदि", "र" ], "new_token": "मंदिर", "frequency": 103, "vocab_size": 671, "learned_vocab_size": 477, "compression_ratio": 1.076443356480325, "example_words": [] }, { "step": 478, "pair": [ "कर", "ते" ], "new_token": "करते", "frequency": 102, "vocab_size": 672, "learned_vocab_size": 478, "compression_ratio": 1.076443356480325, "example_words": [] }, { "step": 479, "pair": [ "रा", "य" ], "new_token": "राय", "frequency": 102, "vocab_size": 673, "learned_vocab_size": 479, "compression_ratio": 1.0766262274986342, "example_words": [] }, { "step": 480, "pair": [ "तहसी", "ल" ], "new_token": "तहसील", "frequency": 101, "vocab_size": 674, "learned_vocab_size": 480, "compression_ratio": 1.0770352227665034, "example_words": [] }, { "step": 481, "pair": [ "प्र", "ौ" ], "new_token": "प्रौ", "frequency": 101, "vocab_size": 675, "learned_vocab_size": 481, "compression_ratio": 1.0772452225849618, "example_words": [] }, { "step": 482, "pair": [ "वे", "श" ], "new_token": "वेश", "frequency": 101, "vocab_size": 676, "learned_vocab_size": 482, "compression_ratio": 1.0772452225849618, "example_words": [] }, { "step": 483, "pair": [ "स", "द" ], "new_token": "सद", "frequency": 101, "vocab_size": 677, "learned_vocab_size": 483, "compression_ratio": 1.0774553043107213, "example_words": [] }, { "step": 484, "pair": [ "ज", "ू" ], "new_token": "जू", "frequency": 101, "vocab_size": 678, "learned_vocab_size": 484, "compression_ratio": 1.077699604874877, "example_words": [] }, { "step": 485, "pair": [ "ग", "ंगा" ], "new_token": "गंगा", "frequency": 100, "vocab_size": 679, "learned_vocab_size": 485, "compression_ratio": 1.0779601944418968, "example_words": [] }, { "step": 486, "pair": [ "प्र", "मुख" ], "new_token": "प्रमुख", "frequency": 100, "vocab_size": 680, "learned_vocab_size": 486, "compression_ratio": 1.0779601944418968, "example_words": [] }, { "step": 487, "pair": [ "र", "त" ], "new_token": "रत", "frequency": 100, "vocab_size": 681, "learned_vocab_size": 487, "compression_ratio": 1.0779601944418968, "example_words": [] }, { "step": 488, "pair": [ "भाग", "लपुर" ], "new_token": "भागलपुर", "frequency": 100, "vocab_size": 682, "learned_vocab_size": 488, "compression_ratio": 1.0795678488640084, "example_words": [] }, { "step": 489, "pair": [ "ंगल", "ौर" ], "new_token": "ंगलौर", "frequency": 100, "vocab_size": 683, "learned_vocab_size": 489, "compression_ratio": 1.0797662119860623, "example_words": [] }, { "step": 490, "pair": [ "कि", "न" ], "new_token": "किन", "frequency": 99, "vocab_size": 684, "learned_vocab_size": 490, "compression_ratio": 1.079950213846565, "example_words": [] }, { "step": 491, "pair": [ "सु", "धार" ], "new_token": "सुधार", "frequency": 99, "vocab_size": 685, "learned_vocab_size": 491, "compression_ratio": 1.0801360832942049, "example_words": [] }, { "step": 492, "pair": [ "पृ", "ष्ठ" ], "new_token": "पृष्ठ", "frequency": 98, "vocab_size": 686, "learned_vocab_size": 492, "compression_ratio": 1.0801360832942049, "example_words": [] }, { "step": 493, "pair": [ "प्रौ", "द्योगिकी" ], "new_token": "प्रौद्योगिकी", "frequency": 98, "vocab_size": 687, "learned_vocab_size": 493, "compression_ratio": 1.0803400719318652, "example_words": [] }, { "step": 494, "pair": [ "क", "ला" ], "new_token": "कला", "frequency": 98, "vocab_size": 688, "learned_vocab_size": 494, "compression_ratio": 1.0803400719318652, "example_words": [] }, { "step": 495, "pair": [ "भ", "ग" ], "new_token": "भग", "frequency": 98, "vocab_size": 689, "learned_vocab_size": 495, "compression_ratio": 1.0805838762038016, "example_words": [] }, { "step": 496, "pair": [ "य", "त" ], "new_token": "यत", "frequency": 98, "vocab_size": 690, "learned_vocab_size": 496, "compression_ratio": 1.0807681568682526, "example_words": [] }, { "step": 497, "pair": [ "य", "श" ], "new_token": "यश", "frequency": 98, "vocab_size": 691, "learned_vocab_size": 497, "compression_ratio": 1.0809597308365706, "example_words": [] }, { "step": 498, "pair": [ "भाषा", "एँ" ], "new_token": "भाषाएँ", "frequency": 97, "vocab_size": 692, "learned_vocab_size": 498, "compression_ratio": 1.0811405232638849, "example_words": [] }, { "step": 499, "pair": [ "य", "म" ], "new_token": "यम", "frequency": 97, "vocab_size": 693, "learned_vocab_size": 499, "compression_ratio": 1.08134127369143, "example_words": [] }, { "step": 500, "pair": [ "दक्षि", "ण" ], "new_token": "दक्षिण", "frequency": 97, "vocab_size": 694, "learned_vocab_size": 500, "compression_ratio": 1.081565623609173, "example_words": [] }, { "step": 501, "pair": [ "उन्", "हें" ], "new_token": "उन्हें", "frequency": 97, "vocab_size": 702, "learned_vocab_size": 501, "compression_ratio": 1.0817701526057102, "example_words": [ "उन्हें" ] }, { "step": 502, "pair": [ "य", "ी" ], "new_token": "यी", "frequency": 97, "vocab_size": 703, "learned_vocab_size": 502, "compression_ratio": 1.0817701526057102, "example_words": [] }, { "step": 503, "pair": [ "सब", "से" ], "new_token": "सबसे", "frequency": 97, "vocab_size": 704, "learned_vocab_size": 503, "compression_ratio": 1.0819602710194025, "example_words": [] }, { "step": 504, "pair": [ "१", "९" ], "new_token": "१९", "frequency": 97, "vocab_size": 705, "learned_vocab_size": 504, "compression_ratio": 1.0821432098930772, "example_words": [] }, { "step": 505, "pair": [ "नग", "ला" ], "new_token": "नगला", "frequency": 97, "vocab_size": 706, "learned_vocab_size": 505, "compression_ratio": 1.0823987032950104, "example_words": [] }, { "step": 506, "pair": [ "हि", "मा" ], "new_token": "हिमा", "frequency": 96, "vocab_size": 707, "learned_vocab_size": 506, "compression_ratio": 1.082576351346825, "example_words": [] }, { "step": 507, "pair": [ "प्र", "या" ], "new_token": "प्रया", "frequency": 96, "vocab_size": 708, "learned_vocab_size": 507, "compression_ratio": 1.0827649395983947, "example_words": [] }, { "step": 508, "pair": [ "ब", "न्ध" ], "new_token": "बन्ध", "frequency": 96, "vocab_size": 709, "learned_vocab_size": 508, "compression_ratio": 1.0827649395983947, "example_words": [] }, { "step": 509, "pair": [ "ध", "र्" ], "new_token": "धर्", "frequency": 96, "vocab_size": 710, "learned_vocab_size": 509, "compression_ratio": 1.0830479452054795, "example_words": [] }, { "step": 510, "pair": [ "हो", "ने" ], "new_token": "होने", "frequency": 96, "vocab_size": 711, "learned_vocab_size": 510, "compression_ratio": 1.08325121996997, "example_words": [] }, { "step": 511, "pair": [ "ृ", "त" ], "new_token": "ृत", "frequency": 95, "vocab_size": 712, "learned_vocab_size": 511, "compression_ratio": 1.0834309638859139, "example_words": [] }, { "step": 512, "pair": [ "न", "ै" ], "new_token": "नै", "frequency": 95, "vocab_size": 713, "learned_vocab_size": 512, "compression_ratio": 1.0837161346566524, "example_words": [] }, { "step": 513, "pair": [ "मे", "र" ], "new_token": "मेर", "frequency": 95, "vocab_size": 714, "learned_vocab_size": 513, "compression_ratio": 1.0839305656631375, "example_words": [] }, { "step": 514, "pair": [ "ला", "ई" ], "new_token": "लाई", "frequency": 95, "vocab_size": 715, "learned_vocab_size": 514, "compression_ratio": 1.0841141714785976, "example_words": [] }, { "step": 515, "pair": [ "प्र", "वेश" ], "new_token": "प्रवेश", "frequency": 93, "vocab_size": 716, "learned_vocab_size": 515, "compression_ratio": 1.0843396735985185, "example_words": [] }, { "step": 516, "pair": [ "निर्", "वा" ], "new_token": "निर्वा", "frequency": 93, "vocab_size": 717, "learned_vocab_size": 516, "compression_ratio": 1.0843396735985185, "example_words": [] }, { "step": 517, "pair": [ "उ", "र्" ], "new_token": "उर्", "frequency": 93, "vocab_size": 718, "learned_vocab_size": 517, "compression_ratio": 1.084510681276351, "example_words": [] }, { "step": 518, "pair": [ "च", "ौ" ], "new_token": "चौ", "frequency": 93, "vocab_size": 719, "learned_vocab_size": 518, "compression_ratio": 1.0847545514499697, "example_words": [] }, { "step": 519, "pair": [ "झ", "ा" ], "new_token": "झा", "frequency": 93, "vocab_size": 720, "learned_vocab_size": 519, "compression_ratio": 1.0849912467542495, "example_words": [] }, { "step": 520, "pair": [ "अ", "ग" ], "new_token": "अग", "frequency": 93, "vocab_size": 721, "learned_vocab_size": 520, "compression_ratio": 1.0851916080910706, "example_words": [] }, { "step": 521, "pair": [ "न", "न्द" ], "new_token": "नन्द", "frequency": 92, "vocab_size": 722, "learned_vocab_size": 521, "compression_ratio": 1.0854503658104502, "example_words": [] }, { "step": 522, "pair": [ "से", "वा" ], "new_token": "सेवा", "frequency": 92, "vocab_size": 723, "learned_vocab_size": 522, "compression_ratio": 1.0856946588219882, "example_words": [] }, { "step": 523, "pair": [ "बहु", "त" ], "new_token": "बहुत", "frequency": 92, "vocab_size": 724, "learned_vocab_size": 523, "compression_ratio": 1.0858879834432802, "example_words": [] }, { "step": 524, "pair": [ "र", "पुर" ], "new_token": "रपुर", "frequency": 92, "vocab_size": 725, "learned_vocab_size": 524, "compression_ratio": 1.086055830442124, "example_words": [] }, { "step": 525, "pair": [ "हे", "म" ], "new_token": "हेम", "frequency": 91, "vocab_size": 726, "learned_vocab_size": 525, "compression_ratio": 1.0865140248493976, "example_words": [] }, { "step": 526, "pair": [ "क", "ई" ], "new_token": "कई", "frequency": 91, "vocab_size": 727, "learned_vocab_size": 526, "compression_ratio": 1.0866802386471952, "example_words": [] }, { "step": 527, "pair": [ "सं", "ख्या" ], "new_token": "संख्या", "frequency": 91, "vocab_size": 728, "learned_vocab_size": 527, "compression_ratio": 1.0868501580469434, "example_words": [] }, { "step": 528, "pair": [ "प", "न" ], "new_token": "पन", "frequency": 91, "vocab_size": 729, "learned_vocab_size": 528, "compression_ratio": 1.0868501580469434, "example_words": [] }, { "step": 529, "pair": [ "न", "ऊ" ], "new_token": "नऊ", "frequency": 91, "vocab_size": 730, "learned_vocab_size": 529, "compression_ratio": 1.0868483306740018, "example_words": [] }, { "step": 530, "pair": [ "ण", "िक" ], "new_token": "णिक", "frequency": 90, "vocab_size": 731, "learned_vocab_size": 530, "compression_ratio": 1.0870183026495457, "example_words": [] }, { "step": 531, "pair": [ "टि", "श" ], "new_token": "टिश", "frequency": 90, "vocab_size": 732, "learned_vocab_size": 531, "compression_ratio": 1.087201127541341, "example_words": [] }, { "step": 532, "pair": [ "राज", "वंश" ], "new_token": "राजवंश", "frequency": 90, "vocab_size": 733, "learned_vocab_size": 532, "compression_ratio": 1.0873730390227327, "example_words": [] }, { "step": 533, "pair": [ "हरि", "द्वार" ], "new_token": "हरिद्वार", "frequency": 90, "vocab_size": 734, "learned_vocab_size": 533, "compression_ratio": 1.08753951576677, "example_words": [] }, { "step": 534, "pair": [ "वि", "ज्ञान" ], "new_token": "विज्ञान", "frequency": 90, "vocab_size": 735, "learned_vocab_size": 534, "compression_ratio": 1.08753951576677, "example_words": [] }, { "step": 535, "pair": [ "म", "क" ], "new_token": "मक", "frequency": 90, "vocab_size": 736, "learned_vocab_size": 535, "compression_ratio": 1.087731667670686, "example_words": [] }, { "step": 536, "pair": [ "सक", "ता" ], "new_token": "सकता", "frequency": 90, "vocab_size": 737, "learned_vocab_size": 536, "compression_ratio": 1.0879092397771049, "example_words": [] }, { "step": 537, "pair": [ "मार्", "च" ], "new_token": "मार्च", "frequency": 90, "vocab_size": 738, "learned_vocab_size": 537, "compression_ratio": 1.0880758807588076, "example_words": [] }, { "step": 538, "pair": [ "ब्रि", "टिश" ], "new_token": "ब्रिटिश", "frequency": 89, "vocab_size": 739, "learned_vocab_size": 538, "compression_ratio": 1.0880758807588076, "example_words": [] }, { "step": 539, "pair": [ "को", "ट" ], "new_token": "कोट", "frequency": 89, "vocab_size": 740, "learned_vocab_size": 539, "compression_ratio": 1.0880758807588076, "example_words": [] }, { "step": 540, "pair": [ "सन्दर्", "भ" ], "new_token": "सन्दर्भ", "frequency": 89, "vocab_size": 741, "learned_vocab_size": 540, "compression_ratio": 1.0882480690105658, "example_words": [] }, { "step": 541, "pair": [ "पह", "ले" ], "new_token": "पहले", "frequency": 89, "vocab_size": 742, "learned_vocab_size": 541, "compression_ratio": 1.0882480690105658, "example_words": [] }, { "step": 542, "pair": [ "ल", "ू" ], "new_token": "लू", "frequency": 89, "vocab_size": 743, "learned_vocab_size": 542, "compression_ratio": 1.0884258097757362, "example_words": [] }, { "step": 543, "pair": [ "हु", "ए" ], "new_token": "हुए", "frequency": 89, "vocab_size": 744, "learned_vocab_size": 543, "compression_ratio": 1.0886072751768272, "example_words": [] }, { "step": 544, "pair": [ "समा", "चार" ], "new_token": "समाचार", "frequency": 88, "vocab_size": 745, "learned_vocab_size": 544, "compression_ratio": 1.0887924689110138, "example_words": [] }, { "step": 545, "pair": [ "ज", "म्" ], "new_token": "जम्", "frequency": 88, "vocab_size": 746, "learned_vocab_size": 545, "compression_ratio": 1.0887924689110138, "example_words": [] }, { "step": 546, "pair": [ "रेल", "वे" ], "new_token": "रेलवे", "frequency": 88, "vocab_size": 747, "learned_vocab_size": 546, "compression_ratio": 1.0889630495648628, "example_words": [] }, { "step": 547, "pair": [ "मार्", "ग" ], "new_token": "मार्ग", "frequency": 87, "vocab_size": 748, "learned_vocab_size": 547, "compression_ratio": 1.0891281785158278, "example_words": [] }, { "step": 548, "pair": [ "द", "ल" ], "new_token": "दल", "frequency": 87, "vocab_size": 749, "learned_vocab_size": 548, "compression_ratio": 1.0891281785158278, "example_words": [] }, { "step": 549, "pair": [ "फ", "ल" ], "new_token": "फल", "frequency": 87, "vocab_size": 750, "learned_vocab_size": 549, "compression_ratio": 1.08935577156416, "example_words": [] }, { "step": 550, "pair": [ "छ", "ा" ], "new_token": "छा", "frequency": 87, "vocab_size": 751, "learned_vocab_size": 550, "compression_ratio": 1.0895412200758143, "example_words": [] }, { "step": 551, "pair": [ "पार्", "टी" ], "new_token": "पार्टी", "frequency": 87, "vocab_size": 757, "learned_vocab_size": 551, "compression_ratio": 1.0897120354417917, "example_words": [] }, { "step": 552, "pair": [ "२०", "१" ], "new_token": "२०१", "frequency": 86, "vocab_size": 758, "learned_vocab_size": 552, "compression_ratio": 1.0897120354417917, "example_words": [] }, { "step": 553, "pair": [ "पुरा", "लेख" ], "new_token": "पुरालेख", "frequency": 86, "vocab_size": 759, "learned_vocab_size": 553, "compression_ratio": 1.090046474294117, "example_words": [] }, { "step": 554, "pair": [ "ग", "ई" ], "new_token": "गई", "frequency": 86, "vocab_size": 760, "learned_vocab_size": 554, "compression_ratio": 1.090046474294117, "example_words": [] }, { "step": 555, "pair": [ "लख", "नऊ" ], "new_token": "लखनऊ", "frequency": 86, "vocab_size": 761, "learned_vocab_size": 555, "compression_ratio": 1.090232158066502, "example_words": [] }, { "step": 556, "pair": [ "एस", "टी" ], "new_token": "एसटी", "frequency": 85, "vocab_size": 762, "learned_vocab_size": 556, "compression_ratio": 1.090393993525936, "example_words": [] }, { "step": 557, "pair": [ "वर्", "ण" ], "new_token": "वर्ण", "frequency": 85, "vocab_size": 763, "learned_vocab_size": 557, "compression_ratio": 1.0905521973340802, "example_words": [] }, { "step": 558, "pair": [ "प", "ौ" ], "new_token": "पौ", "frequency": 84, "vocab_size": 764, "learned_vocab_size": 558, "compression_ratio": 1.0905540371832507, "example_words": [] }, { "step": 559, "pair": [ "ता", "ल" ], "new_token": "ताल", "frequency": 84, "vocab_size": 765, "learned_vocab_size": 559, "compression_ratio": 1.0909276551506488, "example_words": [] }, { "step": 560, "pair": [ "ब", "ल" ], "new_token": "बल", "frequency": 84, "vocab_size": 766, "learned_vocab_size": 560, "compression_ratio": 1.0910933805049228, "example_words": [] }, { "step": 561, "pair": [ "ति", "रु" ], "new_token": "तिरु", "frequency": 84, "vocab_size": 767, "learned_vocab_size": 561, "compression_ratio": 1.091303371583214, "example_words": [] }, { "step": 562, "pair": [ "ट", "ल" ], "new_token": "टल", "frequency": 83, "vocab_size": 768, "learned_vocab_size": 562, "compression_ratio": 1.0914673681793314, "example_words": [] }, { "step": 563, "pair": [ "न", "र" ], "new_token": "नर", "frequency": 83, "vocab_size": 769, "learned_vocab_size": 563, "compression_ratio": 1.0916221967035937, "example_words": [] }, { "step": 564, "pair": [ "च्", "च" ], "new_token": "च्च", "frequency": 83, "vocab_size": 770, "learned_vocab_size": 564, "compression_ratio": 1.091806573658075, "example_words": [] }, { "step": 565, "pair": [ "आ", "ंध" ], "new_token": "आंध", "frequency": 83, "vocab_size": 771, "learned_vocab_size": 565, "compression_ratio": 1.0919965470464916, "example_words": [] }, { "step": 566, "pair": [ "े", "र" ], "new_token": "ेर", "frequency": 83, "vocab_size": 772, "learned_vocab_size": 566, "compression_ratio": 1.092153370999135, "example_words": [] }, { "step": 567, "pair": [ "लि", "ंक" ], "new_token": "लिंक", "frequency": 83, "vocab_size": 773, "learned_vocab_size": 567, "compression_ratio": 1.0923674622648525, "example_words": [] }, { "step": 568, "pair": [ "आ", "न्ध" ], "new_token": "आन्ध", "frequency": 83, "vocab_size": 774, "learned_vocab_size": 568, "compression_ratio": 1.0925225462756392, "example_words": [] }, { "step": 569, "pair": [ "आन्ध", "्र" ], "new_token": "आन्ध्र", "frequency": 83, "vocab_size": 775, "learned_vocab_size": 569, "compression_ratio": 1.0926776743274036, "example_words": [] }, { "step": 570, "pair": [ "जम्", "मू" ], "new_token": "जम्मू", "frequency": 83, "vocab_size": 776, "learned_vocab_size": 570, "compression_ratio": 1.0928328464389083, "example_words": [] }, { "step": 571, "pair": [ "आ", "गरा" ], "new_token": "आगरा", "frequency": 83, "vocab_size": 777, "learned_vocab_size": 571, "compression_ratio": 1.0929954549758545, "example_words": [] }, { "step": 572, "pair": [ "आई", "एसटी" ], "new_token": "आईएसटी", "frequency": 82, "vocab_size": 778, "learned_vocab_size": 572, "compression_ratio": 1.0929954549758545, "example_words": [] }, { "step": 573, "pair": [ "कर", "ण" ], "new_token": "करण", "frequency": 82, "vocab_size": 779, "learned_vocab_size": 573, "compression_ratio": 1.093147020127373, "example_words": [] }, { "step": 574, "pair": [ "वे", "ब" ], "new_token": "वेब", "frequency": 82, "vocab_size": 780, "learned_vocab_size": 574, "compression_ratio": 1.0933522545638448, "example_words": [] }, { "step": 575, "pair": [ "जी", "वन" ], "new_token": "जीवन", "frequency": 82, "vocab_size": 781, "learned_vocab_size": 575, "compression_ratio": 1.0935353665220833, "example_words": [] }, { "step": 576, "pair": [ "कु", "छ" ], "new_token": "कुछ", "frequency": 82, "vocab_size": 782, "learned_vocab_size": 576, "compression_ratio": 1.0937666561195536, "example_words": [] }, { "step": 577, "pair": [ "ठ", "ा" ], "new_token": "ठा", "frequency": 82, "vocab_size": 783, "learned_vocab_size": 577, "compression_ratio": 1.0939239889391688, "example_words": [] }, { "step": 578, "pair": [ "ट", "ो" ], "new_token": "टो", "frequency": 82, "vocab_size": 784, "learned_vocab_size": 578, "compression_ratio": 1.0941202556498897, "example_words": [] }, { "step": 579, "pair": [ "ै", "ल" ], "new_token": "ैल", "frequency": 82, "vocab_size": 785, "learned_vocab_size": 579, "compression_ratio": 1.0944055233690113, "example_words": [] }, { "step": 580, "pair": [ "द", "पुर" ], "new_token": "दपुर", "frequency": 82, "vocab_size": 786, "learned_vocab_size": 580, "compression_ratio": 1.0946038164616871, "example_words": [] }, { "step": 581, "pair": [ "वारा", "ण" ], "new_token": "वाराण", "frequency": 82, "vocab_size": 787, "learned_vocab_size": 581, "compression_ratio": 1.0948003272130493, "example_words": [] }, { "step": 582, "pair": [ "वाराण", "सी" ], "new_token": "वाराणसी", "frequency": 82, "vocab_size": 788, "learned_vocab_size": 582, "compression_ratio": 1.0948003272130493, "example_words": [] }, { "step": 583, "pair": [ "भ", "ु" ], "new_token": "भु", "frequency": 82, "vocab_size": 789, "learned_vocab_size": 583, "compression_ratio": 1.0948003272130493, "example_words": [] }, { "step": 584, "pair": [ "सा", "हित्य" ], "new_token": "साहित्य", "frequency": 82, "vocab_size": 790, "learned_vocab_size": 584, "compression_ratio": 1.0949653765888825, "example_words": [] }, { "step": 585, "pair": [ "नन्द", "न" ], "new_token": "नन्दन", "frequency": 81, "vocab_size": 791, "learned_vocab_size": 585, "compression_ratio": 1.0949653765888825, "example_words": [] }, { "step": 586, "pair": [ "वि", "द्" ], "new_token": "विद्", "frequency": 81, "vocab_size": 792, "learned_vocab_size": 586, "compression_ratio": 1.0951156333277428, "example_words": [] }, { "step": 587, "pair": [ "म", "त" ], "new_token": "मत", "frequency": 81, "vocab_size": 793, "learned_vocab_size": 587, "compression_ratio": 1.0960254738623318, "example_words": [] }, { "step": 588, "pair": [ "दर", "भ" ], "new_token": "दरभ", "frequency": 81, "vocab_size": 794, "learned_vocab_size": 588, "compression_ratio": 1.0961778805797533, "example_words": [] }, { "step": 589, "pair": [ "दरभ", "ंगा" ], "new_token": "दरभंगा", "frequency": 81, "vocab_size": 795, "learned_vocab_size": 589, "compression_ratio": 1.0963284702977183, "example_words": [] }, { "step": 590, "pair": [ "क", "ं" ], "new_token": "कं", "frequency": 81, "vocab_size": 796, "learned_vocab_size": 590, "compression_ratio": 1.0963284702977183, "example_words": [] }, { "step": 591, "pair": [ "यश", "वंत" ], "new_token": "यशवंत", "frequency": 81, "vocab_size": 797, "learned_vocab_size": 591, "compression_ratio": 1.0965442017160247, "example_words": [] }, { "step": 592, "pair": [ "यशवंत", "पुर" ], "new_token": "यशवंतपुर", "frequency": 81, "vocab_size": 798, "learned_vocab_size": 592, "compression_ratio": 1.0965442017160247, "example_words": [] }, { "step": 593, "pair": [ "उ", "त्" ], "new_token": "उत्", "frequency": 80, "vocab_size": 799, "learned_vocab_size": 593, "compression_ratio": 1.0965442017160247, "example_words": [] }, { "step": 594, "pair": [ "म्", "बर" ], "new_token": "म्बर", "frequency": 80, "vocab_size": 800, "learned_vocab_size": 594, "compression_ratio": 1.0951100675279617, "example_words": [] }, { "step": 595, "pair": [ "आंध", "्र" ], "new_token": "आंध्र", "frequency": 80, "vocab_size": 801, "learned_vocab_size": 595, "compression_ratio": 1.0952714986944816, "example_words": [] }, { "step": 596, "pair": [ "उन", "के" ], "new_token": "उनके", "frequency": 80, "vocab_size": 802, "learned_vocab_size": 596, "compression_ratio": 1.0954255521060694, "example_words": [] }, { "step": 597, "pair": [ "ं", "स" ], "new_token": "ंस", "frequency": 80, "vocab_size": 803, "learned_vocab_size": 597, "compression_ratio": 1.0955759351754084, "example_words": [] }, { "step": 598, "pair": [ "अ", "ख" ], "new_token": "अख", "frequency": 79, "vocab_size": 804, "learned_vocab_size": 598, "compression_ratio": 1.0957579353307625, "example_words": [] }, { "step": 599, "pair": [ "ने", "ट" ], "new_token": "नेट", "frequency": 79, "vocab_size": 805, "learned_vocab_size": 599, "compression_ratio": 1.095906551721215, "example_words": [] }, { "step": 600, "pair": [ "ग", "ए" ], "new_token": "गए", "frequency": 79, "vocab_size": 806, "learned_vocab_size": 600, "compression_ratio": 1.0960626423246027, "example_words": [] }, { "step": 601, "pair": [ "ज", "ग" ], "new_token": "जग", "frequency": 79, "vocab_size": 812, "learned_vocab_size": 601, "compression_ratio": 1.0962875652940778, "example_words": [ "जगह", "जगन्नाथ", "जगपाल" ] }, { "step": 602, "pair": [ "ड", "ु" ], "new_token": "डु", "frequency": 79, "vocab_size": 813, "learned_vocab_size": 602, "compression_ratio": 1.0964753816117339, "example_words": [] }, { "step": 603, "pair": [ "ज", "हा" ], "new_token": "जहा", "frequency": 79, "vocab_size": 814, "learned_vocab_size": 603, "compression_ratio": 1.0966372155832875, "example_words": [] }, { "step": 604, "pair": [ "प्र", "भा" ], "new_token": "प्रभा", "frequency": 78, "vocab_size": 815, "learned_vocab_size": 604, "compression_ratio": 1.0968474850637748, "example_words": [] }, { "step": 605, "pair": [ "भू", "गोल" ], "new_token": "भूगोल", "frequency": 78, "vocab_size": 816, "learned_vocab_size": 605, "compression_ratio": 1.0968493462155842, "example_words": [] }, { "step": 606, "pair": [ "छ", "ो" ], "new_token": "छो", "frequency": 78, "vocab_size": 817, "learned_vocab_size": 606, "compression_ratio": 1.0970652826948077, "example_words": [] }, { "step": 607, "pair": [ "ब", "ॉ" ], "new_token": "बॉ", "frequency": 78, "vocab_size": 818, "learned_vocab_size": 607, "compression_ratio": 1.0972235659956853, "example_words": [] }, { "step": 608, "pair": [ "लि", "ये" ], "new_token": "लिये", "frequency": 78, "vocab_size": 819, "learned_vocab_size": 608, "compression_ratio": 1.0973837579428607, "example_words": [] }, { "step": 609, "pair": [ "ट", "क" ], "new_token": "टक", "frequency": 78, "vocab_size": 820, "learned_vocab_size": 609, "compression_ratio": 1.0975328157073947, "example_words": [] }, { "step": 610, "pair": [ "सी", "ता" ], "new_token": "सीता", "frequency": 78, "vocab_size": 821, "learned_vocab_size": 610, "compression_ratio": 1.09772292309495, "example_words": [] }, { "step": 611, "pair": [ "सं", "घ" ], "new_token": "संघ", "frequency": 78, "vocab_size": 822, "learned_vocab_size": 611, "compression_ratio": 1.0978683437756351, "example_words": [] }, { "step": 612, "pair": [ "ब", "ंगलौर" ], "new_token": "बंगलौर", "frequency": 78, "vocab_size": 823, "learned_vocab_size": 612, "compression_ratio": 1.098019398345535, "example_words": [] }, { "step": 613, "pair": [ "ॉ", "र्" ], "new_token": "ॉर्", "frequency": 78, "vocab_size": 824, "learned_vocab_size": 613, "compression_ratio": 1.098166763218383, "example_words": [] }, { "step": 614, "pair": [ "हि", "न्दी" ], "new_token": "हिन्दी", "frequency": 77, "vocab_size": 825, "learned_vocab_size": 614, "compression_ratio": 1.098340294084664, "example_words": [] }, { "step": 615, "pair": [ "लो", "ग" ], "new_token": "लोग", "frequency": 77, "vocab_size": 826, "learned_vocab_size": 615, "compression_ratio": 1.098340294084664, "example_words": [] }, { "step": 616, "pair": [ "सम्", "बन्ध" ], "new_token": "सम्बन्ध", "frequency": 77, "vocab_size": 827, "learned_vocab_size": 616, "compression_ratio": 1.0986296340988777, "example_words": [] }, { "step": 617, "pair": [ "निर्वा", "चन" ], "new_token": "निर्वाचन", "frequency": 77, "vocab_size": 828, "learned_vocab_size": 617, "compression_ratio": 1.0986296340988777, "example_words": [] }, { "step": 618, "pair": [ "क", "ता" ], "new_token": "कता", "frequency": 77, "vocab_size": 829, "learned_vocab_size": 618, "compression_ratio": 1.0987752951275274, "example_words": [] }, { "step": 619, "pair": [ "जा", "ती" ], "new_token": "जाती", "frequency": 77, "vocab_size": 830, "learned_vocab_size": 619, "compression_ratio": 1.0989564915812093, "example_words": [] }, { "step": 620, "pair": [ "थ", "ु" ], "new_token": "थु", "frequency": 77, "vocab_size": 831, "learned_vocab_size": 620, "compression_ratio": 1.099105976930192, "example_words": [] }, { "step": 621, "pair": [ "अ", "ंतर्राष्ट्रीय" ], "new_token": "अंतर्राष्ट्रीय", "frequency": 77, "vocab_size": 832, "learned_vocab_size": 621, "compression_ratio": 1.0992461563838634, "example_words": [] }, { "step": 622, "pair": [ "ं", "ब" ], "new_token": "ंब", "frequency": 77, "vocab_size": 833, "learned_vocab_size": 622, "compression_ratio": 1.0992461563838634, "example_words": [] }, { "step": 623, "pair": [ "राजनी", "ति" ], "new_token": "राजनीति", "frequency": 76, "vocab_size": 834, "learned_vocab_size": 623, "compression_ratio": 1.0994368578333908, "example_words": [] }, { "step": 624, "pair": [ "य", "क" ], "new_token": "यक", "frequency": 76, "vocab_size": 835, "learned_vocab_size": 624, "compression_ratio": 1.0994368578333908, "example_words": [] }, { "step": 625, "pair": [ "ज़", "ी" ], "new_token": "ज़ी", "frequency": 76, "vocab_size": 836, "learned_vocab_size": 625, "compression_ratio": 1.0996818754040352, "example_words": [] }, { "step": 626, "pair": [ "र", "ण" ], "new_token": "रण", "frequency": 76, "vocab_size": 837, "learned_vocab_size": 626, "compression_ratio": 1.1001666209976495, "example_words": [] }, { "step": 627, "pair": [ "अ", "ह" ], "new_token": "अह", "frequency": 76, "vocab_size": 838, "learned_vocab_size": 627, "compression_ratio": 1.1008036156745076, "example_words": [] }, { "step": 628, "pair": [ "पा", "कि" ], "new_token": "पाकि", "frequency": 76, "vocab_size": 839, "learned_vocab_size": 628, "compression_ratio": 1.1009536039895016, "example_words": [] }, { "step": 629, "pair": [ "अल", "ंकार" ], "new_token": "अलंकार", "frequency": 76, "vocab_size": 840, "learned_vocab_size": 629, "compression_ratio": 1.1011055088065955, "example_words": [] }, { "step": 630, "pair": [ "च", "ै" ], "new_token": "चै", "frequency": 75, "vocab_size": 841, "learned_vocab_size": 630, "compression_ratio": 1.1011055088065955, "example_words": [] }, { "step": 631, "pair": [ "गु", "जरा" ], "new_token": "गुजरा", "frequency": 75, "vocab_size": 842, "learned_vocab_size": 631, "compression_ratio": 1.101263084010249, "example_words": [] }, { "step": 632, "pair": [ "त", "मिल" ], "new_token": "तमिल", "frequency": 75, "vocab_size": 843, "learned_vocab_size": 632, "compression_ratio": 1.1014094442305136, "example_words": [] }, { "step": 633, "pair": [ "सा", "इट" ], "new_token": "साइट", "frequency": 75, "vocab_size": 844, "learned_vocab_size": 633, "compression_ratio": 1.1015877560271505, "example_words": [] }, { "step": 634, "pair": [ "ध", "न" ], "new_token": "धन", "frequency": 75, "vocab_size": 845, "learned_vocab_size": 634, "compression_ratio": 1.1017680034497628, "example_words": [] }, { "step": 635, "pair": [ "गोर", "ख" ], "new_token": "गोरख", "frequency": 75, "vocab_size": 846, "learned_vocab_size": 635, "compression_ratio": 1.10196709518054, "example_words": [] }, { "step": 636, "pair": [ "म्", "भ" ], "new_token": "म्भ", "frequency": 74, "vocab_size": 847, "learned_vocab_size": 636, "compression_ratio": 1.10196709518054, "example_words": [] }, { "step": 637, "pair": [ "का", "म" ], "new_token": "काम", "frequency": 74, "vocab_size": 848, "learned_vocab_size": 637, "compression_ratio": 1.1021267961999333, "example_words": [] }, { "step": 638, "pair": [ "न", "॰" ], "new_token": "न॰", "frequency": 74, "vocab_size": 849, "learned_vocab_size": 638, "compression_ratio": 1.102290302832909, "example_words": [] }, { "step": 639, "pair": [ "उप", "योग" ], "new_token": "उपयोग", "frequency": 74, "vocab_size": 850, "learned_vocab_size": 639, "compression_ratio": 1.1024294156270518, "example_words": [] }, { "step": 640, "pair": [ "ल", "ग" ], "new_token": "लग", "frequency": 74, "vocab_size": 851, "learned_vocab_size": 640, "compression_ratio": 1.102585489329185, "example_words": [] }, { "step": 641, "pair": [ "ड़", "े" ], "new_token": "ड़े", "frequency": 74, "vocab_size": 852, "learned_vocab_size": 641, "compression_ratio": 1.1027585383329352, "example_words": [] }, { "step": 642, "pair": [ "स्वा", "मी" ], "new_token": "स्वामी", "frequency": 74, "vocab_size": 853, "learned_vocab_size": 642, "compression_ratio": 1.1029184688489067, "example_words": [] }, { "step": 643, "pair": [ "का", "ंग्रेस" ], "new_token": "कांग्रेस", "frequency": 73, "vocab_size": 854, "learned_vocab_size": 643, "compression_ratio": 1.1030765634092192, "example_words": [] }, { "step": 644, "pair": [ "सम्बन्ध", "ित" ], "new_token": "सम्बन्धित", "frequency": 73, "vocab_size": 855, "learned_vocab_size": 644, "compression_ratio": 1.1030765634092192, "example_words": [] }, { "step": 645, "pair": [ "धर्", "म" ], "new_token": "धर्म", "frequency": 73, "vocab_size": 856, "learned_vocab_size": 645, "compression_ratio": 1.1030765634092192, "example_words": [] }, { "step": 646, "pair": [ "अप्र", "ैल" ], "new_token": "अप्रैल", "frequency": 73, "vocab_size": 857, "learned_vocab_size": 646, "compression_ratio": 1.103259181381568, "example_words": [] }, { "step": 647, "pair": [ "मु", "ंग" ], "new_token": "मुंग", "frequency": 73, "vocab_size": 858, "learned_vocab_size": 647, "compression_ratio": 1.103259181381568, "example_words": [] }, { "step": 648, "pair": [ "ग", "ण" ], "new_token": "गण", "frequency": 73, "vocab_size": 859, "learned_vocab_size": 648, "compression_ratio": 1.1034023057568816, "example_words": [] }, { "step": 649, "pair": [ "पर्य", "टन" ], "new_token": "पर्यटन", "frequency": 72, "vocab_size": 860, "learned_vocab_size": 649, "compression_ratio": 1.1036114094108689, "example_words": [] }, { "step": 650, "pair": [ "मा", "ण" ], "new_token": "माण", "frequency": 72, "vocab_size": 861, "learned_vocab_size": 650, "compression_ratio": 1.1036114094108689, "example_words": [] }, { "step": 651, "pair": [ "म", "ंड" ], "new_token": "मंड", "frequency": 72, "vocab_size": 866, "learned_vocab_size": 651, "compression_ratio": 1.1037602792120864, "example_words": [] }, { "step": 652, "pair": [ "आ", "व" ], "new_token": "आव", "frequency": 72, "vocab_size": 867, "learned_vocab_size": 652, "compression_ratio": 1.1040939687875233, "example_words": [] }, { "step": 653, "pair": [ "ख", "़" ], "new_token": "ख़", "frequency": 72, "vocab_size": 868, "learned_vocab_size": 653, "compression_ratio": 1.1042354235423542, "example_words": [] }, { "step": 654, "pair": [ "उ", "ल्" ], "new_token": "उल्", "frequency": 72, "vocab_size": 869, "learned_vocab_size": 654, "compression_ratio": 1.1043882353946166, "example_words": [] }, { "step": 655, "pair": [ "ब", "ंगा" ], "new_token": "बंगा", "frequency": 72, "vocab_size": 870, "learned_vocab_size": 655, "compression_ratio": 1.1045316528802762, "example_words": [] }, { "step": 656, "pair": [ "डी", "ह" ], "new_token": "डीह", "frequency": 72, "vocab_size": 871, "learned_vocab_size": 656, "compression_ratio": 1.1045316528802762, "example_words": [] }, { "step": 657, "pair": [ "क", "ौ" ], "new_token": "कौ", "frequency": 71, "vocab_size": 872, "learned_vocab_size": 657, "compression_ratio": 1.1046732198152995, "example_words": [] }, { "step": 658, "pair": [ "विद्", "वान" ], "new_token": "विद्वान", "frequency": 71, "vocab_size": 873, "learned_vocab_size": 658, "compression_ratio": 1.1048261528706182, "example_words": [] }, { "step": 659, "pair": [ "प्रा", "प्त" ], "new_token": "प्राप्त", "frequency": 71, "vocab_size": 874, "learned_vocab_size": 659, "compression_ratio": 1.1048261528706182, "example_words": [] }, { "step": 660, "pair": [ "ल्", "स" ], "new_token": "ल्स", "frequency": 71, "vocab_size": 875, "learned_vocab_size": 660, "compression_ratio": 1.1048261528706182, "example_words": [] }, { "step": 661, "pair": [ "ह", "टा" ], "new_token": "हटा", "frequency": 71, "vocab_size": 876, "learned_vocab_size": 661, "compression_ratio": 1.1049696841234378, "example_words": [] }, { "step": 662, "pair": [ "त", "न" ], "new_token": "तन", "frequency": 71, "vocab_size": 877, "learned_vocab_size": 662, "compression_ratio": 1.1051378141893393, "example_words": [] }, { "step": 663, "pair": [ "भि", "न्न" ], "new_token": "भिन्न", "frequency": 71, "vocab_size": 878, "learned_vocab_size": 663, "compression_ratio": 1.1052946557576069, "example_words": [] }, { "step": 664, "pair": [ "म", "ौ" ], "new_token": "मौ", "frequency": 71, "vocab_size": 879, "learned_vocab_size": 664, "compression_ratio": 1.1054326375516876, "example_words": [] }, { "step": 665, "pair": [ "मुंग", "ेर" ], "new_token": "मुंगेर", "frequency": 71, "vocab_size": 880, "learned_vocab_size": 665, "compression_ratio": 1.1055990175721855, "example_words": [] }, { "step": 666, "pair": [ "वि", "ल" ], "new_token": "विल", "frequency": 71, "vocab_size": 881, "learned_vocab_size": 666, "compression_ratio": 1.1057389668149162, "example_words": [] }, { "step": 667, "pair": [ "पट्", "टी" ], "new_token": "पट्टी", "frequency": 71, "vocab_size": 882, "learned_vocab_size": 667, "compression_ratio": 1.1058789514923202, "example_words": [] }, { "step": 668, "pair": [ "जा", "ल" ], "new_token": "जाल", "frequency": 70, "vocab_size": 883, "learned_vocab_size": 668, "compression_ratio": 1.1058789514923202, "example_words": [] }, { "step": 669, "pair": [ "उ", "द्यान" ], "new_token": "उद्यान", "frequency": 70, "vocab_size": 884, "learned_vocab_size": 669, "compression_ratio": 1.1061703846180173, "example_words": [] }, { "step": 670, "pair": [ "किता", "बें" ], "new_token": "किताबें", "frequency": 70, "vocab_size": 885, "learned_vocab_size": 670, "compression_ratio": 1.1061703846180173, "example_words": [] }, { "step": 671, "pair": [ "अ", "ंग्रे" ], "new_token": "अंग्रे", "frequency": 70, "vocab_size": 886, "learned_vocab_size": 671, "compression_ratio": 1.1061703846180173, "example_words": [] }, { "step": 672, "pair": [ "शे", "ष" ], "new_token": "शेष", "frequency": 70, "vocab_size": 887, "learned_vocab_size": 672, "compression_ratio": 1.1061703846180173, "example_words": [] }, { "step": 673, "pair": [ "हो", "ते" ], "new_token": "होते", "frequency": 70, "vocab_size": 888, "learned_vocab_size": 673, "compression_ratio": 1.1063237325236912, "example_words": [] }, { "step": 674, "pair": [ "ला", "ल" ], "new_token": "लाल", "frequency": 70, "vocab_size": 889, "learned_vocab_size": 674, "compression_ratio": 1.1064562896575096, "example_words": [] }, { "step": 675, "pair": [ "त्", "व" ], "new_token": "त्व", "frequency": 70, "vocab_size": 890, "learned_vocab_size": 675, "compression_ratio": 1.1066021391985539, "example_words": [] }, { "step": 676, "pair": [ "श", "हर" ], "new_token": "शहर", "frequency": 70, "vocab_size": 891, "learned_vocab_size": 676, "compression_ratio": 1.1067935066424903, "example_words": [] }, { "step": 677, "pair": [ "अख", "बार" ], "new_token": "अखबार", "frequency": 69, "vocab_size": 892, "learned_vocab_size": 677, "compression_ratio": 1.1069584009754159, "example_words": [] }, { "step": 678, "pair": [ "हु", "ई" ], "new_token": "हुई", "frequency": 69, "vocab_size": 893, "learned_vocab_size": 678, "compression_ratio": 1.1069584009754159, "example_words": [] }, { "step": 679, "pair": [ "ज़ि", "ले" ], "new_token": "ज़िले", "frequency": 69, "vocab_size": 894, "learned_vocab_size": 679, "compression_ratio": 1.1071024868123587, "example_words": [] }, { "step": 680, "pair": [ "अ", "न" ], "new_token": "अन", "frequency": 69, "vocab_size": 895, "learned_vocab_size": 680, "compression_ratio": 1.1072371272111257, "example_words": [] }, { "step": 681, "pair": [ "नाराय", "ण" ], "new_token": "नारायण", "frequency": 68, "vocab_size": 896, "learned_vocab_size": 681, "compression_ratio": 1.1070285433424842, "example_words": [] }, { "step": 682, "pair": [ "ने", "ता" ], "new_token": "नेता", "frequency": 68, "vocab_size": 897, "learned_vocab_size": 682, "compression_ratio": 1.1070285433424842, "example_words": [] }, { "step": 683, "pair": [ "थ", "म" ], "new_token": "थम", "frequency": 68, "vocab_size": 898, "learned_vocab_size": 683, "compression_ratio": 1.1071916112998066, "example_words": [] }, { "step": 684, "pair": [ "ध", "ी" ], "new_token": "धी", "frequency": 68, "vocab_size": 899, "learned_vocab_size": 684, "compression_ratio": 1.1073926681479527, "example_words": [] }, { "step": 685, "pair": [ "फ़", "ि" ], "new_token": "फ़ि", "frequency": 68, "vocab_size": 900, "learned_vocab_size": 685, "compression_ratio": 1.107565331816406, "example_words": [] }, { "step": 686, "pair": [ "उ", "से" ], "new_token": "उसे", "frequency": 68, "vocab_size": 901, "learned_vocab_size": 686, "compression_ratio": 1.1077171685322402, "example_words": [] }, { "step": 687, "pair": [ "वेब", "साइट" ], "new_token": "वेबसाइट", "frequency": 68, "vocab_size": 902, "learned_vocab_size": 687, "compression_ratio": 1.1078462624766918, "example_words": [] }, { "step": 688, "pair": [ "सं", "युक्त" ], "new_token": "संयुक्त", "frequency": 68, "vocab_size": 903, "learned_vocab_size": 688, "compression_ratio": 1.1080019746111627, "example_words": [] }, { "step": 689, "pair": [ "उल्", "लेख" ], "new_token": "उल्लेख", "frequency": 68, "vocab_size": 904, "learned_vocab_size": 689, "compression_ratio": 1.108171028788806, "example_words": [] }, { "step": 690, "pair": [ "ल", "ॉ" ], "new_token": "लॉ", "frequency": 68, "vocab_size": 905, "learned_vocab_size": 690, "compression_ratio": 1.1083040289962915, "example_words": [] }, { "step": 691, "pair": [ "नै", "नी" ], "new_token": "नैनी", "frequency": 67, "vocab_size": 906, "learned_vocab_size": 691, "compression_ratio": 1.1084541675812116, "example_words": [] }, { "step": 692, "pair": [ "नैनी", "ताल" ], "new_token": "नैनीताल", "frequency": 67, "vocab_size": 907, "learned_vocab_size": 692, "compression_ratio": 1.1085815321873913, "example_words": [] }, { "step": 693, "pair": [ "भू", "मिका" ], "new_token": "भूमिका", "frequency": 67, "vocab_size": 908, "learned_vocab_size": 693, "compression_ratio": 1.1087089260660614, "example_words": [] }, { "step": 694, "pair": [ "आ", "म" ], "new_token": "आम", "frequency": 67, "vocab_size": 909, "learned_vocab_size": 694, "compression_ratio": 1.1087089260660614, "example_words": [] }, { "step": 695, "pair": [ "ख", "ि" ], "new_token": "खि", "frequency": 67, "vocab_size": 910, "learned_vocab_size": 695, "compression_ratio": 1.1088629786620876, "example_words": [] }, { "step": 696, "pair": [ "यु", "द्ध" ], "new_token": "युद्ध", "frequency": 67, "vocab_size": 911, "learned_vocab_size": 696, "compression_ratio": 1.109020879441385, "example_words": [] }, { "step": 697, "pair": [ "स्था", "पित" ], "new_token": "स्थापित", "frequency": 67, "vocab_size": 912, "learned_vocab_size": 697, "compression_ratio": 1.1091578900408032, "example_words": [] }, { "step": 698, "pair": [ "स", "पुर" ], "new_token": "सपुर", "frequency": 67, "vocab_size": 913, "learned_vocab_size": 698, "compression_ratio": 1.1091578900408032, "example_words": [] }, { "step": 699, "pair": [ "दि", "संबर" ], "new_token": "दिसंबर", "frequency": 67, "vocab_size": 914, "learned_vocab_size": 699, "compression_ratio": 1.1092987417714046, "example_words": [] }, { "step": 700, "pair": [ "अ", "क्" ], "new_token": "अक्", "frequency": 67, "vocab_size": 915, "learned_vocab_size": 700, "compression_ratio": 1.1092987417714046, "example_words": [] }, { "step": 701, "pair": [ "जु", "लाई" ], "new_token": "जुलाई", "frequency": 67, "vocab_size": 919, "learned_vocab_size": 701, "compression_ratio": 1.1095081820896855, "example_words": [ "जुलाई" ] }, { "step": 702, "pair": [ "पाकि", "स्तान" ], "new_token": "पाकिस्तान", "frequency": 67, "vocab_size": 920, "learned_vocab_size": 702, "compression_ratio": 1.1096891260199238, "example_words": [] }, { "step": 703, "pair": [ "ख", "ी" ], "new_token": "खी", "frequency": 67, "vocab_size": 921, "learned_vocab_size": 703, "compression_ratio": 1.1096891260199238, "example_words": [] }, { "step": 704, "pair": [ "उ", "च्च" ], "new_token": "उच्च", "frequency": 66, "vocab_size": 922, "learned_vocab_size": 704, "compression_ratio": 1.109826301792266, "example_words": [] }, { "step": 705, "pair": [ "स्", "कू" ], "new_token": "स्कू", "frequency": 66, "vocab_size": 923, "learned_vocab_size": 705, "compression_ratio": 1.1099863830634844, "example_words": [] }, { "step": 706, "pair": [ "क", "ह" ], "new_token": "कह", "frequency": 66, "vocab_size": 924, "learned_vocab_size": 706, "compression_ratio": 1.1101236323419046, "example_words": [] }, { "step": 707, "pair": [ "ू", "र" ], "new_token": "ूर", "frequency": 66, "vocab_size": 925, "learned_vocab_size": 707, "compression_ratio": 1.1102590086221704, "example_words": [] }, { "step": 708, "pair": [ "स", "ह" ], "new_token": "सह", "frequency": 66, "vocab_size": 926, "learned_vocab_size": 708, "compression_ratio": 1.1104421051184972, "example_words": [] }, { "step": 709, "pair": [ "म", "र" ], "new_token": "मर", "frequency": 66, "vocab_size": 927, "learned_vocab_size": 709, "compression_ratio": 1.1106844193354948, "example_words": [] }, { "step": 710, "pair": [ "उन", "की" ], "new_token": "उनकी", "frequency": 66, "vocab_size": 928, "learned_vocab_size": 710, "compression_ratio": 1.1108466572265223, "example_words": [] }, { "step": 711, "pair": [ "समू", "ह" ], "new_token": "समूह", "frequency": 66, "vocab_size": 929, "learned_vocab_size": 711, "compression_ratio": 1.1109726628695566, "example_words": [] }, { "step": 712, "pair": [ "ं", "च" ], "new_token": "ंच", "frequency": 66, "vocab_size": 930, "learned_vocab_size": 712, "compression_ratio": 1.1109726628695566, "example_words": [] }, { "step": 713, "pair": [ "ति", "लक" ], "new_token": "तिलक", "frequency": 65, "vocab_size": 931, "learned_vocab_size": 713, "compression_ratio": 1.1111311650964397, "example_words": [] }, { "step": 714, "pair": [ "शा", "मिल" ], "new_token": "शामिल", "frequency": 65, "vocab_size": 932, "learned_vocab_size": 714, "compression_ratio": 1.1112629664393994, "example_words": [] }, { "step": 715, "pair": [ "ब", "स" ], "new_token": "बस", "frequency": 65, "vocab_size": 933, "learned_vocab_size": 715, "compression_ratio": 1.1113871557298554, "example_words": [] }, { "step": 716, "pair": [ "ब", "त" ], "new_token": "बत", "frequency": 65, "vocab_size": 934, "learned_vocab_size": 716, "compression_ratio": 1.1115553331579373, "example_words": [] }, { "step": 717, "pair": [ "ले", "किन" ], "new_token": "लेकिन", "frequency": 64, "vocab_size": 935, "learned_vocab_size": 717, "compression_ratio": 1.11168149963455, "example_words": [] }, { "step": 718, "pair": [ "च", "र्" ], "new_token": "चर्", "frequency": 64, "vocab_size": 936, "learned_vocab_size": 718, "compression_ratio": 1.111805782494281, "example_words": [] }, { "step": 719, "pair": [ "संदर्", "भ" ], "new_token": "संदर्भ", "frequency": 64, "vocab_size": 937, "learned_vocab_size": 719, "compression_ratio": 1.1119683481701286, "example_words": [] }, { "step": 720, "pair": [ "को", "ड" ], "new_token": "कोड", "frequency": 64, "vocab_size": 938, "learned_vocab_size": 720, "compression_ratio": 1.1119683481701286, "example_words": [] }, { "step": 721, "pair": [ "भू", "मि" ], "new_token": "भूमि", "frequency": 64, "vocab_size": 939, "learned_vocab_size": 721, "compression_ratio": 1.1121673167349424, "example_words": [] }, { "step": 722, "pair": [ "घ", "र" ], "new_token": "घर", "frequency": 64, "vocab_size": 940, "learned_vocab_size": 722, "compression_ratio": 1.1124448437037495, "example_words": [] }, { "step": 723, "pair": [ "पु", "ण" ], "new_token": "पुण", "frequency": 64, "vocab_size": 941, "learned_vocab_size": 723, "compression_ratio": 1.112584616602668, "example_words": [] }, { "step": 724, "pair": [ "गुजरा", "त" ], "new_token": "गुजरात", "frequency": 64, "vocab_size": 942, "learned_vocab_size": 724, "compression_ratio": 1.1127110168572496, "example_words": [] }, { "step": 725, "pair": [ "गोरख", "पुर" ], "new_token": "गोरखपुर", "frequency": 64, "vocab_size": 943, "learned_vocab_size": 725, "compression_ratio": 1.112841277465315, "example_words": [] }, { "step": 726, "pair": [ "श", "ो" ], "new_token": "शो", "frequency": 64, "vocab_size": 944, "learned_vocab_size": 726, "compression_ratio": 1.112841277465315, "example_words": [] }, { "step": 727, "pair": [ "ज", "ल" ], "new_token": "जल", "frequency": 63, "vocab_size": 945, "learned_vocab_size": 727, "compression_ratio": 1.1129830663142761, "example_words": [] }, { "step": 728, "pair": [ "गु", "णा" ], "new_token": "गुणा", "frequency": 63, "vocab_size": 946, "learned_vocab_size": 728, "compression_ratio": 1.1131440596096853, "example_words": [] }, { "step": 729, "pair": [ "महि", "ला" ], "new_token": "महिला", "frequency": 63, "vocab_size": 947, "learned_vocab_size": 729, "compression_ratio": 1.1132648351496948, "example_words": [] }, { "step": 730, "pair": [ "च्", "छ" ], "new_token": "च्छ", "frequency": 63, "vocab_size": 948, "learned_vocab_size": 730, "compression_ratio": 1.1132648351496948, "example_words": [] }, { "step": 731, "pair": [ "ध", "ि" ], "new_token": "धि", "frequency": 63, "vocab_size": 949, "learned_vocab_size": 731, "compression_ratio": 1.113399060935826, "example_words": [] }, { "step": 732, "pair": [ "ग", "े" ], "new_token": "गे", "frequency": 63, "vocab_size": 950, "learned_vocab_size": 732, "compression_ratio": 1.1137290103823876, "example_words": [] }, { "step": 733, "pair": [ "पंजा", "ब" ], "new_token": "पंजाब", "frequency": 63, "vocab_size": 951, "learned_vocab_size": 733, "compression_ratio": 1.1139516448672215, "example_words": [] }, { "step": 734, "pair": [ "सु", "पर" ], "new_token": "सुपर", "frequency": 63, "vocab_size": 952, "learned_vocab_size": 734, "compression_ratio": 1.1139516448672215, "example_words": [] }, { "step": 735, "pair": [ "वा", "हा" ], "new_token": "वाहा", "frequency": 63, "vocab_size": 953, "learned_vocab_size": 735, "compression_ratio": 1.1140745157921224, "example_words": [] }, { "step": 736, "pair": [ "द", "य" ], "new_token": "दय", "frequency": 63, "vocab_size": 954, "learned_vocab_size": 736, "compression_ratio": 1.1141954933354936, "example_words": [] }, { "step": 737, "pair": [ "स्कू", "ल" ], "new_token": "स्कूल", "frequency": 62, "vocab_size": 955, "learned_vocab_size": 737, "compression_ratio": 1.1143222598979137, "example_words": [] }, { "step": 738, "pair": [ "ऑ", "फ" ], "new_token": "ऑफ", "frequency": 62, "vocab_size": 956, "learned_vocab_size": 738, "compression_ratio": 1.1144548194225106, "example_words": [] }, { "step": 739, "pair": [ "ना", "टक" ], "new_token": "नाटक", "frequency": 62, "vocab_size": 957, "learned_vocab_size": 739, "compression_ratio": 1.1145816450043278, "example_words": [] }, { "step": 740, "pair": [ "न", "ौ" ], "new_token": "नौ", "frequency": 62, "vocab_size": 958, "learned_vocab_size": 740, "compression_ratio": 1.1147277223454266, "example_words": [] }, { "step": 741, "pair": [ "क्", "स" ], "new_token": "क्स", "frequency": 62, "vocab_size": 959, "learned_vocab_size": 741, "compression_ratio": 1.114868069532763, "example_words": [] }, { "step": 742, "pair": [ "वे", "ली" ], "new_token": "वेली", "frequency": 62, "vocab_size": 960, "learned_vocab_size": 742, "compression_ratio": 1.1150661537665385, "example_words": [] }, { "step": 743, "pair": [ "ंड", "ो" ], "new_token": "ंडो", "frequency": 62, "vocab_size": 961, "learned_vocab_size": 743, "compression_ratio": 1.1151931185348247, "example_words": [] }, { "step": 744, "pair": [ "यो", "जना" ], "new_token": "योजना", "frequency": 62, "vocab_size": 962, "learned_vocab_size": 744, "compression_ratio": 1.1153201122195804, "example_words": [] }, { "step": 745, "pair": [ "कृ", "ष" ], "new_token": "कृष", "frequency": 61, "vocab_size": 963, "learned_vocab_size": 745, "compression_ratio": 1.1153201122195804, "example_words": [] }, { "step": 746, "pair": [ "वा", "यु" ], "new_token": "वायु", "frequency": 61, "vocab_size": 964, "learned_vocab_size": 746, "compression_ratio": 1.115420188222789, "example_words": [] }, { "step": 747, "pair": [ "ड़", "की" ], "new_token": "ड़की", "frequency": 61, "vocab_size": 965, "learned_vocab_size": 747, "compression_ratio": 1.1155376079659687, "example_words": [] }, { "step": 748, "pair": [ "सित", "ंबर" ], "new_token": "सितंबर", "frequency": 61, "vocab_size": 966, "learned_vocab_size": 748, "compression_ratio": 1.1156608290286003, "example_words": [] }, { "step": 749, "pair": [ "त्", "मक" ], "new_token": "त्मक", "frequency": 61, "vocab_size": 967, "learned_vocab_size": 749, "compression_ratio": 1.1156608290286003, "example_words": [] }, { "step": 750, "pair": [ "वि", "भिन्न" ], "new_token": "विभिन्न", "frequency": 61, "vocab_size": 968, "learned_vocab_size": 750, "compression_ratio": 1.1157802253948035, "example_words": [] }, { "step": 751, "pair": [ "प्र", "खण्ड" ], "new_token": "प्रखण्ड", "frequency": 61, "vocab_size": 971, "learned_vocab_size": 751, "compression_ratio": 1.1158977209560867, "example_words": [] }, { "step": 752, "pair": [ "भू", "भाग" ], "new_token": "भूभाग", "frequency": 61, "vocab_size": 972, "learned_vocab_size": 752, "compression_ratio": 1.1158977209560867, "example_words": [] }, { "step": 753, "pair": [ "व", "ो" ], "new_token": "वो", "frequency": 61, "vocab_size": 973, "learned_vocab_size": 753, "compression_ratio": 1.1160152412653634, "example_words": [] }, { "step": 754, "pair": [ "डे", "ल्" ], "new_token": "डेल्", "frequency": 61, "vocab_size": 974, "learned_vocab_size": 754, "compression_ratio": 1.116171331086308, "example_words": [] }, { "step": 755, "pair": [ "गु", "वाहा" ], "new_token": "गुवाहा", "frequency": 61, "vocab_size": 975, "learned_vocab_size": 755, "compression_ratio": 1.1162908367497073, "example_words": [] }, { "step": 756, "pair": [ "गुवाहा", "टी" ], "new_token": "गुवाहाटी", "frequency": 61, "vocab_size": 976, "learned_vocab_size": 756, "compression_ratio": 1.1164084398795882, "example_words": [] }, { "step": 757, "pair": [ "ज़", "ा" ], "new_token": "ज़ा", "frequency": 61, "vocab_size": 977, "learned_vocab_size": 757, "compression_ratio": 1.1165260677914577, "example_words": [] }, { "step": 758, "pair": [ "क्रिके", "ट" ], "new_token": "क्रिकेट", "frequency": 61, "vocab_size": 978, "learned_vocab_size": 758, "compression_ratio": 1.1166610811875304, "example_words": [] }, { "step": 759, "pair": [ "आ", "न्दो" ], "new_token": "आन्दो", "frequency": 60, "vocab_size": 979, "learned_vocab_size": 759, "compression_ratio": 1.1166610811875304, "example_words": [] }, { "step": 760, "pair": [ "आन्दो", "लन" ], "new_token": "आन्दोलन", "frequency": 60, "vocab_size": 980, "learned_vocab_size": 760, "compression_ratio": 1.1166610811875304, "example_words": [] }, { "step": 761, "pair": [ "प्र", "शा" ], "new_token": "प्रशा", "frequency": 60, "vocab_size": 981, "learned_vocab_size": 761, "compression_ratio": 1.1166610811875304, "example_words": [] }, { "step": 762, "pair": [ "स्रोतही", "न" ], "new_token": "स्रोतहीन", "frequency": 60, "vocab_size": 982, "learned_vocab_size": 762, "compression_ratio": 1.116663010186895, "example_words": [] }, { "step": 763, "pair": [ "आ", "र" ], "new_token": "आर", "frequency": 60, "vocab_size": 983, "learned_vocab_size": 763, "compression_ratio": 1.116663010186895, "example_words": [] }, { "step": 764, "pair": [ "ंग्", "ला" ], "new_token": "ंग्ला", "frequency": 60, "vocab_size": 984, "learned_vocab_size": 764, "compression_ratio": 1.1168617328232933, "example_words": [] }, { "step": 765, "pair": [ "आव", "श्यकता" ], "new_token": "आवश्यकता", "frequency": 60, "vocab_size": 985, "learned_vocab_size": 765, "compression_ratio": 1.1168636625159605, "example_words": [] }, { "step": 766, "pair": [ "से", "ना" ], "new_token": "सेना", "frequency": 60, "vocab_size": 986, "learned_vocab_size": 766, "compression_ratio": 1.1168636625159605, "example_words": [] }, { "step": 767, "pair": [ "पूर्ण", "िया" ], "new_token": "पूर्णिया", "frequency": 60, "vocab_size": 987, "learned_vocab_size": 767, "compression_ratio": 1.1170064782798776, "example_words": [] }, { "step": 768, "pair": [ "मण", "ि" ], "new_token": "मणि", "frequency": 60, "vocab_size": 988, "learned_vocab_size": 768, "compression_ratio": 1.117122301660955, "example_words": [] }, { "step": 769, "pair": [ "यहा", "ँ" ], "new_token": "यहाँ", "frequency": 60, "vocab_size": 989, "learned_vocab_size": 769, "compression_ratio": 1.1172516661596748, "example_words": [] }, { "step": 770, "pair": [ "प", "क" ], "new_token": "पक", "frequency": 60, "vocab_size": 990, "learned_vocab_size": 770, "compression_ratio": 1.1172516661596748, "example_words": [] }, { "step": 771, "pair": [ "ते", "ह" ], "new_token": "तेह", "frequency": 60, "vocab_size": 991, "learned_vocab_size": 771, "compression_ratio": 1.1172864259071693, "example_words": [] }, { "step": 772, "pair": [ "प्रवेश", "द्वार" ], "new_token": "प्रवेशद्वार", "frequency": 59, "vocab_size": 992, "learned_vocab_size": 772, "compression_ratio": 1.117408102057926, "example_words": [] }, { "step": 773, "pair": [ "प्र", "थम" ], "new_token": "प्रथम", "frequency": 59, "vocab_size": 993, "learned_vocab_size": 773, "compression_ratio": 1.117408102057926, "example_words": [] }, { "step": 774, "pair": [ "फ", "ी" ], "new_token": "फी", "frequency": 59, "vocab_size": 994, "learned_vocab_size": 774, "compression_ratio": 1.117408102057926, "example_words": [] }, { "step": 775, "pair": [ "बा", "ंग्ला" ], "new_token": "बांग्ला", "frequency": 59, "vocab_size": 995, "learned_vocab_size": 775, "compression_ratio": 1.1175665138923225, "example_words": [] }, { "step": 776, "pair": [ "ब", "न" ], "new_token": "बन", "frequency": 59, "vocab_size": 996, "learned_vocab_size": 776, "compression_ratio": 1.1175684460211752, "example_words": [] }, { "step": 777, "pair": [ "बे", "ह" ], "new_token": "बेह", "frequency": 59, "vocab_size": 997, "learned_vocab_size": 777, "compression_ratio": 1.1167382463608377, "example_words": [] }, { "step": 778, "pair": [ "व", "ृ" ], "new_token": "वृ", "frequency": 59, "vocab_size": 998, "learned_vocab_size": 778, "compression_ratio": 1.1168540141193057, "example_words": [] }, { "step": 779, "pair": [ "हो", "ती" ], "new_token": "होती", "frequency": 59, "vocab_size": 999, "learned_vocab_size": 779, "compression_ratio": 1.1170566654627712, "example_words": [] }, { "step": 780, "pair": [ "सित", "म्बर" ], "new_token": "सितम्बर", "frequency": 59, "vocab_size": 1000, "learned_vocab_size": 780, "compression_ratio": 1.1171705684925115, "example_words": [] }, { "step": 781, "pair": [ "जू", "न" ], "new_token": "जून", "frequency": 59, "vocab_size": 1001, "learned_vocab_size": 781, "compression_ratio": 1.1171705684925115, "example_words": [] }, { "step": 782, "pair": [ "ख", "ंड" ], "new_token": "खंड", "frequency": 59, "vocab_size": 1002, "learned_vocab_size": 782, "compression_ratio": 1.1173347069225092, "example_words": [] }, { "step": 783, "pair": [ "ह", "म्" ], "new_token": "हम्", "frequency": 59, "vocab_size": 1003, "learned_vocab_size": 783, "compression_ratio": 1.1175085531331523, "example_words": [] }, { "step": 784, "pair": [ "द्", "दी" ], "new_token": "द्दी", "frequency": 59, "vocab_size": 1004, "learned_vocab_size": 784, "compression_ratio": 1.1176496014661894, "example_words": [] }, { "step": 785, "pair": [ "कु", "म्भ" ], "new_token": "कुम्भ", "frequency": 58, "vocab_size": 1005, "learned_vocab_size": 785, "compression_ratio": 1.117771356736128, "example_words": [] }, { "step": 786, "pair": [ "राज", "स्थान" ], "new_token": "राजस्थान", "frequency": 58, "vocab_size": 1006, "learned_vocab_size": 786, "compression_ratio": 1.1178873388015849, "example_words": [] }, { "step": 787, "pair": [ "रा", "ष्ट्र" ], "new_token": "राष्ट्र", "frequency": 58, "vocab_size": 1007, "learned_vocab_size": 787, "compression_ratio": 1.1178873388015849, "example_words": [] }, { "step": 788, "pair": [ "छ", "त्ती" ], "new_token": "छत्ती", "frequency": 58, "vocab_size": 1008, "learned_vocab_size": 788, "compression_ratio": 1.1178873388015849, "example_words": [] }, { "step": 789, "pair": [ "छत्ती", "स" ], "new_token": "छत्तीस", "frequency": 58, "vocab_size": 1009, "learned_vocab_size": 789, "compression_ratio": 1.1178873388015849, "example_words": [] }, { "step": 790, "pair": [ "पृ", "॰" ], "new_token": "पृ॰", "frequency": 58, "vocab_size": 1010, "learned_vocab_size": 790, "compression_ratio": 1.1178873388015849, "example_words": [] }, { "step": 791, "pair": [ "श", "ैली" ], "new_token": "शैली", "frequency": 58, "vocab_size": 1011, "learned_vocab_size": 791, "compression_ratio": 1.117999477679444, "example_words": [] }, { "step": 792, "pair": [ "श", "री" ], "new_token": "शरी", "frequency": 58, "vocab_size": 1012, "learned_vocab_size": 792, "compression_ratio": 1.117999477679444, "example_words": [] }, { "step": 793, "pair": [ "ग", "ल" ], "new_token": "गल", "frequency": 58, "vocab_size": 1013, "learned_vocab_size": 793, "compression_ratio": 1.1181155070927076, "example_words": [] }, { "step": 794, "pair": [ "मी", "र" ], "new_token": "मीर", "frequency": 58, "vocab_size": 1014, "learned_vocab_size": 794, "compression_ratio": 1.1183244207390388, "example_words": [] }, { "step": 795, "pair": [ "ना", "डा" ], "new_token": "नाडा", "frequency": 58, "vocab_size": 1015, "learned_vocab_size": 795, "compression_ratio": 1.1184424527648973, "example_words": [] }, { "step": 796, "pair": [ "पुण", "े" ], "new_token": "पुणे", "frequency": 58, "vocab_size": 1016, "learned_vocab_size": 796, "compression_ratio": 1.1185701876122611, "example_words": [] }, { "step": 797, "pair": [ "य", "ल" ], "new_token": "यल", "frequency": 58, "vocab_size": 1017, "learned_vocab_size": 797, "compression_ratio": 1.1186843995258162, "example_words": [] }, { "step": 798, "pair": [ "च", "मो" ], "new_token": "चमो", "frequency": 57, "vocab_size": 1018, "learned_vocab_size": 798, "compression_ratio": 1.1188160625303971, "example_words": [] }, { "step": 799, "pair": [ "चमो", "ली" ], "new_token": "चमोली", "frequency": 57, "vocab_size": 1019, "learned_vocab_size": 799, "compression_ratio": 1.1189264509875196, "example_words": [] }, { "step": 800, "pair": [ "च", "म्" ], "new_token": "चम्", "frequency": 57, "vocab_size": 1020, "learned_vocab_size": 800, "compression_ratio": 1.1190368612298387, "example_words": [] }, { "step": 801, "pair": [ "धा", "म" ], "new_token": "धाम", "frequency": 57, "vocab_size": 1023, "learned_vocab_size": 801, "compression_ratio": 1.1191472932638038, "example_words": [ "चारधाम", "बैद्यनाथधाम", "बापूधाम" ] }, { "step": 802, "pair": [ "के", "दार" ], "new_token": "केदार", "frequency": 57, "vocab_size": 1024, "learned_vocab_size": 802, "compression_ratio": 1.1192596850769994, "example_words": [] }, { "step": 803, "pair": [ "ल", "म" ], "new_token": "लम", "frequency": 57, "vocab_size": 1025, "learned_vocab_size": 803, "compression_ratio": 1.1192596850769994, "example_words": [] }, { "step": 804, "pair": [ "अनु", "सार" ], "new_token": "अनुसार", "frequency": 57, "vocab_size": 1026, "learned_vocab_size": 804, "compression_ratio": 1.119422499454502, "example_words": [] }, { "step": 805, "pair": [ "उ", "स" ], "new_token": "उस", "frequency": 57, "vocab_size": 1027, "learned_vocab_size": 805, "compression_ratio": 1.119422499454502, "example_words": [] }, { "step": 806, "pair": [ "वेबै", "क" ], "new_token": "वेबैक", "frequency": 57, "vocab_size": 1028, "learned_vocab_size": 806, "compression_ratio": 1.119643537603492, "example_words": [] }, { "step": 807, "pair": [ "ज", "पुर" ], "new_token": "जपुर", "frequency": 57, "vocab_size": 1029, "learned_vocab_size": 807, "compression_ratio": 1.119643537603492, "example_words": [] }, { "step": 808, "pair": [ "ंब", "ई" ], "new_token": "ंबई", "frequency": 57, "vocab_size": 1030, "learned_vocab_size": 808, "compression_ratio": 1.1198607829142038, "example_words": [] }, { "step": 809, "pair": [ "डेल्", "ही" ], "new_token": "डेल्ही", "frequency": 57, "vocab_size": 1031, "learned_vocab_size": 809, "compression_ratio": 1.1199946635155997, "example_words": [] }, { "step": 810, "pair": [ "ना", "गर" ], "new_token": "नागर", "frequency": 57, "vocab_size": 1032, "learned_vocab_size": 810, "compression_ratio": 1.1201052846810442, "example_words": [] }, { "step": 811, "pair": [ "विका", "स" ], "new_token": "विकास", "frequency": 57, "vocab_size": 1033, "learned_vocab_size": 811, "compression_ratio": 1.1202838772291641, "example_words": [] }, { "step": 812, "pair": [ "टी", "म" ], "new_token": "टीम", "frequency": 57, "vocab_size": 1034, "learned_vocab_size": 812, "compression_ratio": 1.1202838772291641, "example_words": [] }, { "step": 813, "pair": [ "रु", "ड़की" ], "new_token": "रुड़की", "frequency": 56, "vocab_size": 1035, "learned_vocab_size": 813, "compression_ratio": 1.1204528160603755, "example_words": [] }, { "step": 814, "pair": [ "गु", "रु" ], "new_token": "गुरु", "frequency": 56, "vocab_size": 1036, "learned_vocab_size": 814, "compression_ratio": 1.120563527751679, "example_words": [] }, { "step": 815, "pair": [ "पा", "द" ], "new_token": "पाद", "frequency": 56, "vocab_size": 1037, "learned_vocab_size": 815, "compression_ratio": 1.1206762042135339, "example_words": [] }, { "step": 816, "pair": [ "प्र", "दान" ], "new_token": "प्रदान", "frequency": 56, "vocab_size": 1038, "learned_vocab_size": 816, "compression_ratio": 1.1232330428587565, "example_words": [] }, { "step": 817, "pair": [ "छत्तीस", "गढ़" ], "new_token": "छत्तीसगढ़", "frequency": 56, "vocab_size": 1039, "learned_vocab_size": 817, "compression_ratio": 1.1232330428587565, "example_words": [] }, { "step": 818, "pair": [ "पह", "ली" ], "new_token": "पहली", "frequency": 56, "vocab_size": 1040, "learned_vocab_size": 818, "compression_ratio": 1.1232330428587565, "example_words": [] }, { "step": 819, "pair": [ "ची", "न" ], "new_token": "चीन", "frequency": 56, "vocab_size": 1041, "learned_vocab_size": 819, "compression_ratio": 1.123342352534326, "example_words": [] }, { "step": 820, "pair": [ "आई", "॰ऍ" ], "new_token": "आई॰ऍ", "frequency": 56, "vocab_size": 1042, "learned_vocab_size": 820, "compression_ratio": 1.123504404229729, "example_words": [] }, { "step": 821, "pair": [ "आई॰ऍ", "स" ], "new_token": "आई॰ऍस", "frequency": 56, "vocab_size": 1043, "learned_vocab_size": 821, "compression_ratio": 1.1236137667304016, "example_words": [] }, { "step": 822, "pair": [ "आई॰ऍस", "॰" ], "new_token": "आई॰ऍस॰", "frequency": 56, "vocab_size": 1044, "learned_vocab_size": 822, "compression_ratio": 1.1237231505239516, "example_words": [] }, { "step": 823, "pair": [ "आई॰ऍस॰", "बी" ], "new_token": "आई॰ऍस॰बी", "frequency": 56, "vocab_size": 1045, "learned_vocab_size": 823, "compression_ratio": 1.1238325556165984, "example_words": [] }, { "step": 824, "pair": [ "आई॰ऍस॰बी", "॰ऍ" ], "new_token": "आई॰ऍस॰बी॰ऍ", "frequency": 56, "vocab_size": 1046, "learned_vocab_size": 824, "compression_ratio": 1.1239419820145635, "example_words": [] }, { "step": 825, "pair": [ "आई॰ऍस॰बी॰ऍ", "न॰" ], "new_token": "आई॰ऍस॰बी॰ऍन॰", "frequency": 56, "vocab_size": 1047, "learned_vocab_size": 825, "compression_ratio": 1.1240514297240713, "example_words": [] }, { "step": 826, "pair": [ "अग", "स्त" ], "new_token": "अगस्त", "frequency": 56, "vocab_size": 1048, "learned_vocab_size": 826, "compression_ratio": 1.1241608987513478, "example_words": [] }, { "step": 827, "pair": [ "वि", "भाग" ], "new_token": "विभाग", "frequency": 56, "vocab_size": 1049, "learned_vocab_size": 827, "compression_ratio": 1.1243094979684978, "example_words": [] }, { "step": 828, "pair": [ "झार", "खण्ड" ], "new_token": "झारखण्ड", "frequency": 56, "vocab_size": 1050, "learned_vocab_size": 828, "compression_ratio": 1.1244581364765476, "example_words": [] }, { "step": 829, "pair": [ "मु", "ंबई" ], "new_token": "मुंबई", "frequency": 56, "vocab_size": 1051, "learned_vocab_size": 829, "compression_ratio": 1.1244581364765476, "example_words": [] }, { "step": 830, "pair": [ "मंड", "ल" ], "new_token": "मंडल", "frequency": 55, "vocab_size": 1052, "learned_vocab_size": 830, "compression_ratio": 1.1245911621433542, "example_words": [] }, { "step": 831, "pair": [ "फ़ि", "ल्" ], "new_token": "फ़िल्", "frequency": 55, "vocab_size": 1053, "learned_vocab_size": 831, "compression_ratio": 1.1248651376466083, "example_words": [] }, { "step": 832, "pair": [ "परि", "वार" ], "new_token": "परिवार", "frequency": 55, "vocab_size": 1054, "learned_vocab_size": 832, "compression_ratio": 1.1249904280572784, "example_words": [] }, { "step": 833, "pair": [ "प्र", "दर्" ], "new_token": "प्रदर्", "frequency": 55, "vocab_size": 1055, "learned_vocab_size": 833, "compression_ratio": 1.1249904280572784, "example_words": [] }, { "step": 834, "pair": [ "है", "दरा" ], "new_token": "हैदरा", "frequency": 55, "vocab_size": 1056, "learned_vocab_size": 834, "compression_ratio": 1.1249904280572784, "example_words": [] }, { "step": 835, "pair": [ "हैदरा", "बाद" ], "new_token": "हैदराबाद", "frequency": 55, "vocab_size": 1057, "learned_vocab_size": 835, "compression_ratio": 1.1249904280572784, "example_words": [] }, { "step": 836, "pair": [ "वि", "शेष" ], "new_token": "विशेष", "frequency": 55, "vocab_size": 1058, "learned_vocab_size": 836, "compression_ratio": 1.1249904280572784, "example_words": [] }, { "step": 837, "pair": [ "ल्", "ला" ], "new_token": "ल्ला", "frequency": 55, "vocab_size": 1059, "learned_vocab_size": 837, "compression_ratio": 1.1251157463814025, "example_words": [] }, { "step": 838, "pair": [ "को", "विल" ], "new_token": "कोविल", "frequency": 55, "vocab_size": 1060, "learned_vocab_size": 838, "compression_ratio": 1.12524109262831, "example_words": [] }, { "step": 839, "pair": [ "फ", "ु" ], "new_token": "फु", "frequency": 55, "vocab_size": 1061, "learned_vocab_size": 839, "compression_ratio": 1.1253507935070994, "example_words": [] }, { "step": 840, "pair": [ "भू", "कम्" ], "new_token": "भूकम्", "frequency": 54, "vocab_size": 1062, "learned_vocab_size": 840, "compression_ratio": 1.1254703134494413, "example_words": [] }, { "step": 841, "pair": [ "भूकम्", "प" ], "new_token": "भूकम्प", "frequency": 54, "vocab_size": 1063, "learned_vocab_size": 841, "compression_ratio": 1.1254703134494413, "example_words": [] }, { "step": 842, "pair": [ "उत्तर", "काशी" ], "new_token": "उत्तरकाशी", "frequency": 54, "vocab_size": 1064, "learned_vocab_size": 842, "compression_ratio": 1.1254703134494413, "example_words": [] }, { "step": 843, "pair": [ "बहु", "गुणा" ], "new_token": "बहुगुणा", "frequency": 54, "vocab_size": 1065, "learned_vocab_size": 843, "compression_ratio": 1.1254703134494413, "example_words": [] }, { "step": 844, "pair": [ "प्रका", "शित" ], "new_token": "प्रकाशित", "frequency": 54, "vocab_size": 1066, "learned_vocab_size": 844, "compression_ratio": 1.1255761391753745, "example_words": [] }, { "step": 845, "pair": [ "ओ", "र" ], "new_token": "ओर", "frequency": 54, "vocab_size": 1067, "learned_vocab_size": 845, "compression_ratio": 1.1255761391753745, "example_words": [] }, { "step": 846, "pair": [ "य", "दि" ], "new_token": "यदि", "frequency": 54, "vocab_size": 1068, "learned_vocab_size": 846, "compression_ratio": 1.1256898260132104, "example_words": [] }, { "step": 847, "pair": [ "जि", "समें" ], "new_token": "जिसमें", "frequency": 54, "vocab_size": 1069, "learned_vocab_size": 847, "compression_ratio": 1.1257956930257669, "example_words": [] }, { "step": 848, "pair": [ "हि", "ंदी" ], "new_token": "हिंदी", "frequency": 54, "vocab_size": 1070, "learned_vocab_size": 848, "compression_ratio": 1.1257956930257669, "example_words": [] }, { "step": 849, "pair": [ "क", "श्" ], "new_token": "कश्", "frequency": 54, "vocab_size": 1071, "learned_vocab_size": 849, "compression_ratio": 1.1257956930257669, "example_words": [] }, { "step": 850, "pair": [ "कर्", "नाटक" ], "new_token": "कर्नाटक", "frequency": 54, "vocab_size": 1072, "learned_vocab_size": 850, "compression_ratio": 1.1259172685992374, "example_words": [] }, { "step": 851, "pair": [ "शन", "ल" ], "new_token": "शनल", "frequency": 54, "vocab_size": 1075, "learned_vocab_size": 851, "compression_ratio": 1.1259172685992374, "example_words": [] }, { "step": 852, "pair": [ "जय", "पुर" ], "new_token": "जयपुर", "frequency": 54, "vocab_size": 1076, "learned_vocab_size": 852, "compression_ratio": 1.1260310243613527, "example_words": [] }, { "step": 853, "pair": [ "नागर", "कोविल" ], "new_token": "नागरकोविल", "frequency": 54, "vocab_size": 1077, "learned_vocab_size": 853, "compression_ratio": 1.1261448031121573, "example_words": [] }, { "step": 854, "pair": [ "न", "वंबर" ], "new_token": "नवंबर", "frequency": 54, "vocab_size": 1078, "learned_vocab_size": 854, "compression_ratio": 1.1262507557239008, "example_words": [] }, { "step": 855, "pair": [ "कृष", "ि" ], "new_token": "कृषि", "frequency": 53, "vocab_size": 1079, "learned_vocab_size": 855, "compression_ratio": 1.1262507557239008, "example_words": [] }, { "step": 856, "pair": [ "लोक", "सभा" ], "new_token": "लोकसभा", "frequency": 53, "vocab_size": 1080, "learned_vocab_size": 856, "compression_ratio": 1.126360653566755, "example_words": [] }, { "step": 857, "pair": [ "ब", "ू" ], "new_token": "बू", "frequency": 53, "vocab_size": 1081, "learned_vocab_size": 857, "compression_ratio": 1.126474498944826, "example_words": [] }, { "step": 858, "pair": [ "म्", "स" ], "new_token": "म्स", "frequency": 53, "vocab_size": 1082, "learned_vocab_size": 858, "compression_ratio": 1.1266001481416932, "example_words": [] }, { "step": 859, "pair": [ "शा", "ली" ], "new_token": "शाली", "frequency": 53, "vocab_size": 1083, "learned_vocab_size": 859, "compression_ratio": 1.1267258253720078, "example_words": [] }, { "step": 860, "pair": [ "ढ़", "ी" ], "new_token": "ढ़ी", "frequency": 53, "vocab_size": 1084, "learned_vocab_size": 860, "compression_ratio": 1.1268299230552001, "example_words": [] }, { "step": 861, "pair": [ "इ", "ल" ], "new_token": "इल", "frequency": 53, "vocab_size": 1085, "learned_vocab_size": 861, "compression_ratio": 1.1269379692923502, "example_words": [] }, { "step": 862, "pair": [ "उर्", "फ" ], "new_token": "उर्फ", "frequency": 53, "vocab_size": 1086, "learned_vocab_size": 862, "compression_ratio": 1.1270597917149776, "example_words": [] }, { "step": 863, "pair": [ "न", "व" ], "new_token": "नव", "frequency": 52, "vocab_size": 1087, "learned_vocab_size": 863, "compression_ratio": 1.1271659165770105, "example_words": [] }, { "step": 864, "pair": [ "जि", "से" ], "new_token": "जिसे", "frequency": 52, "vocab_size": 1088, "learned_vocab_size": 864, "compression_ratio": 1.1273880573587223, "example_words": [] }, { "step": 865, "pair": [ "बी", "च" ], "new_token": "बीच", "frequency": 52, "vocab_size": 1089, "learned_vocab_size": 865, "compression_ratio": 1.1274942440521873, "example_words": [] }, { "step": 866, "pair": [ "गू", "सराय" ], "new_token": "गूसराय", "frequency": 52, "vocab_size": 1090, "learned_vocab_size": 866, "compression_ratio": 1.1276201208535104, "example_words": [] }, { "step": 867, "pair": [ "बंगा", "ल" ], "new_token": "बंगाल", "frequency": 52, "vocab_size": 1091, "learned_vocab_size": 867, "compression_ratio": 1.1276201208535104, "example_words": [] }, { "step": 868, "pair": [ "जन", "संख्या" ], "new_token": "जनसंख्या", "frequency": 52, "vocab_size": 1092, "learned_vocab_size": 868, "compression_ratio": 1.1276201208535104, "example_words": [] }, { "step": 869, "pair": [ "सा", "गर" ], "new_token": "सागर", "frequency": 52, "vocab_size": 1093, "learned_vocab_size": 869, "compression_ratio": 1.1276201208535104, "example_words": [] }, { "step": 870, "pair": [ "क", "ल" ], "new_token": "कल", "frequency": 52, "vocab_size": 1094, "learned_vocab_size": 870, "compression_ratio": 1.1277401233437137, "example_words": [] }, { "step": 871, "pair": [ "अम", "ृत" ], "new_token": "अमृत", "frequency": 52, "vocab_size": 1095, "learned_vocab_size": 871, "compression_ratio": 1.1276889716182763, "example_words": [] }, { "step": 872, "pair": [ "ए", "र" ], "new_token": "एर", "frequency": 52, "vocab_size": 1096, "learned_vocab_size": 872, "compression_ratio": 1.1278050533706003, "example_words": [] }, { "step": 873, "pair": [ "मु", "क्त" ], "new_token": "मुक्त", "frequency": 51, "vocab_size": 1097, "learned_vocab_size": 873, "compression_ratio": 1.1279270633397314, "example_words": [] }, { "step": 874, "pair": [ "लग", "भग" ], "new_token": "लगभग", "frequency": 51, "vocab_size": 1098, "learned_vocab_size": 874, "compression_ratio": 1.1280471311725728, "example_words": [] }, { "step": 875, "pair": [ "कर", "ना" ], "new_token": "करना", "frequency": 51, "vocab_size": 1099, "learned_vocab_size": 875, "compression_ratio": 1.128153442062183, "example_words": [] }, { "step": 876, "pair": [ "शि", "व" ], "new_token": "शिव", "frequency": 51, "vocab_size": 1100, "learned_vocab_size": 876, "compression_ratio": 1.1282578037184168, "example_words": [] }, { "step": 877, "pair": [ "कि", "म" ], "new_token": "किम", "frequency": 51, "vocab_size": 1101, "learned_vocab_size": 877, "compression_ratio": 1.1284074880947392, "example_words": [] }, { "step": 878, "pair": [ "ख", "ो" ], "new_token": "खो", "frequency": 51, "vocab_size": 1102, "learned_vocab_size": 878, "compression_ratio": 1.1285138669208556, "example_words": [] }, { "step": 879, "pair": [ "सिकंदरा", "बाद" ], "new_token": "सिकंदराबाद", "frequency": 51, "vocab_size": 1103, "learned_vocab_size": 879, "compression_ratio": 1.1287582201516384, "example_words": [] }, { "step": 880, "pair": [ "सद", "स्य" ], "new_token": "सदस्य", "frequency": 51, "vocab_size": 1104, "learned_vocab_size": 880, "compression_ratio": 1.1287582201516384, "example_words": [] }, { "step": 881, "pair": [ "शु", "रू" ], "new_token": "शुरू", "frequency": 51, "vocab_size": 1105, "learned_vocab_size": 881, "compression_ratio": 1.1287582201516384, "example_words": [] }, { "step": 882, "pair": [ "सा", "म्राज्य" ], "new_token": "साम्राज्य", "frequency": 51, "vocab_size": 1106, "learned_vocab_size": 882, "compression_ratio": 1.1288607223563023, "example_words": [] }, { "step": 883, "pair": [ "को", "श" ], "new_token": "कोश", "frequency": 50, "vocab_size": 1107, "learned_vocab_size": 883, "compression_ratio": 1.1288607223563023, "example_words": [] }, { "step": 884, "pair": [ "बेह", "तर" ], "new_token": "बेहतर", "frequency": 50, "vocab_size": 1108, "learned_vocab_size": 884, "compression_ratio": 1.1289691584100487, "example_words": [] }, { "step": 885, "pair": [ "स", "भी" ], "new_token": "सभी", "frequency": 50, "vocab_size": 1109, "learned_vocab_size": 885, "compression_ratio": 1.1290716989305158, "example_words": [] }, { "step": 886, "pair": [ "स्", "वी" ], "new_token": "स्वी", "frequency": 50, "vocab_size": 1110, "learned_vocab_size": 886, "compression_ratio": 1.129184120518043, "example_words": [] }, { "step": 887, "pair": [ "पर्", "वत" ], "new_token": "पर्वत", "frequency": 50, "vocab_size": 1111, "learned_vocab_size": 887, "compression_ratio": 1.1292926187136076, "example_words": [] }, { "step": 888, "pair": [ "लै", "ण्ड" ], "new_token": "लैण्ड", "frequency": 50, "vocab_size": 1112, "learned_vocab_size": 888, "compression_ratio": 1.1292926187136076, "example_words": [] }, { "step": 889, "pair": [ "इंद", "ौर" ], "new_token": "इंदौर", "frequency": 50, "vocab_size": 1113, "learned_vocab_size": 889, "compression_ratio": 1.1293971912487726, "example_words": [] }, { "step": 890, "pair": [ "जन", "ता" ], "new_token": "जनता", "frequency": 50, "vocab_size": 1114, "learned_vocab_size": 890, "compression_ratio": 1.1293971912487726, "example_words": [] }, { "step": 891, "pair": [ "अन्तर्", "गत" ], "new_token": "अन्तर्गत", "frequency": 49, "vocab_size": 1115, "learned_vocab_size": 891, "compression_ratio": 1.1294978359365582, "example_words": [] }, { "step": 892, "pair": [ "पोर्", "टल" ], "new_token": "पोर्टल", "frequency": 49, "vocab_size": 1116, "learned_vocab_size": 892, "compression_ratio": 1.1294978359365582, "example_words": [] }, { "step": 893, "pair": [ "ड", "ॉ" ], "new_token": "डॉ", "frequency": 49, "vocab_size": 1117, "learned_vocab_size": 893, "compression_ratio": 1.1294978359365582, "example_words": [] }, { "step": 894, "pair": [ "आ", "दि" ], "new_token": "आदि", "frequency": 49, "vocab_size": 1118, "learned_vocab_size": 894, "compression_ratio": 1.1296221864951768, "example_words": [] }, { "step": 895, "pair": [ "ली", "ग" ], "new_token": "लीग", "frequency": 49, "vocab_size": 1119, "learned_vocab_size": 895, "compression_ratio": 1.129750513391882, "example_words": [] }, { "step": 896, "pair": [ "मु", "रा" ], "new_token": "मुरा", "frequency": 49, "vocab_size": 1120, "learned_vocab_size": 896, "compression_ratio": 1.1298472714052499, "example_words": [] }, { "step": 897, "pair": [ "मि", "न" ], "new_token": "मिन", "frequency": 49, "vocab_size": 1121, "learned_vocab_size": 897, "compression_ratio": 1.1299756494499713, "example_words": [] }, { "step": 898, "pair": [ "बे", "गूसराय" ], "new_token": "बेगूसराय", "frequency": 49, "vocab_size": 1122, "learned_vocab_size": 898, "compression_ratio": 1.1301257900119759, "example_words": [] }, { "step": 899, "pair": [ "अरु", "णा" ], "new_token": "अरुणा", "frequency": 49, "vocab_size": 1123, "learned_vocab_size": 899, "compression_ratio": 1.1301257900119759, "example_words": [] }, { "step": 900, "pair": [ "हिमा", "चल" ], "new_token": "हिमाचल", "frequency": 49, "vocab_size": 1124, "learned_vocab_size": 900, "compression_ratio": 1.1301257900119759, "example_words": [] }, { "step": 901, "pair": [ "कश्", "मीर" ], "new_token": "कश्मीर", "frequency": 49, "vocab_size": 1126, "learned_vocab_size": 901, "compression_ratio": 1.130226564603608, "example_words": [ "कश्मीरी", "कश्मीर", "कश्मीरमंदजास" ] }, { "step": 902, "pair": [ "क", "़" ], "new_token": "क़", "frequency": 49, "vocab_size": 1127, "learned_vocab_size": 902, "compression_ratio": 1.1303411928460017, "example_words": [] }, { "step": 903, "pair": [ "फ", "तेह" ], "new_token": "फतेह", "frequency": 49, "vocab_size": 1128, "learned_vocab_size": 903, "compression_ratio": 1.1304538673951023, "example_words": [] }, { "step": 904, "pair": [ "चु", "ना" ], "new_token": "चुना", "frequency": 49, "vocab_size": 1129, "learned_vocab_size": 904, "compression_ratio": 1.1305527232151447, "example_words": [] }, { "step": 905, "pair": [ "श", "ब्" ], "new_token": "शब्", "frequency": 49, "vocab_size": 1130, "learned_vocab_size": 905, "compression_ratio": 1.1306891726429946, "example_words": [] }, { "step": 906, "pair": [ "उप", "युक्त" ], "new_token": "उपयुक्त", "frequency": 48, "vocab_size": 1131, "learned_vocab_size": 906, "compression_ratio": 1.1307959821288, "example_words": [] }, { "step": 907, "pair": [ "ठ", "ी" ], "new_token": "ठी", "frequency": 48, "vocab_size": 1132, "learned_vocab_size": 907, "compression_ratio": 1.1308909408360421, "example_words": [] }, { "step": 908, "pair": [ "तिहा", "सिक" ], "new_token": "तिहासिक", "frequency": 48, "vocab_size": 1133, "learned_vocab_size": 908, "compression_ratio": 1.1310017461533886, "example_words": [] }, { "step": 909, "pair": [ "परि", "च" ], "new_token": "परिच", "frequency": 48, "vocab_size": 1134, "learned_vocab_size": 909, "compression_ratio": 1.1310017461533886, "example_words": [] }, { "step": 910, "pair": [ "वा", "ह" ], "new_token": "वाह", "frequency": 48, "vocab_size": 1135, "learned_vocab_size": 910, "compression_ratio": 1.1311165316964253, "example_words": [] }, { "step": 911, "pair": [ "जि", "न" ], "new_token": "जिन", "frequency": 48, "vocab_size": 1136, "learned_vocab_size": 911, "compression_ratio": 1.130881048559927, "example_words": [] }, { "step": 912, "pair": [ "रु", "आ" ], "new_token": "रुआ", "frequency": 48, "vocab_size": 1137, "learned_vocab_size": 912, "compression_ratio": 1.130979979109549, "example_words": [] }, { "step": 913, "pair": [ "पा", "स" ], "new_token": "पास", "frequency": 48, "vocab_size": 1138, "learned_vocab_size": 913, "compression_ratio": 1.1310809061035656, "example_words": [] }, { "step": 914, "pair": [ "जा", "पुर" ], "new_token": "जापुर", "frequency": 48, "vocab_size": 1139, "learned_vocab_size": 914, "compression_ratio": 1.131191748651666, "example_words": [] }, { "step": 915, "pair": [ "उल्लेख", "नीयता" ], "new_token": "उल्लेखनीयता", "frequency": 48, "vocab_size": 1140, "learned_vocab_size": 915, "compression_ratio": 1.1312887537036422, "example_words": [] }, { "step": 916, "pair": [ "अक्", "टू" ], "new_token": "अक्टू", "frequency": 48, "vocab_size": 1141, "learned_vocab_size": 916, "compression_ratio": 1.1312887537036422, "example_words": [] }, { "step": 917, "pair": [ "अक्टू", "बर" ], "new_token": "अक्टूबर", "frequency": 48, "vocab_size": 1142, "learned_vocab_size": 917, "compression_ratio": 1.1314313219270993, "example_words": [] }, { "step": 918, "pair": [ "ध", "्या" ], "new_token": "ध्या", "frequency": 48, "vocab_size": 1143, "learned_vocab_size": 918, "compression_ratio": 1.1315739260887907, "example_words": [] }, { "step": 919, "pair": [ "सें", "ट" ], "new_token": "सेंट", "frequency": 48, "vocab_size": 1144, "learned_vocab_size": 919, "compression_ratio": 1.1315739260887907, "example_words": [] }, { "step": 920, "pair": [ "आन्ध्र", "प्रदेश" ], "new_token": "आन्ध्रप्रदेश", "frequency": 48, "vocab_size": 1145, "learned_vocab_size": 920, "compression_ratio": 1.1315739260887907, "example_words": [] }, { "step": 921, "pair": [ "बागे", "श्वर" ], "new_token": "बागेश्वर", "frequency": 47, "vocab_size": 1146, "learned_vocab_size": 921, "compression_ratio": 1.1316690155023152, "example_words": [] }, { "step": 922, "pair": [ "वी", "ं" ], "new_token": "वीं", "frequency": 47, "vocab_size": 1147, "learned_vocab_size": 922, "compression_ratio": 1.1316690155023152, "example_words": [] }, { "step": 923, "pair": [ "डे", "टा" ], "new_token": "डेटा", "frequency": 47, "vocab_size": 1148, "learned_vocab_size": 923, "compression_ratio": 1.1318057345360826, "example_words": [] }, { "step": 924, "pair": [ "त", "ौर" ], "new_token": "तौर", "frequency": 47, "vocab_size": 1149, "learned_vocab_size": 924, "compression_ratio": 1.1318988809099808, "example_words": [] }, { "step": 925, "pair": [ "दा", "बाद" ], "new_token": "दाबाद", "frequency": 47, "vocab_size": 1150, "learned_vocab_size": 925, "compression_ratio": 1.132015831042152, "example_words": [] }, { "step": 926, "pair": [ "र", "ॉ" ], "new_token": "रॉ", "frequency": 47, "vocab_size": 1151, "learned_vocab_size": 926, "compression_ratio": 1.1321387538355916, "example_words": [] }, { "step": 927, "pair": [ "च", "ं" ], "new_token": "चं", "frequency": 47, "vocab_size": 1152, "learned_vocab_size": 927, "compression_ratio": 1.1323549247712659, "example_words": [] }, { "step": 928, "pair": [ "क", "टि" ], "new_token": "कटि", "frequency": 47, "vocab_size": 1153, "learned_vocab_size": 928, "compression_ratio": 1.1325890377596843, "example_words": [] }, { "step": 929, "pair": [ "पु", "त्र" ], "new_token": "पुत्र", "frequency": 47, "vocab_size": 1154, "learned_vocab_size": 929, "compression_ratio": 1.132686282618295, "example_words": [] }, { "step": 930, "pair": [ "भा", "वना" ], "new_token": "भावना", "frequency": 47, "vocab_size": 1155, "learned_vocab_size": 930, "compression_ratio": 1.132686282618295, "example_words": [] }, { "step": 931, "pair": [ "ए", "शिया" ], "new_token": "एशिया", "frequency": 47, "vocab_size": 1156, "learned_vocab_size": 931, "compression_ratio": 1.132686282618295, "example_words": [] }, { "step": 932, "pair": [ "मै", "च" ], "new_token": "मैच", "frequency": 47, "vocab_size": 1157, "learned_vocab_size": 932, "compression_ratio": 1.132686282618295, "example_words": [] }, { "step": 933, "pair": [ "संगी", "त" ], "new_token": "संगीत", "frequency": 46, "vocab_size": 1158, "learned_vocab_size": 933, "compression_ratio": 1.1327974400493483, "example_words": [] }, { "step": 934, "pair": [ "ख", "्" ], "new_token": "ख्", "frequency": 46, "vocab_size": 1159, "learned_vocab_size": 934, "compression_ratio": 1.1327974400493483, "example_words": [] }, { "step": 935, "pair": [ "अ", "ज" ], "new_token": "अज", "frequency": 46, "vocab_size": 1160, "learned_vocab_size": 935, "compression_ratio": 1.1332005686908015, "example_words": [] }, { "step": 936, "pair": [ "कटि", "हार" ], "new_token": "कटिहार", "frequency": 46, "vocab_size": 1161, "learned_vocab_size": 936, "compression_ratio": 1.13330189241596, "example_words": [] }, { "step": 937, "pair": [ "मु", "ज" ], "new_token": "मुज", "frequency": 46, "vocab_size": 1162, "learned_vocab_size": 937, "compression_ratio": 1.13330189241596, "example_words": [] }, { "step": 938, "pair": [ "दाना", "पुर" ], "new_token": "दानापुर", "frequency": 46, "vocab_size": 1163, "learned_vocab_size": 938, "compression_ratio": 1.1334867058631677, "example_words": [] }, { "step": 939, "pair": [ "ने", "शनल" ], "new_token": "नेशनल", "frequency": 46, "vocab_size": 1164, "learned_vocab_size": 939, "compression_ratio": 1.1334867058631677, "example_words": [] }, { "step": 940, "pair": [ "फ़", "र" ], "new_token": "फ़र", "frequency": 46, "vocab_size": 1165, "learned_vocab_size": 940, "compression_ratio": 1.1335940445605759, "example_words": [] }, { "step": 941, "pair": [ "म", "थु" ], "new_token": "मथु", "frequency": 46, "vocab_size": 1166, "learned_vocab_size": 941, "compression_ratio": 1.1337014035893864, "example_words": [] }, { "step": 942, "pair": [ "मथु", "रा" ], "new_token": "मथुरा", "frequency": 46, "vocab_size": 1167, "learned_vocab_size": 942, "compression_ratio": 1.133792873617652, "example_words": [] }, { "step": 943, "pair": [ "ौ", "ला" ], "new_token": "ौला", "frequency": 46, "vocab_size": 1168, "learned_vocab_size": 943, "compression_ratio": 1.133884358407196, "example_words": [] }, { "step": 944, "pair": [ "खु", "र्" ], "new_token": "खुर्", "frequency": 46, "vocab_size": 1169, "learned_vocab_size": 944, "compression_ratio": 1.1339858044551416, "example_words": [] }, { "step": 945, "pair": [ "बांग्ला", "देश" ], "new_token": "बांग्लादेश", "frequency": 46, "vocab_size": 1170, "learned_vocab_size": 945, "compression_ratio": 1.1341011965332117, "example_words": [] }, { "step": 946, "pair": [ "ति", "वारी" ], "new_token": "तिवारी", "frequency": 45, "vocab_size": 1171, "learned_vocab_size": 946, "compression_ratio": 1.1341031862577393, "example_words": [] }, { "step": 947, "pair": [ "हि", "न्दू" ], "new_token": "हिन्दू", "frequency": 45, "vocab_size": 1172, "learned_vocab_size": 947, "compression_ratio": 1.1341031862577393, "example_words": [] }, { "step": 948, "pair": [ "शु", "रुआ" ], "new_token": "शुरुआ", "frequency": 45, "vocab_size": 1173, "learned_vocab_size": 948, "compression_ratio": 1.1341031862577393, "example_words": [] }, { "step": 949, "pair": [ "फ़", "ा" ], "new_token": "फ़ा", "frequency": 45, "vocab_size": 1174, "learned_vocab_size": 949, "compression_ratio": 1.1341987012462913, "example_words": [] }, { "step": 950, "pair": [ "ना", "ग" ], "new_token": "नाग", "frequency": 45, "vocab_size": 1175, "learned_vocab_size": 950, "compression_ratio": 1.1343021939745104, "example_words": [] }, { "step": 951, "pair": [ "ल्", "तानपुर" ], "new_token": "ल्तानपुर", "frequency": 45, "vocab_size": 1178, "learned_vocab_size": 951, "compression_ratio": 1.1341589013792415, "example_words": [] }, { "step": 952, "pair": [ "यमु", "ना" ], "new_token": "यमुना", "frequency": 44, "vocab_size": 1179, "learned_vocab_size": 952, "compression_ratio": 1.1341589013792415, "example_words": [] }, { "step": 953, "pair": [ "सि", "द्ध" ], "new_token": "सिद्ध", "frequency": 44, "vocab_size": 1180, "learned_vocab_size": 953, "compression_ratio": 1.1341589013792415, "example_words": [] }, { "step": 954, "pair": [ "पद", "क" ], "new_token": "पदक", "frequency": 44, "vocab_size": 1181, "learned_vocab_size": 954, "compression_ratio": 1.1343519568170093, "example_words": [] }, { "step": 955, "pair": [ "ड", "ो" ], "new_token": "डो", "frequency": 44, "vocab_size": 1182, "learned_vocab_size": 955, "compression_ratio": 1.1344435318563446, "example_words": [] }, { "step": 956, "pair": [ "इस", "से" ], "new_token": "इससे", "frequency": 44, "vocab_size": 1183, "learned_vocab_size": 956, "compression_ratio": 1.134566982479912, "example_words": [] }, { "step": 957, "pair": [ "हे", "तु" ], "new_token": "हेतु", "frequency": 44, "vocab_size": 1184, "learned_vocab_size": 957, "compression_ratio": 1.1346566005676662, "example_words": [] }, { "step": 958, "pair": [ "पुरु", "ष" ], "new_token": "पुरुष", "frequency": 44, "vocab_size": 1185, "learned_vocab_size": 958, "compression_ratio": 1.1347462328141895, "example_words": [] }, { "step": 959, "pair": [ "देश", "क" ], "new_token": "देशक", "frequency": 44, "vocab_size": 1186, "learned_vocab_size": 959, "compression_ratio": 1.1347462328141895, "example_words": [] }, { "step": 960, "pair": [ "स्थ", "ल" ], "new_token": "स्थल", "frequency": 44, "vocab_size": 1187, "learned_vocab_size": 960, "compression_ratio": 1.134867756915001, "example_words": [] }, { "step": 961, "pair": [ "अ", "सम" ], "new_token": "असम", "frequency": 44, "vocab_size": 1188, "learned_vocab_size": 961, "compression_ratio": 1.1351806518005472, "example_words": [] }, { "step": 962, "pair": [ "विके", "ट" ], "new_token": "विकेट", "frequency": 44, "vocab_size": 1189, "learned_vocab_size": 962, "compression_ratio": 1.1352982811097705, "example_words": [] }, { "step": 963, "pair": [ "आ", "ज" ], "new_token": "आज", "frequency": 44, "vocab_size": 1190, "learned_vocab_size": 963, "compression_ratio": 1.1352982811097705, "example_words": [] }, { "step": 964, "pair": [ "२०", "०" ], "new_token": "२००", "frequency": 44, "vocab_size": 1191, "learned_vocab_size": 964, "compression_ratio": 1.1353700669016744, "example_words": [] }, { "step": 965, "pair": [ "सू", "ची" ], "new_token": "सूची", "frequency": 44, "vocab_size": 1192, "learned_vocab_size": 965, "compression_ratio": 1.13549970313274, "example_words": [] }, { "step": 966, "pair": [ "वि", "ंडो" ], "new_token": "विंडो", "frequency": 44, "vocab_size": 1193, "learned_vocab_size": 966, "compression_ratio": 1.1356333591585546, "example_words": [] }, { "step": 967, "pair": [ "ज", "पा" ], "new_token": "जपा", "frequency": 43, "vocab_size": 1194, "learned_vocab_size": 967, "compression_ratio": 1.135721150382928, "example_words": [] }, { "step": 968, "pair": [ "ह", "ल्" ], "new_token": "हल्", "frequency": 43, "vocab_size": 1195, "learned_vocab_size": 968, "compression_ratio": 1.1358229253790089, "example_words": [] }, { "step": 969, "pair": [ "ती", "र्" ], "new_token": "तीर्", "frequency": 43, "vocab_size": 1196, "learned_vocab_size": 969, "compression_ratio": 1.135912741995287, "example_words": [] }, { "step": 970, "pair": [ "फ", "ू" ], "new_token": "फू", "frequency": 43, "vocab_size": 1197, "learned_vocab_size": 970, "compression_ratio": 1.1360065656281633, "example_words": [] }, { "step": 971, "pair": [ "ल", "भ" ], "new_token": "लभ", "frequency": 43, "vocab_size": 1198, "learned_vocab_size": 971, "compression_ratio": 1.136104398260029, "example_words": [] }, { "step": 972, "pair": [ "निर्", "माण" ], "new_token": "निर्माण", "frequency": 43, "vocab_size": 1199, "learned_vocab_size": 972, "compression_ratio": 1.136214230471771, "example_words": [] }, { "step": 973, "pair": [ "ए", "न" ], "new_token": "एन", "frequency": 43, "vocab_size": 1200, "learned_vocab_size": 973, "compression_ratio": 1.1363240839214928, "example_words": [] }, { "step": 974, "pair": [ "स", "ौ" ], "new_token": "सौ", "frequency": 43, "vocab_size": 1201, "learned_vocab_size": 974, "compression_ratio": 1.1364699222211283, "example_words": [] }, { "step": 975, "pair": [ "मा", "ल" ], "new_token": "माल", "frequency": 43, "vocab_size": 1202, "learned_vocab_size": 975, "compression_ratio": 1.1366018082521285, "example_words": [] }, { "step": 976, "pair": [ "ठ", "न" ], "new_token": "ठन", "frequency": 43, "vocab_size": 1203, "learned_vocab_size": 976, "compression_ratio": 1.1367297269731405, "example_words": [] }, { "step": 977, "pair": [ "मा", "ँ" ], "new_token": "माँ", "frequency": 43, "vocab_size": 1204, "learned_vocab_size": 977, "compression_ratio": 1.136849676926919, "example_words": [] }, { "step": 978, "pair": [ "सिक्", "किम" ], "new_token": "सिक्किम", "frequency": 43, "vocab_size": 1205, "learned_vocab_size": 978, "compression_ratio": 1.1369436554071286, "example_words": [] }, { "step": 979, "pair": [ "प", "ॉ" ], "new_token": "पॉ", "frequency": 43, "vocab_size": 1206, "learned_vocab_size": 979, "compression_ratio": 1.1369436554071286, "example_words": [] }, { "step": 980, "pair": [ "अमृत", "सर" ], "new_token": "अमृतसर", "frequency": 43, "vocab_size": 1207, "learned_vocab_size": 980, "compression_ratio": 1.1370376494262173, "example_words": [] }, { "step": 981, "pair": [ "ना", "कुलम" ], "new_token": "नाकुलम", "frequency": 43, "vocab_size": 1208, "learned_vocab_size": 981, "compression_ratio": 1.1371356597397526, "example_words": [] }, { "step": 982, "pair": [ "ट्", "स" ], "new_token": "ट्स", "frequency": 43, "vocab_size": 1209, "learned_vocab_size": 982, "compression_ratio": 1.1371356597397526, "example_words": [] }, { "step": 983, "pair": [ "खुर्", "द" ], "new_token": "खुर्द", "frequency": 43, "vocab_size": 1210, "learned_vocab_size": 983, "compression_ratio": 1.1372296855098063, "example_words": [] }, { "step": 984, "pair": [ "र", "ै" ], "new_token": "रै", "frequency": 43, "vocab_size": 1211, "learned_vocab_size": 984, "compression_ratio": 1.1373297299960237, "example_words": [] }, { "step": 985, "pair": [ "पौ", "ड़ी" ], "new_token": "पौड़ी", "frequency": 42, "vocab_size": 1212, "learned_vocab_size": 985, "compression_ratio": 1.1375178612907995, "example_words": [] }, { "step": 986, "pair": [ "भा", "जपा" ], "new_token": "भाजपा", "frequency": 42, "vocab_size": 1213, "learned_vocab_size": 986, "compression_ratio": 1.1376019400731399, "example_words": [] }, { "step": 987, "pair": [ "प्रशा", "सनिक" ], "new_token": "प्रशासनिक", "frequency": 42, "vocab_size": 1214, "learned_vocab_size": 987, "compression_ratio": 1.1377000476964045, "example_words": [] }, { "step": 988, "pair": [ "अल्", "मो" ], "new_token": "अल्मो", "frequency": 42, "vocab_size": 1215, "learned_vocab_size": 988, "compression_ratio": 1.1377000476964045, "example_words": [] }, { "step": 989, "pair": [ "गो", "वि" ], "new_token": "गोवि", "frequency": 42, "vocab_size": 1216, "learned_vocab_size": 989, "compression_ratio": 1.1377000476964045, "example_words": [] }, { "step": 990, "pair": [ "ऐ", "तिहासिक" ], "new_token": "ऐतिहासिक", "frequency": 42, "vocab_size": 1217, "learned_vocab_size": 990, "compression_ratio": 1.137786156082896, "example_words": [] }, { "step": 991, "pair": [ "परि", "वर्" ], "new_token": "परिवर्", "frequency": 42, "vocab_size": 1218, "learned_vocab_size": 991, "compression_ratio": 1.137786156082896, "example_words": [] }, { "step": 992, "pair": [ "म", "शी" ], "new_token": "मशी", "frequency": 42, "vocab_size": 1219, "learned_vocab_size": 992, "compression_ratio": 1.137786156082896, "example_words": [] }, { "step": 993, "pair": [ "स", "फल" ], "new_token": "सफल", "frequency": 42, "vocab_size": 1220, "learned_vocab_size": 993, "compression_ratio": 1.1379243572478501, "example_words": [] }, { "step": 994, "pair": [ "भ", "र" ], "new_token": "भर", "frequency": 42, "vocab_size": 1221, "learned_vocab_size": 994, "compression_ratio": 1.1380145065314602, "example_words": [] }, { "step": 995, "pair": [ "भ", "ौ" ], "new_token": "भौ", "frequency": 42, "vocab_size": 1222, "learned_vocab_size": 995, "compression_ratio": 1.1381186968279904, "example_words": [] }, { "step": 996, "pair": [ "ह", "ता" ], "new_token": "हता", "frequency": 42, "vocab_size": 1223, "learned_vocab_size": 996, "compression_ratio": 1.138212885242842, "example_words": [] }, { "step": 997, "pair": [ "पंचा", "यत" ], "new_token": "पंचायत", "frequency": 42, "vocab_size": 1224, "learned_vocab_size": 997, "compression_ratio": 1.1383010757611243, "example_words": [] }, { "step": 998, "pair": [ "अरुणा", "चल" ], "new_token": "अरुणाचल", "frequency": 42, "vocab_size": 1225, "learned_vocab_size": 998, "compression_ratio": 1.1383010757611243, "example_words": [] }, { "step": 999, "pair": [ "फ़र", "वरी" ], "new_token": "फ़रवरी", "frequency": 42, "vocab_size": 1226, "learned_vocab_size": 999, "compression_ratio": 1.1383010757611243, "example_words": [] }, { "step": 1000, "pair": [ "एर", "नाकुलम" ], "new_token": "एरनाकुलम", "frequency": 42, "vocab_size": 1227, "learned_vocab_size": 1000, "compression_ratio": 1.1383010757611243, "example_words": [] }, { "step": 1001, "pair": [ "स", "त" ], "new_token": "सत", "frequency": 42, "vocab_size": 1228, "learned_vocab_size": 1001, "compression_ratio": 1.1383010757611243, "example_words": [ "सत्यापन", "सत्यापित", "सत्ता" ] }, { "step": 1002, "pair": [ "र", "न" ], "new_token": "रन", "frequency": 42, "vocab_size": 1229, "learned_vocab_size": 1002, "compression_ratio": 1.1384674723579327, "example_words": [] }, { "step": 1003, "pair": [ "मा", "ता" ], "new_token": "माता", "frequency": 42, "vocab_size": 1230, "learned_vocab_size": 1003, "compression_ratio": 1.1384975492224967, "example_words": [] }, { "step": 1004, "pair": [ "स्", "कोर" ], "new_token": "स्कोर", "frequency": 42, "vocab_size": 1231, "learned_vocab_size": 1004, "compression_ratio": 1.1386279006682942, "example_words": [] }, { "step": 1005, "pair": [ "परि", "योजना" ], "new_token": "परियोजना", "frequency": 42, "vocab_size": 1232, "learned_vocab_size": 1005, "compression_ratio": 1.1386279006682942, "example_words": [] }, { "step": 1006, "pair": [ "सं", "हार" ], "new_token": "संहार", "frequency": 41, "vocab_size": 1233, "learned_vocab_size": 1006, "compression_ratio": 1.1386279006682942, "example_words": [] }, { "step": 1007, "pair": [ "अल्मो", "ड़ा" ], "new_token": "अल्मोड़ा", "frequency": 41, "vocab_size": 1234, "learned_vocab_size": 1007, "compression_ratio": 1.1386279006682942, "example_words": [] }, { "step": 1008, "pair": [ "पि", "थ" ], "new_token": "पिथ", "frequency": 41, "vocab_size": 1235, "learned_vocab_size": 1008, "compression_ratio": 1.1386279006682942, "example_words": [] }, { "step": 1009, "pair": [ "ज्ञान", "कोश" ], "new_token": "ज्ञानकोश", "frequency": 41, "vocab_size": 1236, "learned_vocab_size": 1009, "compression_ratio": 1.1387101377025153, "example_words": [] }, { "step": 1010, "pair": [ "ले", "ज" ], "new_token": "लेज", "frequency": 41, "vocab_size": 1237, "learned_vocab_size": 1010, "compression_ratio": 1.1387923866166811, "example_words": [] }, { "step": 1011, "pair": [ "वर्", "त" ], "new_token": "वर्त", "frequency": 41, "vocab_size": 1238, "learned_vocab_size": 1011, "compression_ratio": 1.1388846800308676, "example_words": [] }, { "step": 1012, "pair": [ "वर्त", "मान" ], "new_token": "वर्तमान", "frequency": 41, "vocab_size": 1239, "learned_vocab_size": 1012, "compression_ratio": 1.1388846800308676, "example_words": [] }, { "step": 1013, "pair": [ "स्था", "पना" ], "new_token": "स्थापना", "frequency": 41, "vocab_size": 1240, "learned_vocab_size": 1013, "compression_ratio": 1.1388846800308676, "example_words": [] }, { "step": 1014, "pair": [ "अक्त", "ू" ], "new_token": "अक्तू", "frequency": 41, "vocab_size": 1241, "learned_vocab_size": 1014, "compression_ratio": 1.1388846800308676, "example_words": [] }, { "step": 1015, "pair": [ "अक्तू", "बर" ], "new_token": "अक्तूबर", "frequency": 41, "vocab_size": 1242, "learned_vocab_size": 1015, "compression_ratio": 1.1388846800308676, "example_words": [] }, { "step": 1016, "pair": [ "दु", "र्" ], "new_token": "दुर्", "frequency": 41, "vocab_size": 1243, "learned_vocab_size": 1016, "compression_ratio": 1.1388846800308676, "example_words": [] }, { "step": 1017, "pair": [ "ग", "ौ" ], "new_token": "गौ", "frequency": 41, "vocab_size": 1244, "learned_vocab_size": 1017, "compression_ratio": 1.1389789952760956, "example_words": [] }, { "step": 1018, "pair": [ "प्र", "योग" ], "new_token": "प्रयोग", "frequency": 41, "vocab_size": 1245, "learned_vocab_size": 1018, "compression_ratio": 1.1390933985571348, "example_words": [] }, { "step": 1019, "pair": [ "ला", "इन" ], "new_token": "लाइन", "frequency": 41, "vocab_size": 1246, "learned_vocab_size": 1019, "compression_ratio": 1.1390933985571348, "example_words": [] }, { "step": 1020, "pair": [ "चं", "पारण" ], "new_token": "चंपारण", "frequency": 41, "vocab_size": 1247, "learned_vocab_size": 1020, "compression_ratio": 1.1391897559892428, "example_words": [] }, { "step": 1021, "pair": [ "म", "ढ़ी" ], "new_token": "मढ़ी", "frequency": 41, "vocab_size": 1248, "learned_vocab_size": 1021, "compression_ratio": 1.1391897559892428, "example_words": [] }, { "step": 1022, "pair": [ "सो", "नपुर" ], "new_token": "सोनपुर", "frequency": 41, "vocab_size": 1249, "learned_vocab_size": 1022, "compression_ratio": 1.1392720742060618, "example_words": [] }, { "step": 1023, "pair": [ "मग", "ध" ], "new_token": "मगध", "frequency": 41, "vocab_size": 1250, "learned_vocab_size": 1023, "compression_ratio": 1.1393544043204218, "example_words": [] }, { "step": 1024, "pair": [ "मुज", "फ्" ], "new_token": "मुजफ्", "frequency": 41, "vocab_size": 1251, "learned_vocab_size": 1024, "compression_ratio": 1.1394367463349027, "example_words": [] }, { "step": 1025, "pair": [ "ना", "डु" ], "new_token": "नाडु", "frequency": 41, "vocab_size": 1252, "learned_vocab_size": 1025, "compression_ratio": 1.139559277214632, "example_words": [] }, { "step": 1026, "pair": [ "ध", "ु" ], "new_token": "धु", "frequency": 41, "vocab_size": 1253, "learned_vocab_size": 1026, "compression_ratio": 1.1396697784712488, "example_words": [] }, { "step": 1027, "pair": [ "अह", "मदाबाद" ], "new_token": "अहमदाबाद", "frequency": 41, "vocab_size": 1254, "learned_vocab_size": 1027, "compression_ratio": 1.13976623344565, "example_words": [] }, { "step": 1028, "pair": [ "व्य", "व" ], "new_token": "व्यव", "frequency": 41, "vocab_size": 1255, "learned_vocab_size": 1028, "compression_ratio": 1.13976623344565, "example_words": [] }, { "step": 1029, "pair": [ "खा", "स" ], "new_token": "खास", "frequency": 41, "vocab_size": 1256, "learned_vocab_size": 1029, "compression_ratio": 1.139880794935548, "example_words": [] }, { "step": 1030, "pair": [ "खे", "त" ], "new_token": "खेत", "frequency": 40, "vocab_size": 1257, "learned_vocab_size": 1030, "compression_ratio": 1.1399933690043278, "example_words": [] }, { "step": 1031, "pair": [ "श", "र्" ], "new_token": "शर्", "frequency": 40, "vocab_size": 1258, "learned_vocab_size": 1031, "compression_ratio": 1.140073792668, "example_words": [] }, { "step": 1032, "pair": [ "गा", "ं" ], "new_token": "गां", "frequency": 40, "vocab_size": 1259, "learned_vocab_size": 1032, "compression_ratio": 1.1401562387005624, "example_words": [] }, { "step": 1033, "pair": [ "क्ष", "ण" ], "new_token": "क्षण", "frequency": 40, "vocab_size": 1260, "learned_vocab_size": 1033, "compression_ratio": 1.1403674353618607, "example_words": [] }, { "step": 1034, "pair": [ "अंग्रे", "ज़ी" ], "new_token": "अंग्रेज़ी", "frequency": 40, "vocab_size": 1261, "learned_vocab_size": 1034, "compression_ratio": 1.140486142109321, "example_words": [] }, { "step": 1035, "pair": [ "फ़िल्", "म" ], "new_token": "फ़िल्म", "frequency": 40, "vocab_size": 1262, "learned_vocab_size": 1035, "compression_ratio": 1.140486142109321, "example_words": [] }, { "step": 1036, "pair": [ "ब", "ड़ी" ], "new_token": "बड़ी", "frequency": 40, "vocab_size": 1263, "learned_vocab_size": 1036, "compression_ratio": 1.1405887729427002, "example_words": [] }, { "step": 1037, "pair": [ "न", "यी" ], "new_token": "नयी", "frequency": 40, "vocab_size": 1264, "learned_vocab_size": 1037, "compression_ratio": 1.1406773320345724, "example_words": [] }, { "step": 1038, "pair": [ "जि", "सका" ], "new_token": "जिसका", "frequency": 40, "vocab_size": 1265, "learned_vocab_size": 1038, "compression_ratio": 1.1407598653849886, "example_words": [] }, { "step": 1039, "pair": [ "वा", "द" ], "new_token": "वाद", "frequency": 40, "vocab_size": 1266, "learned_vocab_size": 1039, "compression_ratio": 1.1407598653849886, "example_words": [] }, { "step": 1040, "pair": [ "ब", "ह" ], "new_token": "बह", "frequency": 40, "vocab_size": 1267, "learned_vocab_size": 1040, "compression_ratio": 1.1409229541876407, "example_words": [] }, { "step": 1041, "pair": [ "ध", "्" ], "new_token": "ध्", "frequency": 40, "vocab_size": 1268, "learned_vocab_size": 1041, "compression_ratio": 1.1404056602608548, "example_words": [] }, { "step": 1042, "pair": [ "सा", "ल" ], "new_token": "साल", "frequency": 40, "vocab_size": 1269, "learned_vocab_size": 1042, "compression_ratio": 1.1406551909723754, "example_words": [] }, { "step": 1043, "pair": [ "केर", "ल" ], "new_token": "केरल", "frequency": 40, "vocab_size": 1270, "learned_vocab_size": 1043, "compression_ratio": 1.1407719444380717, "example_words": [] }, { "step": 1044, "pair": [ "सीता", "मढ़ी" ], "new_token": "सीतामढ़ी", "frequency": 40, "vocab_size": 1271, "learned_vocab_size": 1044, "compression_ratio": 1.1407719444380717, "example_words": [] }, { "step": 1045, "pair": [ "मुजफ्", "फरपुर" ], "new_token": "मुजफ्फरपुर", "frequency": 40, "vocab_size": 1272, "learned_vocab_size": 1045, "compression_ratio": 1.1408524779962126, "example_words": [] }, { "step": 1046, "pair": [ "परिषद", "नगर" ], "new_token": "परिषदनगर", "frequency": 40, "vocab_size": 1273, "learned_vocab_size": 1046, "compression_ratio": 1.1408524779962126, "example_words": [] }, { "step": 1047, "pair": [ "हरिया", "णा" ], "new_token": "हरियाणा", "frequency": 40, "vocab_size": 1274, "learned_vocab_size": 1047, "compression_ratio": 1.140933022925797, "example_words": [] }, { "step": 1048, "pair": [ "पु", "दु" ], "new_token": "पुदु", "frequency": 40, "vocab_size": 1275, "learned_vocab_size": 1048, "compression_ratio": 1.140933022925797, "example_words": [] }, { "step": 1049, "pair": [ "द्", "दा" ], "new_token": "द्दा", "frequency": 40, "vocab_size": 1276, "learned_vocab_size": 1049, "compression_ratio": 1.1410236495670072, "example_words": [] }, { "step": 1050, "pair": [ "ध", "र" ], "new_token": "धर", "frequency": 40, "vocab_size": 1277, "learned_vocab_size": 1050, "compression_ratio": 1.1411082474226804, "example_words": [] }, { "step": 1051, "pair": [ "जा", "मा" ], "new_token": "जामा", "frequency": 40, "vocab_size": 1279, "learned_vocab_size": 1051, "compression_ratio": 1.140784023746958, "example_words": [] }, { "step": 1052, "pair": [ "न", "ई" ], "new_token": "नई", "frequency": 40, "vocab_size": 1280, "learned_vocab_size": 1052, "compression_ratio": 1.1408645590106619, "example_words": [] }, { "step": 1053, "pair": [ "फतेह", "पुर" ], "new_token": "फतेहपुर", "frequency": 40, "vocab_size": 1281, "learned_vocab_size": 1053, "compression_ratio": 1.1409511471023266, "example_words": [] }, { "step": 1054, "pair": [ "प", "त" ], "new_token": "पत", "frequency": 40, "vocab_size": 1282, "learned_vocab_size": 1054, "compression_ratio": 1.1410337200825393, "example_words": [] }, { "step": 1055, "pair": [ "संग्रहा", "लय" ], "new_token": "संग्रहालय", "frequency": 40, "vocab_size": 1283, "learned_vocab_size": 1055, "compression_ratio": 1.140993439086944, "example_words": [] }, { "step": 1056, "pair": [ "राज्य", "पाल" ], "new_token": "राज्यपाल", "frequency": 39, "vocab_size": 1284, "learned_vocab_size": 1056, "compression_ratio": 1.140993439086944, "example_words": [] }, { "step": 1057, "pair": [ "ड़िया", "ँ" ], "new_token": "ड़ियाँ", "frequency": 39, "vocab_size": 1285, "learned_vocab_size": 1057, "compression_ratio": 1.1410740039223508, "example_words": [] }, { "step": 1058, "pair": [ "जै", "से" ], "new_token": "जैसे", "frequency": 39, "vocab_size": 1286, "learned_vocab_size": 1058, "compression_ratio": 1.1414890930634602, "example_words": [] }, { "step": 1059, "pair": [ "शे", "ख" ], "new_token": "शेख", "frequency": 39, "vocab_size": 1287, "learned_vocab_size": 1059, "compression_ratio": 1.141587872323141, "example_words": [] }, { "step": 1060, "pair": [ "प्र", "स्ता" ], "new_token": "प्रस्ता", "frequency": 39, "vocab_size": 1288, "learned_vocab_size": 1060, "compression_ratio": 1.1416745702482696, "example_words": [] }, { "step": 1061, "pair": [ "ए", "ल" ], "new_token": "एल", "frequency": 39, "vocab_size": 1289, "learned_vocab_size": 1061, "compression_ratio": 1.1416745702482696, "example_words": [] }, { "step": 1062, "pair": [ "पै", "सेंज" ], "new_token": "पैसेंज", "frequency": 39, "vocab_size": 1290, "learned_vocab_size": 1062, "compression_ratio": 1.1417895157045406, "example_words": [] }, { "step": 1063, "pair": [ "पैसेंज", "र" ], "new_token": "पैसेंजर", "frequency": 39, "vocab_size": 1291, "learned_vocab_size": 1063, "compression_ratio": 1.1417895157045406, "example_words": [] }, { "step": 1064, "pair": [ "प्रया", "गराज" ], "new_token": "प्रयागराज", "frequency": 39, "vocab_size": 1292, "learned_vocab_size": 1064, "compression_ratio": 1.1417895157045406, "example_words": [] }, { "step": 1065, "pair": [ "बा", "जी" ], "new_token": "बाजी", "frequency": 39, "vocab_size": 1293, "learned_vocab_size": 1065, "compression_ratio": 1.1417895157045406, "example_words": [] }, { "step": 1066, "pair": [ "क", "प" ], "new_token": "कप", "frequency": 39, "vocab_size": 1294, "learned_vocab_size": 1066, "compression_ratio": 1.1418701930040875, "example_words": [] }, { "step": 1067, "pair": [ "२", "१" ], "new_token": "२१", "frequency": 39, "vocab_size": 1295, "learned_vocab_size": 1067, "compression_ratio": 1.141942812322238, "example_words": [] }, { "step": 1068, "pair": [ "स्", "व" ], "new_token": "स्व", "frequency": 39, "vocab_size": 1296, "learned_vocab_size": 1068, "compression_ratio": 1.1420235112874673, "example_words": [] }, { "step": 1069, "pair": [ "द", "त्त" ], "new_token": "दत्त", "frequency": 38, "vocab_size": 1297, "learned_vocab_size": 1069, "compression_ratio": 1.1416987673683783, "example_words": [] }, { "step": 1070, "pair": [ "म", "ंत्रा" ], "new_token": "मंत्रा", "frequency": 38, "vocab_size": 1298, "learned_vocab_size": 1070, "compression_ratio": 1.141799599743525, "example_words": [] }, { "step": 1071, "pair": [ "मंत्रा", "लय" ], "new_token": "मंत्रालय", "frequency": 38, "vocab_size": 1299, "learned_vocab_size": 1071, "compression_ratio": 1.141799599743525, "example_words": [] }, { "step": 1072, "pair": [ "ग", "ंज" ], "new_token": "गंज", "frequency": 38, "vocab_size": 1300, "learned_vocab_size": 1072, "compression_ratio": 1.141799599743525, "example_words": [] }, { "step": 1073, "pair": [ "मशी", "न" ], "new_token": "मशीन", "frequency": 38, "vocab_size": 1301, "learned_vocab_size": 1073, "compression_ratio": 1.1419811429086277, "example_words": [] }, { "step": 1074, "pair": [ "अने", "क" ], "new_token": "अनेक", "frequency": 38, "vocab_size": 1302, "learned_vocab_size": 1074, "compression_ratio": 1.1421143112577985, "example_words": [] }, { "step": 1075, "pair": [ "चर्", "चा" ], "new_token": "चर्चा", "frequency": 38, "vocab_size": 1303, "learned_vocab_size": 1075, "compression_ratio": 1.1421143112577985, "example_words": [] }, { "step": 1076, "pair": [ "ौ", "न" ], "new_token": "ौन", "frequency": 38, "vocab_size": 1304, "learned_vocab_size": 1076, "compression_ratio": 1.142197052691098, "example_words": [] }, { "step": 1077, "pair": [ "ती", "न" ], "new_token": "तीन", "frequency": 38, "vocab_size": 1305, "learned_vocab_size": 1077, "compression_ratio": 1.142275769083285, "example_words": [] }, { "step": 1078, "pair": [ "घ", "ो" ], "new_token": "घो", "frequency": 38, "vocab_size": 1306, "learned_vocab_size": 1078, "compression_ratio": 1.142356515115903, "example_words": [] }, { "step": 1079, "pair": [ "प्रका", "श" ], "new_token": "प्रकाश", "frequency": 38, "vocab_size": 1307, "learned_vocab_size": 1079, "compression_ratio": 1.1424514062925273, "example_words": [] }, { "step": 1080, "pair": [ "बा", "ँ" ], "new_token": "बाँ", "frequency": 38, "vocab_size": 1308, "learned_vocab_size": 1080, "compression_ratio": 1.1424534254250078, "example_words": [] }, { "step": 1081, "pair": [ "अज", "मेर" ], "new_token": "अजमेर", "frequency": 38, "vocab_size": 1309, "learned_vocab_size": 1081, "compression_ratio": 1.1425341965770723, "example_words": [] }, { "step": 1082, "pair": [ "छ", "परा" ], "new_token": "छपरा", "frequency": 38, "vocab_size": 1310, "learned_vocab_size": 1082, "compression_ratio": 1.1426129594473728, "example_words": [] }, { "step": 1083, "pair": [ "देवासं", "भारत" ], "new_token": "देवासंभारत", "frequency": 38, "vocab_size": 1311, "learned_vocab_size": 1083, "compression_ratio": 1.1426129594473728, "example_words": [] }, { "step": 1084, "pair": [ "ते", "ल" ], "new_token": "तेल", "frequency": 38, "vocab_size": 1312, "learned_vocab_size": 1084, "compression_ratio": 1.1426129594473728, "example_words": [] }, { "step": 1085, "pair": [ "सि", "र" ], "new_token": "सिर", "frequency": 38, "vocab_size": 1313, "learned_vocab_size": 1085, "compression_ratio": 1.1427442550325366, "example_words": [] }, { "step": 1086, "pair": [ "त्रि", "वेंद्र" ], "new_token": "त्रिवेंद्र", "frequency": 38, "vocab_size": 1314, "learned_vocab_size": 1086, "compression_ratio": 1.1428169855719168, "example_words": [] }, { "step": 1087, "pair": [ "त्रिवेंद्र", "म" ], "new_token": "त्रिवेंद्रम", "frequency": 38, "vocab_size": 1315, "learned_vocab_size": 1087, "compression_ratio": 1.1428169855719168, "example_words": [] }, { "step": 1088, "pair": [ "ह", "्" ], "new_token": "ह्", "frequency": 38, "vocab_size": 1316, "learned_vocab_size": 1088, "compression_ratio": 1.1428169855719168, "example_words": [] }, { "step": 1089, "pair": [ "चुना", "व" ], "new_token": "चुनाव", "frequency": 38, "vocab_size": 1317, "learned_vocab_size": 1089, "compression_ratio": 1.142915994794761, "example_words": [] }, { "step": 1090, "pair": [ "ॉ", "न" ], "new_token": "ॉन", "frequency": 38, "vocab_size": 1318, "learned_vocab_size": 1090, "compression_ratio": 1.1430412963598233, "example_words": [] }, { "step": 1091, "pair": [ "यू", "नि" ], "new_token": "यूनि", "frequency": 38, "vocab_size": 1319, "learned_vocab_size": 1091, "compression_ratio": 1.143126193676169, "example_words": [] }, { "step": 1092, "pair": [ "फ", "ो" ], "new_token": "फो", "frequency": 38, "vocab_size": 1320, "learned_vocab_size": 1092, "compression_ratio": 1.1432272783545265, "example_words": [] }, { "step": 1093, "pair": [ "ग", "ै" ], "new_token": "गै", "frequency": 38, "vocab_size": 1321, "learned_vocab_size": 1093, "compression_ratio": 1.14338298372875, "example_words": [] }, { "step": 1094, "pair": [ "राज", "मार्ग" ], "new_token": "राजमार्ग", "frequency": 38, "vocab_size": 1322, "learned_vocab_size": 1094, "compression_ratio": 1.1434982734708896, "example_words": [] }, { "step": 1095, "pair": [ "अ", "यो" ], "new_token": "अयो", "frequency": 38, "vocab_size": 1323, "learned_vocab_size": 1095, "compression_ratio": 1.1434982734708896, "example_words": [] }, { "step": 1096, "pair": [ "अयो", "ध्या" ], "new_token": "अयोध्या", "frequency": 38, "vocab_size": 1324, "learned_vocab_size": 1096, "compression_ratio": 1.143575146216418, "example_words": [] }, { "step": 1097, "pair": [ "चम्", "पा" ], "new_token": "चम्पा", "frequency": 37, "vocab_size": 1325, "learned_vocab_size": 1097, "compression_ratio": 1.143575146216418, "example_words": [] }, { "step": 1098, "pair": [ "चम्पा", "वत" ], "new_token": "चम्पावत", "frequency": 37, "vocab_size": 1326, "learned_vocab_size": 1098, "compression_ratio": 1.1436520292983263, "example_words": [] }, { "step": 1099, "pair": [ "मु", "न" ], "new_token": "मुन", "frequency": 37, "vocab_size": 1327, "learned_vocab_size": 1099, "compression_ratio": 1.1437268990751668, "example_words": [] }, { "step": 1100, "pair": [ "टी", "वी" ], "new_token": "टीवी", "frequency": 37, "vocab_size": 1328, "learned_vocab_size": 1100, "compression_ratio": 1.143805826479623, "example_words": [] }, { "step": 1101, "pair": [ "ख", "ने" ], "new_token": "खने", "frequency": 37, "vocab_size": 1332, "learned_vocab_size": 1101, "compression_ratio": 1.143888813189808, "example_words": [ "रखने", "देखने", "लिखने" ] }, { "step": 1102, "pair": [ "द", "ृ" ], "new_token": "दृ", "frequency": 37, "vocab_size": 1333, "learned_vocab_size": 1102, "compression_ratio": 1.143963713973235, "example_words": [] }, { "step": 1103, "pair": [ "परि", "णा" ], "new_token": "परिणा", "frequency": 37, "vocab_size": 1334, "learned_vocab_size": 1103, "compression_ratio": 1.144042674066903, "example_words": [] }, { "step": 1104, "pair": [ "त", "म" ], "new_token": "तम", "frequency": 37, "vocab_size": 1335, "learned_vocab_size": 1104, "compression_ratio": 1.1441297452671226, "example_words": [] }, { "step": 1105, "pair": [ "ला", "म" ], "new_token": "लाम", "frequency": 37, "vocab_size": 1336, "learned_vocab_size": 1105, "compression_ratio": 1.14383618607433, "example_words": [] }, { "step": 1106, "pair": [ "दर्", "श" ], "new_token": "दर्श", "frequency": 37, "vocab_size": 1337, "learned_vocab_size": 1106, "compression_ratio": 1.1439252501836008, "example_words": [] }, { "step": 1107, "pair": [ "न", "ृत्य" ], "new_token": "नृत्य", "frequency": 37, "vocab_size": 1338, "learned_vocab_size": 1107, "compression_ratio": 1.1439252501836008, "example_words": [] }, { "step": 1108, "pair": [ "का", "द" ], "new_token": "काद", "frequency": 37, "vocab_size": 1339, "learned_vocab_size": 1108, "compression_ratio": 1.1439272745290965, "example_words": [] }, { "step": 1109, "pair": [ "र", "ंग" ], "new_token": "रंग", "frequency": 37, "vocab_size": 1340, "learned_vocab_size": 1109, "compression_ratio": 1.1440264762359853, "example_words": [] }, { "step": 1110, "pair": [ "क्र", "म" ], "new_token": "क्रम", "frequency": 37, "vocab_size": 1341, "learned_vocab_size": 1110, "compression_ratio": 1.1441884751882894, "example_words": [] }, { "step": 1111, "pair": [ "आ", "यो" ], "new_token": "आयो", "frequency": 37, "vocab_size": 1342, "learned_vocab_size": 1111, "compression_ratio": 1.1441884751882894, "example_words": [] }, { "step": 1112, "pair": [ "नर", "संहार" ], "new_token": "नरसंहार", "frequency": 36, "vocab_size": 1343, "learned_vocab_size": 1112, "compression_ratio": 1.144267466313576, "example_words": [] }, { "step": 1113, "pair": [ "न", "दिया" ], "new_token": "नदिया", "frequency": 36, "vocab_size": 1344, "learned_vocab_size": 1113, "compression_ratio": 1.144267466313576, "example_words": [] }, { "step": 1114, "pair": [ "अ", "ति" ], "new_token": "अति", "frequency": 36, "vocab_size": 1345, "learned_vocab_size": 1114, "compression_ratio": 1.144267466313576, "example_words": [] }, { "step": 1115, "pair": [ "अ", "ब" ], "new_token": "अब", "frequency": 36, "vocab_size": 1346, "learned_vocab_size": 1115, "compression_ratio": 1.1443484941827942, "example_words": [] }, { "step": 1116, "pair": [ "ं", "श" ], "new_token": "ंश", "frequency": 36, "vocab_size": 1347, "learned_vocab_size": 1116, "compression_ratio": 1.1444295335283161, "example_words": [] }, { "step": 1117, "pair": [ "द", "ौरान" ], "new_token": "दौरान", "frequency": 36, "vocab_size": 1348, "learned_vocab_size": 1117, "compression_ratio": 1.1445105843525805, "example_words": [] }, { "step": 1118, "pair": [ "श", "ू" ], "new_token": "शू", "frequency": 36, "vocab_size": 1349, "learned_vocab_size": 1118, "compression_ratio": 1.1445105843525805, "example_words": [] }, { "step": 1119, "pair": [ "क", "ड़ियाँ" ], "new_token": "कड़ियाँ", "frequency": 36, "vocab_size": 1350, "learned_vocab_size": 1119, "compression_ratio": 1.144599753520129, "example_words": [] }, { "step": 1120, "pair": [ "अ", "च्छ" ], "new_token": "अच्छ", "frequency": 36, "vocab_size": 1351, "learned_vocab_size": 1120, "compression_ratio": 1.145011327626123, "example_words": [] }, { "step": 1121, "pair": [ "त", "ृती" ], "new_token": "तृती", "frequency": 36, "vocab_size": 1352, "learned_vocab_size": 1121, "compression_ratio": 1.145090432410409, "example_words": [] }, { "step": 1122, "pair": [ "तृती", "य" ], "new_token": "तृतीय", "frequency": 36, "vocab_size": 1353, "learned_vocab_size": 1122, "compression_ratio": 1.145090432410409, "example_words": [] }, { "step": 1123, "pair": [ "मुरा", "दाबाद" ], "new_token": "मुरादाबाद", "frequency": 36, "vocab_size": 1354, "learned_vocab_size": 1123, "compression_ratio": 1.145090432410409, "example_words": [] }, { "step": 1124, "pair": [ "ं", "ट" ], "new_token": "ंट", "frequency": 36, "vocab_size": 1355, "learned_vocab_size": 1124, "compression_ratio": 1.1451938936220345, "example_words": [] }, { "step": 1125, "pair": [ "यहा", "ं" ], "new_token": "यहां", "frequency": 36, "vocab_size": 1356, "learned_vocab_size": 1125, "compression_ratio": 1.1455652907442457, "example_words": [] }, { "step": 1126, "pair": [ "मह", "त्व" ], "new_token": "महत्व", "frequency": 36, "vocab_size": 1357, "learned_vocab_size": 1126, "compression_ratio": 1.1455652907442457, "example_words": [] }, { "step": 1127, "pair": [ "बी", "घा" ], "new_token": "बीघा", "frequency": 36, "vocab_size": 1358, "learned_vocab_size": 1127, "compression_ratio": 1.1456383808308521, "example_words": [] }, { "step": 1128, "pair": [ "तेल", "ंगाना" ], "new_token": "तेलंगाना", "frequency": 36, "vocab_size": 1359, "learned_vocab_size": 1128, "compression_ratio": 1.1457155415968039, "example_words": [] }, { "step": 1129, "pair": [ "या", "द" ], "new_token": "याद", "frequency": 36, "vocab_size": 1360, "learned_vocab_size": 1129, "compression_ratio": 1.1457155415968039, "example_words": [] }, { "step": 1130, "pair": [ "ध", "पुर" ], "new_token": "धपुर", "frequency": 36, "vocab_size": 1361, "learned_vocab_size": 1130, "compression_ratio": 1.1458008366420873, "example_words": [] }, { "step": 1131, "pair": [ "बी", "कानेर" ], "new_token": "बीकानेर", "frequency": 36, "vocab_size": 1362, "learned_vocab_size": 1131, "compression_ratio": 1.145873956789642, "example_words": [] }, { "step": 1132, "pair": [ "उ", "दय" ], "new_token": "उदय", "frequency": 36, "vocab_size": 1363, "learned_vocab_size": 1132, "compression_ratio": 1.145873956789642, "example_words": [] }, { "step": 1133, "pair": [ "घ", "ु" ], "new_token": "घु", "frequency": 36, "vocab_size": 1364, "learned_vocab_size": 1133, "compression_ratio": 1.1459491177779315, "example_words": [] }, { "step": 1134, "pair": [ "जी", "पुर" ], "new_token": "जीपुर", "frequency": 36, "vocab_size": 1365, "learned_vocab_size": 1134, "compression_ratio": 1.146028352196976, "example_words": [] }, { "step": 1135, "pair": [ "जाल", "पृष्ठ" ], "new_token": "जालपृष्ठ", "frequency": 35, "vocab_size": 1366, "learned_vocab_size": 1135, "compression_ratio": 1.1461035334417236, "example_words": [] }, { "step": 1136, "pair": [ "वार्", "ता" ], "new_token": "वार्ता", "frequency": 35, "vocab_size": 1367, "learned_vocab_size": 1136, "compression_ratio": 1.1461807568802052, "example_words": [] }, { "step": 1137, "pair": [ "दु", "निया" ], "new_token": "दुनिया", "frequency": 35, "vocab_size": 1368, "learned_vocab_size": 1137, "compression_ratio": 1.1461807568802052, "example_words": [] }, { "step": 1138, "pair": [ "य", "स" ], "new_token": "यस", "frequency": 35, "vocab_size": 1369, "learned_vocab_size": 1138, "compression_ratio": 1.1461807568802052, "example_words": [] }, { "step": 1139, "pair": [ "अभि", "नेता" ], "new_token": "अभिनेता", "frequency": 35, "vocab_size": 1370, "learned_vocab_size": 1139, "compression_ratio": 1.1462579907258816, "example_words": [] }, { "step": 1140, "pair": [ "मे", "घा" ], "new_token": "मेघा", "frequency": 35, "vocab_size": 1371, "learned_vocab_size": 1140, "compression_ratio": 1.1463352349808564, "example_words": [] }, { "step": 1141, "pair": [ "मेघा", "लय" ], "new_token": "मेघालय", "frequency": 35, "vocab_size": 1372, "learned_vocab_size": 1141, "compression_ratio": 1.1464124896472345, "example_words": [] }, { "step": 1142, "pair": [ "प्रा", "ंत" ], "new_token": "प्रांत", "frequency": 35, "vocab_size": 1373, "learned_vocab_size": 1142, "compression_ratio": 1.146489754727121, "example_words": [] }, { "step": 1143, "pair": [ "वि", "जय" ], "new_token": "विजय", "frequency": 35, "vocab_size": 1374, "learned_vocab_size": 1143, "compression_ratio": 1.146489754727121, "example_words": [] }, { "step": 1144, "pair": [ "नि", "म्" ], "new_token": "निम्", "frequency": 35, "vocab_size": 1375, "learned_vocab_size": 1144, "compression_ratio": 1.146597536575329, "example_words": [] }, { "step": 1145, "pair": [ "ं", "ख" ], "new_token": "ंख", "frequency": 35, "vocab_size": 1376, "learned_vocab_size": 1145, "compression_ratio": 1.146674826601387, "example_words": [] }, { "step": 1146, "pair": [ "ट", "ै" ], "new_token": "टै", "frequency": 35, "vocab_size": 1377, "learned_vocab_size": 1146, "compression_ratio": 1.1468416458498922, "example_words": [] }, { "step": 1147, "pair": [ "ण", "्" ], "new_token": "ण्", "frequency": 35, "vocab_size": 1378, "learned_vocab_size": 1147, "compression_ratio": 1.146927108653918, "example_words": [] }, { "step": 1148, "pair": [ "१", "०" ], "new_token": "१०", "frequency": 35, "vocab_size": 1379, "learned_vocab_size": 1148, "compression_ratio": 1.144121645061488, "example_words": [] }, { "step": 1149, "pair": [ "गो", "स्वामी" ], "new_token": "गोस्वामी", "frequency": 35, "vocab_size": 1380, "learned_vocab_size": 1149, "compression_ratio": 1.1442107536322184, "example_words": [] }, { "step": 1150, "pair": [ "झ", "ी" ], "new_token": "झी", "frequency": 35, "vocab_size": 1381, "learned_vocab_size": 1150, "compression_ratio": 1.1442107536322184, "example_words": [] }, { "step": 1151, "pair": [ "विंडो", "ज़" ], "new_token": "विंडोज़", "frequency": 35, "vocab_size": 1385, "learned_vocab_size": 1151, "compression_ratio": 1.1442877222051102, "example_words": [] }, { "step": 1152, "pair": [ "वि", "स्त" ], "new_token": "विस्त", "frequency": 34, "vocab_size": 1386, "learned_vocab_size": 1152, "compression_ratio": 1.144358623473324, "example_words": [] }, { "step": 1153, "pair": [ "विस्त", "ृत" ], "new_token": "विस्तृत", "frequency": 34, "vocab_size": 1387, "learned_vocab_size": 1153, "compression_ratio": 1.1444558737870094, "example_words": [] }, { "step": 1154, "pair": [ "का", "ण्ड" ], "new_token": "काण्ड", "frequency": 34, "vocab_size": 1388, "learned_vocab_size": 1154, "compression_ratio": 1.1445247694271665, "example_words": [] }, { "step": 1155, "pair": [ "पिथ", "ौरा" ], "new_token": "पिथौरा", "frequency": 34, "vocab_size": 1389, "learned_vocab_size": 1155, "compression_ratio": 1.1445247694271665, "example_words": [] }, { "step": 1156, "pair": [ "पिथौरा", "गढ़" ], "new_token": "पिथौरागढ़", "frequency": 34, "vocab_size": 1390, "learned_vocab_size": 1156, "compression_ratio": 1.1445247694271665, "example_words": [] }, { "step": 1157, "pair": [ "ऋ", "ष" ], "new_token": "ऋष", "frequency": 34, "vocab_size": 1391, "learned_vocab_size": 1157, "compression_ratio": 1.1445247694271665, "example_words": [] }, { "step": 1158, "pair": [ "रानी", "खेत" ], "new_token": "रानीखेत", "frequency": 34, "vocab_size": 1392, "learned_vocab_size": 1158, "compression_ratio": 1.144599753520129, "example_words": [] }, { "step": 1159, "pair": [ "का", "ंग" ], "new_token": "कांग", "frequency": 34, "vocab_size": 1393, "learned_vocab_size": 1159, "compression_ratio": 1.144599753520129, "example_words": [] }, { "step": 1160, "pair": [ "दा", "स" ], "new_token": "दास", "frequency": 34, "vocab_size": 1394, "learned_vocab_size": 1160, "compression_ratio": 1.1448632890677302, "example_words": [] }, { "step": 1161, "pair": [ "सा", "द" ], "new_token": "साद", "frequency": 34, "vocab_size": 1395, "learned_vocab_size": 1161, "compression_ratio": 1.1449444013447116, "example_words": [] }, { "step": 1162, "pair": [ "र", "खा" ], "new_token": "रखा", "frequency": 34, "vocab_size": 1396, "learned_vocab_size": 1162, "compression_ratio": 1.1450194404343321, "example_words": [] }, { "step": 1163, "pair": [ "ह", "ू" ], "new_token": "हू", "frequency": 34, "vocab_size": 1397, "learned_vocab_size": 1163, "compression_ratio": 1.1451654906434852, "example_words": [] }, { "step": 1164, "pair": [ "सा", "मान्य" ], "new_token": "सामान्य", "frequency": 34, "vocab_size": 1398, "learned_vocab_size": 1164, "compression_ratio": 1.145244616731097, "example_words": [] }, { "step": 1165, "pair": [ "प", "ल" ], "new_token": "पल", "frequency": 34, "vocab_size": 1399, "learned_vocab_size": 1165, "compression_ratio": 1.145244616731097, "example_words": [] }, { "step": 1166, "pair": [ "जि", "स" ], "new_token": "जिस", "frequency": 34, "vocab_size": 1400, "learned_vocab_size": 1166, "compression_ratio": 1.1452425877204637, "example_words": [] }, { "step": 1167, "pair": [ "दो", "नों" ], "new_token": "दोनों", "frequency": 34, "vocab_size": 1401, "learned_vocab_size": 1167, "compression_ratio": 1.145415079294764, "example_words": [] }, { "step": 1168, "pair": [ "इ", "ड" ], "new_token": "इड", "frequency": 34, "vocab_size": 1402, "learned_vocab_size": 1168, "compression_ratio": 1.145415079294764, "example_words": [] }, { "step": 1169, "pair": [ "बना", "या" ], "new_token": "बनाया", "frequency": 34, "vocab_size": 1403, "learned_vocab_size": 1169, "compression_ratio": 1.145498299690418, "example_words": [] }, { "step": 1170, "pair": [ "के", "वल" ], "new_token": "केवल", "frequency": 34, "vocab_size": 1404, "learned_vocab_size": 1170, "compression_ratio": 1.145498299690418, "example_words": [] }, { "step": 1171, "pair": [ "ह", "म" ], "new_token": "हम", "frequency": 34, "vocab_size": 1405, "learned_vocab_size": 1171, "compression_ratio": 1.1455754415874642, "example_words": [] }, { "step": 1172, "pair": [ "ज", "र्" ], "new_token": "जर्", "frequency": 34, "vocab_size": 1406, "learned_vocab_size": 1172, "compression_ratio": 1.1455246891702227, "example_words": [] }, { "step": 1173, "pair": [ "कु", "ंड" ], "new_token": "कुंड", "frequency": 34, "vocab_size": 1407, "learned_vocab_size": 1173, "compression_ratio": 1.1456119861126126, "example_words": [] }, { "step": 1174, "pair": [ "मणि", "पुर" ], "new_token": "मणिपुर", "frequency": 34, "vocab_size": 1408, "learned_vocab_size": 1174, "compression_ratio": 1.145697265739236, "example_words": [] }, { "step": 1175, "pair": [ "ल", "द्दा" ], "new_token": "लद्दा", "frequency": 34, "vocab_size": 1409, "learned_vocab_size": 1175, "compression_ratio": 1.1457906818040822, "example_words": [] }, { "step": 1176, "pair": [ "दि", "न" ], "new_token": "दिन", "frequency": 34, "vocab_size": 1410, "learned_vocab_size": 1176, "compression_ratio": 1.145861769450304, "example_words": [] }, { "step": 1177, "pair": [ "को", "लका" ], "new_token": "कोलका", "frequency": 34, "vocab_size": 1411, "learned_vocab_size": 1177, "compression_ratio": 1.1459470862702272, "example_words": [] }, { "step": 1178, "pair": [ "स्", "को" ], "new_token": "स्को", "frequency": 34, "vocab_size": 1412, "learned_vocab_size": 1178, "compression_ratio": 1.1459470862702272, "example_words": [] }, { "step": 1179, "pair": [ "कू", "ट" ], "new_token": "कूट", "frequency": 34, "vocab_size": 1413, "learned_vocab_size": 1179, "compression_ratio": 1.1461116617346947, "example_words": [] }, { "step": 1180, "pair": [ "फ", "ै" ], "new_token": "फै", "frequency": 34, "vocab_size": 1414, "learned_vocab_size": 1180, "compression_ratio": 1.1461909186336814, "example_words": [] }, { "step": 1181, "pair": [ "्", "स" ], "new_token": "्स", "frequency": 34, "vocab_size": 1415, "learned_vocab_size": 1181, "compression_ratio": 1.1462864479244432, "example_words": [] }, { "step": 1182, "pair": [ "र", "वि" ], "new_token": "रवि", "frequency": 34, "vocab_size": 1416, "learned_vocab_size": 1182, "compression_ratio": 1.1466727925198366, "example_words": [] }, { "step": 1183, "pair": [ "जी", "व" ], "new_token": "जीव", "frequency": 34, "vocab_size": 1417, "learned_vocab_size": 1183, "compression_ratio": 1.1467663677408482, "example_words": [] }, { "step": 1184, "pair": [ "ख़", "ा" ], "new_token": "ख़ा", "frequency": 34, "vocab_size": 1418, "learned_vocab_size": 1184, "compression_ratio": 1.1466707584455025, "example_words": [] }, { "step": 1185, "pair": [ "ल", "र" ], "new_token": "लर", "frequency": 34, "vocab_size": 1419, "learned_vocab_size": 1185, "compression_ratio": 1.14674398966819, "example_words": [] }, { "step": 1186, "pair": [ "नदिया", "ँ" ], "new_token": "नदियाँ", "frequency": 33, "vocab_size": 1420, "learned_vocab_size": 1186, "compression_ratio": 1.1468436805305449, "example_words": [] }, { "step": 1187, "pair": [ "न्या", "या" ], "new_token": "न्याया", "frequency": 33, "vocab_size": 1421, "learned_vocab_size": 1187, "compression_ratio": 1.1468436805305449, "example_words": [] }, { "step": 1188, "pair": [ "प्रया", "ग" ], "new_token": "प्रयाग", "frequency": 33, "vocab_size": 1422, "learned_vocab_size": 1188, "compression_ratio": 1.1468436805305449, "example_words": [] }, { "step": 1189, "pair": [ "छो", "टा" ], "new_token": "छोटा", "frequency": 33, "vocab_size": 1423, "learned_vocab_size": 1189, "compression_ratio": 1.1468436805305449, "example_words": [] }, { "step": 1190, "pair": [ "रा", "वत" ], "new_token": "रावत", "frequency": 33, "vocab_size": 1424, "learned_vocab_size": 1190, "compression_ratio": 1.1469169338426681, "example_words": [] }, { "step": 1191, "pair": [ "थ", "ो" ], "new_token": "थो", "frequency": 33, "vocab_size": 1425, "learned_vocab_size": 1191, "compression_ratio": 1.1470675394872032, "example_words": [] }, { "step": 1192, "pair": [ "ए", "म" ], "new_token": "एम", "frequency": 33, "vocab_size": 1426, "learned_vocab_size": 1192, "compression_ratio": 1.1471469286492588, "example_words": [] }, { "step": 1193, "pair": [ "घ", "टना" ], "new_token": "घटना", "frequency": 33, "vocab_size": 1427, "learned_vocab_size": 1193, "compression_ratio": 1.1472609425637421, "example_words": [] }, { "step": 1194, "pair": [ "संब", "द्ध" ], "new_token": "संबद्ध", "frequency": 33, "vocab_size": 1428, "learned_vocab_size": 1194, "compression_ratio": 1.1472609425637421, "example_words": [] }, { "step": 1195, "pair": [ "सक", "ते" ], "new_token": "सकते", "frequency": 33, "vocab_size": 1429, "learned_vocab_size": 1195, "compression_ratio": 1.1472609425637421, "example_words": [] }, { "step": 1196, "pair": [ "निर्", "देशक" ], "new_token": "निर्देशक", "frequency": 33, "vocab_size": 1430, "learned_vocab_size": 1196, "compression_ratio": 1.1473281399480662, "example_words": [] }, { "step": 1197, "pair": [ "त", "ू" ], "new_token": "तू", "frequency": 33, "vocab_size": 1431, "learned_vocab_size": 1197, "compression_ratio": 1.1474136752773947, "example_words": [] }, { "step": 1198, "pair": [ "सो", "न" ], "new_token": "सोन", "frequency": 33, "vocab_size": 1432, "learned_vocab_size": 1198, "compression_ratio": 1.1475766350013403, "example_words": [] }, { "step": 1199, "pair": [ "ग", "़" ], "new_token": "ग़", "frequency": 33, "vocab_size": 1433, "learned_vocab_size": 1199, "compression_ratio": 1.1475766350013403, "example_words": [] }, { "step": 1200, "pair": [ "शुरुआ", "त" ], "new_token": "शुरुआत", "frequency": 33, "vocab_size": 1434, "learned_vocab_size": 1200, "compression_ratio": 1.1476540570866527, "example_words": [] }, { "step": 1201, "pair": [ "उन", "का" ], "new_token": "उनका", "frequency": 33, "vocab_size": 1438, "learned_vocab_size": 1201, "compression_ratio": 1.1477274139623908, "example_words": [ "उनका" ] }, { "step": 1202, "pair": [ "जै", "न" ], "new_token": "जैन", "frequency": 33, "vocab_size": 1439, "learned_vocab_size": 1202, "compression_ratio": 1.1477946660037643, "example_words": [] }, { "step": 1203, "pair": [ "इ", "या" ], "new_token": "इया", "frequency": 33, "vocab_size": 1440, "learned_vocab_size": 1203, "compression_ratio": 1.1478619259269782, "example_words": [] }, { "step": 1204, "pair": [ "प्रा", "चीन" ], "new_token": "प्राचीन", "frequency": 33, "vocab_size": 1441, "learned_vocab_size": 1204, "compression_ratio": 1.1479373479426755, "example_words": [] }, { "step": 1205, "pair": [ "आ", "दर्श" ], "new_token": "आदर्श", "frequency": 33, "vocab_size": 1442, "learned_vocab_size": 1205, "compression_ratio": 1.1479373479426755, "example_words": [] }, { "step": 1206, "pair": [ "गो", "वा" ], "new_token": "गोवा", "frequency": 33, "vocab_size": 1443, "learned_vocab_size": 1206, "compression_ratio": 1.1479373479426755, "example_words": [] }, { "step": 1207, "pair": [ "निको", "बार" ], "new_token": "निकोबार", "frequency": 33, "vocab_size": 1444, "learned_vocab_size": 1207, "compression_ratio": 1.148012779870461, "example_words": [] }, { "step": 1208, "pair": [ "लक्ष", "द्वीप" ], "new_token": "लक्षद्वीप", "frequency": 33, "vocab_size": 1445, "learned_vocab_size": 1208, "compression_ratio": 1.148012779870461, "example_words": [] }, { "step": 1209, "pair": [ "अर", "ब" ], "new_token": "अरब", "frequency": 33, "vocab_size": 1446, "learned_vocab_size": 1209, "compression_ratio": 1.148012779870461, "example_words": [] }, { "step": 1210, "pair": [ "जो", "धपुर" ], "new_token": "जोधपुर", "frequency": 33, "vocab_size": 1447, "learned_vocab_size": 1210, "compression_ratio": 1.1480922999321532, "example_words": [] }, { "step": 1211, "pair": [ "घा", "ट" ], "new_token": "घाट", "frequency": 33, "vocab_size": 1448, "learned_vocab_size": 1211, "compression_ratio": 1.1481595947431709, "example_words": [] }, { "step": 1212, "pair": [ "सुपर", "फा" ], "new_token": "सुपरफा", "frequency": 33, "vocab_size": 1449, "learned_vocab_size": 1212, "compression_ratio": 1.1482330162621122, "example_words": [] }, { "step": 1213, "pair": [ "सुपरफा", "स्ट" ], "new_token": "सुपरफास्ट", "frequency": 33, "vocab_size": 1450, "learned_vocab_size": 1213, "compression_ratio": 1.148300327570648, "example_words": [] }, { "step": 1214, "pair": [ "जी", "ता" ], "new_token": "जीता", "frequency": 33, "vocab_size": 1451, "learned_vocab_size": 1214, "compression_ratio": 1.1483676467714456, "example_words": [] }, { "step": 1215, "pair": [ "तु", "र्" ], "new_token": "तुर्", "frequency": 33, "vocab_size": 1452, "learned_vocab_size": 1215, "compression_ratio": 1.148451296774675, "example_words": [] }, { "step": 1216, "pair": [ "टूर्", "नामेंट" ], "new_token": "टूर्नामेंट", "frequency": 33, "vocab_size": 1453, "learned_vocab_size": 1216, "compression_ratio": 1.148541081067635, "example_words": [] }, { "step": 1217, "pair": [ "प्र", "सिद्ध" ], "new_token": "प्रसिद्ध", "frequency": 32, "vocab_size": 1454, "learned_vocab_size": 1217, "compression_ratio": 1.148541081067635, "example_words": [] }, { "step": 1218, "pair": [ "म", "ल" ], "new_token": "मल", "frequency": 32, "vocab_size": 1455, "learned_vocab_size": 1218, "compression_ratio": 1.148541081067635, "example_words": [] }, { "step": 1219, "pair": [ "राष्ट्र", "पति" ], "new_token": "राष्ट्रपति", "frequency": 32, "vocab_size": 1456, "learned_vocab_size": 1219, "compression_ratio": 1.1486553722914645, "example_words": [] }, { "step": 1220, "pair": [ "गां", "व" ], "new_token": "गांव", "frequency": 32, "vocab_size": 1457, "learned_vocab_size": 1220, "compression_ratio": 1.1486553722914645, "example_words": [] }, { "step": 1221, "pair": [ "डेटा", "बेस" ], "new_token": "डेटाबेस", "frequency": 32, "vocab_size": 1458, "learned_vocab_size": 1221, "compression_ratio": 1.148726815857891, "example_words": [] }, { "step": 1222, "pair": [ "ड़", "ते" ], "new_token": "ड़ते", "frequency": 32, "vocab_size": 1459, "learned_vocab_size": 1222, "compression_ratio": 1.148726815857891, "example_words": [] }, { "step": 1223, "pair": [ "अ", "ंतर" ], "new_token": "अंतर", "frequency": 32, "vocab_size": 1460, "learned_vocab_size": 1223, "compression_ratio": 1.1487921434677293, "example_words": [] }, { "step": 1224, "pair": [ "मु", "र" ], "new_token": "मुर", "frequency": 32, "vocab_size": 1461, "learned_vocab_size": 1224, "compression_ratio": 1.1487921434677293, "example_words": [] }, { "step": 1225, "pair": [ "अ", "ण्ड" ], "new_token": "अण्ड", "frequency": 32, "vocab_size": 1462, "learned_vocab_size": 1225, "compression_ratio": 1.1486227153351078, "example_words": [] }, { "step": 1226, "pair": [ "कह", "ते" ], "new_token": "कहते", "frequency": 32, "vocab_size": 1463, "learned_vocab_size": 1226, "compression_ratio": 1.1486227153351078, "example_words": [] }, { "step": 1227, "pair": [ "फ", "े" ], "new_token": "फे", "frequency": 32, "vocab_size": 1464, "learned_vocab_size": 1227, "compression_ratio": 1.1486880311048402, "example_words": [] }, { "step": 1228, "pair": [ "सै", "न" ], "new_token": "सैन", "frequency": 32, "vocab_size": 1465, "learned_vocab_size": 1228, "compression_ratio": 1.148810518196779, "example_words": [] }, { "step": 1229, "pair": [ "शा", "खा" ], "new_token": "शाखा", "frequency": 32, "vocab_size": 1466, "learned_vocab_size": 1229, "compression_ratio": 1.1489248630528983, "example_words": [] }, { "step": 1230, "pair": [ "शी", "र्" ], "new_token": "शीर्", "frequency": 32, "vocab_size": 1467, "learned_vocab_size": 1230, "compression_ratio": 1.148994297821512, "example_words": [] }, { "step": 1231, "pair": [ "भ", "े" ], "new_token": "भे", "frequency": 32, "vocab_size": 1468, "learned_vocab_size": 1231, "compression_ratio": 1.149069868723947, "example_words": [] }, { "step": 1232, "pair": [ "जहा", "ं" ], "new_token": "जहां", "frequency": 32, "vocab_size": 1469, "learned_vocab_size": 1232, "compression_ratio": 1.1491638356008527, "example_words": [] }, { "step": 1233, "pair": [ "उर्", "दू" ], "new_token": "उर्दू", "frequency": 32, "vocab_size": 1470, "learned_vocab_size": 1233, "compression_ratio": 1.1492557745917962, "example_words": [] }, { "step": 1234, "pair": [ "वा", "ँ" ], "new_token": "वाँ", "frequency": 32, "vocab_size": 1471, "learned_vocab_size": 1234, "compression_ratio": 1.1493436411513795, "example_words": [] }, { "step": 1235, "pair": [ "ए", "ंड" ], "new_token": "एंड", "frequency": 32, "vocab_size": 1472, "learned_vocab_size": 1235, "compression_ratio": 1.1494335650284417, "example_words": [] }, { "step": 1236, "pair": [ "लि", "स" ], "new_token": "लिस", "frequency": 32, "vocab_size": 1473, "learned_vocab_size": 1236, "compression_ratio": 1.149503061298887, "example_words": [] }, { "step": 1237, "pair": [ "खे", "ड़ा" ], "new_token": "खेड़ा", "frequency": 32, "vocab_size": 1474, "learned_vocab_size": 1237, "compression_ratio": 1.1495664328700081, "example_words": [] }, { "step": 1238, "pair": [ "सं", "र" ], "new_token": "संर", "frequency": 32, "vocab_size": 1475, "learned_vocab_size": 1238, "compression_ratio": 1.149631856014797, "example_words": [] }, { "step": 1239, "pair": [ "क", "क्ष" ], "new_token": "कक्ष", "frequency": 32, "vocab_size": 1476, "learned_vocab_size": 1239, "compression_ratio": 1.149709555671757, "example_words": [] }, { "step": 1240, "pair": [ "पौरा", "णिक" ], "new_token": "पौराणिक", "frequency": 31, "vocab_size": 1477, "learned_vocab_size": 1240, "compression_ratio": 1.1497913561317818, "example_words": [] }, { "step": 1241, "pair": [ "जल", "वायु" ], "new_token": "जलवायु", "frequency": 31, "vocab_size": 1478, "learned_vocab_size": 1241, "compression_ratio": 1.1497913561317818, "example_words": [] }, { "step": 1242, "pair": [ "शार", "दा" ], "new_token": "शारदा", "frequency": 31, "vocab_size": 1479, "learned_vocab_size": 1242, "compression_ratio": 1.1498547594948867, "example_words": [] }, { "step": 1243, "pair": [ "सा", "हि" ], "new_token": "साहि", "frequency": 31, "vocab_size": 1480, "learned_vocab_size": 1243, "compression_ratio": 1.1498547594948867, "example_words": [] }, { "step": 1244, "pair": [ "साहि", "ब" ], "new_token": "साहिब", "frequency": 31, "vocab_size": 1481, "learned_vocab_size": 1244, "compression_ratio": 1.150120720730338, "example_words": [] }, { "step": 1245, "pair": [ "न", "ंदा" ], "new_token": "नंदा", "frequency": 31, "vocab_size": 1482, "learned_vocab_size": 1245, "compression_ratio": 1.1501841604241918, "example_words": [] }, { "step": 1246, "pair": [ "कुमाऊँ", "नी" ], "new_token": "कुमाऊँनी", "frequency": 31, "vocab_size": 1483, "learned_vocab_size": 1246, "compression_ratio": 1.1501841604241918, "example_words": [] }, { "step": 1247, "pair": [ "पहा", "ड़ी" ], "new_token": "पहाड़ी", "frequency": 31, "vocab_size": 1484, "learned_vocab_size": 1247, "compression_ratio": 1.1502476071169918, "example_words": [] }, { "step": 1248, "pair": [ "गोवि", "न्द" ], "new_token": "गोविन्द", "frequency": 31, "vocab_size": 1485, "learned_vocab_size": 1248, "compression_ratio": 1.1502476071169918, "example_words": [] }, { "step": 1249, "pair": [ "गुरु", "कुल" ], "new_token": "गुरुकुल", "frequency": 31, "vocab_size": 1486, "learned_vocab_size": 1249, "compression_ratio": 1.1503151548369417, "example_words": [] }, { "step": 1250, "pair": [ "अति", "रिक्त" ], "new_token": "अतिरिक्त", "frequency": 31, "vocab_size": 1487, "learned_vocab_size": 1250, "compression_ratio": 1.150380663233164, "example_words": [] }, { "step": 1251, "pair": [ "कॉ", "लेज" ], "new_token": "कॉलेज", "frequency": 31, "vocab_size": 1491, "learned_vocab_size": 1251, "compression_ratio": 1.150380663233164, "example_words": [] }, { "step": 1252, "pair": [ "न", "ल" ], "new_token": "नल", "frequency": 31, "vocab_size": 1492, "learned_vocab_size": 1252, "compression_ratio": 1.150454369097918, "example_words": [] }, { "step": 1253, "pair": [ "ज", "र" ], "new_token": "जर", "frequency": 31, "vocab_size": 1493, "learned_vocab_size": 1253, "compression_ratio": 1.1505035115884197, "example_words": [] }, { "step": 1254, "pair": [ "शू", "न्य" ], "new_token": "शून्य", "frequency": 31, "vocab_size": 1494, "learned_vocab_size": 1254, "compression_ratio": 1.1499836330384907, "example_words": [] }, { "step": 1255, "pair": [ "श", "ता" ], "new_token": "शता", "frequency": 31, "vocab_size": 1495, "learned_vocab_size": 1255, "compression_ratio": 1.1499836330384907, "example_words": [] }, { "step": 1256, "pair": [ "शता", "ब्" ], "new_token": "शताब्", "frequency": 31, "vocab_size": 1496, "learned_vocab_size": 1256, "compression_ratio": 1.1500531958425404, "example_words": [] }, { "step": 1257, "pair": [ "शताब्", "दी" ], "new_token": "शताब्दी", "frequency": 31, "vocab_size": 1497, "learned_vocab_size": 1257, "compression_ratio": 1.1501186744051157, "example_words": [] }, { "step": 1258, "pair": [ "त", "ब" ], "new_token": "तब", "frequency": 31, "vocab_size": 1498, "learned_vocab_size": 1258, "compression_ratio": 1.1501841604241918, "example_words": [] }, { "step": 1259, "pair": [ "पु", "नर्" ], "new_token": "पुनर्", "frequency": 31, "vocab_size": 1499, "learned_vocab_size": 1259, "compression_ratio": 1.1502496539010423, "example_words": [] }, { "step": 1260, "pair": [ "फर", "वरी" ], "new_token": "फरवरी", "frequency": 31, "vocab_size": 1500, "learned_vocab_size": 1260, "compression_ratio": 1.1502864972595914, "example_words": [] }, { "step": 1261, "pair": [ "ंख", "ला" ], "new_token": "ंखला", "frequency": 31, "vocab_size": 1501, "learned_vocab_size": 1261, "compression_ratio": 1.1502864972595914, "example_words": [] }, { "step": 1262, "pair": [ "ग", "ड़िया" ], "new_token": "गड़िया", "frequency": 31, "vocab_size": 1502, "learned_vocab_size": 1262, "compression_ratio": 1.1503622382426062, "example_words": [] }, { "step": 1263, "pair": [ "तु", "हा" ], "new_token": "तुहा", "frequency": 31, "vocab_size": 1503, "learned_vocab_size": 1263, "compression_ratio": 1.1504338942992198, "example_words": [] }, { "step": 1264, "pair": [ "ओ", "डि" ], "new_token": "ओडि", "frequency": 31, "vocab_size": 1504, "learned_vocab_size": 1264, "compression_ratio": 1.150497368547513, "example_words": [] }, { "step": 1265, "pair": [ "ज़", "ोर" ], "new_token": "ज़ोर", "frequency": 31, "vocab_size": 1505, "learned_vocab_size": 1265, "compression_ratio": 1.1505669935193112, "example_words": [] }, { "step": 1266, "pair": [ "प्रस्ता", "वित" ], "new_token": "प्रस्तावित", "frequency": 31, "vocab_size": 1506, "learned_vocab_size": 1266, "compression_ratio": 1.1506386750873996, "example_words": [] }, { "step": 1267, "pair": [ "उ", "द्योग" ], "new_token": "उद्योग", "frequency": 31, "vocab_size": 1507, "learned_vocab_size": 1267, "compression_ratio": 1.1506386750873996, "example_words": [] }, { "step": 1268, "pair": [ "मह", "ल" ], "new_token": "महल", "frequency": 31, "vocab_size": 1508, "learned_vocab_size": 1268, "compression_ratio": 1.1506386750873996, "example_words": [] }, { "step": 1269, "pair": [ "कोलका", "ता" ], "new_token": "कोलकाता", "frequency": 31, "vocab_size": 1509, "learned_vocab_size": 1269, "compression_ratio": 1.1507021719355521, "example_words": [] }, { "step": 1270, "pair": [ "का", "की" ], "new_token": "काकी", "frequency": 31, "vocab_size": 1510, "learned_vocab_size": 1270, "compression_ratio": 1.1507021719355521, "example_words": [] }, { "step": 1271, "pair": [ "काकी", "नाडा" ], "new_token": "काकीनाडा", "frequency": 31, "vocab_size": 1511, "learned_vocab_size": 1271, "compression_ratio": 1.150765675792112, "example_words": [] }, { "step": 1272, "pair": [ "ला", "सपुर" ], "new_token": "लासपुर", "frequency": 31, "vocab_size": 1512, "learned_vocab_size": 1272, "compression_ratio": 1.1508291866582399, "example_words": [] }, { "step": 1273, "pair": [ "गो", "दा" ], "new_token": "गोदा", "frequency": 31, "vocab_size": 1513, "learned_vocab_size": 1273, "compression_ratio": 1.1508927045350956, "example_words": [] }, { "step": 1274, "pair": [ "तिरु", "पति" ], "new_token": "तिरुपति", "frequency": 31, "vocab_size": 1514, "learned_vocab_size": 1274, "compression_ratio": 1.1509787721990947, "example_words": [] }, { "step": 1275, "pair": [ "सी", "मा" ], "new_token": "सीमा", "frequency": 31, "vocab_size": 1515, "learned_vocab_size": 1275, "compression_ratio": 1.151042306589671, "example_words": [] }, { "step": 1276, "pair": [ "संग", "ठन" ], "new_token": "संगठन", "frequency": 31, "vocab_size": 1516, "learned_vocab_size": 1276, "compression_ratio": 1.1511181471416818, "example_words": [] }, { "step": 1277, "pair": [ "मो", "हम्" ], "new_token": "मोहम्", "frequency": 31, "vocab_size": 1517, "learned_vocab_size": 1277, "compression_ratio": 1.1511181471416818, "example_words": [] }, { "step": 1278, "pair": [ "१", "५" ], "new_token": "१५", "frequency": 31, "vocab_size": 1518, "learned_vocab_size": 1278, "compression_ratio": 1.1511181471416818, "example_words": [] }, { "step": 1279, "pair": [ "जब", "कि" ], "new_token": "जबकि", "frequency": 31, "vocab_size": 1519, "learned_vocab_size": 1279, "compression_ratio": 1.1511898974032935, "example_words": [] }, { "step": 1280, "pair": [ "शब्", "द" ], "new_token": "शब्द", "frequency": 31, "vocab_size": 1520, "learned_vocab_size": 1280, "compression_ratio": 1.1512534551050067, "example_words": [] }, { "step": 1281, "pair": [ "र", "सू" ], "new_token": "रसू", "frequency": 31, "vocab_size": 1521, "learned_vocab_size": 1281, "compression_ratio": 1.151358033047341, "example_words": [] }, { "step": 1282, "pair": [ "ना", "ई" ], "new_token": "नाई", "frequency": 31, "vocab_size": 1522, "learned_vocab_size": 1282, "compression_ratio": 1.151429813217623, "example_words": [] }, { "step": 1283, "pair": [ "ला", "व" ], "new_token": "लाव", "frequency": 31, "vocab_size": 1523, "learned_vocab_size": 1283, "compression_ratio": 1.1514954486345903, "example_words": [] }, { "step": 1284, "pair": [ "ग", "ंगो" ], "new_token": "गंगो", "frequency": 30, "vocab_size": 1524, "learned_vocab_size": 1284, "compression_ratio": 1.1515692974236373, "example_words": [] }, { "step": 1285, "pair": [ "कॉर्", "बे" ], "new_token": "कॉर्बे", "frequency": 30, "vocab_size": 1525, "learned_vocab_size": 1285, "compression_ratio": 1.1515692974236373, "example_words": [] }, { "step": 1286, "pair": [ "कॉर्बे", "ट" ], "new_token": "कॉर्बेट", "frequency": 30, "vocab_size": 1526, "learned_vocab_size": 1286, "compression_ratio": 1.1515692974236373, "example_words": [] }, { "step": 1287, "pair": [ "वल्", "लभ" ], "new_token": "वल्लभ", "frequency": 30, "vocab_size": 1527, "learned_vocab_size": 1287, "compression_ratio": 1.1515692974236373, "example_words": [] }, { "step": 1288, "pair": [ "पे", "ट्रो" ], "new_token": "पेट्रो", "frequency": 30, "vocab_size": 1528, "learned_vocab_size": 1288, "compression_ratio": 1.1515692974236373, "example_words": [] }, { "step": 1289, "pair": [ "शा", "सन" ], "new_token": "शासन", "frequency": 30, "vocab_size": 1529, "learned_vocab_size": 1289, "compression_ratio": 1.1515692974236373, "example_words": [] }, { "step": 1290, "pair": [ "फि", "र" ], "new_token": "फिर", "frequency": 30, "vocab_size": 1530, "learned_vocab_size": 1290, "compression_ratio": 1.1517395960096284, "example_words": [] }, { "step": 1291, "pair": [ "जा", "ते" ], "new_token": "जाते", "frequency": 30, "vocab_size": 1531, "learned_vocab_size": 1291, "compression_ratio": 1.1518114237655377, "example_words": [] }, { "step": 1292, "pair": [ "जु", "ड़ते" ], "new_token": "जुड़ते", "frequency": 30, "vocab_size": 1532, "learned_vocab_size": 1292, "compression_ratio": 1.1518729975444861, "example_words": [] }, { "step": 1293, "pair": [ "प्रा", "थमिक" ], "new_token": "प्राथमिक", "frequency": 30, "vocab_size": 1533, "learned_vocab_size": 1293, "compression_ratio": 1.1519345779070347, "example_words": [] }, { "step": 1294, "pair": [ "घो", "ष" ], "new_token": "घोष", "frequency": 30, "vocab_size": 1534, "learned_vocab_size": 1294, "compression_ratio": 1.1519345779070347, "example_words": [] }, { "step": 1295, "pair": [ "व", "ु" ], "new_token": "वु", "frequency": 30, "vocab_size": 1535, "learned_vocab_size": 1295, "compression_ratio": 1.1519982178658945, "example_words": [] }, { "step": 1296, "pair": [ "ढ़", "ा" ], "new_token": "ढ़ा", "frequency": 30, "vocab_size": 1536, "learned_vocab_size": 1296, "compression_ratio": 1.152065971355856, "example_words": [] }, { "step": 1297, "pair": [ "मी", "टर" ], "new_token": "मीटर", "frequency": 30, "vocab_size": 1537, "learned_vocab_size": 1297, "compression_ratio": 1.1521378398273259, "example_words": [] }, { "step": 1298, "pair": [ "ब", "ख्" ], "new_token": "बख्", "frequency": 30, "vocab_size": 1538, "learned_vocab_size": 1298, "compression_ratio": 1.1522076635004268, "example_words": [] }, { "step": 1299, "pair": [ "वा", "ई" ], "new_token": "वाई", "frequency": 30, "vocab_size": 1539, "learned_vocab_size": 1299, "compression_ratio": 1.1522692796523308, "example_words": [] }, { "step": 1300, "pair": [ "नि", "जा" ], "new_token": "निजा", "frequency": 30, "vocab_size": 1540, "learned_vocab_size": 1300, "compression_ratio": 1.1524151308025001, "example_words": [] }, { "step": 1301, "pair": [ "अण्ड", "मान" ], "new_token": "अण्डमान", "frequency": 30, "vocab_size": 1541, "learned_vocab_size": 1301, "compression_ratio": 1.1524767691462885, "example_words": [ "अण्डमान", "अण्डमानी" ] }, { "step": 1302, "pair": [ "द्वीप", "समूह" ], "new_token": "द्वीपसमूह", "frequency": 30, "vocab_size": 1542, "learned_vocab_size": 1302, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1303, "pair": [ "बा", "ंद्रा" ], "new_token": "बांद्रा", "frequency": 30, "vocab_size": 1543, "learned_vocab_size": 1303, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1304, "pair": [ "टर्", "मिन" ], "new_token": "टर्मिन", "frequency": 30, "vocab_size": 1544, "learned_vocab_size": 1304, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1305, "pair": [ "टर्मिन", "स" ], "new_token": "टर्मिनस", "frequency": 30, "vocab_size": 1545, "learned_vocab_size": 1305, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1306, "pair": [ "भु", "बने" ], "new_token": "भुबने", "frequency": 30, "vocab_size": 1546, "learned_vocab_size": 1306, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1307, "pair": [ "भुबने", "श्वर" ], "new_token": "भुबनेश्वर", "frequency": 30, "vocab_size": 1547, "learned_vocab_size": 1307, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1308, "pair": [ "चित्र", "कूट" ], "new_token": "चित्रकूट", "frequency": 30, "vocab_size": 1548, "learned_vocab_size": 1308, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1309, "pair": [ "उदय", "पुर" ], "new_token": "उदयपुर", "frequency": 30, "vocab_size": 1549, "learned_vocab_size": 1309, "compression_ratio": 1.1524767691462885, "example_words": [] }, { "step": 1310, "pair": [ "खि", "ला" ], "new_token": "खिला", "frequency": 30, "vocab_size": 1550, "learned_vocab_size": 1310, "compression_ratio": 1.152538414084035, "example_words": [] }, { "step": 1311, "pair": [ "शीर्", "ष" ], "new_token": "शीर्ष", "frequency": 30, "vocab_size": 1551, "learned_vocab_size": 1311, "compression_ratio": 1.1526123967148456, "example_words": [] }, { "step": 1312, "pair": [ "द्", "विती" ], "new_token": "द्विती", "frequency": 30, "vocab_size": 1552, "learned_vocab_size": 1312, "compression_ratio": 1.152684333379102, "example_words": [] }, { "step": 1313, "pair": [ "म", "ॉ" ], "new_token": "मॉ", "frequency": 30, "vocab_size": 1553, "learned_vocab_size": 1313, "compression_ratio": 1.152684333379102, "example_words": [] }, { "step": 1314, "pair": [ "अर्", "थ" ], "new_token": "अर्थ", "frequency": 30, "vocab_size": 1554, "learned_vocab_size": 1314, "compression_ratio": 1.1527686134641106, "example_words": [] }, { "step": 1315, "pair": [ "ट्", "ट" ], "new_token": "ट्ट", "frequency": 30, "vocab_size": 1555, "learned_vocab_size": 1315, "compression_ratio": 1.1527686134641106, "example_words": [] }, { "step": 1316, "pair": [ "अ", "क" ], "new_token": "अक", "frequency": 30, "vocab_size": 1556, "learned_vocab_size": 1316, "compression_ratio": 1.1528446816820725, "example_words": [] }, { "step": 1317, "pair": [ "कला", "ँ" ], "new_token": "कलाँ", "frequency": 30, "vocab_size": 1557, "learned_vocab_size": 1317, "compression_ratio": 1.1521789115512882, "example_words": [] }, { "step": 1318, "pair": [ "ख", "रा" ], "new_token": "खरा", "frequency": 30, "vocab_size": 1558, "learned_vocab_size": 1318, "compression_ratio": 1.1521789115512882, "example_words": [] }, { "step": 1319, "pair": [ "ौ", "ल" ], "new_token": "ौल", "frequency": 30, "vocab_size": 1559, "learned_vocab_size": 1319, "compression_ratio": 1.152240524628035, "example_words": [] }, { "step": 1320, "pair": [ "क्", "ल" ], "new_token": "क्ल", "frequency": 30, "vocab_size": 1560, "learned_vocab_size": 1320, "compression_ratio": 1.1519386834986474, "example_words": [] }, { "step": 1321, "pair": [ "समा", "ज" ], "new_token": "समाज", "frequency": 30, "vocab_size": 1561, "learned_vocab_size": 1321, "compression_ratio": 1.1520228545765292, "example_words": [] }, { "step": 1322, "pair": [ "पु", "लाव" ], "new_token": "पुलाव", "frequency": 30, "vocab_size": 1562, "learned_vocab_size": 1322, "compression_ratio": 1.1520228545765292, "example_words": [] }, { "step": 1323, "pair": [ "क", "त्यूरी" ], "new_token": "कत्यूरी", "frequency": 29, "vocab_size": 1563, "learned_vocab_size": 1323, "compression_ratio": 1.152084450963583, "example_words": [] }, { "step": 1324, "pair": [ "उ", "ध" ], "new_token": "उध", "frequency": 29, "vocab_size": 1564, "learned_vocab_size": 1324, "compression_ratio": 1.152084450963583, "example_words": [] }, { "step": 1325, "pair": [ "काशी", "पुर" ], "new_token": "काशीपुर", "frequency": 29, "vocab_size": 1565, "learned_vocab_size": 1325, "compression_ratio": 1.1521481074837983, "example_words": [] }, { "step": 1326, "pair": [ "फू", "लों" ], "new_token": "फूलों", "frequency": 29, "vocab_size": 1566, "learned_vocab_size": 1326, "compression_ratio": 1.1522076635004268, "example_words": [] }, { "step": 1327, "pair": [ "हो", "ली" ], "new_token": "होली", "frequency": 29, "vocab_size": 1567, "learned_vocab_size": 1327, "compression_ratio": 1.1522076635004268, "example_words": [] }, { "step": 1328, "pair": [ "लि", "यम" ], "new_token": "लियम", "frequency": 29, "vocab_size": 1568, "learned_vocab_size": 1328, "compression_ratio": 1.1522692796523308, "example_words": [] }, { "step": 1329, "pair": [ "उ", "चित" ], "new_token": "उचित", "frequency": 29, "vocab_size": 1569, "learned_vocab_size": 1329, "compression_ratio": 1.1523288481970322, "example_words": [] }, { "step": 1330, "pair": [ "सक", "ती" ], "new_token": "सकती", "frequency": 29, "vocab_size": 1570, "learned_vocab_size": 1330, "compression_ratio": 1.1523288481970322, "example_words": [] }, { "step": 1331, "pair": [ "हटा", "या" ], "new_token": "हटाया", "frequency": 29, "vocab_size": 1571, "learned_vocab_size": 1331, "compression_ratio": 1.152388422901049, "example_words": [] }, { "step": 1332, "pair": [ "को", "ई" ], "new_token": "कोई", "frequency": 29, "vocab_size": 1572, "learned_vocab_size": 1332, "compression_ratio": 1.1524480037653368, "example_words": [] }, { "step": 1333, "pair": [ "ं", "भ" ], "new_token": "ंभ", "frequency": 29, "vocab_size": 1573, "learned_vocab_size": 1333, "compression_ratio": 1.152509645625771, "example_words": [] }, { "step": 1334, "pair": [ "पा", "ठ" ], "new_token": "पाठ", "frequency": 29, "vocab_size": 1574, "learned_vocab_size": 1334, "compression_ratio": 1.1526267833293808, "example_words": [] }, { "step": 1335, "pair": [ "जी", "त" ], "new_token": "जीत", "frequency": 29, "vocab_size": 1575, "learned_vocab_size": 1335, "compression_ratio": 1.1526884443168464, "example_words": [] }, { "step": 1336, "pair": [ "दि", "खा" ], "new_token": "दिखा", "frequency": 29, "vocab_size": 1576, "learned_vocab_size": 1336, "compression_ratio": 1.1526761115915798, "example_words": [] }, { "step": 1337, "pair": [ "राय", "पुर" ], "new_token": "रायपुर", "frequency": 29, "vocab_size": 1577, "learned_vocab_size": 1337, "compression_ratio": 1.1527521676017105, "example_words": [] }, { "step": 1338, "pair": [ "बे", "ल" ], "new_token": "बेल", "frequency": 29, "vocab_size": 1578, "learned_vocab_size": 1338, "compression_ratio": 1.1528241217142867, "example_words": [] }, { "step": 1339, "pair": [ "ज़ोर", "म" ], "new_token": "ज़ोरम", "frequency": 29, "vocab_size": 1579, "learned_vocab_size": 1339, "compression_ratio": 1.1529022534934945, "example_words": [] }, { "step": 1340, "pair": [ "पुदु", "च्चेरी" ], "new_token": "पुदुच्चेरी", "frequency": 29, "vocab_size": 1580, "learned_vocab_size": 1340, "compression_ratio": 1.1529618875032106, "example_words": [] }, { "step": 1341, "pair": [ "स्टे", "शन" ], "new_token": "स्टेशन", "frequency": 29, "vocab_size": 1581, "learned_vocab_size": 1341, "compression_ratio": 1.1529618875032106, "example_words": [] }, { "step": 1342, "pair": [ "मै", "सूर" ], "new_token": "मैसूर", "frequency": 29, "vocab_size": 1582, "learned_vocab_size": 1342, "compression_ratio": 1.1529618875032106, "example_words": [] }, { "step": 1343, "pair": [ "कु", "र" ], "new_token": "कुर", "frequency": 29, "vocab_size": 1583, "learned_vocab_size": 1343, "compression_ratio": 1.1529618875032106, "example_words": [] }, { "step": 1344, "pair": [ "सू", "चना" ], "new_token": "सूचना", "frequency": 29, "vocab_size": 1584, "learned_vocab_size": 1344, "compression_ratio": 1.153054435250111, "example_words": [] }, { "step": 1345, "pair": [ "द्विती", "य" ], "new_token": "द्वितीय", "frequency": 29, "vocab_size": 1585, "learned_vocab_size": 1345, "compression_ratio": 1.153054435250111, "example_words": [] }, { "step": 1346, "pair": [ "च", "र" ], "new_token": "चर", "frequency": 29, "vocab_size": 1586, "learned_vocab_size": 1346, "compression_ratio": 1.153054435250111, "example_words": [] }, { "step": 1347, "pair": [ "म", "स" ], "new_token": "मस", "frequency": 29, "vocab_size": 1587, "learned_vocab_size": 1347, "compression_ratio": 1.1529104785073865, "example_words": [] }, { "step": 1348, "pair": [ "टा", "इ" ], "new_token": "टाइ", "frequency": 29, "vocab_size": 1588, "learned_vocab_size": 1348, "compression_ratio": 1.1519448419409393, "example_words": [] }, { "step": 1349, "pair": [ "वर्", "ग" ], "new_token": "वर्ग", "frequency": 29, "vocab_size": 1589, "learned_vocab_size": 1349, "compression_ratio": 1.1520372264777066, "example_words": [] }, { "step": 1350, "pair": [ "जा", "पान" ], "new_token": "जापान", "frequency": 29, "vocab_size": 1590, "learned_vocab_size": 1350, "compression_ratio": 1.1520372264777066, "example_words": [] }, { "step": 1351, "pair": [ "ब", "ड़ा" ], "new_token": "बड़ा", "frequency": 29, "vocab_size": 1591, "learned_vocab_size": 1351, "compression_ratio": 1.1520372264777066, "example_words": [] }, { "step": 1352, "pair": [ "श", "पुर" ], "new_token": "शपुर", "frequency": 29, "vocab_size": 1592, "learned_vocab_size": 1352, "compression_ratio": 1.152100877779263, "example_words": [] }, { "step": 1353, "pair": [ "न्याया", "लय" ], "new_token": "न्यायालय", "frequency": 28, "vocab_size": 1593, "learned_vocab_size": 1353, "compression_ratio": 1.1521645361148145, "example_words": [] }, { "step": 1354, "pair": [ "उध", "मसिंह" ], "new_token": "उधमसिंह", "frequency": 28, "vocab_size": 1594, "learned_vocab_size": 1354, "compression_ratio": 1.1521645361148145, "example_words": [] }, { "step": 1355, "pair": [ "उधमसिंह", "नगर" ], "new_token": "उधमसिंहनगर", "frequency": 28, "vocab_size": 1595, "learned_vocab_size": 1355, "compression_ratio": 1.1521645361148145, "example_words": [] }, { "step": 1356, "pair": [ "हल्", "द्" ], "new_token": "हल्द्", "frequency": 28, "vocab_size": 1596, "learned_vocab_size": 1356, "compression_ratio": 1.1521645361148145, "example_words": [] }, { "step": 1357, "pair": [ "हल्द्", "वानी" ], "new_token": "हल्द्वानी", "frequency": 28, "vocab_size": 1597, "learned_vocab_size": 1357, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1358, "pair": [ "रु", "द्रपुर" ], "new_token": "रुद्रपुर", "frequency": 28, "vocab_size": 1598, "learned_vocab_size": 1358, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1359, "pair": [ "ऋष", "िके" ], "new_token": "ऋषिके", "frequency": 28, "vocab_size": 1599, "learned_vocab_size": 1359, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1360, "pair": [ "ऋषिके", "श" ], "new_token": "ऋषिकेश", "frequency": 28, "vocab_size": 1600, "learned_vocab_size": 1360, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1361, "pair": [ "ब", "द्री" ], "new_token": "बद्री", "frequency": 28, "vocab_size": 1601, "learned_vocab_size": 1361, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1362, "pair": [ "बद्री", "नाथ" ], "new_token": "बद्रीनाथ", "frequency": 28, "vocab_size": 1602, "learned_vocab_size": 1362, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1363, "pair": [ "जि", "म" ], "new_token": "जिम", "frequency": 28, "vocab_size": 1603, "learned_vocab_size": 1363, "compression_ratio": 1.1522220400131191, "example_words": [] }, { "step": 1364, "pair": [ "कौ", "सानी" ], "new_token": "कौसानी", "frequency": 28, "vocab_size": 1604, "learned_vocab_size": 1364, "compression_ratio": 1.152279549651686, "example_words": [] }, { "step": 1365, "pair": [ "हरी", "श" ], "new_token": "हरीश", "frequency": 28, "vocab_size": 1605, "learned_vocab_size": 1365, "compression_ratio": 1.152279549651686, "example_words": [] }, { "step": 1366, "pair": [ "सु", "मित्रा" ], "new_token": "सुमित्रा", "frequency": 28, "vocab_size": 1606, "learned_vocab_size": 1366, "compression_ratio": 1.152279549651686, "example_words": [] }, { "step": 1367, "pair": [ "कांग", "ड़ी" ], "new_token": "कांगड़ी", "frequency": 28, "vocab_size": 1607, "learned_vocab_size": 1367, "compression_ratio": 1.152279549651686, "example_words": [] }, { "step": 1368, "pair": [ "सम्", "मानित" ], "new_token": "सम्मानित", "frequency": 28, "vocab_size": 1608, "learned_vocab_size": 1368, "compression_ratio": 1.152337065031375, "example_words": [] }, { "step": 1369, "pair": [ "निर्", "देशित" ], "new_token": "निर्देशित", "frequency": 28, "vocab_size": 1609, "learned_vocab_size": 1369, "compression_ratio": 1.152337065031375, "example_words": [] }, { "step": 1370, "pair": [ "श", "क्ति" ], "new_token": "शक्ति", "frequency": 28, "vocab_size": 1610, "learned_vocab_size": 1370, "compression_ratio": 1.152337065031375, "example_words": [] }, { "step": 1371, "pair": [ "प", "पृ॰" ], "new_token": "पपृ॰", "frequency": 28, "vocab_size": 1611, "learned_vocab_size": 1371, "compression_ratio": 1.152337065031375, "example_words": [] }, { "step": 1372, "pair": [ "उ", "द्धरण" ], "new_token": "उद्धरण", "frequency": 28, "vocab_size": 1612, "learned_vocab_size": 1372, "compression_ratio": 1.1523945861530454, "example_words": [] }, { "step": 1373, "pair": [ "जनगण", "ना" ], "new_token": "जनगणना", "frequency": 28, "vocab_size": 1613, "learned_vocab_size": 1373, "compression_ratio": 1.1523945861530454, "example_words": [] }, { "step": 1374, "pair": [ "द", "श" ], "new_token": "दश", "frequency": 28, "vocab_size": 1614, "learned_vocab_size": 1374, "compression_ratio": 1.1523945861530454, "example_words": [] }, { "step": 1375, "pair": [ "जा", "ति" ], "new_token": "जाति", "frequency": 28, "vocab_size": 1615, "learned_vocab_size": 1375, "compression_ratio": 1.1524582769508345, "example_words": [] }, { "step": 1376, "pair": [ "ृ", "ंखला" ], "new_token": "ृंखला", "frequency": 28, "vocab_size": 1616, "learned_vocab_size": 1376, "compression_ratio": 1.1525486888814795, "example_words": [] }, { "step": 1377, "pair": [ "पी", "ठ" ], "new_token": "पीठ", "frequency": 28, "vocab_size": 1617, "learned_vocab_size": 1377, "compression_ratio": 1.1526185623628131, "example_words": [] }, { "step": 1378, "pair": [ "थ", "र" ], "new_token": "थर", "frequency": 28, "vocab_size": 1618, "learned_vocab_size": 1378, "compression_ratio": 1.1526761115915798, "example_words": [] }, { "step": 1379, "pair": [ "उपल", "ब्" ], "new_token": "उपलब्", "frequency": 28, "vocab_size": 1619, "learned_vocab_size": 1379, "compression_ratio": 1.1527377778570347, "example_words": [] }, { "step": 1380, "pair": [ "ख", "गड़िया" ], "new_token": "खगड़िया", "frequency": 28, "vocab_size": 1620, "learned_vocab_size": 1380, "compression_ratio": 1.1527377778570347, "example_words": [] }, { "step": 1381, "pair": [ "गा", "ड़िया" ], "new_token": "गाड़िया", "frequency": 28, "vocab_size": 1621, "learned_vocab_size": 1381, "compression_ratio": 1.1528035624798254, "example_words": [] }, { "step": 1382, "pair": [ "को", "सी" ], "new_token": "कोसी", "frequency": 28, "vocab_size": 1622, "learned_vocab_size": 1382, "compression_ratio": 1.152867298493674, "example_words": [] }, { "step": 1383, "pair": [ "औरंगा", "बाद" ], "new_token": "औरंगाबाद", "frequency": 28, "vocab_size": 1623, "learned_vocab_size": 1383, "compression_ratio": 1.152926928887248, "example_words": [] }, { "step": 1384, "pair": [ "फ", "तुहा" ], "new_token": "फतुहा", "frequency": 28, "vocab_size": 1624, "learned_vocab_size": 1384, "compression_ratio": 1.152926928887248, "example_words": [] }, { "step": 1385, "pair": [ "नागा", "लैण्ड" ], "new_token": "नागालैण्ड", "frequency": 28, "vocab_size": 1625, "learned_vocab_size": 1385, "compression_ratio": 1.1529845089138404, "example_words": [] }, { "step": 1386, "pair": [ "मि", "ज़ोरम" ], "new_token": "मिज़ोरम", "frequency": 28, "vocab_size": 1626, "learned_vocab_size": 1386, "compression_ratio": 1.1529845089138404, "example_words": [] }, { "step": 1387, "pair": [ "ह", "वेली" ], "new_token": "हवेली", "frequency": 28, "vocab_size": 1627, "learned_vocab_size": 1387, "compression_ratio": 1.153042094692098, "example_words": [] }, { "step": 1388, "pair": [ "द", "मन" ], "new_token": "दमन", "frequency": 28, "vocab_size": 1628, "learned_vocab_size": 1388, "compression_ratio": 1.1531058570852644, "example_words": [] }, { "step": 1389, "pair": [ "दी", "व" ], "new_token": "दीव", "frequency": 28, "vocab_size": 1629, "learned_vocab_size": 1389, "compression_ratio": 1.1531634549859247, "example_words": [] }, { "step": 1390, "pair": [ "आ", "प" ], "new_token": "आप", "frequency": 28, "vocab_size": 1630, "learned_vocab_size": 1390, "compression_ratio": 1.153262207632335, "example_words": [] }, { "step": 1391, "pair": [ "एक्स", "प्रेस" ], "new_token": "एक्सप्रेस", "frequency": 28, "vocab_size": 1631, "learned_vocab_size": 1391, "compression_ratio": 1.153393904140631, "example_words": [] }, { "step": 1392, "pair": [ "नाग", "पुर" ], "new_token": "नागपुर", "frequency": 28, "vocab_size": 1632, "learned_vocab_size": 1392, "compression_ratio": 1.153393904140631, "example_words": [] }, { "step": 1393, "pair": [ "हु", "बली" ], "new_token": "हुबली", "frequency": 28, "vocab_size": 1633, "learned_vocab_size": 1393, "compression_ratio": 1.1534515308216367, "example_words": [] }, { "step": 1394, "pair": [ "ड", "ू" ], "new_token": "डू", "frequency": 28, "vocab_size": 1634, "learned_vocab_size": 1394, "compression_ratio": 1.1534515308216367, "example_words": [] }, { "step": 1395, "pair": [ "आई", "सी" ], "new_token": "आईसी", "frequency": 28, "vocab_size": 1635, "learned_vocab_size": 1395, "compression_ratio": 1.1535091632613002, "example_words": [] }, { "step": 1396, "pair": [ "प्र", "धान" ], "new_token": "प्रधान", "frequency": 28, "vocab_size": 1636, "learned_vocab_size": 1396, "compression_ratio": 1.1535750359591548, "example_words": [] }, { "step": 1397, "pair": [ "राज", "धानी" ], "new_token": "राजधानी", "frequency": 28, "vocab_size": 1637, "learned_vocab_size": 1397, "compression_ratio": 1.1535750359591548, "example_words": [] }, { "step": 1398, "pair": [ "इंग्", "लैंड" ], "new_token": "इंग्लैंड", "frequency": 28, "vocab_size": 1638, "learned_vocab_size": 1398, "compression_ratio": 1.1535750359591548, "example_words": [] }, { "step": 1399, "pair": [ "शाह", "पुर" ], "new_token": "शाहपुर", "frequency": 28, "vocab_size": 1639, "learned_vocab_size": 1399, "compression_ratio": 1.1535750359591548, "example_words": [] }, { "step": 1400, "pair": [ "झी", "ल" ], "new_token": "झील", "frequency": 28, "vocab_size": 1640, "learned_vocab_size": 1400, "compression_ratio": 1.1536409161809376, "example_words": [] }, { "step": 1401, "pair": [ "न", "हर" ], "new_token": "नहर", "frequency": 28, "vocab_size": 1642, "learned_vocab_size": 1401, "compression_ratio": 1.1537170995682586, "example_words": [ "सुनहरी", "नहरौला", "सुनहरे" ] }, { "step": 1402, "pair": [ "ड", "ल" ], "new_token": "डल", "frequency": 28, "vocab_size": 1643, "learned_vocab_size": 1402, "compression_ratio": 1.1538427211778062, "example_words": [] }, { "step": 1403, "pair": [ "स्कोर", "कार्ड" ], "new_token": "स्कोरकार्ड", "frequency": 28, "vocab_size": 1644, "learned_vocab_size": 1403, "compression_ratio": 1.1539045123331393, "example_words": [] }, { "step": 1404, "pair": [ "द्दी", "नपुर" ], "new_token": "द्दीनपुर", "frequency": 28, "vocab_size": 1645, "learned_vocab_size": 1404, "compression_ratio": 1.1539045123331393, "example_words": [] }, { "step": 1405, "pair": [ "देहरादून", "इतिहास" ], "new_token": "देहरादूनइतिहास", "frequency": 27, "vocab_size": 1646, "learned_vocab_size": 1405, "compression_ratio": 1.1539704301939069, "example_words": [] }, { "step": 1406, "pair": [ "देहरादूनइतिहास", "पौराणिक" ], "new_token": "देहरादूनइतिहासपौराणिक", "frequency": 27, "vocab_size": 1647, "learned_vocab_size": 1406, "compression_ratio": 1.1540260542472494, "example_words": [] }, { "step": 1407, "pair": [ "मुज़", "्" ], "new_token": "मुज़्", "frequency": 27, "vocab_size": 1648, "learned_vocab_size": 1407, "compression_ratio": 1.1540260542472494, "example_words": [] }, { "step": 1408, "pair": [ "मुज़्", "ज़" ], "new_token": "मुज़्ज़", "frequency": 27, "vocab_size": 1649, "learned_vocab_size": 1408, "compression_ratio": 1.1540816836632672, "example_words": [] }, { "step": 1409, "pair": [ "मुज़्ज़", "फर" ], "new_token": "मुज़्ज़फर", "frequency": 27, "vocab_size": 1650, "learned_vocab_size": 1409, "compression_ratio": 1.1541373184427364, "example_words": [] }, { "step": 1410, "pair": [ "चि", "पको" ], "new_token": "चिपको", "frequency": 27, "vocab_size": 1651, "learned_vocab_size": 1410, "compression_ratio": 1.1541929585864321, "example_words": [] }, { "step": 1411, "pair": [ "अधिक", "भूगोल" ], "new_token": "अधिकभूगोल", "frequency": 27, "vocab_size": 1652, "learned_vocab_size": 1411, "compression_ratio": 1.1541929585864321, "example_words": [] }, { "step": 1412, "pair": [ "अधिकभूगोल", "हिमालय" ], "new_token": "अधिकभूगोलहिमालय", "frequency": 27, "vocab_size": 1653, "learned_vocab_size": 1412, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1413, "pair": [ "बु", "ग्या" ], "new_token": "बुग्या", "frequency": 27, "vocab_size": 1654, "learned_vocab_size": 1413, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1414, "pair": [ "बुग्या", "ल" ], "new_token": "बुग्याल", "frequency": 27, "vocab_size": 1655, "learned_vocab_size": 1414, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1415, "pair": [ "अधिक", "सरकार" ], "new_token": "अधिकसरकार", "frequency": 27, "vocab_size": 1656, "learned_vocab_size": 1415, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1416, "pair": [ "राजनीति", "सरकार" ], "new_token": "राजनीतिसरकार", "frequency": 27, "vocab_size": 1657, "learned_vocab_size": 1416, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1417, "pair": [ "उ", "क्रा" ], "new_token": "उक्रा", "frequency": 27, "vocab_size": 1658, "learned_vocab_size": 1417, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1418, "pair": [ "उक्रा", "द" ], "new_token": "उक्राद", "frequency": 27, "vocab_size": 1659, "learned_vocab_size": 1418, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1419, "pair": [ "अधिक", "जिले" ], "new_token": "अधिकजिले", "frequency": 27, "vocab_size": 1660, "learned_vocab_size": 1419, "compression_ratio": 1.1542486040951305, "example_words": [] }, { "step": 1420, "pair": [ "अधिकजिले", "अल्मोड़ा" ], "new_token": "अधिकजिलेअल्मोड़ा", "frequency": 27, "vocab_size": 1661, "learned_vocab_size": 1420, "compression_ratio": 1.1543042549696074, "example_words": [] }, { "step": 1421, "pair": [ "टि", "हरी" ], "new_token": "टिहरी", "frequency": 27, "vocab_size": 1662, "learned_vocab_size": 1421, "compression_ratio": 1.1543042549696074, "example_words": [] }, { "step": 1422, "pair": [ "रू", "द्र" ], "new_token": "रूद्र", "frequency": 27, "vocab_size": 1663, "learned_vocab_size": 1422, "compression_ratio": 1.1543042549696074, "example_words": [] }, { "step": 1423, "pair": [ "रूद्र", "प्रयाग" ], "new_token": "रूद्रप्रयाग", "frequency": 27, "vocab_size": 1664, "learned_vocab_size": 1423, "compression_ratio": 1.1543042549696074, "example_words": [] }, { "step": 1424, "pair": [ "अधिक", "नगर" ], "new_token": "अधिकनगर", "frequency": 27, "vocab_size": 1665, "learned_vocab_size": 1424, "compression_ratio": 1.1543042549696074, "example_words": [] }, { "step": 1425, "pair": [ "अधिकनगर", "देहरादून" ], "new_token": "अधिकनगरदेहरादून", "frequency": 27, "vocab_size": 1666, "learned_vocab_size": 1425, "compression_ratio": 1.154359911210639, "example_words": [] }, { "step": 1426, "pair": [ "कोट", "द्वार" ], "new_token": "कोटद्वार", "frequency": 27, "vocab_size": 1667, "learned_vocab_size": 1426, "compression_ratio": 1.154359911210639, "example_words": [] }, { "step": 1427, "pair": [ "तीर्", "था" ], "new_token": "तीर्था", "frequency": 27, "vocab_size": 1668, "learned_vocab_size": 1427, "compression_ratio": 1.154359911210639, "example_words": [] }, { "step": 1428, "pair": [ "तीर्था", "टन" ], "new_token": "तीर्थाटन", "frequency": 27, "vocab_size": 1669, "learned_vocab_size": 1428, "compression_ratio": 1.1544155728190018, "example_words": [] }, { "step": 1429, "pair": [ "तीर्थाटन", "छोटा" ], "new_token": "तीर्थाटनछोटा", "frequency": 27, "vocab_size": 1670, "learned_vocab_size": 1429, "compression_ratio": 1.154471239795472, "example_words": [] }, { "step": 1430, "pair": [ "चार", "धाम" ], "new_token": "चारधाम", "frequency": 27, "vocab_size": 1671, "learned_vocab_size": 1430, "compression_ratio": 1.1545269121408261, "example_words": [] }, { "step": 1431, "pair": [ "गंगो", "त्री" ], "new_token": "गंगोत्री", "frequency": 27, "vocab_size": 1672, "learned_vocab_size": 1431, "compression_ratio": 1.1545269121408261, "example_words": [] }, { "step": 1432, "pair": [ "यमुनो", "त्री" ], "new_token": "यमुनोत्री", "frequency": 27, "vocab_size": 1673, "learned_vocab_size": 1432, "compression_ratio": 1.1545269121408261, "example_words": [] }, { "step": 1433, "pair": [ "हेमकु", "ण्ड" ], "new_token": "हेमकुण्ड", "frequency": 27, "vocab_size": 1674, "learned_vocab_size": 1433, "compression_ratio": 1.1545269121408261, "example_words": [] }, { "step": 1434, "pair": [ "औ", "ली" ], "new_token": "औली", "frequency": 27, "vocab_size": 1675, "learned_vocab_size": 1434, "compression_ratio": 1.1545269121408261, "example_words": [] }, { "step": 1435, "pair": [ "मुन", "स्यारी" ], "new_token": "मुनस्यारी", "frequency": 27, "vocab_size": 1676, "learned_vocab_size": 1435, "compression_ratio": 1.1545825898558413, "example_words": [] }, { "step": 1436, "pair": [ "अधिक", "संस्कृति" ], "new_token": "अधिकसंस्कृति", "frequency": 27, "vocab_size": 1677, "learned_vocab_size": 1436, "compression_ratio": 1.1545825898558413, "example_words": [] }, { "step": 1437, "pair": [ "भाषाएँ", "कुमाऊँनी" ], "new_token": "भाषाएँकुमाऊँनी", "frequency": 27, "vocab_size": 1678, "learned_vocab_size": 1437, "compression_ratio": 1.1545825898558413, "example_words": [] }, { "step": 1438, "pair": [ "दि", "वाली" ], "new_token": "दिवाली", "frequency": 27, "vocab_size": 1679, "learned_vocab_size": 1438, "compression_ratio": 1.154638272941294, "example_words": [] }, { "step": 1439, "pair": [ "उत्तराय", "णी" ], "new_token": "उत्तरायणी", "frequency": 27, "vocab_size": 1680, "learned_vocab_size": 1439, "compression_ratio": 1.154638272941294, "example_words": [] }, { "step": 1440, "pair": [ "महा", "कुम्भ" ], "new_token": "महाकुम्भ", "frequency": 27, "vocab_size": 1681, "learned_vocab_size": 1440, "compression_ratio": 1.154638272941294, "example_words": [] }, { "step": 1441, "pair": [ "अधिकलोग", "हेम" ], "new_token": "अधिकलोगहेम", "frequency": 27, "vocab_size": 1682, "learned_vocab_size": 1441, "compression_ratio": 1.154638272941294, "example_words": [] }, { "step": 1442, "pair": [ "अधिकलोगहेम", "वन्ती" ], "new_token": "अधिकलोगहेमवन्ती", "frequency": 27, "vocab_size": 1683, "learned_vocab_size": 1442, "compression_ratio": 1.154638272941294, "example_words": [] }, { "step": 1443, "pair": [ "र", "स्" ], "new_token": "रस्", "frequency": 27, "vocab_size": 1684, "learned_vocab_size": 1443, "compression_ratio": 1.154638272941294, "example_words": [] }, { "step": 1444, "pair": [ "रस्", "किन" ], "new_token": "रस्किन", "frequency": 27, "vocab_size": 1685, "learned_vocab_size": 1444, "compression_ratio": 1.15482392202261, "example_words": [] }, { "step": 1445, "pair": [ "बॉ", "ण्ड" ], "new_token": "बॉण्ड", "frequency": 27, "vocab_size": 1686, "learned_vocab_size": 1445, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1446, "pair": [ "अधिक", "शिक्षा" ], "new_token": "अधिकशिक्षा", "frequency": 27, "vocab_size": 1687, "learned_vocab_size": 1446, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1447, "pair": [ "अधिकशिक्षा", "भारतीय" ], "new_token": "अधिकशिक्षाभारतीय", "frequency": 27, "vocab_size": 1688, "learned_vocab_size": 1447, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1448, "pair": [ "हेम", "वती" ], "new_token": "हेमवती", "frequency": 27, "vocab_size": 1689, "learned_vocab_size": 1448, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1449, "pair": [ "पेट्रो", "लियम" ], "new_token": "पेट्रोलियम", "frequency": 27, "vocab_size": 1690, "learned_vocab_size": 1449, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1450, "pair": [ "केंब्रि", "ज" ], "new_token": "केंब्रिज", "frequency": 27, "vocab_size": 1691, "learned_vocab_size": 1450, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1451, "pair": [ "अधिक", "सम्बन्धित" ], "new_token": "अधिकसम्बन्धित", "frequency": 27, "vocab_size": 1692, "learned_vocab_size": 1451, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1452, "pair": [ "विषय", "उत्तराखण्ड" ], "new_token": "विषयउत्तराखण्ड", "frequency": 27, "vocab_size": 1693, "learned_vocab_size": 1452, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1453, "pair": [ "प्रदेश", "द्वार" ], "new_token": "प्रदेशद्वार", "frequency": 27, "vocab_size": 1694, "learned_vocab_size": 1453, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1454, "pair": [ "र", "क्षा" ], "new_token": "रक्षा", "frequency": 27, "vocab_size": 1695, "learned_vocab_size": 1454, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1455, "pair": [ "समस्या", "ओं" ], "new_token": "समस्याओं", "frequency": 27, "vocab_size": 1696, "learned_vocab_size": 1455, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1456, "pair": [ "पर्या", "प्त" ], "new_token": "पर्याप्त", "frequency": 27, "vocab_size": 1697, "learned_vocab_size": 1456, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1457, "pair": [ "प्रभा", "व" ], "new_token": "प्रभाव", "frequency": 27, "vocab_size": 1698, "learned_vocab_size": 1457, "compression_ratio": 1.154879628388941, "example_words": [] }, { "step": 1458, "pair": [ "ब", "ड़े" ], "new_token": "बड़े", "frequency": 27, "vocab_size": 1699, "learned_vocab_size": 1458, "compression_ratio": 1.1548816916909048, "example_words": [] }, { "step": 1459, "pair": [ "ह", "ॉ" ], "new_token": "हॉ", "frequency": 27, "vocab_size": 1700, "learned_vocab_size": 1459, "compression_ratio": 1.1549518483446193, "example_words": [] }, { "step": 1460, "pair": [ "महत्व", "पूर्ण" ], "new_token": "महत्वपूर्ण", "frequency": 27, "vocab_size": 1701, "learned_vocab_size": 1460, "compression_ratio": 1.155019949719203, "example_words": [] }, { "step": 1461, "pair": [ "सहर", "सा" ], "new_token": "सहरसा", "frequency": 27, "vocab_size": 1702, "learned_vocab_size": 1461, "compression_ratio": 1.1550756749995532, "example_words": [] }, { "step": 1462, "pair": [ "अ", "ड" ], "new_token": "अड", "frequency": 27, "vocab_size": 1703, "learned_vocab_size": 1462, "compression_ratio": 1.1550756749995532, "example_words": [] }, { "step": 1463, "pair": [ "ओडि", "शा" ], "new_token": "ओडिशा", "frequency": 27, "vocab_size": 1704, "learned_vocab_size": 1463, "compression_ratio": 1.155220172993066, "example_words": [] }, { "step": 1464, "pair": [ "त्रि", "पुरा" ], "new_token": "त्रिपुरा", "frequency": 27, "vocab_size": 1705, "learned_vocab_size": 1464, "compression_ratio": 1.1552821117723804, "example_words": [] }, { "step": 1465, "pair": [ "लद्दा", "ख" ], "new_token": "लद्दाख", "frequency": 27, "vocab_size": 1706, "learned_vocab_size": 1465, "compression_ratio": 1.1552821117723804, "example_words": [] }, { "step": 1466, "pair": [ "ए", "ं" ], "new_token": "एं", "frequency": 27, "vocab_size": 1707, "learned_vocab_size": 1466, "compression_ratio": 1.155337862352838, "example_words": [] }, { "step": 1467, "pair": [ "याद", "व" ], "new_token": "यादव", "frequency": 27, "vocab_size": 1708, "learned_vocab_size": 1467, "compression_ratio": 1.1554390530767498, "example_words": [] }, { "step": 1468, "pair": [ "श्र", "म" ], "new_token": "श्रम", "frequency": 27, "vocab_size": 1709, "learned_vocab_size": 1468, "compression_ratio": 1.1555010153300538, "example_words": [] }, { "step": 1469, "pair": [ "बि", "लासपुर" ], "new_token": "बिलासपुर", "frequency": 27, "vocab_size": 1710, "learned_vocab_size": 1469, "compression_ratio": 1.1555010153300538, "example_words": [] }, { "step": 1470, "pair": [ "ए", "ग्" ], "new_token": "एग्", "frequency": 27, "vocab_size": 1711, "learned_vocab_size": 1470, "compression_ratio": 1.155556787040331, "example_words": [] }, { "step": 1471, "pair": [ "एग्", "मोर" ], "new_token": "एग्मोर", "frequency": 27, "vocab_size": 1712, "learned_vocab_size": 1471, "compression_ratio": 1.1556228938170963, "example_words": [] }, { "step": 1472, "pair": [ "क", "न" ], "new_token": "कन", "frequency": 27, "vocab_size": 1713, "learned_vocab_size": 1472, "compression_ratio": 1.1556228938170963, "example_words": [] }, { "step": 1473, "pair": [ "ला", "पुर" ], "new_token": "लापुर", "frequency": 27, "vocab_size": 1714, "learned_vocab_size": 1473, "compression_ratio": 1.155579510391751, "example_words": [] }, { "step": 1474, "pair": [ "पा", "त" ], "new_token": "पात", "frequency": 27, "vocab_size": 1715, "learned_vocab_size": 1474, "compression_ratio": 1.1556456197685188, "example_words": [] }, { "step": 1475, "pair": [ "मा", "इ" ], "new_token": "माइ", "frequency": 27, "vocab_size": 1716, "learned_vocab_size": 1475, "compression_ratio": 1.1557406652506312, "example_words": [] }, { "step": 1476, "pair": [ "उपनगरी", "य" ], "new_token": "उपनगरीय", "frequency": 27, "vocab_size": 1717, "learned_vocab_size": 1476, "compression_ratio": 1.155837793087664, "example_words": [] }, { "step": 1477, "pair": [ "इंजी", "नि" ], "new_token": "इंजीनि", "frequency": 27, "vocab_size": 1718, "learned_vocab_size": 1477, "compression_ratio": 1.155837793087664, "example_words": [] }, { "step": 1478, "pair": [ "खे", "ल" ], "new_token": "खेल", "frequency": 27, "vocab_size": 1719, "learned_vocab_size": 1478, "compression_ratio": 1.155837793087664, "example_words": [] }, { "step": 1479, "pair": [ "जहा", "ँ" ], "new_token": "जहाँ", "frequency": 27, "vocab_size": 1720, "learned_vocab_size": 1479, "compression_ratio": 1.1559204679366475, "example_words": [] }, { "step": 1480, "pair": [ "स्", "ना" ], "new_token": "स्ना", "frequency": 27, "vocab_size": 1721, "learned_vocab_size": 1480, "compression_ratio": 1.155980414598206, "example_words": [] }, { "step": 1481, "pair": [ "ल", "ंद" ], "new_token": "लंद", "frequency": 27, "vocab_size": 1722, "learned_vocab_size": 1481, "compression_ratio": 1.1560486373285594, "example_words": [] }, { "step": 1482, "pair": [ "डि", "वी" ], "new_token": "डिवी", "frequency": 27, "vocab_size": 1723, "learned_vocab_size": 1482, "compression_ratio": 1.15616649555895, "example_words": [] }, { "step": 1483, "pair": [ "वि", "जे" ], "new_token": "विजे", "frequency": 27, "vocab_size": 1724, "learned_vocab_size": 1483, "compression_ratio": 1.156222331529759, "example_words": [] }, { "step": 1484, "pair": [ "च", "ो" ], "new_token": "चो", "frequency": 27, "vocab_size": 1725, "learned_vocab_size": 1484, "compression_ratio": 1.1563009246257403, "example_words": [] }, { "step": 1485, "pair": [ "एस", "॰" ], "new_token": "एस॰", "frequency": 27, "vocab_size": 1726, "learned_vocab_size": 1485, "compression_ratio": 1.1563815970719036, "example_words": [] }, { "step": 1486, "pair": [ "यूनि", "वर्सिटी" ], "new_token": "यूनिवर्सिटी", "frequency": 27, "vocab_size": 1727, "learned_vocab_size": 1486, "compression_ratio": 1.1564395226935256, "example_words": [] }, { "step": 1487, "pair": [ "ड़", "ि" ], "new_token": "ड़ि", "frequency": 27, "vocab_size": 1728, "learned_vocab_size": 1487, "compression_ratio": 1.1564395226935256, "example_words": [] }, { "step": 1488, "pair": [ "विधा", "यक" ], "new_token": "विधायक", "frequency": 26, "vocab_size": 1729, "learned_vocab_size": 1488, "compression_ratio": 1.1548445533835232, "example_words": [] }, { "step": 1489, "pair": [ "दा", "ल" ], "new_token": "दाल", "frequency": 26, "vocab_size": 1730, "learned_vocab_size": 1489, "compression_ratio": 1.1548445533835232, "example_words": [] }, { "step": 1490, "pair": [ "अच्छ", "ी" ], "new_token": "अच्छी", "frequency": 26, "vocab_size": 1731, "learned_vocab_size": 1490, "compression_ratio": 1.154906451889543, "example_words": [] }, { "step": 1491, "pair": [ "प्र", "क्रिया" ], "new_token": "प्रक्रिया", "frequency": 26, "vocab_size": 1732, "learned_vocab_size": 1491, "compression_ratio": 1.154962166218498, "example_words": [] }, { "step": 1492, "pair": [ "ष", "ण" ], "new_token": "षण", "frequency": 26, "vocab_size": 1733, "learned_vocab_size": 1492, "compression_ratio": 1.154962166218498, "example_words": [] }, { "step": 1493, "pair": [ "शरी", "र" ], "new_token": "शरीर", "frequency": 26, "vocab_size": 1734, "learned_vocab_size": 1493, "compression_ratio": 1.1550591632448117, "example_words": [] }, { "step": 1494, "pair": [ "कर", "के" ], "new_token": "करके", "frequency": 26, "vocab_size": 1735, "learned_vocab_size": 1494, "compression_ratio": 1.1551169564518147, "example_words": [] }, { "step": 1495, "pair": [ "वे", "द" ], "new_token": "वेद", "frequency": 26, "vocab_size": 1736, "learned_vocab_size": 1495, "compression_ratio": 1.1551706267513009, "example_words": [] }, { "step": 1496, "pair": [ "ल्", "तान" ], "new_token": "ल्तान", "frequency": 26, "vocab_size": 1737, "learned_vocab_size": 1496, "compression_ratio": 1.1552304956617312, "example_words": [] }, { "step": 1497, "pair": [ "अव", "ध" ], "new_token": "अवध", "frequency": 26, "vocab_size": 1738, "learned_vocab_size": 1497, "compression_ratio": 1.1552304956617312, "example_words": [] }, { "step": 1498, "pair": [ "या", "ँ" ], "new_token": "याँ", "frequency": 26, "vocab_size": 1739, "learned_vocab_size": 1498, "compression_ratio": 1.155296565109924, "example_words": [] }, { "step": 1499, "pair": [ "ति", "रहु" ], "new_token": "तिरहु", "frequency": 26, "vocab_size": 1740, "learned_vocab_size": 1499, "compression_ratio": 1.1560155586354899, "example_words": [] }, { "step": 1500, "pair": [ "तिरहु", "त" ], "new_token": "तिरहुत", "frequency": 26, "vocab_size": 1741, "learned_vocab_size": 1500, "compression_ratio": 1.1560155586354899, "example_words": [] }, { "step": 1501, "pair": [ "वै", "शाली" ], "new_token": "वैशाली", "frequency": 26, "vocab_size": 1746, "learned_vocab_size": 1501, "compression_ratio": 1.1560155586354899, "example_words": [ "वैशालीअंतर्राष्ट्रीय", "वैशाली" ] }, { "step": 1502, "pair": [ "राज्यक्षेत्र", "राज्य" ], "new_token": "राज्यक्षेत्रराज्य", "frequency": 26, "vocab_size": 1747, "learned_vocab_size": 1502, "compression_ratio": 1.1560693124730617, "example_words": [] }, { "step": 1503, "pair": [ "च", "ण्डी" ], "new_token": "चण्डी", "frequency": 26, "vocab_size": 1748, "learned_vocab_size": 1503, "compression_ratio": 1.1560693124730617, "example_words": [] }, { "step": 1504, "pair": [ "चण्डी", "गढ़" ], "new_token": "चण्डीगढ़", "frequency": 26, "vocab_size": 1749, "learned_vocab_size": 1504, "compression_ratio": 1.1560693124730617, "example_words": [] }, { "step": 1505, "pair": [ "दा", "दरा" ], "new_token": "दादरा", "frequency": 26, "vocab_size": 1750, "learned_vocab_size": 1505, "compression_ratio": 1.1560693124730617, "example_words": [] }, { "step": 1506, "pair": [ "राज", "धानियाँ" ], "new_token": "राजधानियाँ", "frequency": 26, "vocab_size": 1751, "learned_vocab_size": 1506, "compression_ratio": 1.1560693124730617, "example_words": [] }, { "step": 1507, "pair": [ "गि", "रि" ], "new_token": "गिरि", "frequency": 26, "vocab_size": 1752, "learned_vocab_size": 1507, "compression_ratio": 1.1560693124730617, "example_words": [] }, { "step": 1508, "pair": [ "मा", "बाद" ], "new_token": "माबाद", "frequency": 26, "vocab_size": 1753, "learned_vocab_size": 1508, "compression_ratio": 1.1561251390573077, "example_words": [] }, { "step": 1509, "pair": [ "को", "ल्" ], "new_token": "कोल्", "frequency": 26, "vocab_size": 1754, "learned_vocab_size": 1509, "compression_ratio": 1.1561913108801802, "example_words": [] }, { "step": 1510, "pair": [ "ह", "टिया" ], "new_token": "हटिया", "frequency": 26, "vocab_size": 1755, "learned_vocab_size": 1510, "compression_ratio": 1.1562450810640643, "example_words": [] }, { "step": 1511, "pair": [ "ए", "फ" ], "new_token": "एफ", "frequency": 26, "vocab_size": 1756, "learned_vocab_size": 1511, "compression_ratio": 1.1562450810640643, "example_words": [] }, { "step": 1512, "pair": [ "ज", "ॉन" ], "new_token": "जॉन", "frequency": 26, "vocab_size": 1757, "learned_vocab_size": 1512, "compression_ratio": 1.1563464307755607, "example_words": [] }, { "step": 1513, "pair": [ "न", "ंद" ], "new_token": "नंद", "frequency": 26, "vocab_size": 1758, "learned_vocab_size": 1513, "compression_ratio": 1.1564043528740382, "example_words": [] }, { "step": 1514, "pair": [ "व", "ॉ" ], "new_token": "वॉ", "frequency": 26, "vocab_size": 1759, "learned_vocab_size": 1514, "compression_ratio": 1.156578153990943, "example_words": [] }, { "step": 1515, "pair": [ "प", "ण" ], "new_token": "पण", "frequency": 26, "vocab_size": 1760, "learned_vocab_size": 1515, "compression_ratio": 1.1566464472954354, "example_words": [] }, { "step": 1516, "pair": [ "प्र", "साद" ], "new_token": "प्रसाद", "frequency": 25, "vocab_size": 1761, "learned_vocab_size": 1516, "compression_ratio": 1.1567147486655323, "example_words": [] }, { "step": 1517, "pair": [ "भा", "ई" ], "new_token": "भाई", "frequency": 25, "vocab_size": 1762, "learned_vocab_size": 1517, "compression_ratio": 1.1567147486655323, "example_words": [] }, { "step": 1518, "pair": [ "श्रे", "ष्ठ" ], "new_token": "श्रेष्ठ", "frequency": 25, "vocab_size": 1763, "learned_vocab_size": 1518, "compression_ratio": 1.1567954788671397, "example_words": [] }, { "step": 1519, "pair": [ "म", "ृत्यु" ], "new_token": "मृत्यु", "frequency": 25, "vocab_size": 1764, "learned_vocab_size": 1519, "compression_ratio": 1.1567954788671397, "example_words": [] }, { "step": 1520, "pair": [ "कि", "ए" ], "new_token": "किए", "frequency": 25, "vocab_size": 1765, "learned_vocab_size": 1520, "compression_ratio": 1.1567954788671397, "example_words": [] }, { "step": 1521, "pair": [ "समस्या", "एँ" ], "new_token": "समस्याएँ", "frequency": 25, "vocab_size": 1766, "learned_vocab_size": 1521, "compression_ratio": 1.1568534459616657, "example_words": [] }, { "step": 1522, "pair": [ "परिच", "य" ], "new_token": "परिचय", "frequency": 25, "vocab_size": 1767, "learned_vocab_size": 1522, "compression_ratio": 1.1568534459616657, "example_words": [] }, { "step": 1523, "pair": [ "ण", "ु" ], "new_token": "णु", "frequency": 25, "vocab_size": 1768, "learned_vocab_size": 1523, "compression_ratio": 1.1569238423871022, "example_words": [] }, { "step": 1524, "pair": [ "ँ", "च" ], "new_token": "ँच", "frequency": 25, "vocab_size": 1769, "learned_vocab_size": 1524, "compression_ratio": 1.1569818223472725, "example_words": [] }, { "step": 1525, "pair": [ "ला", "ह" ], "new_token": "लाह", "frequency": 25, "vocab_size": 1770, "learned_vocab_size": 1525, "compression_ratio": 1.1570460212251443, "example_words": [] }, { "step": 1526, "pair": [ "मी", "डिया" ], "new_token": "मीडिया", "frequency": 25, "vocab_size": 1771, "learned_vocab_size": 1526, "compression_ratio": 1.157118512392552, "example_words": [] }, { "step": 1527, "pair": [ "वु", "ड" ], "new_token": "वुड", "frequency": 25, "vocab_size": 1772, "learned_vocab_size": 1527, "compression_ratio": 1.157118512392552, "example_words": [] }, { "step": 1528, "pair": [ "दश", "क" ], "new_token": "दशक", "frequency": 25, "vocab_size": 1773, "learned_vocab_size": 1528, "compression_ratio": 1.1571744403569542, "example_words": [] }, { "step": 1529, "pair": [ "सा", "ंस्कृतिक" ], "new_token": "सांस्कृतिक", "frequency": 25, "vocab_size": 1774, "learned_vocab_size": 1529, "compression_ratio": 1.1572262303299379, "example_words": [] }, { "step": 1530, "pair": [ "त", "पुर" ], "new_token": "तपुर", "frequency": 25, "vocab_size": 1775, "learned_vocab_size": 1530, "compression_ratio": 1.1572262303299379, "example_words": [] }, { "step": 1531, "pair": [ "ज", "मु" ], "new_token": "जमु", "frequency": 25, "vocab_size": 1776, "learned_vocab_size": 1531, "compression_ratio": 1.1575039036199808, "example_words": [] }, { "step": 1532, "pair": [ "भो", "जपुर" ], "new_token": "भोजपुर", "frequency": 25, "vocab_size": 1777, "learned_vocab_size": 1532, "compression_ratio": 1.157566087538904, "example_words": [] }, { "step": 1533, "pair": [ "अर्", "जु" ], "new_token": "अर्जु", "frequency": 25, "vocab_size": 1778, "learned_vocab_size": 1533, "compression_ratio": 1.1577153562077105, "example_words": [] }, { "step": 1534, "pair": [ "शा", "ंति" ], "new_token": "शांति", "frequency": 25, "vocab_size": 1779, "learned_vocab_size": 1534, "compression_ratio": 1.1577153562077105, "example_words": [] }, { "step": 1535, "pair": [ "न्दा", "वन" ], "new_token": "न्दावन", "frequency": 25, "vocab_size": 1780, "learned_vocab_size": 1535, "compression_ratio": 1.1577153562077105, "example_words": [] }, { "step": 1536, "pair": [ "द्दी", "न" ], "new_token": "द्दीन", "frequency": 25, "vocab_size": 1781, "learned_vocab_size": 1536, "compression_ratio": 1.1577153562077105, "example_words": [] }, { "step": 1537, "pair": [ "ले", "ने" ], "new_token": "लेने", "frequency": 25, "vocab_size": 1782, "learned_vocab_size": 1537, "compression_ratio": 1.157700842286621, "example_words": [] }, { "step": 1538, "pair": [ "नि", "वा" ], "new_token": "निवा", "frequency": 25, "vocab_size": 1783, "learned_vocab_size": 1538, "compression_ratio": 1.157752679390188, "example_words": [] }, { "step": 1539, "pair": [ "सहा", "यता" ], "new_token": "सहायता", "frequency": 25, "vocab_size": 1784, "learned_vocab_size": 1539, "compression_ratio": 1.1578107424575683, "example_words": [] }, { "step": 1540, "pair": [ "लेख", "क" ], "new_token": "लेखक", "frequency": 25, "vocab_size": 1785, "learned_vocab_size": 1540, "compression_ratio": 1.1578107424575683, "example_words": [] }, { "step": 1541, "pair": [ "पु", "लिस" ], "new_token": "पुलिस", "frequency": 25, "vocab_size": 1786, "learned_vocab_size": 1541, "compression_ratio": 1.157889551650635, "example_words": [] }, { "step": 1542, "pair": [ "प्रति", "योगिता" ], "new_token": "प्रतियोगिता", "frequency": 25, "vocab_size": 1787, "learned_vocab_size": 1542, "compression_ratio": 1.157941405655223, "example_words": [] }, { "step": 1543, "pair": [ "ध", "ो" ], "new_token": "धो", "frequency": 25, "vocab_size": 1788, "learned_vocab_size": 1543, "compression_ratio": 1.157941405655223, "example_words": [] }, { "step": 1544, "pair": [ "मेर", "ठ" ], "new_token": "मेरठ", "frequency": 25, "vocab_size": 1789, "learned_vocab_size": 1544, "compression_ratio": 1.158007785558559, "example_words": [] }, { "step": 1545, "pair": [ "विजे", "ता" ], "new_token": "विजेता", "frequency": 25, "vocab_size": 1790, "learned_vocab_size": 1545, "compression_ratio": 1.1580596501537117, "example_words": [] }, { "step": 1546, "pair": [ "ओ", "पन" ], "new_token": "ओपन", "frequency": 25, "vocab_size": 1791, "learned_vocab_size": 1546, "compression_ratio": 1.1581384932365852, "example_words": [] }, { "step": 1547, "pair": [ "प्रती", "क" ], "new_token": "प्रतीक", "frequency": 25, "vocab_size": 1792, "learned_vocab_size": 1547, "compression_ratio": 1.1581924446897105, "example_words": [] }, { "step": 1548, "pair": [ "डिवी", "जन" ], "new_token": "डिवीजन", "frequency": 25, "vocab_size": 1793, "learned_vocab_size": 1548, "compression_ratio": 1.1581924446897105, "example_words": [] }, { "step": 1549, "pair": [ "य", "़" ], "new_token": "य़", "frequency": 25, "vocab_size": 1794, "learned_vocab_size": 1549, "compression_ratio": 1.1582464011696871, "example_words": [] }, { "step": 1550, "pair": [ "फिल्", "टर" ], "new_token": "फिल्टर", "frequency": 25, "vocab_size": 1795, "learned_vocab_size": 1550, "compression_ratio": 1.1583003626772173, "example_words": [] }, { "step": 1551, "pair": [ "संस्", "करण" ], "new_token": "संस्करण", "frequency": 24, "vocab_size": 1796, "learned_vocab_size": 1551, "compression_ratio": 1.158370935312649, "example_words": [] }, { "step": 1552, "pair": [ "खा", "द्य" ], "new_token": "खाद्य", "frequency": 24, "vocab_size": 1797, "learned_vocab_size": 1552, "compression_ratio": 1.158370935312649, "example_words": [] }, { "step": 1553, "pair": [ "वर्ष", "ों" ], "new_token": "वर्षों", "frequency": 24, "vocab_size": 1798, "learned_vocab_size": 1553, "compression_ratio": 1.158370935312649, "example_words": [] }, { "step": 1554, "pair": [ "ई", "सा" ], "new_token": "ईसा", "frequency": 24, "vocab_size": 1799, "learned_vocab_size": 1554, "compression_ratio": 1.158370935312649, "example_words": [] }, { "step": 1555, "pair": [ "मू", "वी" ], "new_token": "मूवी", "frequency": 24, "vocab_size": 1800, "learned_vocab_size": 1555, "compression_ratio": 1.1584249084249085, "example_words": [] }, { "step": 1556, "pair": [ "लि", "ंग" ], "new_token": "लिंग", "frequency": 24, "vocab_size": 1801, "learned_vocab_size": 1556, "compression_ratio": 1.158474734223675, "example_words": [] }, { "step": 1557, "pair": [ "प", "ड़" ], "new_token": "पड़", "frequency": 24, "vocab_size": 1802, "learned_vocab_size": 1557, "compression_ratio": 1.1585494809589356, "example_words": [] }, { "step": 1558, "pair": [ "अंग्रे", "जी" ], "new_token": "अंग्रेजी", "frequency": 24, "vocab_size": 1803, "learned_vocab_size": 1558, "compression_ratio": 1.1585993174746563, "example_words": [] }, { "step": 1559, "pair": [ "शरी", "फ" ], "new_token": "शरीफ", "frequency": 24, "vocab_size": 1804, "learned_vocab_size": 1559, "compression_ratio": 1.1585993174746563, "example_words": [] }, { "step": 1560, "pair": [ "ध्", "व" ], "new_token": "ध्व", "frequency": 24, "vocab_size": 1805, "learned_vocab_size": 1560, "compression_ratio": 1.1586491582781266, "example_words": [] }, { "step": 1561, "pair": [ "भग", "वान" ], "new_token": "भगवान", "frequency": 24, "vocab_size": 1806, "learned_vocab_size": 1561, "compression_ratio": 1.1587156193535435, "example_words": [] }, { "step": 1562, "pair": [ "बरा", "बर" ], "new_token": "बराबर", "frequency": 24, "vocab_size": 1807, "learned_vocab_size": 1562, "compression_ratio": 1.1587156193535435, "example_words": [] }, { "step": 1563, "pair": [ "अर", "रिया" ], "new_token": "अररिया", "frequency": 24, "vocab_size": 1808, "learned_vocab_size": 1563, "compression_ratio": 1.1587156193535435, "example_words": [] }, { "step": 1564, "pair": [ "मध", "े" ], "new_token": "मधे", "frequency": 24, "vocab_size": 1809, "learned_vocab_size": 1564, "compression_ratio": 1.1587156193535435, "example_words": [] }, { "step": 1565, "pair": [ "ह", "वाई" ], "new_token": "हवाई", "frequency": 24, "vocab_size": 1810, "learned_vocab_size": 1565, "compression_ratio": 1.1587654701639156, "example_words": [] }, { "step": 1566, "pair": [ "वि", "मान" ], "new_token": "विमान", "frequency": 24, "vocab_size": 1811, "learned_vocab_size": 1566, "compression_ratio": 1.1588984266310973, "example_words": [] }, { "step": 1567, "pair": [ "अध्य", "यन" ], "new_token": "अध्ययन", "frequency": 24, "vocab_size": 1812, "learned_vocab_size": 1567, "compression_ratio": 1.1588984266310973, "example_words": [] }, { "step": 1568, "pair": [ "कृष्", "ण" ], "new_token": "कृष्ण", "frequency": 24, "vocab_size": 1813, "learned_vocab_size": 1568, "compression_ratio": 1.1588984266310973, "example_words": [] }, { "step": 1569, "pair": [ "सुपर", "फ़ा" ], "new_token": "सुपरफ़ा", "frequency": 24, "vocab_size": 1814, "learned_vocab_size": 1569, "compression_ratio": 1.1588984266310973, "example_words": [] }, { "step": 1570, "pair": [ "सुपरफ़ा", "स्ट" ], "new_token": "सुपरफ़ास्ट", "frequency": 24, "vocab_size": 1815, "learned_vocab_size": 1570, "compression_ratio": 1.1589482931726907, "example_words": [] }, { "step": 1571, "pair": [ "गोदा", "वरी" ], "new_token": "गोदावरी", "frequency": 24, "vocab_size": 1816, "learned_vocab_size": 1571, "compression_ratio": 1.1589981640059097, "example_words": [] }, { "step": 1572, "pair": [ "हु", "सैन" ], "new_token": "हुसैन", "frequency": 24, "vocab_size": 1817, "learned_vocab_size": 1572, "compression_ratio": 1.1589981640059097, "example_words": [] }, { "step": 1573, "pair": [ "त", "वी" ], "new_token": "तवी", "frequency": 24, "vocab_size": 1818, "learned_vocab_size": 1573, "compression_ratio": 1.1590625868514717, "example_words": [] }, { "step": 1574, "pair": [ "ँ", "सी" ], "new_token": "ँसी", "frequency": 24, "vocab_size": 1819, "learned_vocab_size": 1574, "compression_ratio": 1.1591124675217552, "example_words": [] }, { "step": 1575, "pair": [ "मन", "मा" ], "new_token": "मनमा", "frequency": 24, "vocab_size": 1820, "learned_vocab_size": 1575, "compression_ratio": 1.1591623524854884, "example_words": [] }, { "step": 1576, "pair": [ "मनमा", "ड" ], "new_token": "मनमाड", "frequency": 24, "vocab_size": 1821, "learned_vocab_size": 1576, "compression_ratio": 1.159214320555492, "example_words": [] }, { "step": 1577, "pair": [ "ब", "ंदर" ], "new_token": "बंदर", "frequency": 24, "vocab_size": 1822, "learned_vocab_size": 1577, "compression_ratio": 1.159264214286739, "example_words": [] }, { "step": 1578, "pair": [ "सद्", "भावना" ], "new_token": "सद्भावना", "frequency": 24, "vocab_size": 1823, "learned_vocab_size": 1578, "compression_ratio": 1.159264214286739, "example_words": [] }, { "step": 1579, "pair": [ "श्रे", "णी" ], "new_token": "श्रेणी", "frequency": 24, "vocab_size": 1824, "learned_vocab_size": 1579, "compression_ratio": 1.159264214286739, "example_words": [] }, { "step": 1580, "pair": [ "आईसी", "सी" ], "new_token": "आईसीसी", "frequency": 24, "vocab_size": 1825, "learned_vocab_size": 1580, "compression_ratio": 1.159264214286739, "example_words": [] }, { "step": 1581, "pair": [ "फा", "इनल" ], "new_token": "फाइनल", "frequency": 24, "vocab_size": 1826, "learned_vocab_size": 1581, "compression_ratio": 1.1593161914907735, "example_words": [] }, { "step": 1582, "pair": [ "आज", "मगढ़" ], "new_token": "आजमगढ़", "frequency": 24, "vocab_size": 1827, "learned_vocab_size": 1582, "compression_ratio": 1.1593161914907735, "example_words": [] }, { "step": 1583, "pair": [ "बी", "र" ], "new_token": "बीर", "frequency": 24, "vocab_size": 1828, "learned_vocab_size": 1583, "compression_ratio": 1.1593161914907735, "example_words": [] }, { "step": 1584, "pair": [ "अंतर", "राष्ट्रीय" ], "new_token": "अंतरराष्ट्रीय", "frequency": 24, "vocab_size": 1829, "learned_vocab_size": 1584, "compression_ratio": 1.1593723321065508, "example_words": [] }, { "step": 1585, "pair": [ "मै", "न" ], "new_token": "मैन", "frequency": 24, "vocab_size": 1830, "learned_vocab_size": 1585, "compression_ratio": 1.1593723321065508, "example_words": [] }, { "step": 1586, "pair": [ "दि", "सम्बर" ], "new_token": "दिसम्बर", "frequency": 24, "vocab_size": 1831, "learned_vocab_size": 1586, "compression_ratio": 1.1594222394409648, "example_words": [] }, { "step": 1587, "pair": [ "गु", "प्त" ], "new_token": "गुप्त", "frequency": 24, "vocab_size": 1832, "learned_vocab_size": 1587, "compression_ratio": 1.1594222394409648, "example_words": [] }, { "step": 1588, "pair": [ "बा", "ई" ], "new_token": "बाई", "frequency": 24, "vocab_size": 1833, "learned_vocab_size": 1588, "compression_ratio": 1.1594887892376682, "example_words": [] }, { "step": 1589, "pair": [ "प्रता", "प" ], "new_token": "प्रताप", "frequency": 24, "vocab_size": 1834, "learned_vocab_size": 1589, "compression_ratio": 1.1595574267176354, "example_words": [] }, { "step": 1590, "pair": [ "रसू", "लपुर" ], "new_token": "रसूलपुर", "frequency": 24, "vocab_size": 1835, "learned_vocab_size": 1590, "compression_ratio": 1.1595574267176354, "example_words": [] }, { "step": 1591, "pair": [ "ख", "री" ], "new_token": "खरी", "frequency": 24, "vocab_size": 1836, "learned_vocab_size": 1591, "compression_ratio": 1.1596135907003444, "example_words": [] }, { "step": 1592, "pair": [ "ऑ", "स्ट्रेलिया" ], "new_token": "ऑस्ट्रेलिया", "frequency": 24, "vocab_size": 1837, "learned_vocab_size": 1592, "compression_ratio": 1.1596655992393459, "example_words": [] }, { "step": 1593, "pair": [ "न", "ू" ], "new_token": "नू", "frequency": 23, "vocab_size": 1838, "learned_vocab_size": 1593, "compression_ratio": 1.1596655992393459, "example_words": [] }, { "step": 1594, "pair": [ "पे", "शा" ], "new_token": "पेशा", "frequency": 23, "vocab_size": 1839, "learned_vocab_size": 1594, "compression_ratio": 1.1598029242000973, "example_words": [] }, { "step": 1595, "pair": [ "जिन्", "होंने" ], "new_token": "जिन्होंने", "frequency": 23, "vocab_size": 1840, "learned_vocab_size": 1595, "compression_ratio": 1.159873680055265, "example_words": [] }, { "step": 1596, "pair": [ "यु", "ग" ], "new_token": "युग", "frequency": 23, "vocab_size": 1841, "learned_vocab_size": 1596, "compression_ratio": 1.159873680055265, "example_words": [] }, { "step": 1597, "pair": [ "अ", "ंति" ], "new_token": "अंति", "frequency": 23, "vocab_size": 1842, "learned_vocab_size": 1597, "compression_ratio": 1.1598820048411032, "example_words": [] }, { "step": 1598, "pair": [ "अंति", "म" ], "new_token": "अंतिम", "frequency": 23, "vocab_size": 1843, "learned_vocab_size": 1598, "compression_ratio": 1.1598820048411032, "example_words": [] }, { "step": 1599, "pair": [ "उ", "द्" ], "new_token": "उद्", "frequency": 23, "vocab_size": 1844, "learned_vocab_size": 1599, "compression_ratio": 1.1598820048411032, "example_words": [] }, { "step": 1600, "pair": [ "जिस", "से" ], "new_token": "जिससे", "frequency": 23, "vocab_size": 1845, "learned_vocab_size": 1600, "compression_ratio": 1.1601567898287624, "example_words": [] }, { "step": 1601, "pair": [ "परिचया", "त्मक" ], "new_token": "परिचयात्मक", "frequency": 23, "vocab_size": 1846, "learned_vocab_size": 1601, "compression_ratio": 1.160204682351083, "example_words": [ "परिचयात्मक" ] }, { "step": 1602, "pair": [ "र", "ख" ], "new_token": "रख", "frequency": 23, "vocab_size": 1847, "learned_vocab_size": 1602, "compression_ratio": 1.160204682351083, "example_words": [] }, { "step": 1603, "pair": [ "सा", "य" ], "new_token": "साय", "frequency": 23, "vocab_size": 1848, "learned_vocab_size": 1603, "compression_ratio": 1.1605796300020108, "example_words": [] }, { "step": 1604, "pair": [ "न", "य" ], "new_token": "नय", "frequency": 23, "vocab_size": 1849, "learned_vocab_size": 1604, "compression_ratio": 1.1606483966940961, "example_words": [] }, { "step": 1605, "pair": [ "राजनीति", "ज्ञ" ], "new_token": "राजनीतिज्ञ", "frequency": 23, "vocab_size": 1850, "learned_vocab_size": 1605, "compression_ratio": 1.1606358930530443, "example_words": [] }, { "step": 1606, "pair": [ "मु", "स्" ], "new_token": "मुस्", "frequency": 23, "vocab_size": 1851, "learned_vocab_size": 1606, "compression_ratio": 1.1606358930530443, "example_words": [] }, { "step": 1607, "pair": [ "लि", "म" ], "new_token": "लिम", "frequency": 23, "vocab_size": 1852, "learned_vocab_size": 1607, "compression_ratio": 1.1606921615594283, "example_words": [] }, { "step": 1608, "pair": [ "गु", "फा" ], "new_token": "गुफा", "frequency": 23, "vocab_size": 1853, "learned_vocab_size": 1608, "compression_ratio": 1.1607442668931598, "example_words": [] }, { "step": 1609, "pair": [ "बाँ", "का" ], "new_token": "बाँका", "frequency": 23, "vocab_size": 1854, "learned_vocab_size": 1609, "compression_ratio": 1.1607922079321356, "example_words": [] }, { "step": 1610, "pair": [ "मधे", "पुरा" ], "new_token": "मधेपुरा", "frequency": 23, "vocab_size": 1855, "learned_vocab_size": 1610, "compression_ratio": 1.1608422375864236, "example_words": [] }, { "step": 1611, "pair": [ "शेख", "पुरा" ], "new_token": "शेखपुरा", "frequency": 23, "vocab_size": 1856, "learned_vocab_size": 1611, "compression_ratio": 1.1608422375864236, "example_words": [] }, { "step": 1612, "pair": [ "म्", "ब" ], "new_token": "म्ब", "frequency": 23, "vocab_size": 1857, "learned_vocab_size": 1612, "compression_ratio": 1.1608422375864236, "example_words": [] }, { "step": 1613, "pair": [ "व्यक्ति", "गत" ], "new_token": "व्यक्तिगत", "frequency": 23, "vocab_size": 1858, "learned_vocab_size": 1613, "compression_ratio": 1.1609131203126346, "example_words": [] }, { "step": 1614, "pair": [ "अर्जु", "न" ], "new_token": "अर्जुन", "frequency": 23, "vocab_size": 1859, "learned_vocab_size": 1614, "compression_ratio": 1.1609131203126346, "example_words": [] }, { "step": 1615, "pair": [ "नि", "ज़ा" ], "new_token": "निज़ा", "frequency": 23, "vocab_size": 1860, "learned_vocab_size": 1615, "compression_ratio": 1.1609131203126346, "example_words": [] }, { "step": 1616, "pair": [ "ला", "इ" ], "new_token": "लाइ", "frequency": 23, "vocab_size": 1861, "learned_vocab_size": 1616, "compression_ratio": 1.1609610753008748, "example_words": [] }, { "step": 1617, "pair": [ "मि", "र्" ], "new_token": "मिर्", "frequency": 23, "vocab_size": 1862, "learned_vocab_size": 1617, "compression_ratio": 1.1609673305914259, "example_words": [] }, { "step": 1618, "pair": [ "रे", "डि" ], "new_token": "रेडि", "frequency": 23, "vocab_size": 1863, "learned_vocab_size": 1618, "compression_ratio": 1.1610194606341993, "example_words": [] }, { "step": 1619, "pair": [ "गि", "र" ], "new_token": "गिर", "frequency": 23, "vocab_size": 1864, "learned_vocab_size": 1619, "compression_ratio": 1.161073680845064, "example_words": [] }, { "step": 1620, "pair": [ "फ़र्रू", "ख़ा" ], "new_token": "फ़र्रूख़ा", "frequency": 23, "vocab_size": 1865, "learned_vocab_size": 1620, "compression_ratio": 1.161073680845064, "example_words": [] }, { "step": 1621, "pair": [ "फ़र्रूख़ा", "बाद" ], "new_token": "फ़र्रूख़ाबाद", "frequency": 23, "vocab_size": 1866, "learned_vocab_size": 1621, "compression_ratio": 1.161073680845064, "example_words": [] }, { "step": 1622, "pair": [ "सु", "ल्तानपुर" ], "new_token": "सुल्तानपुर", "frequency": 23, "vocab_size": 1867, "learned_vocab_size": 1622, "compression_ratio": 1.161073680845064, "example_words": [] }, { "step": 1623, "pair": [ "जै", "विकी" ], "new_token": "जैविकी", "frequency": 23, "vocab_size": 1868, "learned_vocab_size": 1623, "compression_ratio": 1.161073680845064, "example_words": [] }, { "step": 1624, "pair": [ "सि", "ल" ], "new_token": "सिल", "frequency": 23, "vocab_size": 1869, "learned_vocab_size": 1624, "compression_ratio": 1.161073680845064, "example_words": [] }, { "step": 1625, "pair": [ "अभि", "ने" ], "new_token": "अभिने", "frequency": 23, "vocab_size": 1870, "learned_vocab_size": 1625, "compression_ratio": 1.1611237347655443, "example_words": [] }, { "step": 1626, "pair": [ "दे", "ख" ], "new_token": "देख", "frequency": 23, "vocab_size": 1871, "learned_vocab_size": 1626, "compression_ratio": 1.1610966216895864, "example_words": [] }, { "step": 1627, "pair": [ "अनु", "संधान" ], "new_token": "अनुसंधान", "frequency": 23, "vocab_size": 1872, "learned_vocab_size": 1627, "compression_ratio": 1.1614512773152124, "example_words": [] }, { "step": 1628, "pair": [ "परिणा", "म" ], "new_token": "परिणाम", "frequency": 23, "vocab_size": 1873, "learned_vocab_size": 1628, "compression_ratio": 1.1614512773152124, "example_words": [] }, { "step": 1629, "pair": [ "श्र", "ृंखला" ], "new_token": "श्रृंखला", "frequency": 23, "vocab_size": 1874, "learned_vocab_size": 1629, "compression_ratio": 1.1615744143295854, "example_words": [] }, { "step": 1630, "pair": [ "वै", "या" ], "new_token": "वैया", "frequency": 23, "vocab_size": 1875, "learned_vocab_size": 1630, "compression_ratio": 1.1615744143295854, "example_words": [] }, { "step": 1631, "pair": [ "सम्", "मान" ], "new_token": "सम्मान", "frequency": 22, "vocab_size": 1876, "learned_vocab_size": 1631, "compression_ratio": 1.1616224239679698, "example_words": [] }, { "step": 1632, "pair": [ "क्", "ट" ], "new_token": "क्ट", "frequency": 22, "vocab_size": 1877, "learned_vocab_size": 1632, "compression_ratio": 1.1616224239679698, "example_words": [] }, { "step": 1633, "pair": [ "स", "ॉ" ], "new_token": "सॉ", "frequency": 22, "vocab_size": 1878, "learned_vocab_size": 1633, "compression_ratio": 1.1617288942804511, "example_words": [] }, { "step": 1634, "pair": [ "घटना", "ओं" ], "new_token": "घटनाओं", "frequency": 22, "vocab_size": 1879, "learned_vocab_size": 1634, "compression_ratio": 1.1617873568692858, "example_words": [] }, { "step": 1635, "pair": [ "दृ", "श्य" ], "new_token": "दृश्य", "frequency": 22, "vocab_size": 1880, "learned_vocab_size": 1635, "compression_ratio": 1.1617873568692858, "example_words": [] }, { "step": 1636, "pair": [ "से", "क्स" ], "new_token": "सेक्स", "frequency": 22, "vocab_size": 1881, "learned_vocab_size": 1636, "compression_ratio": 1.1617873568692858, "example_words": [] }, { "step": 1637, "pair": [ "उ", "ज्" ], "new_token": "उज्", "frequency": 22, "vocab_size": 1882, "learned_vocab_size": 1637, "compression_ratio": 1.161835384112126, "example_words": [] }, { "step": 1638, "pair": [ "स", "ले" ], "new_token": "सले", "frequency": 22, "vocab_size": 1883, "learned_vocab_size": 1638, "compression_ratio": 1.1618813269297135, "example_words": [] }, { "step": 1639, "pair": [ "स्वत", "ंत्रता" ], "new_token": "स्वतंत्रता", "frequency": 22, "vocab_size": 1884, "learned_vocab_size": 1639, "compression_ratio": 1.1619335390876229, "example_words": [] }, { "step": 1640, "pair": [ "बा", "त" ], "new_token": "बात", "frequency": 22, "vocab_size": 1885, "learned_vocab_size": 1640, "compression_ratio": 1.1619335390876229, "example_words": [] }, { "step": 1641, "pair": [ "नी", "ति" ], "new_token": "नीति", "frequency": 22, "vocab_size": 1886, "learned_vocab_size": 1641, "compression_ratio": 1.1619920222757905, "example_words": [] }, { "step": 1642, "pair": [ "थ", "न" ], "new_token": "थन", "frequency": 22, "vocab_size": 1887, "learned_vocab_size": 1642, "compression_ratio": 1.1622949758520122, "example_words": [] }, { "step": 1643, "pair": [ "मुस्", "लिम" ], "new_token": "मुस्लिम", "frequency": 22, "vocab_size": 1888, "learned_vocab_size": 1643, "compression_ratio": 1.1623430450739125, "example_words": [] }, { "step": 1644, "pair": [ "दा", "य" ], "new_token": "दाय", "frequency": 22, "vocab_size": 1889, "learned_vocab_size": 1644, "compression_ratio": 1.1623932085012416, "example_words": [] }, { "step": 1645, "pair": [ "बि", "षय" ], "new_token": "बिषय", "frequency": 22, "vocab_size": 1890, "learned_vocab_size": 1645, "compression_ratio": 1.1624433762585802, "example_words": [] }, { "step": 1646, "pair": [ "अहि", "ल्या" ], "new_token": "अहिल्या", "frequency": 22, "vocab_size": 1891, "learned_vocab_size": 1646, "compression_ratio": 1.1624893671737453, "example_words": [] }, { "step": 1647, "pair": [ "बो", "ध" ], "new_token": "बोध", "frequency": 22, "vocab_size": 1892, "learned_vocab_size": 1647, "compression_ratio": 1.1624893671737453, "example_words": [] }, { "step": 1648, "pair": [ "समस्ती", "पुर" ], "new_token": "समस्तीपुर", "frequency": 22, "vocab_size": 1893, "learned_vocab_size": 1648, "compression_ratio": 1.1625416339949213, "example_words": [] }, { "step": 1649, "pair": [ "ब", "क्सर" ], "new_token": "बक्सर", "frequency": 22, "vocab_size": 1894, "learned_vocab_size": 1649, "compression_ratio": 1.1625416339949213, "example_words": [] }, { "step": 1650, "pair": [ "ना", "लंदा" ], "new_token": "नालंदा", "frequency": 22, "vocab_size": 1895, "learned_vocab_size": 1650, "compression_ratio": 1.1625416339949213, "example_words": [] }, { "step": 1651, "pair": [ "बि", "हटा" ], "new_token": "बिहटा", "frequency": 22, "vocab_size": 1896, "learned_vocab_size": 1651, "compression_ratio": 1.1625416339949213, "example_words": [] }, { "step": 1652, "pair": [ "मान", "क" ], "new_token": "मानक", "frequency": 22, "vocab_size": 1897, "learned_vocab_size": 1652, "compression_ratio": 1.162587632685508, "example_words": [] }, { "step": 1653, "pair": [ "के", "श" ], "new_token": "केश", "frequency": 22, "vocab_size": 1898, "learned_vocab_size": 1653, "compression_ratio": 1.162587632685508, "example_words": [] }, { "step": 1654, "pair": [ "क", "ठ" ], "new_token": "कठ", "frequency": 22, "vocab_size": 1899, "learned_vocab_size": 1654, "compression_ratio": 1.1626315439223156, "example_words": [] }, { "step": 1655, "pair": [ "ह", "ज़" ], "new_token": "हज़", "frequency": 22, "vocab_size": 1900, "learned_vocab_size": 1655, "compression_ratio": 1.162681732254856, "example_words": [] }, { "step": 1656, "pair": [ "दा", "दर" ], "new_token": "दादर", "frequency": 22, "vocab_size": 1901, "learned_vocab_size": 1656, "compression_ratio": 1.16273401637575, "example_words": [] }, { "step": 1657, "pair": [ "भो", "पाल" ], "new_token": "भोपाल", "frequency": 22, "vocab_size": 1902, "learned_vocab_size": 1657, "compression_ratio": 1.1628344150704448, "example_words": [] }, { "step": 1658, "pair": [ "न", "म" ], "new_token": "नम", "frequency": 22, "vocab_size": 1903, "learned_vocab_size": 1658, "compression_ratio": 1.1628971730596942, "example_words": [] }, { "step": 1659, "pair": [ "झा", "ँसी" ], "new_token": "झाँसी", "frequency": 22, "vocab_size": 1904, "learned_vocab_size": 1659, "compression_ratio": 1.1629892303651168, "example_words": [] }, { "step": 1660, "pair": [ "पा", "टलि" ], "new_token": "पाटलि", "frequency": 22, "vocab_size": 1905, "learned_vocab_size": 1660, "compression_ratio": 1.1630352644836273, "example_words": [] }, { "step": 1661, "pair": [ "पाटलि", "पुत्र" ], "new_token": "पाटलिपुत्र", "frequency": 22, "vocab_size": 1906, "learned_vocab_size": 1661, "compression_ratio": 1.1630352644836273, "example_words": [] }, { "step": 1662, "pair": [ "जय", "ंती" ], "new_token": "जयंती", "frequency": 22, "vocab_size": 1907, "learned_vocab_size": 1662, "compression_ratio": 1.1630352644836273, "example_words": [] }, { "step": 1663, "pair": [ "शा", "ला" ], "new_token": "शाला", "frequency": 22, "vocab_size": 1908, "learned_vocab_size": 1663, "compression_ratio": 1.1630352644836273, "example_words": [] }, { "step": 1664, "pair": [ "दि", "ला" ], "new_token": "दिला", "frequency": 22, "vocab_size": 1909, "learned_vocab_size": 1664, "compression_ratio": 1.1630875804057397, "example_words": [] }, { "step": 1665, "pair": [ "का", "उ" ], "new_token": "काउ", "frequency": 22, "vocab_size": 1910, "learned_vocab_size": 1665, "compression_ratio": 1.1631357152111013, "example_words": [] }, { "step": 1666, "pair": [ "थी", "ं" ], "new_token": "थीं", "frequency": 22, "vocab_size": 1911, "learned_vocab_size": 1666, "compression_ratio": 1.1631880401708032, "example_words": [] }, { "step": 1667, "pair": [ "पु", "स्तक" ], "new_token": "पुस्तक", "frequency": 22, "vocab_size": 1912, "learned_vocab_size": 1667, "compression_ratio": 1.1632508363370686, "example_words": [] }, { "step": 1668, "pair": [ "ह", "सनपुर" ], "new_token": "हसनपुर", "frequency": 22, "vocab_size": 1913, "learned_vocab_size": 1668, "compression_ratio": 1.1632508363370686, "example_words": [] }, { "step": 1669, "pair": [ "बु", "द्ध" ], "new_token": "बुद्ध", "frequency": 22, "vocab_size": 1914, "learned_vocab_size": 1669, "compression_ratio": 1.1632508363370686, "example_words": [] }, { "step": 1670, "pair": [ "अभिने", "त्री" ], "new_token": "अभिनेत्री", "frequency": 22, "vocab_size": 1915, "learned_vocab_size": 1670, "compression_ratio": 1.163315732832313, "example_words": [] }, { "step": 1671, "pair": [ "पि", "यन" ], "new_token": "पियन", "frequency": 22, "vocab_size": 1916, "learned_vocab_size": 1671, "compression_ratio": 1.163315732832313, "example_words": [] }, { "step": 1672, "pair": [ "द", "म" ], "new_token": "दम", "frequency": 22, "vocab_size": 1917, "learned_vocab_size": 1672, "compression_ratio": 1.163363886524261, "example_words": [] }, { "step": 1673, "pair": [ "क्ल", "ब" ], "new_token": "क्लब", "frequency": 22, "vocab_size": 1918, "learned_vocab_size": 1673, "compression_ratio": 1.1633596990884467, "example_words": [] }, { "step": 1674, "pair": [ "मि", "स्र" ], "new_token": "मिस्र", "frequency": 22, "vocab_size": 1919, "learned_vocab_size": 1674, "compression_ratio": 1.1634099503078537, "example_words": [] }, { "step": 1675, "pair": [ "ख", "र" ], "new_token": "खर", "frequency": 22, "vocab_size": 1920, "learned_vocab_size": 1675, "compression_ratio": 1.1634099503078537, "example_words": [] }, { "step": 1676, "pair": [ "मो", "बा" ], "new_token": "मोबा", "frequency": 22, "vocab_size": 1921, "learned_vocab_size": 1676, "compression_ratio": 1.1633659802534726, "example_words": [] }, { "step": 1677, "pair": [ "मोबा", "इल" ], "new_token": "मोबाइल", "frequency": 22, "vocab_size": 1922, "learned_vocab_size": 1677, "compression_ratio": 1.1634183259331519, "example_words": [] }, { "step": 1678, "pair": [ "य़", "ा" ], "new_token": "य़ा", "frequency": 22, "vocab_size": 1923, "learned_vocab_size": 1678, "compression_ratio": 1.163470676323633, "example_words": [] }, { "step": 1679, "pair": [ "नी", "हारिका" ], "new_token": "नीहारिका", "frequency": 22, "vocab_size": 1924, "learned_vocab_size": 1679, "compression_ratio": 1.163518842844003, "example_words": [] }, { "step": 1680, "pair": [ "घ", "ि" ], "new_token": "घि", "frequency": 21, "vocab_size": 1925, "learned_vocab_size": 1680, "compression_ratio": 1.163518842844003, "example_words": [] }, { "step": 1681, "pair": [ "सर्", "व" ], "new_token": "सर्व", "frequency": 21, "vocab_size": 1926, "learned_vocab_size": 1681, "compression_ratio": 1.1635628244544125, "example_words": [] }, { "step": 1682, "pair": [ "दू", "सरे" ], "new_token": "दूसरे", "frequency": 21, "vocab_size": 1927, "learned_vocab_size": 1682, "compression_ratio": 1.1635628244544125, "example_words": [] }, { "step": 1683, "pair": [ "हे", "ले" ], "new_token": "हेले", "frequency": 21, "vocab_size": 1928, "learned_vocab_size": 1683, "compression_ratio": 1.1635628244544125, "example_words": [] }, { "step": 1684, "pair": [ "दे", "ता" ], "new_token": "देता", "frequency": 21, "vocab_size": 1929, "learned_vocab_size": 1684, "compression_ratio": 1.163615187850008, "example_words": [] }, { "step": 1685, "pair": [ "कि", "लो" ], "new_token": "किलो", "frequency": 21, "vocab_size": 1930, "learned_vocab_size": 1685, "compression_ratio": 1.1636591767446383, "example_words": [] }, { "step": 1686, "pair": [ "उपलब्", "ध" ], "new_token": "उपलब्ध", "frequency": 21, "vocab_size": 1931, "learned_vocab_size": 1686, "compression_ratio": 1.163711548813002, "example_words": [] }, { "step": 1687, "pair": [ "गाड़िया", "ं" ], "new_token": "गाड़ियां", "frequency": 21, "vocab_size": 1932, "learned_vocab_size": 1687, "compression_ratio": 1.163711548813002, "example_words": [] }, { "step": 1688, "pair": [ "बख्", "तियारपुर" ], "new_token": "बख्तियारपुर", "frequency": 21, "vocab_size": 1933, "learned_vocab_size": 1688, "compression_ratio": 1.163711548813002, "example_words": [] }, { "step": 1689, "pair": [ "मध्यकाली", "न" ], "new_token": "मध्यकालीन", "frequency": 21, "vocab_size": 1934, "learned_vocab_size": 1689, "compression_ratio": 1.163711548813002, "example_words": [] }, { "step": 1690, "pair": [ "बोध", "गया" ], "new_token": "बोधगया", "frequency": 21, "vocab_size": 1935, "learned_vocab_size": 1690, "compression_ratio": 1.163711548813002, "example_words": [] }, { "step": 1691, "pair": [ "छ", "ठ" ], "new_token": "छठ", "frequency": 21, "vocab_size": 1936, "learned_vocab_size": 1691, "compression_ratio": 1.163755544993663, "example_words": [] }, { "step": 1692, "pair": [ "कि", "शनगंज" ], "new_token": "किशनगंज", "frequency": 21, "vocab_size": 1937, "learned_vocab_size": 1692, "compression_ratio": 1.1637995445011569, "example_words": [] }, { "step": 1693, "pair": [ "अड", "्डा" ], "new_token": "अड्डा", "frequency": 21, "vocab_size": 1938, "learned_vocab_size": 1693, "compression_ratio": 1.1637995445011569, "example_words": [] }, { "step": 1694, "pair": [ "रो", "क" ], "new_token": "रोक", "frequency": 21, "vocab_size": 1939, "learned_vocab_size": 1694, "compression_ratio": 1.1637995445011569, "example_words": [] }, { "step": 1695, "pair": [ "ऐ", "सा" ], "new_token": "ऐसा", "frequency": 21, "vocab_size": 1940, "learned_vocab_size": 1695, "compression_ratio": 1.1638498337267358, "example_words": [] }, { "step": 1696, "pair": [ "पर्", "व" ], "new_token": "पर्व", "frequency": 21, "vocab_size": 1941, "learned_vocab_size": 1696, "compression_ratio": 1.1638938403644286, "example_words": [] }, { "step": 1697, "pair": [ "ृ", "ह" ], "new_token": "ृह", "frequency": 21, "vocab_size": 1942, "learned_vocab_size": 1697, "compression_ratio": 1.1638938403644286, "example_words": [] }, { "step": 1698, "pair": [ "सो", "ल" ], "new_token": "सोल", "frequency": 21, "vocab_size": 1943, "learned_vocab_size": 1698, "compression_ratio": 1.1639462335581103, "example_words": [] }, { "step": 1699, "pair": [ "को", "यम्बतूर" ], "new_token": "कोयम्बतूर", "frequency": 21, "vocab_size": 1944, "learned_vocab_size": 1699, "compression_ratio": 1.1639776717385433, "example_words": [] }, { "step": 1700, "pair": [ "ध्व", "ज" ], "new_token": "ध्वज", "frequency": 21, "vocab_size": 1945, "learned_vocab_size": 1700, "compression_ratio": 1.1639776717385433, "example_words": [] }, { "step": 1701, "pair": [ "पोर", "बंदर" ], "new_token": "पोरबंदर", "frequency": 21, "vocab_size": 1946, "learned_vocab_size": 1701, "compression_ratio": 1.1640237841419845, "example_words": [ "पोरबंदर" ] }, { "step": 1702, "pair": [ "सा", "उ" ], "new_token": "साउ", "frequency": 21, "vocab_size": 1947, "learned_vocab_size": 1702, "compression_ratio": 1.1640237841419845, "example_words": [] }, { "step": 1703, "pair": [ "वि", "शाखा" ], "new_token": "विशाखा", "frequency": 21, "vocab_size": 1948, "learned_vocab_size": 1703, "compression_ratio": 1.1640678039354808, "example_words": [] }, { "step": 1704, "pair": [ "उत्", "पाद" ], "new_token": "उत्पाद", "frequency": 21, "vocab_size": 1949, "learned_vocab_size": 1704, "compression_ratio": 1.1641118270584887, "example_words": [] }, { "step": 1705, "pair": [ "गेंद", "बाजी" ], "new_token": "गेंदबाजी", "frequency": 21, "vocab_size": 1950, "learned_vocab_size": 1705, "compression_ratio": 1.1641852063301101, "example_words": [] }, { "step": 1706, "pair": [ "नी", "चे" ], "new_token": "नीचे", "frequency": 21, "vocab_size": 1951, "learned_vocab_size": 1706, "compression_ratio": 1.1641852063301101, "example_words": [] }, { "step": 1707, "pair": [ "आ", "बादी" ], "new_token": "आबादी", "frequency": 21, "vocab_size": 1952, "learned_vocab_size": 1707, "compression_ratio": 1.1642334320315257, "example_words": [] }, { "step": 1708, "pair": [ "अनु", "रूप" ], "new_token": "अनुरूप", "frequency": 21, "vocab_size": 1953, "learned_vocab_size": 1708, "compression_ratio": 1.1642334320315257, "example_words": [] }, { "step": 1709, "pair": [ "फ़", "ी" ], "new_token": "फ़ी", "frequency": 21, "vocab_size": 1954, "learned_vocab_size": 1709, "compression_ratio": 1.1642334320315257, "example_words": [] }, { "step": 1710, "pair": [ "दि", "ए" ], "new_token": "दिए", "frequency": 21, "vocab_size": 1955, "learned_vocab_size": 1710, "compression_ratio": 1.1642795647021105, "example_words": [] }, { "step": 1711, "pair": [ "२", "५" ], "new_token": "२५", "frequency": 21, "vocab_size": 1956, "learned_vocab_size": 1711, "compression_ratio": 1.1643236038437639, "example_words": [] }, { "step": 1712, "pair": [ "व", "क" ], "new_token": "वक", "frequency": 21, "vocab_size": 1957, "learned_vocab_size": 1712, "compression_ratio": 1.164378133111415, "example_words": [] }, { "step": 1713, "pair": [ "लंद", "न" ], "new_token": "लंदन", "frequency": 21, "vocab_size": 1958, "learned_vocab_size": 1713, "compression_ratio": 1.1644200821776167, "example_words": [] }, { "step": 1714, "pair": [ "इन", "के" ], "new_token": "इनके", "frequency": 21, "vocab_size": 1959, "learned_vocab_size": 1714, "compression_ratio": 1.1644683273405918, "example_words": [] }, { "step": 1715, "pair": [ "कं", "पनी" ], "new_token": "कंपनी", "frequency": 21, "vocab_size": 1960, "learned_vocab_size": 1715, "compression_ratio": 1.164512380763653, "example_words": [] }, { "step": 1716, "pair": [ "दे", "हा" ], "new_token": "देहा", "frequency": 21, "vocab_size": 1961, "learned_vocab_size": 1716, "compression_ratio": 1.1645144786288448, "example_words": [] }, { "step": 1717, "pair": [ "ज्यो", "ति" ], "new_token": "ज्योति", "frequency": 21, "vocab_size": 1962, "learned_vocab_size": 1717, "compression_ratio": 1.1645627316145142, "example_words": [] }, { "step": 1718, "pair": [ "१९", "९" ], "new_token": "१९९", "frequency": 21, "vocab_size": 1963, "learned_vocab_size": 1718, "compression_ratio": 1.1645627316145142, "example_words": [] }, { "step": 1719, "pair": [ "आ", "स" ], "new_token": "आस", "frequency": 21, "vocab_size": 1964, "learned_vocab_size": 1719, "compression_ratio": 1.1646172832833375, "example_words": [] }, { "step": 1720, "pair": [ "ल", "ं" ], "new_token": "लं", "frequency": 21, "vocab_size": 1965, "learned_vocab_size": 1720, "compression_ratio": 1.1646928248010393, "example_words": [] }, { "step": 1721, "pair": [ "क", "ट" ], "new_token": "कट", "frequency": 21, "vocab_size": 1966, "learned_vocab_size": 1721, "compression_ratio": 1.164722204704547, "example_words": [] }, { "step": 1722, "pair": [ "श", "ौर्य" ], "new_token": "शौर्य", "frequency": 21, "vocab_size": 1967, "learned_vocab_size": 1722, "compression_ratio": 1.1647599810442595, "example_words": [] }, { "step": 1723, "pair": [ "उ", "तरा" ], "new_token": "उतरा", "frequency": 21, "vocab_size": 1968, "learned_vocab_size": 1723, "compression_ratio": 1.1647599810442595, "example_words": [] }, { "step": 1724, "pair": [ "नी", "दर" ], "new_token": "नीदर", "frequency": 21, "vocab_size": 1969, "learned_vocab_size": 1724, "compression_ratio": 1.1647599810442595, "example_words": [] }, { "step": 1725, "pair": [ "के", "न्या" ], "new_token": "केन्या", "frequency": 21, "vocab_size": 1970, "learned_vocab_size": 1725, "compression_ratio": 1.1648187491102786, "example_words": [] }, { "step": 1726, "pair": [ "नेट", "वर्" ], "new_token": "नेटवर्", "frequency": 20, "vocab_size": 1971, "learned_vocab_size": 1726, "compression_ratio": 1.1648187491102786, "example_words": [] }, { "step": 1727, "pair": [ "सम्रा", "ट" ], "new_token": "सम्राट", "frequency": 20, "vocab_size": 1972, "learned_vocab_size": 1727, "compression_ratio": 1.1648187491102786, "example_words": [] }, { "step": 1728, "pair": [ "अ", "ंत" ], "new_token": "अंत", "frequency": 20, "vocab_size": 1973, "learned_vocab_size": 1728, "compression_ratio": 1.1648187491102786, "example_words": [] }, { "step": 1729, "pair": [ "स्", "मार" ], "new_token": "स्मार", "frequency": 20, "vocab_size": 1974, "learned_vocab_size": 1729, "compression_ratio": 1.1652113879465429, "example_words": [] }, { "step": 1730, "pair": [ "बा", "हर" ], "new_token": "बाहर", "frequency": 20, "vocab_size": 1975, "learned_vocab_size": 1730, "compression_ratio": 1.1652113879465429, "example_words": [] }, { "step": 1731, "pair": [ "पह", "चान" ], "new_token": "पहचान", "frequency": 20, "vocab_size": 1976, "learned_vocab_size": 1731, "compression_ratio": 1.1655811722618314, "example_words": [] }, { "step": 1732, "pair": [ "भा", "ष" ], "new_token": "भाष", "frequency": 20, "vocab_size": 1977, "learned_vocab_size": 1732, "compression_ratio": 1.1655811722618314, "example_words": [] }, { "step": 1733, "pair": [ "हा", "थ" ], "new_token": "हाथ", "frequency": 20, "vocab_size": 1978, "learned_vocab_size": 1733, "compression_ratio": 1.1643613543312192, "example_words": [] }, { "step": 1734, "pair": [ "हि", "ंदु" ], "new_token": "हिंदु", "frequency": 20, "vocab_size": 1979, "learned_vocab_size": 1734, "compression_ratio": 1.1644116921225702, "example_words": [] }, { "step": 1735, "pair": [ "पटना", "भूभाग" ], "new_token": "पटनाभूभाग", "frequency": 20, "vocab_size": 1980, "learned_vocab_size": 1735, "compression_ratio": 1.1644116921225702, "example_words": [] }, { "step": 1736, "pair": [ "पटनाभूभाग", "दक्षिणी" ], "new_token": "पटनाभूभागदक्षिणी", "frequency": 20, "vocab_size": 1981, "learned_vocab_size": 1736, "compression_ratio": 1.1644116921225702, "example_words": [] }, { "step": 1737, "pair": [ "उ", "तरी" ], "new_token": "उतरी", "frequency": 20, "vocab_size": 1982, "learned_vocab_size": 1737, "compression_ratio": 1.1644116921225702, "example_words": [] }, { "step": 1738, "pair": [ "भूभाग", "बिषय" ], "new_token": "भूभागबिषय", "frequency": 20, "vocab_size": 1983, "learned_vocab_size": 1738, "compression_ratio": 1.1644116921225702, "example_words": [] }, { "step": 1739, "pair": [ "भूभागबिषय", "बिहार" ], "new_token": "भूभागबिषयबिहार", "frequency": 20, "vocab_size": 1984, "learned_vocab_size": 1739, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1740, "pair": [ "संस्कृति", "पर्यटनगोल" ], "new_token": "संस्कृतिपर्यटनगोल", "frequency": 20, "vocab_size": 1985, "learned_vocab_size": 1740, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1741, "pair": [ "संस्कृतिपर्यटनगोल", "घर" ], "new_token": "संस्कृतिपर्यटनगोलघर", "frequency": 20, "vocab_size": 1986, "learned_vocab_size": 1741, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1742, "pair": [ "मु", "ंडे" ], "new_token": "मुंडे", "frequency": 20, "vocab_size": 1987, "learned_vocab_size": 1742, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1743, "pair": [ "मुंडे", "श्वरी" ], "new_token": "मुंडेश्वरी", "frequency": 20, "vocab_size": 1988, "learned_vocab_size": 1743, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1744, "pair": [ "राजगी", "र" ], "new_token": "राजगीर", "frequency": 20, "vocab_size": 1989, "learned_vocab_size": 1744, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1745, "pair": [ "ना", "लन्दा" ], "new_token": "नालन्दा", "frequency": 20, "vocab_size": 1990, "learned_vocab_size": 1745, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1746, "pair": [ "महावि", "हार" ], "new_token": "महाविहार", "frequency": 20, "vocab_size": 1991, "learned_vocab_size": 1746, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1747, "pair": [ "गुफा", "एँ" ], "new_token": "गुफाएँ", "frequency": 20, "vocab_size": 1992, "learned_vocab_size": 1747, "compression_ratio": 1.1644536436069124, "example_words": [] }, { "step": 1748, "pair": [ "म", "ंदर" ], "new_token": "मंदर", "frequency": 20, "vocab_size": 1993, "learned_vocab_size": 1748, "compression_ratio": 1.1644955981142238, "example_words": [] }, { "step": 1749, "pair": [ "बिहार", "प्र" ], "new_token": "बिहारप्र", "frequency": 20, "vocab_size": 1994, "learned_vocab_size": 1749, "compression_ratio": 1.1644955981142238, "example_words": [] }, { "step": 1750, "pair": [ "बिहारप्र", "मंडल" ], "new_token": "बिहारप्रमंडल", "frequency": 20, "vocab_size": 1995, "learned_vocab_size": 1750, "compression_ratio": 1.1644955981142238, "example_words": [] }, { "step": 1751, "pair": [ "बिहारप्रमंडल", "सारण" ], "new_token": "बिहारप्रमंडलसारण", "frequency": 20, "vocab_size": 1998, "learned_vocab_size": 1751, "compression_ratio": 1.1644955981142238, "example_words": [] }, { "step": 1752, "pair": [ "मुंगेर", "जिलेसारण" ], "new_token": "मुंगेरजिलेसारण", "frequency": 20, "vocab_size": 1999, "learned_vocab_size": 1752, "compression_ratio": 1.1644955981142238, "example_words": [] }, { "step": 1753, "pair": [ "अर", "वल" ], "new_token": "अरवल", "frequency": 20, "vocab_size": 2000, "learned_vocab_size": 1753, "compression_ratio": 1.1644955981142238, "example_words": [] }, { "step": 1754, "pair": [ "कै", "मुर" ], "new_token": "कैमुर", "frequency": 20, "vocab_size": 2001, "learned_vocab_size": 1754, "compression_ratio": 1.1645543395036706, "example_words": [] }, { "step": 1755, "pair": [ "गो", "पालगंज" ], "new_token": "गोपालगंज", "frequency": 20, "vocab_size": 2002, "learned_vocab_size": 1755, "compression_ratio": 1.164596301267442, "example_words": [] }, { "step": 1756, "pair": [ "मधु", "बनी" ], "new_token": "मधुबनी", "frequency": 20, "vocab_size": 2003, "learned_vocab_size": 1756, "compression_ratio": 1.164596301267442, "example_words": [] }, { "step": 1757, "pair": [ "सु", "पौल" ], "new_token": "सुपौल", "frequency": 20, "vocab_size": 2004, "learned_vocab_size": 1757, "compression_ratio": 1.164596301267442, "example_words": [] }, { "step": 1758, "pair": [ "जहाना", "बाद" ], "new_token": "जहानाबाद", "frequency": 20, "vocab_size": 2005, "learned_vocab_size": 1758, "compression_ratio": 1.164596301267442, "example_words": [] }, { "step": 1759, "pair": [ "जमु", "ई" ], "new_token": "जमुई", "frequency": 20, "vocab_size": 2006, "learned_vocab_size": 1759, "compression_ratio": 1.164596301267442, "example_words": [] }, { "step": 1760, "pair": [ "लखी", "सराय" ], "new_token": "लखीसराय", "frequency": 20, "vocab_size": 2007, "learned_vocab_size": 1760, "compression_ratio": 1.1646382660552939, "example_words": [] }, { "step": 1761, "pair": [ "रो", "हता" ], "new_token": "रोहता", "frequency": 20, "vocab_size": 2008, "learned_vocab_size": 1761, "compression_ratio": 1.1646382660552939, "example_words": [] }, { "step": 1762, "pair": [ "रोहता", "स" ], "new_token": "रोहतास", "frequency": 20, "vocab_size": 2009, "learned_vocab_size": 1762, "compression_ratio": 1.164680233867553, "example_words": [] }, { "step": 1763, "pair": [ "सी", "वान" ], "new_token": "सीवान", "frequency": 20, "vocab_size": 2010, "learned_vocab_size": 1763, "compression_ratio": 1.164722204704547, "example_words": [] }, { "step": 1764, "pair": [ "वैशाली", "अंतर्राष्ट्रीय" ], "new_token": "वैशालीअंतर्राष्ट्रीय", "frequency": 20, "vocab_size": 2011, "learned_vocab_size": 1764, "compression_ratio": 1.164722204704547, "example_words": [] }, { "step": 1765, "pair": [ "अड्डा", "गया" ], "new_token": "अड्डागया", "frequency": 20, "vocab_size": 2012, "learned_vocab_size": 1765, "compression_ratio": 1.164722204704547, "example_words": [] }, { "step": 1766, "pair": [ "वायु", "सेना" ], "new_token": "वायुसेना", "frequency": 20, "vocab_size": 2013, "learned_vocab_size": 1766, "compression_ratio": 1.164722204704547, "example_words": [] }, { "step": 1767, "pair": [ "निगम", "पटना" ], "new_token": "निगमपटना", "frequency": 20, "vocab_size": 2014, "learned_vocab_size": 1767, "compression_ratio": 1.164764178566602, "example_words": [] }, { "step": 1768, "pair": [ "बिहार", "शरीफ" ], "new_token": "बिहारशरीफ", "frequency": 20, "vocab_size": 2015, "learned_vocab_size": 1768, "compression_ratio": 1.164764178566602, "example_words": [] }, { "step": 1769, "pair": [ "निजा", "मत" ], "new_token": "निजामत", "frequency": 20, "vocab_size": 2016, "learned_vocab_size": 1769, "compression_ratio": 1.164764178566602, "example_words": [] }, { "step": 1770, "pair": [ "का", "ंटी" ], "new_token": "कांटी", "frequency": 20, "vocab_size": 2017, "learned_vocab_size": 1770, "compression_ratio": 1.1648061554540459, "example_words": [] }, { "step": 1771, "pair": [ "बर", "बीघा" ], "new_token": "बरबीघा", "frequency": 20, "vocab_size": 2018, "learned_vocab_size": 1771, "compression_ratio": 1.1648061554540459, "example_words": [] }, { "step": 1772, "pair": [ "पंचायत", "सोनपुर" ], "new_token": "पंचायतसोनपुर", "frequency": 20, "vocab_size": 2019, "learned_vocab_size": 1772, "compression_ratio": 1.164848135367205, "example_words": [] }, { "step": 1773, "pair": [ "ज़िला", "जनसंख्या" ], "new_token": "ज़िलाजनसंख्या", "frequency": 20, "vocab_size": 2020, "learned_vocab_size": 1773, "compression_ratio": 1.164848135367205, "example_words": [] }, { "step": 1774, "pair": [ "ढ", "ा" ], "new_token": "ढा", "frequency": 20, "vocab_size": 2021, "learned_vocab_size": 1774, "compression_ratio": 1.164848135367205, "example_words": [] }, { "step": 1775, "pair": [ "आ", "ला" ], "new_token": "आला", "frequency": 20, "vocab_size": 2022, "learned_vocab_size": 1775, "compression_ratio": 1.1649069123294533, "example_words": [] }, { "step": 1776, "pair": [ "क्", "वी" ], "new_token": "क्वी", "frequency": 20, "vocab_size": 2023, "learned_vocab_size": 1776, "compression_ratio": 1.1649530983897565, "example_words": [] }, { "step": 1777, "pair": [ "शाली", "मार" ], "new_token": "शालीमार", "frequency": 20, "vocab_size": 2024, "learned_vocab_size": 1777, "compression_ratio": 1.164999288112561, "example_words": [] }, { "step": 1778, "pair": [ "वा", "ड़ा" ], "new_token": "वाड़ा", "frequency": 20, "vocab_size": 2025, "learned_vocab_size": 1778, "compression_ratio": 1.164999288112561, "example_words": [] }, { "step": 1779, "pair": [ "ड", "्डी" ], "new_token": "ड्डी", "frequency": 20, "vocab_size": 2026, "learned_vocab_size": 1779, "compression_ratio": 1.1650433817194805, "example_words": [] }, { "step": 1780, "pair": [ "ह", "ल" ], "new_token": "हल", "frequency": 20, "vocab_size": 2027, "learned_vocab_size": 1780, "compression_ratio": 1.1650433817194805, "example_words": [] }, { "step": 1781, "pair": [ "ग्रामी", "ण" ], "new_token": "ग्रामीण", "frequency": 20, "vocab_size": 2028, "learned_vocab_size": 1781, "compression_ratio": 1.1649237068367397, "example_words": [] }, { "step": 1782, "pair": [ "जग", "दी" ], "new_token": "जगदी", "frequency": 20, "vocab_size": 2029, "learned_vocab_size": 1782, "compression_ratio": 1.1649237068367397, "example_words": [] }, { "step": 1783, "pair": [ "२", "३" ], "new_token": "२३", "frequency": 20, "vocab_size": 2030, "learned_vocab_size": 1783, "compression_ratio": 1.164971993742746, "example_words": [] }, { "step": 1784, "pair": [ "चर्", "च" ], "new_token": "चर्च", "frequency": 20, "vocab_size": 2031, "learned_vocab_size": 1784, "compression_ratio": 1.1650223843475378, "example_words": [] }, { "step": 1785, "pair": [ "र", "स" ], "new_token": "रस", "frequency": 20, "vocab_size": 2032, "learned_vocab_size": 1785, "compression_ratio": 1.1650223843475378, "example_words": [] }, { "step": 1786, "pair": [ "मा", "ध्यम" ], "new_token": "माध्यम", "frequency": 20, "vocab_size": 2033, "learned_vocab_size": 1786, "compression_ratio": 1.1645774180995345, "example_words": [] }, { "step": 1787, "pair": [ "कै", "रि" ], "new_token": "कैरि", "frequency": 20, "vocab_size": 2034, "learned_vocab_size": 1787, "compression_ratio": 1.1645774180995345, "example_words": [] }, { "step": 1788, "pair": [ "औ", "सत" ], "new_token": "औसत", "frequency": 20, "vocab_size": 2035, "learned_vocab_size": 1788, "compression_ratio": 1.1646361677440742, "example_words": [] }, { "step": 1789, "pair": [ "आ", "इ" ], "new_token": "आइ", "frequency": 20, "vocab_size": 2036, "learned_vocab_size": 1789, "compression_ratio": 1.164684430815134, "example_words": [] }, { "step": 1790, "pair": [ "गु", "ण" ], "new_token": "गुण", "frequency": 20, "vocab_size": 2037, "learned_vocab_size": 1790, "compression_ratio": 1.164799858728048, "example_words": [] }, { "step": 1791, "pair": [ "र", "घु" ], "new_token": "रघु", "frequency": 20, "vocab_size": 2038, "learned_vocab_size": 1791, "compression_ratio": 1.164715908886158, "example_words": [] }, { "step": 1792, "pair": [ "निर्", "धारित" ], "new_token": "निर्धारित", "frequency": 20, "vocab_size": 2039, "learned_vocab_size": 1792, "compression_ratio": 1.1647599810442595, "example_words": [] }, { "step": 1793, "pair": [ "नो", "वा" ], "new_token": "नोवा", "frequency": 20, "vocab_size": 2040, "learned_vocab_size": 1793, "compression_ratio": 1.1647599810442595, "example_words": [] }, { "step": 1794, "pair": [ "कं", "प्यू" ], "new_token": "कंप्यू", "frequency": 20, "vocab_size": 2041, "learned_vocab_size": 1794, "compression_ratio": 1.1648082543778404, "example_words": [] }, { "step": 1795, "pair": [ "पा", "ंच" ], "new_token": "पांच", "frequency": 20, "vocab_size": 2042, "learned_vocab_size": 1795, "compression_ratio": 1.1648082543778404, "example_words": [] }, { "step": 1796, "pair": [ "ने", "पाल" ], "new_token": "नेपाल", "frequency": 20, "vocab_size": 2043, "learned_vocab_size": 1796, "compression_ratio": 1.1648544326151673, "example_words": [] }, { "step": 1797, "pair": [ "नीदर", "लैंड" ], "new_token": "नीदरलैंड", "frequency": 20, "vocab_size": 2044, "learned_vocab_size": 1797, "compression_ratio": 1.1649426012362811, "example_words": [] }, { "step": 1798, "pair": [ "कक्ष", "क" ], "new_token": "कक्षक", "frequency": 20, "vocab_size": 2045, "learned_vocab_size": 1798, "compression_ratio": 1.164999288112561, "example_words": [] }, { "step": 1799, "pair": [ "वि", "रो" ], "new_token": "विरो", "frequency": 19, "vocab_size": 2046, "learned_vocab_size": 1799, "compression_ratio": 1.1650643798483145, "example_words": [] }, { "step": 1800, "pair": [ "स्मार", "क" ], "new_token": "स्मारक", "frequency": 19, "vocab_size": 2047, "learned_vocab_size": 1800, "compression_ratio": 1.1651084783827286, "example_words": [] }, { "step": 1801, "pair": [ "छ", "े" ], "new_token": "छे", "frequency": 19, "vocab_size": 2049, "learned_vocab_size": 1801, "compression_ratio": 1.1651084783827286, "example_words": [ "छेद", "छेड़", "अच्छे" ] }, { "step": 1802, "pair": [ "सा", "धारण" ], "new_token": "साधारण", "frequency": 19, "vocab_size": 2050, "learned_vocab_size": 1802, "compression_ratio": 1.165156780608088, "example_words": [] }, { "step": 1803, "pair": [ "पश्", "चा" ], "new_token": "पश्चा", "frequency": 19, "vocab_size": 2051, "learned_vocab_size": 1803, "compression_ratio": 1.165156780608088, "example_words": [] }, { "step": 1804, "pair": [ "हा", "ला" ], "new_token": "हाला", "frequency": 19, "vocab_size": 2052, "learned_vocab_size": 1804, "compression_ratio": 1.1651987857987482, "example_words": [] }, { "step": 1805, "pair": [ "पे", "श" ], "new_token": "पेश", "frequency": 19, "vocab_size": 2053, "learned_vocab_size": 1805, "compression_ratio": 1.1652617992637966, "example_words": [] }, { "step": 1806, "pair": [ "वा", "ं" ], "new_token": "वां", "frequency": 19, "vocab_size": 2054, "learned_vocab_size": 1806, "compression_ratio": 1.16523029167936, "example_words": [] }, { "step": 1807, "pair": [ "नो", "द" ], "new_token": "नोद", "frequency": 19, "vocab_size": 2055, "learned_vocab_size": 1807, "compression_ratio": 1.1653164164467327, "example_words": [] }, { "step": 1808, "pair": [ "प्रति", "नि" ], "new_token": "प्रतिनि", "frequency": 19, "vocab_size": 2056, "learned_vocab_size": 1808, "compression_ratio": 1.165356332241438, "example_words": [] }, { "step": 1809, "pair": [ "इस्", "लाम" ], "new_token": "इस्लाम", "frequency": 19, "vocab_size": 2057, "learned_vocab_size": 1809, "compression_ratio": 1.165356332241438, "example_words": [] }, { "step": 1810, "pair": [ "या", "त्रा" ], "new_token": "यात्रा", "frequency": 19, "vocab_size": 2058, "learned_vocab_size": 1810, "compression_ratio": 1.165358433148486, "example_words": [] }, { "step": 1811, "pair": [ "धार्", "मिक" ], "new_token": "धार्मिक", "frequency": 19, "vocab_size": 2059, "learned_vocab_size": 1811, "compression_ratio": 1.165358433148486, "example_words": [] }, { "step": 1812, "pair": [ "नामा", "ंकन" ], "new_token": "नामांकन", "frequency": 19, "vocab_size": 2060, "learned_vocab_size": 1812, "compression_ratio": 1.165358433148486, "example_words": [] }, { "step": 1813, "pair": [ "मरु", "धर" ], "new_token": "मरुधर", "frequency": 19, "vocab_size": 2061, "learned_vocab_size": 1813, "compression_ratio": 1.165358433148486, "example_words": [] }, { "step": 1814, "pair": [ "म", "ंगलौर" ], "new_token": "मंगलौर", "frequency": 19, "vocab_size": 2062, "learned_vocab_size": 1814, "compression_ratio": 1.165358433148486, "example_words": [] }, { "step": 1815, "pair": [ "क्वी", "न" ], "new_token": "क्वीन", "frequency": 19, "vocab_size": 2063, "learned_vocab_size": 1815, "compression_ratio": 1.1654004528802608, "example_words": [] }, { "step": 1816, "pair": [ "जा", "बाद" ], "new_token": "जाबाद", "frequency": 19, "vocab_size": 2064, "learned_vocab_size": 1816, "compression_ratio": 1.1654403744323028, "example_words": [] }, { "step": 1817, "pair": [ "म", "छ" ], "new_token": "मछ", "frequency": 19, "vocab_size": 2065, "learned_vocab_size": 1817, "compression_ratio": 1.1654802987195159, "example_words": [] }, { "step": 1818, "pair": [ "बल्", "ले" ], "new_token": "बल्ले", "frequency": 19, "vocab_size": 2066, "learned_vocab_size": 1818, "compression_ratio": 1.1655202257421815, "example_words": [] }, { "step": 1819, "pair": [ "ब्रा", "ह्" ], "new_token": "ब्राह्", "frequency": 19, "vocab_size": 2067, "learned_vocab_size": 1819, "compression_ratio": 1.1655202257421815, "example_words": [] }, { "step": 1820, "pair": [ "आ", "ता" ], "new_token": "आता", "frequency": 19, "vocab_size": 2068, "learned_vocab_size": 1820, "compression_ratio": 1.1655202257421815, "example_words": [] }, { "step": 1821, "pair": [ "बर्", "ट" ], "new_token": "बर्ट", "frequency": 19, "vocab_size": 2069, "learned_vocab_size": 1821, "compression_ratio": 1.1655601555005806, "example_words": [] }, { "step": 1822, "pair": [ "ज", "ॉर्" ], "new_token": "जॉर्", "frequency": 19, "vocab_size": 2070, "learned_vocab_size": 1822, "compression_ratio": 1.1655601555005806, "example_words": [] }, { "step": 1823, "pair": [ "बै", "ंक" ], "new_token": "बैंक", "frequency": 19, "vocab_size": 2071, "learned_vocab_size": 1823, "compression_ratio": 1.1656063933758163, "example_words": [] }, { "step": 1824, "pair": [ "प्र", "युक्त" ], "new_token": "प्रयुक्त", "frequency": 19, "vocab_size": 2072, "learned_vocab_size": 1824, "compression_ratio": 1.165654736895254, "example_words": [] }, { "step": 1825, "pair": [ "रह", "ते" ], "new_token": "रहते", "frequency": 19, "vocab_size": 2073, "learned_vocab_size": 1825, "compression_ratio": 1.165654736895254, "example_words": [] }, { "step": 1826, "pair": [ "लि", "पि" ], "new_token": "लिपि", "frequency": 19, "vocab_size": 2074, "learned_vocab_size": 1826, "compression_ratio": 1.1656946758708244, "example_words": [] }, { "step": 1827, "pair": [ "वृ", "न्दावन" ], "new_token": "वृन्दावन", "frequency": 19, "vocab_size": 2075, "learned_vocab_size": 1827, "compression_ratio": 1.165740924419758, "example_words": [] }, { "step": 1828, "pair": [ "प्", "पन" ], "new_token": "प्पन", "frequency": 19, "vocab_size": 2076, "learned_vocab_size": 1828, "compression_ratio": 1.165740924419758, "example_words": [] }, { "step": 1829, "pair": [ "ग", "ढ" ], "new_token": "गढ", "frequency": 19, "vocab_size": 2077, "learned_vocab_size": 1829, "compression_ratio": 1.165782971739797, "example_words": [] }, { "step": 1830, "pair": [ "सू", "क्ष्" ], "new_token": "सूक्ष्", "frequency": 19, "vocab_size": 2078, "learned_vocab_size": 1830, "compression_ratio": 1.1645312618224923, "example_words": [] }, { "step": 1831, "pair": [ "आ", "ण्" ], "new_token": "आण्", "frequency": 19, "vocab_size": 2079, "learned_vocab_size": 1831, "compression_ratio": 1.1645312618224923, "example_words": [] }, { "step": 1832, "pair": [ "आण्", "विक" ], "new_token": "आण्विक", "frequency": 19, "vocab_size": 2080, "learned_vocab_size": 1832, "compression_ratio": 1.1645711238463103, "example_words": [] }, { "step": 1833, "pair": [ "आयो", "जित" ], "new_token": "आयोजित", "frequency": 19, "vocab_size": 2081, "learned_vocab_size": 1833, "compression_ratio": 1.1645711238463103, "example_words": [] }, { "step": 1834, "pair": [ "वि", "देश" ], "new_token": "विदेश", "frequency": 19, "vocab_size": 2082, "learned_vocab_size": 1834, "compression_ratio": 1.1645732219231586, "example_words": [] }, { "step": 1835, "pair": [ "र", "ज" ], "new_token": "रज", "frequency": 19, "vocab_size": 2083, "learned_vocab_size": 1835, "compression_ratio": 1.164642462700416, "example_words": [] }, { "step": 1836, "pair": [ "त", "ै" ], "new_token": "तै", "frequency": 19, "vocab_size": 2084, "learned_vocab_size": 1836, "compression_ratio": 1.1646949233164208, "example_words": [] }, { "step": 1837, "pair": [ "स्व", "य" ], "new_token": "स्वय", "frequency": 19, "vocab_size": 2085, "learned_vocab_size": 1837, "compression_ratio": 1.1647473886587516, "example_words": [] }, { "step": 1838, "pair": [ "शि", "प" ], "new_token": "शिप", "frequency": 19, "vocab_size": 2086, "learned_vocab_size": 1838, "compression_ratio": 1.1647872654802833, "example_words": [] }, { "step": 1839, "pair": [ "वे", "यर" ], "new_token": "वेयर", "frequency": 19, "vocab_size": 2087, "learned_vocab_size": 1839, "compression_ratio": 1.1648313430388346, "example_words": [] }, { "step": 1840, "pair": [ "ट", "बॉ" ], "new_token": "टबॉ", "frequency": 19, "vocab_size": 2088, "learned_vocab_size": 1840, "compression_ratio": 1.1648754239334538, "example_words": [] }, { "step": 1841, "pair": [ "स्वा", "स्थ" ], "new_token": "स्वास्थ", "frequency": 19, "vocab_size": 2089, "learned_vocab_size": 1841, "compression_ratio": 1.1649174088397591, "example_words": [] }, { "step": 1842, "pair": [ "स्वास्थ", "्य" ], "new_token": "स्वास्थ्य", "frequency": 19, "vocab_size": 2090, "learned_vocab_size": 1842, "compression_ratio": 1.1649174088397591, "example_words": [] }, { "step": 1843, "pair": [ "प्र", "भु" ], "new_token": "प्रभु", "frequency": 19, "vocab_size": 2091, "learned_vocab_size": 1843, "compression_ratio": 1.1649174088397591, "example_words": [] }, { "step": 1844, "pair": [ "प्", "ले" ], "new_token": "प्ले", "frequency": 19, "vocab_size": 2092, "learned_vocab_size": 1844, "compression_ratio": 1.1649174088397591, "example_words": [] }, { "step": 1845, "pair": [ "नामी", "बिया" ], "new_token": "नामीबिया", "frequency": 19, "vocab_size": 2093, "learned_vocab_size": 1845, "compression_ratio": 1.1649845909852758, "example_words": [] }, { "step": 1846, "pair": [ "शर्", "मा" ], "new_token": "शर्मा", "frequency": 18, "vocab_size": 2094, "learned_vocab_size": 1846, "compression_ratio": 1.1649845909852758, "example_words": [] }, { "step": 1847, "pair": [ "सा", "मा" ], "new_token": "सामा", "frequency": 18, "vocab_size": 2095, "learned_vocab_size": 1847, "compression_ratio": 1.1650244840506732, "example_words": [] }, { "step": 1848, "pair": [ "सामा", "जिक" ], "new_token": "सामाजिक", "frequency": 18, "vocab_size": 2096, "learned_vocab_size": 1848, "compression_ratio": 1.165175682569095, "example_words": [] }, { "step": 1849, "pair": [ "पि", "छ" ], "new_token": "पिछ", "frequency": 18, "vocab_size": 2097, "learned_vocab_size": 1849, "compression_ratio": 1.165175682569095, "example_words": [] }, { "step": 1850, "pair": [ "नेटवर्", "क" ], "new_token": "नेटवर्क", "frequency": 18, "vocab_size": 2098, "learned_vocab_size": 1850, "compression_ratio": 1.1652155887230513, "example_words": [] }, { "step": 1851, "pair": [ "आ", "ने" ], "new_token": "आने", "frequency": 18, "vocab_size": 2099, "learned_vocab_size": 1851, "compression_ratio": 1.1652155887230513, "example_words": [] }, { "step": 1852, "pair": [ "सम", "झ" ], "new_token": "समझ", "frequency": 18, "vocab_size": 2100, "learned_vocab_size": 1852, "compression_ratio": 1.1652533970746761, "example_words": [] }, { "step": 1853, "pair": [ "तु", "र" ], "new_token": "तुर", "frequency": 18, "vocab_size": 2101, "learned_vocab_size": 1853, "compression_ratio": 1.1652912078799547, "example_words": [] }, { "step": 1854, "pair": [ "सत्या", "पन" ], "new_token": "सत्यापन", "frequency": 18, "vocab_size": 2102, "learned_vocab_size": 1854, "compression_ratio": 1.1652323921319796, "example_words": [] }, { "step": 1855, "pair": [ "चु", "नौ" ], "new_token": "चुनौ", "frequency": 18, "vocab_size": 2103, "learned_vocab_size": 1855, "compression_ratio": 1.1652323921319796, "example_words": [] }, { "step": 1856, "pair": [ "सफल", "ता" ], "new_token": "सफलता", "frequency": 18, "vocab_size": 2104, "learned_vocab_size": 1856, "compression_ratio": 1.1652702015740877, "example_words": [] }, { "step": 1857, "pair": [ "अ", "ंड" ], "new_token": "अंड", "frequency": 18, "vocab_size": 2105, "learned_vocab_size": 1857, "compression_ratio": 1.165312214943196, "example_words": [] }, { "step": 1858, "pair": [ "भारत", "भाषा" ], "new_token": "भारतभाषा", "frequency": 18, "vocab_size": 2106, "learned_vocab_size": 1858, "compression_ratio": 1.1653689377973524, "example_words": [] }, { "step": 1859, "pair": [ "समर्", "थन" ], "new_token": "समर्थन", "frequency": 18, "vocab_size": 2107, "learned_vocab_size": 1859, "compression_ratio": 1.1653689377973524, "example_words": [] }, { "step": 1860, "pair": [ "मु", "गल" ], "new_token": "मुगल", "frequency": 18, "vocab_size": 2108, "learned_vocab_size": 1860, "compression_ratio": 1.1653689377973524, "example_words": [] }, { "step": 1861, "pair": [ "त", "वा" ], "new_token": "तवा", "frequency": 18, "vocab_size": 2109, "learned_vocab_size": 1861, "compression_ratio": 1.1654067561013866, "example_words": [] }, { "step": 1862, "pair": [ "आ", "ँ" ], "new_token": "आँ", "frequency": 18, "vocab_size": 2110, "learned_vocab_size": 1862, "compression_ratio": 1.1654529818064463, "example_words": [] }, { "step": 1863, "pair": [ "रा", "ँची" ], "new_token": "राँची", "frequency": 18, "vocab_size": 2111, "learned_vocab_size": 1863, "compression_ratio": 1.1654971097640572, "example_words": [] }, { "step": 1864, "pair": [ "का", "व्य" ], "new_token": "काव्य", "frequency": 18, "vocab_size": 2112, "learned_vocab_size": 1864, "compression_ratio": 1.1654971097640572, "example_words": [] }, { "step": 1865, "pair": [ "इन", "का" ], "new_token": "इनका", "frequency": 18, "vocab_size": 2113, "learned_vocab_size": 1865, "compression_ratio": 1.1655412410634596, "example_words": [] }, { "step": 1866, "pair": [ "अग्", "नि" ], "new_token": "अग्नि", "frequency": 18, "vocab_size": 2114, "learned_vocab_size": 1866, "compression_ratio": 1.1655790705515996, "example_words": [] }, { "step": 1867, "pair": [ "आसन", "सोल" ], "new_token": "आसनसोल", "frequency": 18, "vocab_size": 2115, "learned_vocab_size": 1867, "compression_ratio": 1.1655790705515996, "example_words": [] }, { "step": 1868, "pair": [ "को", "चु" ], "new_token": "कोचु", "frequency": 18, "vocab_size": 2116, "learned_vocab_size": 1868, "compression_ratio": 1.1655790705515996, "example_words": [] }, { "step": 1869, "pair": [ "कोचु", "वेली" ], "new_token": "कोचुवेली", "frequency": 18, "vocab_size": 2117, "learned_vocab_size": 1869, "compression_ratio": 1.1656169024954515, "example_words": [] }, { "step": 1870, "pair": [ "ई", "स्ट" ], "new_token": "ईस्ट", "frequency": 18, "vocab_size": 2118, "learned_vocab_size": 1870, "compression_ratio": 1.165654736895254, "example_words": [] }, { "step": 1871, "pair": [ "गोंड", "वाना" ], "new_token": "गोंडवाना", "frequency": 18, "vocab_size": 2119, "learned_vocab_size": 1871, "compression_ratio": 1.165698880132725, "example_words": [] }, { "step": 1872, "pair": [ "कु", "शी" ], "new_token": "कुशी", "frequency": 18, "vocab_size": 2120, "learned_vocab_size": 1872, "compression_ratio": 1.165698880132725, "example_words": [] }, { "step": 1873, "pair": [ "कुशी", "नगर" ], "new_token": "कुशीनगर", "frequency": 18, "vocab_size": 2121, "learned_vocab_size": 1873, "compression_ratio": 1.165736719854575, "example_words": [] }, { "step": 1874, "pair": [ "लक्ष्", "मी" ], "new_token": "लक्ष्मी", "frequency": 18, "vocab_size": 2122, "learned_vocab_size": 1874, "compression_ratio": 1.165774562033133, "example_words": [] }, { "step": 1875, "pair": [ "न", "ॉर्" ], "new_token": "नॉर्", "frequency": 18, "vocab_size": 2123, "learned_vocab_size": 1875, "compression_ratio": 1.165774562033133, "example_words": [] }, { "step": 1876, "pair": [ "ओ", "खा" ], "new_token": "ओखा", "frequency": 18, "vocab_size": 2124, "learned_vocab_size": 1876, "compression_ratio": 1.1658124066686384, "example_words": [] }, { "step": 1877, "pair": [ "वेरा", "वल" ], "new_token": "वेरावल", "frequency": 18, "vocab_size": 2125, "learned_vocab_size": 1877, "compression_ratio": 1.165850253761331, "example_words": [] }, { "step": 1878, "pair": [ "साउ", "थ" ], "new_token": "साउथ", "frequency": 18, "vocab_size": 2126, "learned_vocab_size": 1878, "compression_ratio": 1.165850253761331, "example_words": [] }, { "step": 1879, "pair": [ "पाद", "क" ], "new_token": "पादक", "frequency": 18, "vocab_size": 2127, "learned_vocab_size": 1879, "compression_ratio": 1.1658881033114494, "example_words": [] }, { "step": 1880, "pair": [ "वि", "यतनाम" ], "new_token": "वियतनाम", "frequency": 18, "vocab_size": 2128, "learned_vocab_size": 1880, "compression_ratio": 1.165936470202032, "example_words": [] }, { "step": 1881, "pair": [ "मुख्या", "लय" ], "new_token": "मुख्यालय", "frequency": 18, "vocab_size": 2129, "learned_vocab_size": 1881, "compression_ratio": 1.165936470202032, "example_words": [] }, { "step": 1882, "pair": [ "राजनै", "तिक" ], "new_token": "राजनैतिक", "frequency": 18, "vocab_size": 2130, "learned_vocab_size": 1882, "compression_ratio": 1.165936470202032, "example_words": [] }, { "step": 1883, "pair": [ "इन्", "होंने" ], "new_token": "इन्होंने", "frequency": 18, "vocab_size": 2131, "learned_vocab_size": 1883, "compression_ratio": 1.165936470202032, "example_words": [] }, { "step": 1884, "pair": [ "अ", "दिला" ], "new_token": "अदिला", "frequency": 18, "vocab_size": 2132, "learned_vocab_size": 1884, "compression_ratio": 1.165936470202032, "example_words": [] }, { "step": 1885, "pair": [ "ए", "ड" ], "new_token": "एड", "frequency": 18, "vocab_size": 2133, "learned_vocab_size": 1885, "compression_ratio": 1.1659743253505146, "example_words": [] }, { "step": 1886, "pair": [ "२", "४" ], "new_token": "२४", "frequency": 18, "vocab_size": 2134, "learned_vocab_size": 1886, "compression_ratio": 1.1660205960925507, "example_words": [] }, { "step": 1887, "pair": [ "निर्", "माता" ], "new_token": "निर्माता", "frequency": 18, "vocab_size": 2135, "learned_vocab_size": 1887, "compression_ratio": 1.1660605601434453, "example_words": [] }, { "step": 1888, "pair": [ "अब्", "दु" ], "new_token": "अब्दु", "frequency": 18, "vocab_size": 2136, "learned_vocab_size": 1888, "compression_ratio": 1.1661278742112042, "example_words": [] }, { "step": 1889, "pair": [ "स्ना", "तक" ], "new_token": "स्नातक", "frequency": 18, "vocab_size": 2137, "learned_vocab_size": 1889, "compression_ratio": 1.1661278742112042, "example_words": [] }, { "step": 1890, "pair": [ "टि", "ंग" ], "new_token": "टिंग", "frequency": 18, "vocab_size": 2138, "learned_vocab_size": 1890, "compression_ratio": 1.1661846765013106, "example_words": [] }, { "step": 1891, "pair": [ "ल", "ौ" ], "new_token": "लौ", "frequency": 18, "vocab_size": 2139, "learned_vocab_size": 1891, "compression_ratio": 1.1662267558395683, "example_words": [] }, { "step": 1892, "pair": [ "वी", "र" ], "new_token": "वीर", "frequency": 18, "vocab_size": 2140, "learned_vocab_size": 1892, "compression_ratio": 1.1662835677634, "example_words": [] }, { "step": 1893, "pair": [ "रो", "ड" ], "new_token": "रोड", "frequency": 18, "vocab_size": 2141, "learned_vocab_size": 1893, "compression_ratio": 1.1663782666043554, "example_words": [] }, { "step": 1894, "pair": [ "जन", "पद" ], "new_token": "जनपद", "frequency": 18, "vocab_size": 2142, "learned_vocab_size": 1894, "compression_ratio": 1.166437198089426, "example_words": [] }, { "step": 1895, "pair": [ "झ", "ु" ], "new_token": "झु", "frequency": 18, "vocab_size": 2143, "learned_vocab_size": 1895, "compression_ratio": 1.1664792956534136, "example_words": [] }, { "step": 1896, "pair": [ "म", "ऊ" ], "new_token": "मऊ", "frequency": 18, "vocab_size": 2144, "learned_vocab_size": 1896, "compression_ratio": 1.16651929115386, "example_words": [] }, { "step": 1897, "pair": [ "स", "ल्" ], "new_token": "सल्", "frequency": 18, "vocab_size": 2145, "learned_vocab_size": 1897, "compression_ratio": 1.1665634998980363, "example_words": [] }, { "step": 1898, "pair": [ "लॉ", "जी" ], "new_token": "लॉजी", "frequency": 18, "vocab_size": 2146, "learned_vocab_size": 1898, "compression_ratio": 1.1666056065793298, "example_words": [] }, { "step": 1899, "pair": [ "सूक्ष्", "म" ], "new_token": "सूक्ष्म", "frequency": 18, "vocab_size": 2147, "learned_vocab_size": 1899, "compression_ratio": 1.1666498218662353, "example_words": [] }, { "step": 1900, "pair": [ "छ", "ि" ], "new_token": "छि", "frequency": 18, "vocab_size": 2148, "learned_vocab_size": 1900, "compression_ratio": 1.1666498218662353, "example_words": [] }, { "step": 1901, "pair": [ "स्वय", "ं" ], "new_token": "स्वयं", "frequency": 18, "vocab_size": 2149, "learned_vocab_size": 1901, "compression_ratio": 1.1666877233512616, "example_words": [ "स्वयंवर", "स्वयं", "स्वयंसेवक" ] }, { "step": 1902, "pair": [ "वि", "चार" ], "new_token": "विचार", "frequency": 18, "vocab_size": 2150, "learned_vocab_size": 1902, "compression_ratio": 1.166727733146103, "example_words": [] }, { "step": 1903, "pair": [ "डे", "ली" ], "new_token": "डेली", "frequency": 18, "vocab_size": 2151, "learned_vocab_size": 1903, "compression_ratio": 1.166727733146103, "example_words": [] }, { "step": 1904, "pair": [ "जा", "ंच" ], "new_token": "जांच", "frequency": 18, "vocab_size": 2152, "learned_vocab_size": 1904, "compression_ratio": 1.166765639693659, "example_words": [] }, { "step": 1905, "pair": [ "त", "त्व" ], "new_token": "तत्व", "frequency": 18, "vocab_size": 2153, "learned_vocab_size": 1905, "compression_ratio": 1.1668056548328172, "example_words": [] }, { "step": 1906, "pair": [ "फ्", "ट" ], "new_token": "फ्ट", "frequency": 18, "vocab_size": 2154, "learned_vocab_size": 1906, "compression_ratio": 1.1668519915809539, "example_words": [] }, { "step": 1907, "pair": [ "टबॉ", "ल" ], "new_token": "टबॉल", "frequency": 18, "vocab_size": 2155, "learned_vocab_size": 1907, "compression_ratio": 1.1668962255465638, "example_words": [] }, { "step": 1908, "pair": [ "मु", "हम्" ], "new_token": "मुहम्", "frequency": 18, "vocab_size": 2156, "learned_vocab_size": 1908, "compression_ratio": 1.1669362496434645, "example_words": [] }, { "step": 1909, "pair": [ "शर्", "बत" ], "new_token": "शर्बत", "frequency": 18, "vocab_size": 2157, "learned_vocab_size": 1909, "compression_ratio": 1.1669362496434645, "example_words": [] }, { "step": 1910, "pair": [ "अमीरा", "त" ], "new_token": "अमीरात", "frequency": 18, "vocab_size": 2158, "learned_vocab_size": 1910, "compression_ratio": 1.1669741697416973, "example_words": [] }, { "step": 1911, "pair": [ "वि", "हार" ], "new_token": "विहार", "frequency": 18, "vocab_size": 2159, "learned_vocab_size": 1911, "compression_ratio": 1.1669741697416973, "example_words": [] }, { "step": 1912, "pair": [ "आ", "ंदो" ], "new_token": "आंदो", "frequency": 17, "vocab_size": 2160, "learned_vocab_size": 1912, "compression_ratio": 1.1669741697416973, "example_words": [] }, { "step": 1913, "pair": [ "ए", "च" ], "new_token": "एच", "frequency": 17, "vocab_size": 2161, "learned_vocab_size": 1913, "compression_ratio": 1.1669741697416973, "example_words": [] }, { "step": 1914, "pair": [ "पी", "पु" ], "new_token": "पीपु", "frequency": 17, "vocab_size": 2162, "learned_vocab_size": 1914, "compression_ratio": 1.1670184129712242, "example_words": [] }, { "step": 1915, "pair": [ "त", "ः" ], "new_token": "तः", "frequency": 17, "vocab_size": 2163, "learned_vocab_size": 1915, "compression_ratio": 1.1670542313761316, "example_words": [] }, { "step": 1916, "pair": [ "ट", "ॉ" ], "new_token": "टॉ", "frequency": 17, "vocab_size": 2164, "learned_vocab_size": 1916, "compression_ratio": 1.167123767497874, "example_words": [] }, { "step": 1917, "pair": [ "प्रया", "स" ], "new_token": "प्रयास", "frequency": 17, "vocab_size": 2165, "learned_vocab_size": 1917, "compression_ratio": 1.1671616997842318, "example_words": [] }, { "step": 1918, "pair": [ "हर्", "ष" ], "new_token": "हर्ष", "frequency": 17, "vocab_size": 2166, "learned_vocab_size": 1918, "compression_ratio": 1.1671616997842318, "example_words": [] }, { "step": 1919, "pair": [ "जे", "म्स" ], "new_token": "जेम्स", "frequency": 17, "vocab_size": 2167, "learned_vocab_size": 1919, "compression_ratio": 1.1671616997842318, "example_words": [] }, { "step": 1920, "pair": [ "भाषा", "ओं" ], "new_token": "भाषाओं", "frequency": 17, "vocab_size": 2168, "learned_vocab_size": 1920, "compression_ratio": 1.1672017420948473, "example_words": [] }, { "step": 1921, "pair": [ "ने", "त" ], "new_token": "नेत", "frequency": 17, "vocab_size": 2169, "learned_vocab_size": 1921, "compression_ratio": 1.1672017420948473, "example_words": [] }, { "step": 1922, "pair": [ "अ", "स्" ], "new_token": "अस्", "frequency": 17, "vocab_size": 2170, "learned_vocab_size": 1922, "compression_ratio": 1.1671343039967645, "example_words": [] }, { "step": 1923, "pair": [ "जग", "ह" ], "new_token": "जगह", "frequency": 17, "vocab_size": 2171, "learned_vocab_size": 1923, "compression_ratio": 1.1672164952176654, "example_words": [] }, { "step": 1924, "pair": [ "क", "ड़" ], "new_token": "कड़", "frequency": 17, "vocab_size": 2172, "learned_vocab_size": 1924, "compression_ratio": 1.167260756823911, "example_words": [] }, { "step": 1925, "pair": [ "किलो", "मीटर" ], "new_token": "किलोमीटर", "frequency": 17, "vocab_size": 2173, "learned_vocab_size": 1925, "compression_ratio": 1.1672986980154216, "example_words": [] }, { "step": 1926, "pair": [ "मूर्", "ति" ], "new_token": "मूर्ति", "frequency": 17, "vocab_size": 2174, "learned_vocab_size": 1926, "compression_ratio": 1.167336641673529, "example_words": [] }, { "step": 1927, "pair": [ "सि", "ने" ], "new_token": "सिने", "frequency": 17, "vocab_size": 2175, "learned_vocab_size": 1927, "compression_ratio": 1.167336641673529, "example_words": [] }, { "step": 1928, "pair": [ "धन", "बाद" ], "new_token": "धनबाद", "frequency": 17, "vocab_size": 2176, "learned_vocab_size": 1928, "compression_ratio": 1.167376695988861, "example_words": [] }, { "step": 1929, "pair": [ "ट", "ु" ], "new_token": "टु", "frequency": 17, "vocab_size": 2177, "learned_vocab_size": 1929, "compression_ratio": 1.1674125363904961, "example_words": [] }, { "step": 1930, "pair": [ "ण्ड", "व" ], "new_token": "ण्डव", "frequency": 17, "vocab_size": 2178, "learned_vocab_size": 1930, "compression_ratio": 1.1674568128662892, "example_words": [] }, { "step": 1931, "pair": [ "दुर्", "ग" ], "new_token": "दुर्ग", "frequency": 17, "vocab_size": 2179, "learned_vocab_size": 1931, "compression_ratio": 1.1674568128662892, "example_words": [] }, { "step": 1932, "pair": [ "बु", "ंदे" ], "new_token": "बुंदे", "frequency": 17, "vocab_size": 2180, "learned_vocab_size": 1932, "compression_ratio": 1.1674968754289512, "example_words": [] }, { "step": 1933, "pair": [ "पार्", "क" ], "new_token": "पार्क", "frequency": 17, "vocab_size": 2181, "learned_vocab_size": 1933, "compression_ratio": 1.1674968754289512, "example_words": [] }, { "step": 1934, "pair": [ "कोर", "बा" ], "new_token": "कोरबा", "frequency": 17, "vocab_size": 2182, "learned_vocab_size": 1934, "compression_ratio": 1.1674968754289512, "example_words": [] }, { "step": 1935, "pair": [ "निज़ा", "माबाद" ], "new_token": "निज़ामाबाद", "frequency": 17, "vocab_size": 2183, "learned_vocab_size": 1935, "compression_ratio": 1.1674968754289512, "example_words": [] }, { "step": 1936, "pair": [ "र", "मे" ], "new_token": "रमे", "frequency": 17, "vocab_size": 2184, "learned_vocab_size": 1936, "compression_ratio": 1.167532723210496, "example_words": [] }, { "step": 1937, "pair": [ "या", "त" ], "new_token": "यात", "frequency": 17, "vocab_size": 2185, "learned_vocab_size": 1937, "compression_ratio": 1.1675770088035864, "example_words": [] }, { "step": 1938, "pair": [ "बल्ले", "बाजी" ], "new_token": "बल्लेबाजी", "frequency": 17, "vocab_size": 2186, "learned_vocab_size": 1938, "compression_ratio": 1.1676887921457408, "example_words": [] }, { "step": 1939, "pair": [ "रा", "धा" ], "new_token": "राधा", "frequency": 17, "vocab_size": 2187, "learned_vocab_size": 1939, "compression_ratio": 1.1676887921457408, "example_words": [] }, { "step": 1940, "pair": [ "जॉर्", "ज" ], "new_token": "जॉर्ज", "frequency": 17, "vocab_size": 2188, "learned_vocab_size": 1940, "compression_ratio": 1.1677373085580296, "example_words": [] }, { "step": 1941, "pair": [ "डे", "वि" ], "new_token": "डेवि", "frequency": 17, "vocab_size": 2189, "learned_vocab_size": 1941, "compression_ratio": 1.167779500019872, "example_words": [] }, { "step": 1942, "pair": [ "मोहम्", "मद" ], "new_token": "मोहम्मद", "frequency": 17, "vocab_size": 2190, "learned_vocab_size": 1942, "compression_ratio": 1.1678153651596586, "example_words": [] }, { "step": 1943, "pair": [ "ब", "ौ" ], "new_token": "बौ", "frequency": 17, "vocab_size": 2191, "learned_vocab_size": 1943, "compression_ratio": 1.1678153651596586, "example_words": [] }, { "step": 1944, "pair": [ "बी", "बी" ], "new_token": "बीबी", "frequency": 17, "vocab_size": 2192, "learned_vocab_size": 1944, "compression_ratio": 1.167859672197491, "example_words": [] }, { "step": 1945, "pair": [ "रू", "स" ], "new_token": "रूस", "frequency": 17, "vocab_size": 2193, "learned_vocab_size": 1945, "compression_ratio": 1.1678997624145189, "example_words": [] }, { "step": 1946, "pair": [ "तह", "त" ], "new_token": "तहत", "frequency": 17, "vocab_size": 2194, "learned_vocab_size": 1946, "compression_ratio": 1.1679588477514966, "example_words": [] }, { "step": 1947, "pair": [ "नवा", "ब" ], "new_token": "नवाब", "frequency": 17, "vocab_size": 2195, "learned_vocab_size": 1947, "compression_ratio": 1.1679947239086441, "example_words": [] }, { "step": 1948, "pair": [ "ण", "ि" ], "new_token": "णि", "frequency": 17, "vocab_size": 2196, "learned_vocab_size": 1948, "compression_ratio": 1.1679947239086441, "example_words": [] }, { "step": 1949, "pair": [ "हि", "स्सा" ], "new_token": "हिस्सा", "frequency": 17, "vocab_size": 2197, "learned_vocab_size": 1949, "compression_ratio": 1.167910312929103, "example_words": [] }, { "step": 1950, "pair": [ "कैरि", "यर" ], "new_token": "कैरियर", "frequency": 17, "vocab_size": 2198, "learned_vocab_size": 1950, "compression_ratio": 1.167910312929103, "example_words": [] }, { "step": 1951, "pair": [ "चा", "ँ" ], "new_token": "चाँ", "frequency": 17, "vocab_size": 2201, "learned_vocab_size": 1951, "compression_ratio": 1.1679609580526726, "example_words": [] }, { "step": 1952, "pair": [ "देहा", "त" ], "new_token": "देहात", "frequency": 17, "vocab_size": 2202, "learned_vocab_size": 1952, "compression_ratio": 1.1680052761390227, "example_words": [] }, { "step": 1953, "pair": [ "वै", "दिक" ], "new_token": "वैदिक", "frequency": 17, "vocab_size": 2203, "learned_vocab_size": 1953, "compression_ratio": 1.1680411551485497, "example_words": [] }, { "step": 1954, "pair": [ "सि", "स्ट" ], "new_token": "सिस्ट", "frequency": 17, "vocab_size": 2204, "learned_vocab_size": 1954, "compression_ratio": 1.1680411551485497, "example_words": [] }, { "step": 1955, "pair": [ "प्रत्ये", "क" ], "new_token": "प्रत्येक", "frequency": 17, "vocab_size": 2205, "learned_vocab_size": 1955, "compression_ratio": 1.1681108089304915, "example_words": [] }, { "step": 1956, "pair": [ "निर्", "देशिका" ], "new_token": "निर्देशिका", "frequency": 17, "vocab_size": 2206, "learned_vocab_size": 1956, "compression_ratio": 1.1681108089304915, "example_words": [] }, { "step": 1957, "pair": [ "अभि", "नय" ], "new_token": "अभिनय", "frequency": 17, "vocab_size": 2207, "learned_vocab_size": 1957, "compression_ratio": 1.1681108089304915, "example_words": [] }, { "step": 1958, "pair": [ "तै", "यार" ], "new_token": "तैयार", "frequency": 17, "vocab_size": 2208, "learned_vocab_size": 1958, "compression_ratio": 1.168153027386987, "example_words": [] }, { "step": 1959, "pair": [ "कंप्यू", "टर" ], "new_token": "कंप्यूटर", "frequency": 17, "vocab_size": 2209, "learned_vocab_size": 1959, "compression_ratio": 1.168153027386987, "example_words": [] }, { "step": 1960, "pair": [ "आस", "पास" ], "new_token": "आसपास", "frequency": 17, "vocab_size": 2210, "learned_vocab_size": 1960, "compression_ratio": 1.168153027386987, "example_words": [] }, { "step": 1961, "pair": [ "ग", "न" ], "new_token": "गन", "frequency": 17, "vocab_size": 2211, "learned_vocab_size": 1961, "compression_ratio": 1.1681910266071742, "example_words": [] }, { "step": 1962, "pair": [ "चि", "न्" ], "new_token": "चिन्", "frequency": 17, "vocab_size": 2212, "learned_vocab_size": 1962, "compression_ratio": 1.1682395847640803, "example_words": [] }, { "step": 1963, "pair": [ "उपन्या", "स" ], "new_token": "उपन्यास", "frequency": 17, "vocab_size": 2213, "learned_vocab_size": 1963, "compression_ratio": 1.168302927557501, "example_words": [] }, { "step": 1964, "pair": [ "सु", "न" ], "new_token": "सुन", "frequency": 17, "vocab_size": 2214, "learned_vocab_size": 1964, "compression_ratio": 1.168302927557501, "example_words": [] }, { "step": 1965, "pair": [ "जगदी", "शपुर" ], "new_token": "जगदीशपुर", "frequency": 17, "vocab_size": 2215, "learned_vocab_size": 1965, "compression_ratio": 1.1683472716000962, "example_words": [] }, { "step": 1966, "pair": [ "ख", "ड़" ], "new_token": "खड़", "frequency": 17, "vocab_size": 2216, "learned_vocab_size": 1966, "compression_ratio": 1.168387395301254, "example_words": [] }, { "step": 1967, "pair": [ "मे", "ट्रो" ], "new_token": "मेट्रो", "frequency": 17, "vocab_size": 2217, "learned_vocab_size": 1967, "compression_ratio": 1.1684338577667235, "example_words": [] }, { "step": 1968, "pair": [ "रै", "पि" ], "new_token": "रैपि", "frequency": 17, "vocab_size": 2218, "learned_vocab_size": 1968, "compression_ratio": 1.1684338577667235, "example_words": [] }, { "step": 1969, "pair": [ "रैपि", "ड" ], "new_token": "रैपिड", "frequency": 17, "vocab_size": 2219, "learned_vocab_size": 1969, "compression_ratio": 1.168469763111991, "example_words": [] }, { "step": 1970, "pair": [ "र", "चना" ], "new_token": "रचना", "frequency": 16, "vocab_size": 2220, "learned_vocab_size": 1970, "compression_ratio": 1.1685056706640298, "example_words": [] }, { "step": 1971, "pair": [ "आंदो", "लन" ], "new_token": "आंदोलन", "frequency": 16, "vocab_size": 2221, "learned_vocab_size": 1971, "compression_ratio": 1.1685056706640298, "example_words": [] }, { "step": 1972, "pair": [ "दू", "सरा" ], "new_token": "दूसरा", "frequency": 16, "vocab_size": 2222, "learned_vocab_size": 1972, "compression_ratio": 1.1685056706640298, "example_words": [] }, { "step": 1973, "pair": [ "चुनौ", "ती" ], "new_token": "चुनौती", "frequency": 16, "vocab_size": 2223, "learned_vocab_size": 1973, "compression_ratio": 1.1685056706640298, "example_words": [] }, { "step": 1974, "pair": [ "नु", "क" ], "new_token": "नुक", "frequency": 16, "vocab_size": 2224, "learned_vocab_size": 1974, "compression_ratio": 1.1685394680231822, "example_words": [] }, { "step": 1975, "pair": [ "नि", "यम" ], "new_token": "नियम", "frequency": 16, "vocab_size": 2225, "learned_vocab_size": 1975, "compression_ratio": 1.1685838300241702, "example_words": [] }, { "step": 1976, "pair": [ "ऐ", "सी" ], "new_token": "ऐसी", "frequency": 16, "vocab_size": 2226, "learned_vocab_size": 1976, "compression_ratio": 1.168645097372779, "example_words": [] }, { "step": 1977, "pair": [ "गांगु", "ली" ], "new_token": "गांगुली", "frequency": 16, "vocab_size": 2227, "learned_vocab_size": 1977, "compression_ratio": 1.1686789027979665, "example_words": [] }, { "step": 1978, "pair": [ "गौ", "तम" ], "new_token": "गौतम", "frequency": 16, "vocab_size": 2228, "learned_vocab_size": 1978, "compression_ratio": 1.1686789027979665, "example_words": [] }, { "step": 1979, "pair": [ "मो", "ह" ], "new_token": "मोह", "frequency": 16, "vocab_size": 2229, "learned_vocab_size": 1979, "compression_ratio": 1.1687317276903801, "example_words": [] }, { "step": 1980, "pair": [ "ग", "ये" ], "new_token": "गये", "frequency": 16, "vocab_size": 2230, "learned_vocab_size": 1980, "compression_ratio": 1.1688754355605464, "example_words": [] }, { "step": 1981, "pair": [ "हि", "ंदू" ], "new_token": "हिंदू", "frequency": 16, "vocab_size": 2231, "learned_vocab_size": 1981, "compression_ratio": 1.1689092543132364, "example_words": [] }, { "step": 1982, "pair": [ "त", "ट" ], "new_token": "तट", "frequency": 16, "vocab_size": 2232, "learned_vocab_size": 1982, "compression_ratio": 1.1689092543132364, "example_words": [] }, { "step": 1983, "pair": [ "पार", "ं" ], "new_token": "पारं", "frequency": 16, "vocab_size": 2233, "learned_vocab_size": 1983, "compression_ratio": 1.1689536443960606, "example_words": [] }, { "step": 1984, "pair": [ "मा", "ई" ], "new_token": "माई", "frequency": 16, "vocab_size": 2234, "learned_vocab_size": 1984, "compression_ratio": 1.1689536443960606, "example_words": [] }, { "step": 1985, "pair": [ "झ", "े" ], "new_token": "झे", "frequency": 16, "vocab_size": 2235, "learned_vocab_size": 1985, "compression_ratio": 1.168989581694453, "example_words": [] }, { "step": 1986, "pair": [ "जय", "द्र" ], "new_token": "जयद्र", "frequency": 16, "vocab_size": 2236, "learned_vocab_size": 1986, "compression_ratio": 1.16903609206669, "example_words": [] }, { "step": 1987, "pair": [ "जयद्र", "थ" ], "new_token": "जयद्रथ", "frequency": 16, "vocab_size": 2237, "learned_vocab_size": 1987, "compression_ratio": 1.16903609206669, "example_words": [] }, { "step": 1988, "pair": [ "ा", "त" ], "new_token": "ात", "frequency": 16, "vocab_size": 2238, "learned_vocab_size": 1988, "compression_ratio": 1.16903609206669, "example_words": [] }, { "step": 1989, "pair": [ "गा", "मा" ], "new_token": "गामा", "frequency": 16, "vocab_size": 2239, "learned_vocab_size": 1989, "compression_ratio": 1.1691523841907643, "example_words": [] }, { "step": 1990, "pair": [ "को", "ल" ], "new_token": "कोल", "frequency": 16, "vocab_size": 2240, "learned_vocab_size": 1990, "compression_ratio": 1.1692052518960256, "example_words": [] }, { "step": 1991, "pair": [ "दा", "मो" ], "new_token": "दामो", "frequency": 16, "vocab_size": 2241, "learned_vocab_size": 1991, "compression_ratio": 1.1692835048749164, "example_words": [] }, { "step": 1992, "pair": [ "व", "्" ], "new_token": "व्", "frequency": 16, "vocab_size": 2242, "learned_vocab_size": 1992, "compression_ratio": 1.169319462458372, "example_words": [] }, { "step": 1993, "pair": [ "रा", "धिका" ], "new_token": "राधिका", "frequency": 16, "vocab_size": 2243, "learned_vocab_size": 1993, "compression_ratio": 1.1688162574518444, "example_words": [] }, { "step": 1994, "pair": [ "रे", "खा" ], "new_token": "रेखा", "frequency": 16, "vocab_size": 2244, "learned_vocab_size": 1994, "compression_ratio": 1.1688162574518444, "example_words": [] }, { "step": 1995, "pair": [ "भ", "वन" ], "new_token": "भवन", "frequency": 16, "vocab_size": 2245, "learned_vocab_size": 1995, "compression_ratio": 1.168858526918021, "example_words": [] }, { "step": 1996, "pair": [ "ख", "न" ], "new_token": "खन", "frequency": 16, "vocab_size": 2246, "learned_vocab_size": 1996, "compression_ratio": 1.1689177093071828, "example_words": [] }, { "step": 1997, "pair": [ "पद्", "म" ], "new_token": "पद्म", "frequency": 16, "vocab_size": 2247, "learned_vocab_size": 1997, "compression_ratio": 1.1689198230747808, "example_words": [] }, { "step": 1998, "pair": [ "प्", "पा" ], "new_token": "प्पा", "frequency": 16, "vocab_size": 2248, "learned_vocab_size": 1998, "compression_ratio": 1.1689198230747808, "example_words": [] }, { "step": 1999, "pair": [ "निर्", "देशों" ], "new_token": "निर्देशों", "frequency": 16, "vocab_size": 2249, "learned_vocab_size": 1999, "compression_ratio": 1.1689536443960606, "example_words": [] }, { "step": 2000, "pair": [ "पुनर्", "निर्देशित" ], "new_token": "पुनर्निर्देशित", "frequency": 16, "vocab_size": 2250, "learned_vocab_size": 2000, "compression_ratio": 1.1689536443960606, "example_words": [] }, { "step": 2001, "pair": [ "र", "चित" ], "new_token": "रचित", "frequency": 16, "vocab_size": 2252, "learned_vocab_size": 2001, "compression_ratio": 1.1689536443960606, "example_words": [ "रचित", "विरचित", "संरचित" ] }, { "step": 2002, "pair": [ "पे", "ट" ], "new_token": "पेट", "frequency": 16, "vocab_size": 2253, "learned_vocab_size": 2002, "compression_ratio": 1.1689536443960606, "example_words": [] }, { "step": 2003, "pair": [ "सि", "न" ], "new_token": "सिन", "frequency": 16, "vocab_size": 2254, "learned_vocab_size": 2003, "compression_ratio": 1.169017064648905, "example_words": [] }, { "step": 2004, "pair": [ "सम्", "मेलन" ], "new_token": "सम्मेलन", "frequency": 16, "vocab_size": 2255, "learned_vocab_size": 2004, "compression_ratio": 1.16903609206669, "example_words": [] }, { "step": 2005, "pair": [ "स", "सेर" ], "new_token": "ससेर", "frequency": 16, "vocab_size": 2256, "learned_vocab_size": 2005, "compression_ratio": 1.16903609206669, "example_words": [] }, { "step": 2006, "pair": [ "मी", "॰" ], "new_token": "मी॰", "frequency": 16, "vocab_size": 2257, "learned_vocab_size": 2006, "compression_ratio": 1.16903609206669, "example_words": [] }, { "step": 2007, "pair": [ "शा", "दी" ], "new_token": "शादी", "frequency": 16, "vocab_size": 2258, "learned_vocab_size": 2007, "compression_ratio": 1.1690720344347385, "example_words": [] }, { "step": 2008, "pair": [ "श", "ै" ], "new_token": "शै", "frequency": 16, "vocab_size": 2259, "learned_vocab_size": 2008, "compression_ratio": 1.169105864564833, "example_words": [] }, { "step": 2009, "pair": [ "सहा", "यक" ], "new_token": "सहायक", "frequency": 16, "vocab_size": 2260, "learned_vocab_size": 2009, "compression_ratio": 1.1692771596485738, "example_words": [] }, { "step": 2010, "pair": [ "ग्", "लो" ], "new_token": "ग्लो", "frequency": 16, "vocab_size": 2261, "learned_vocab_size": 2010, "compression_ratio": 1.1692771596485738, "example_words": [] }, { "step": 2011, "pair": [ "ध", "े" ], "new_token": "धे", "frequency": 16, "vocab_size": 2262, "learned_vocab_size": 2011, "compression_ratio": 1.169319462458372, "example_words": [] }, { "step": 2012, "pair": [ "मु", "बार" ], "new_token": "मुबार", "frequency": 16, "vocab_size": 2263, "learned_vocab_size": 2012, "compression_ratio": 1.1693554222534173, "example_words": [] }, { "step": 2013, "pair": [ "ल", "ह" ], "new_token": "लह", "frequency": 16, "vocab_size": 2264, "learned_vocab_size": 2013, "compression_ratio": 1.1693554222534173, "example_words": [] }, { "step": 2014, "pair": [ "दे", "ने" ], "new_token": "देने", "frequency": 16, "vocab_size": 2265, "learned_vocab_size": 2014, "compression_ratio": 1.1694083083229765, "example_words": [] }, { "step": 2015, "pair": [ "ए", "टा" ], "new_token": "एटा", "frequency": 16, "vocab_size": 2266, "learned_vocab_size": 2015, "compression_ratio": 1.1694442735828234, "example_words": [] }, { "step": 2016, "pair": [ "ह", "ड़" ], "new_token": "हड़", "frequency": 16, "vocab_size": 2267, "learned_vocab_size": 2016, "compression_ratio": 1.1694802410549683, "example_words": [] }, { "step": 2017, "pair": [ "दि", "व" ], "new_token": "दिव", "frequency": 16, "vocab_size": 2268, "learned_vocab_size": 2017, "compression_ratio": 1.1695140948145628, "example_words": [] }, { "step": 2018, "pair": [ "ऐ", "से" ], "new_token": "ऐसे", "frequency": 16, "vocab_size": 2269, "learned_vocab_size": 2018, "compression_ratio": 1.1695669952378884, "example_words": [] }, { "step": 2019, "pair": [ "वै", "ज्ञानिक" ], "new_token": "वैज्ञानिक", "frequency": 16, "vocab_size": 2270, "learned_vocab_size": 2019, "compression_ratio": 1.1696008540204097, "example_words": [] }, { "step": 2020, "pair": [ "आ", "शा" ], "new_token": "आशा", "frequency": 16, "vocab_size": 2271, "learned_vocab_size": 2020, "compression_ratio": 1.1696008540204097, "example_words": [] }, { "step": 2021, "pair": [ "आ", "गे" ], "new_token": "आगे", "frequency": 16, "vocab_size": 2272, "learned_vocab_size": 2021, "compression_ratio": 1.1696495294549785, "example_words": [] }, { "step": 2022, "pair": [ "नि", "य" ], "new_token": "निय", "frequency": 16, "vocab_size": 2273, "learned_vocab_size": 2022, "compression_ratio": 1.1696833930164428, "example_words": [] }, { "step": 2023, "pair": [ "रेडि", "स" ], "new_token": "रेडिस", "frequency": 16, "vocab_size": 2274, "learned_vocab_size": 2023, "compression_ratio": 1.1696495294549785, "example_words": [] }, { "step": 2024, "pair": [ "क्रा", "ंति" ], "new_token": "क्रांति", "frequency": 16, "vocab_size": 2275, "learned_vocab_size": 2024, "compression_ratio": 1.1696833930164428, "example_words": [] }, { "step": 2025, "pair": [ "ता", "ण्डव" ], "new_token": "ताण्डव", "frequency": 16, "vocab_size": 2276, "learned_vocab_size": 2025, "compression_ratio": 1.1696833930164428, "example_words": [] }, { "step": 2026, "pair": [ "मान", "चित्र" ], "new_token": "मानचित्र", "frequency": 16, "vocab_size": 2277, "learned_vocab_size": 2026, "compression_ratio": 1.1696833930164428, "example_words": [] }, { "step": 2027, "pair": [ "कल्या", "ण" ], "new_token": "कल्याण", "frequency": 16, "vocab_size": 2278, "learned_vocab_size": 2027, "compression_ratio": 1.1696833930164428, "example_words": [] }, { "step": 2028, "pair": [ "टाइ", "म्स" ], "new_token": "टाइम्स", "frequency": 16, "vocab_size": 2279, "learned_vocab_size": 2028, "compression_ratio": 1.1696833930164428, "example_words": [] }, { "step": 2029, "pair": [ "अ", "ंजन" ], "new_token": "अंजन", "frequency": 16, "vocab_size": 2280, "learned_vocab_size": 2029, "compression_ratio": 1.1697299586152485, "example_words": [] }, { "step": 2030, "pair": [ "बी", "मा" ], "new_token": "बीमा", "frequency": 16, "vocab_size": 2281, "learned_vocab_size": 2030, "compression_ratio": 1.1697299586152485, "example_words": [] }, { "step": 2031, "pair": [ "चै", "नल" ], "new_token": "चैनल", "frequency": 15, "vocab_size": 2282, "learned_vocab_size": 2031, "compression_ratio": 1.1697955800705047, "example_words": [] }, { "step": 2032, "pair": [ "बा", "ल" ], "new_token": "बाल", "frequency": 15, "vocab_size": 2283, "learned_vocab_size": 2032, "compression_ratio": 1.1698400374977151, "example_words": [] }, { "step": 2033, "pair": [ "टा", "टा" ], "new_token": "टाटा", "frequency": 15, "vocab_size": 2284, "learned_vocab_size": 2033, "compression_ratio": 1.169935314792895, "example_words": [] }, { "step": 2034, "pair": [ "ड", "न" ], "new_token": "डन", "frequency": 15, "vocab_size": 2285, "learned_vocab_size": 2034, "compression_ratio": 1.169973430056615, "example_words": [] }, { "step": 2035, "pair": [ "पीपु", "ल्स" ], "new_token": "पीपुल्स", "frequency": 15, "vocab_size": 2286, "learned_vocab_size": 2035, "compression_ratio": 1.1700390788328117, "example_words": [] }, { "step": 2036, "pair": [ "सर्व", "श्रेष्ठ" ], "new_token": "सर्वश्रेष्ठ", "frequency": 15, "vocab_size": 2287, "learned_vocab_size": 2036, "compression_ratio": 1.1700708470146146, "example_words": [] }, { "step": 2037, "pair": [ "इस", "लिए" ], "new_token": "इसलिए", "frequency": 15, "vocab_size": 2288, "learned_vocab_size": 2037, "compression_ratio": 1.1700708470146146, "example_words": [] }, { "step": 2038, "pair": [ "क", "था" ], "new_token": "कथा", "frequency": 15, "vocab_size": 2289, "learned_vocab_size": 2038, "compression_ratio": 1.1701047349767035, "example_words": [] }, { "step": 2039, "pair": [ "बि", "ना" ], "new_token": "बिना", "frequency": 15, "vocab_size": 2290, "learned_vocab_size": 2039, "compression_ratio": 1.1701725167900654, "example_words": [] }, { "step": 2040, "pair": [ "त", "त्" ], "new_token": "तत्", "frequency": 15, "vocab_size": 2291, "learned_vocab_size": 2040, "compression_ratio": 1.1702042922184306, "example_words": [] }, { "step": 2041, "pair": [ "वर्ण", "न" ], "new_token": "वर्णन", "frequency": 15, "vocab_size": 2292, "learned_vocab_size": 2041, "compression_ratio": 1.1702170028729755, "example_words": [] }, { "step": 2042, "pair": [ "लि", "खा" ], "new_token": "लिखा", "frequency": 15, "vocab_size": 2293, "learned_vocab_size": 2042, "compression_ratio": 1.1702170028729755, "example_words": [] }, { "step": 2043, "pair": [ "टे", "ली" ], "new_token": "टेली", "frequency": 15, "vocab_size": 2294, "learned_vocab_size": 2043, "compression_ratio": 1.1702487807174125, "example_words": [] }, { "step": 2044, "pair": [ "श", "ंकर" ], "new_token": "शंकर", "frequency": 15, "vocab_size": 2295, "learned_vocab_size": 2044, "compression_ratio": 1.1702975100977457, "example_words": [] }, { "step": 2045, "pair": [ "श", "र" ], "new_token": "शर", "frequency": 15, "vocab_size": 2296, "learned_vocab_size": 2045, "compression_ratio": 1.1702975100977457, "example_words": [] }, { "step": 2046, "pair": [ "ग", "ठ" ], "new_token": "गठ", "frequency": 15, "vocab_size": 2297, "learned_vocab_size": 2046, "compression_ratio": 1.1699310799168905, "example_words": [] }, { "step": 2047, "pair": [ "बहरा", "इ" ], "new_token": "बहराइ", "frequency": 15, "vocab_size": 2298, "learned_vocab_size": 2047, "compression_ratio": 1.169962842234244, "example_words": [] }, { "step": 2048, "pair": [ "बहराइ", "च" ], "new_token": "बहराइच", "frequency": 15, "vocab_size": 2299, "learned_vocab_size": 2048, "compression_ratio": 1.169962842234244, "example_words": [] }, { "step": 2049, "pair": [ "महमू", "द" ], "new_token": "महमूद", "frequency": 15, "vocab_size": 2300, "learned_vocab_size": 2049, "compression_ratio": 1.169962842234244, "example_words": [] }, { "step": 2050, "pair": [ "मन्दि", "र" ], "new_token": "मन्दिर", "frequency": 15, "vocab_size": 2301, "learned_vocab_size": 2050, "compression_ratio": 1.169962842234244, "example_words": [] }, { "step": 2051, "pair": [ "उ", "म्र" ], "new_token": "उम्र", "frequency": 15, "vocab_size": 2302, "learned_vocab_size": 2051, "compression_ratio": 1.169962842234244, "example_words": [] }, { "step": 2052, "pair": [ "छ", "ी" ], "new_token": "छी", "frequency": 15, "vocab_size": 2303, "learned_vocab_size": 2052, "compression_ratio": 1.169962842234244, "example_words": [] }, { "step": 2053, "pair": [ "महा", "देव" ], "new_token": "महादेव", "frequency": 15, "vocab_size": 2304, "learned_vocab_size": 2053, "compression_ratio": 1.1699946062762672, "example_words": [] }, { "step": 2054, "pair": [ "का", "फी" ], "new_token": "काफी", "frequency": 15, "vocab_size": 2305, "learned_vocab_size": 2054, "compression_ratio": 1.1699946062762672, "example_words": [] }, { "step": 2055, "pair": [ "कठ", "ि" ], "new_token": "कठि", "frequency": 15, "vocab_size": 2306, "learned_vocab_size": 2055, "compression_ratio": 1.1700263720431003, "example_words": [] }, { "step": 2056, "pair": [ "भ", "द्रा" ], "new_token": "भद्रा", "frequency": 15, "vocab_size": 2307, "learned_vocab_size": 2056, "compression_ratio": 1.1700581395348837, "example_words": [] }, { "step": 2057, "pair": [ "ने", "ल" ], "new_token": "नेल", "frequency": 15, "vocab_size": 2308, "learned_vocab_size": 2057, "compression_ratio": 1.1700581395348837, "example_words": [] }, { "step": 2058, "pair": [ "चि", "लि" ], "new_token": "चिलि", "frequency": 15, "vocab_size": 2309, "learned_vocab_size": 2058, "compression_ratio": 1.170089908751758, "example_words": [] }, { "step": 2059, "pair": [ "क्", "का" ], "new_token": "क्का", "frequency": 15, "vocab_size": 2310, "learned_vocab_size": 2059, "compression_ratio": 1.1701216796938638, "example_words": [] }, { "step": 2060, "pair": [ "दामो", "दर" ], "new_token": "दामोदर", "frequency": 15, "vocab_size": 2311, "learned_vocab_size": 2060, "compression_ratio": 1.1701703984895304, "example_words": [] }, { "step": 2061, "pair": [ "गो", "मती" ], "new_token": "गोमती", "frequency": 15, "vocab_size": 2312, "learned_vocab_size": 2061, "compression_ratio": 1.1702064106416796, "example_words": [] }, { "step": 2062, "pair": [ "का", "वेरी" ], "new_token": "कावेरी", "frequency": 15, "vocab_size": 2313, "learned_vocab_size": 2062, "compression_ratio": 1.1702064106416796, "example_words": [] }, { "step": 2063, "pair": [ "ग्", "वालि" ], "new_token": "ग्वालि", "frequency": 15, "vocab_size": 2314, "learned_vocab_size": 2063, "compression_ratio": 1.1702064106416796, "example_words": [] }, { "step": 2064, "pair": [ "ग्वालि", "यर" ], "new_token": "ग्वालियर", "frequency": 15, "vocab_size": 2315, "learned_vocab_size": 2064, "compression_ratio": 1.1702064106416796, "example_words": [] }, { "step": 2065, "pair": [ "क", "चे" ], "new_token": "कचे", "frequency": 15, "vocab_size": 2316, "learned_vocab_size": 2065, "compression_ratio": 1.1702064106416796, "example_words": [] }, { "step": 2066, "pair": [ "मु", "द्दीन" ], "new_token": "मुद्दीन", "frequency": 15, "vocab_size": 2317, "learned_vocab_size": 2066, "compression_ratio": 1.1702381879108366, "example_words": [] }, { "step": 2067, "pair": [ "मो", "तिहारी" ], "new_token": "मोतिहारी", "frequency": 15, "vocab_size": 2318, "learned_vocab_size": 2067, "compression_ratio": 1.170274204235628, "example_words": [] }, { "step": 2068, "pair": [ "प्रणा", "ली" ], "new_token": "प्रणाली", "frequency": 15, "vocab_size": 2319, "learned_vocab_size": 2068, "compression_ratio": 1.170274204235628, "example_words": [] }, { "step": 2069, "pair": [ "सं", "पादक" ], "new_token": "संपादक", "frequency": 15, "vocab_size": 2320, "learned_vocab_size": 2069, "compression_ratio": 1.170274204235628, "example_words": [] }, { "step": 2070, "pair": [ "दर", "वा" ], "new_token": "दरवा", "frequency": 15, "vocab_size": 2321, "learned_vocab_size": 2070, "compression_ratio": 1.17031234158423, "example_words": [] }, { "step": 2071, "pair": [ "भारत", "प्रान्त" ], "new_token": "भारतप्रान्त", "frequency": 15, "vocab_size": 2322, "learned_vocab_size": 2071, "compression_ratio": 1.1703462435364493, "example_words": [] }, { "step": 2072, "pair": [ "प", "शु" ], "new_token": "पशु", "frequency": 15, "vocab_size": 2323, "learned_vocab_size": 2072, "compression_ratio": 1.1703462435364493, "example_words": [] }, { "step": 2073, "pair": [ "शो", "ध" ], "new_token": "शोध", "frequency": 15, "vocab_size": 2324, "learned_vocab_size": 2073, "compression_ratio": 1.1703949810340302, "example_words": [] }, { "step": 2074, "pair": [ "अनु", "वाद" ], "new_token": "अनुवाद", "frequency": 15, "vocab_size": 2325, "learned_vocab_size": 2074, "compression_ratio": 1.1704331262550087, "example_words": [] }, { "step": 2075, "pair": [ "अ", "शो" ], "new_token": "अशो", "frequency": 15, "vocab_size": 2326, "learned_vocab_size": 2075, "compression_ratio": 1.1704331262550087, "example_words": [] }, { "step": 2076, "pair": [ "२", "६" ], "new_token": "२६", "frequency": 15, "vocab_size": 2327, "learned_vocab_size": 2076, "compression_ratio": 1.1704670352055422, "example_words": [] }, { "step": 2077, "pair": [ "बो", "ली" ], "new_token": "बोली", "frequency": 15, "vocab_size": 2328, "learned_vocab_size": 2077, "compression_ratio": 1.1705094241567693, "example_words": [] }, { "step": 2078, "pair": [ "मण्डलभा", "मस" ], "new_token": "मण्डलभामस", "frequency": 15, "vocab_size": 2329, "learned_vocab_size": 2078, "compression_ratio": 1.170545457179384, "example_words": [] }, { "step": 2079, "pair": [ "ख", "ै" ], "new_token": "खै", "frequency": 15, "vocab_size": 2330, "learned_vocab_size": 2079, "compression_ratio": 1.170545457179384, "example_words": [] }, { "step": 2080, "pair": [ "पदार्", "पण" ], "new_token": "पदार्पण", "frequency": 15, "vocab_size": 2331, "learned_vocab_size": 2080, "compression_ratio": 1.1705942112706917, "example_words": [] }, { "step": 2081, "pair": [ "प्रताप", "गढ़" ], "new_token": "प्रतापगढ़", "frequency": 15, "vocab_size": 2332, "learned_vocab_size": 2081, "compression_ratio": 1.1705942112706917, "example_words": [] }, { "step": 2082, "pair": [ "ग", "पुर" ], "new_token": "गपुर", "frequency": 15, "vocab_size": 2333, "learned_vocab_size": 2082, "compression_ratio": 1.1705942112706917, "example_words": [] }, { "step": 2083, "pair": [ "ब", "पुर" ], "new_token": "बपुर", "frequency": 15, "vocab_size": 2334, "learned_vocab_size": 2083, "compression_ratio": 1.1706556896095852, "example_words": [] }, { "step": 2084, "pair": [ "कन्नौ", "ज" ], "new_token": "कन्नौज", "frequency": 15, "vocab_size": 2335, "learned_vocab_size": 2084, "compression_ratio": 1.1706980922265566, "example_words": [] }, { "step": 2085, "pair": [ "भी", "त" ], "new_token": "भीत", "frequency": 15, "vocab_size": 2336, "learned_vocab_size": 2085, "compression_ratio": 1.1706980922265566, "example_words": [] }, { "step": 2086, "pair": [ "मिर्", "जापुर" ], "new_token": "मिर्जापुर", "frequency": 15, "vocab_size": 2337, "learned_vocab_size": 2086, "compression_ratio": 1.1707341368662216, "example_words": [] }, { "step": 2087, "pair": [ "व", "स्ती" ], "new_token": "वस्ती", "frequency": 15, "vocab_size": 2338, "learned_vocab_size": 2087, "compression_ratio": 1.1707659428033252, "example_words": [] }, { "step": 2088, "pair": [ "क", "बीर" ], "new_token": "कबीर", "frequency": 15, "vocab_size": 2339, "learned_vocab_size": 2088, "compression_ratio": 1.1707659428033252, "example_words": [] }, { "step": 2089, "pair": [ "द", "ै" ], "new_token": "दै", "frequency": 15, "vocab_size": 2340, "learned_vocab_size": 2089, "compression_ratio": 1.1708062328046354, "example_words": [] }, { "step": 2090, "pair": [ "प्रार", "ंभिक" ], "new_token": "प्रारंभिक", "frequency": 15, "vocab_size": 2341, "learned_vocab_size": 2090, "compression_ratio": 1.1708486463282322, "example_words": [] }, { "step": 2091, "pair": [ "द", "वा" ], "new_token": "दवा", "frequency": 15, "vocab_size": 2342, "learned_vocab_size": 2091, "compression_ratio": 1.1708486463282322, "example_words": [] }, { "step": 2092, "pair": [ "ड", "ब्" ], "new_token": "डब्", "frequency": 15, "vocab_size": 2343, "learned_vocab_size": 2092, "compression_ratio": 1.170910151396039, "example_words": [] }, { "step": 2093, "pair": [ "ह", "ठ" ], "new_token": "हठ", "frequency": 15, "vocab_size": 2344, "learned_vocab_size": 2093, "compression_ratio": 1.1709610570286828, "example_words": [] }, { "step": 2094, "pair": [ "स", "ली" ], "new_token": "सली", "frequency": 15, "vocab_size": 2345, "learned_vocab_size": 2094, "compression_ratio": 1.1709971178632697, "example_words": [] }, { "step": 2095, "pair": [ "निम्", "नलि" ], "new_token": "निम्नलि", "frequency": 15, "vocab_size": 2346, "learned_vocab_size": 2095, "compression_ratio": 1.1710353023443714, "example_words": [] }, { "step": 2096, "pair": [ "निम्नलि", "खित" ], "new_token": "निम्नलिखित", "frequency": 15, "vocab_size": 2347, "learned_vocab_size": 2096, "compression_ratio": 1.1710353023443714, "example_words": [] }, { "step": 2097, "pair": [ "सिस्ट", "म" ], "new_token": "सिस्टम", "frequency": 15, "vocab_size": 2348, "learned_vocab_size": 2097, "compression_ratio": 1.1710353023443714, "example_words": [] }, { "step": 2098, "pair": [ "पियन", "शिप" ], "new_token": "पियनशिप", "frequency": 15, "vocab_size": 2349, "learned_vocab_size": 2098, "compression_ratio": 1.1710989486804608, "example_words": [] }, { "step": 2099, "pair": [ "फ्रा", "ंस" ], "new_token": "फ्रांस", "frequency": 15, "vocab_size": 2350, "learned_vocab_size": 2099, "compression_ratio": 1.171130774442983, "example_words": [] }, { "step": 2100, "pair": [ "गिरजा", "घर" ], "new_token": "गिरजाघर", "frequency": 15, "vocab_size": 2351, "learned_vocab_size": 2100, "compression_ratio": 1.171130774442983, "example_words": [] }, { "step": 2101, "pair": [ "द", "हा" ], "new_token": "दहा", "frequency": 15, "vocab_size": 2352, "learned_vocab_size": 2101, "compression_ratio": 1.171130774442983, "example_words": [ "उपरदहा", "बागदहा", "सैदहा" ] }, { "step": 2102, "pair": [ "पहा", "ड़" ], "new_token": "पहाड़", "frequency": 15, "vocab_size": 2353, "learned_vocab_size": 2102, "compression_ratio": 1.1711668457316995, "example_words": [] }, { "step": 2103, "pair": [ "म", "वैया" ], "new_token": "मवैया", "frequency": 15, "vocab_size": 2354, "learned_vocab_size": 2103, "compression_ratio": 1.1711668457316995, "example_words": [] }, { "step": 2104, "pair": [ "वह", "न" ], "new_token": "वहन", "frequency": 15, "vocab_size": 2355, "learned_vocab_size": 2104, "compression_ratio": 1.1711986751847168, "example_words": [] }, { "step": 2105, "pair": [ "बर्", "ग" ], "new_token": "बर्ग", "frequency": 15, "vocab_size": 2356, "learned_vocab_size": 2105, "compression_ratio": 1.1712326285082713, "example_words": [] }, { "step": 2106, "pair": [ "ट्रा", "ंज़ि" ], "new_token": "ट्रांज़ि", "frequency": 15, "vocab_size": 2357, "learned_vocab_size": 2106, "compression_ratio": 1.1712326285082713, "example_words": [] }, { "step": 2107, "pair": [ "ट्रांज़ि", "ट" ], "new_token": "ट्रांज़िट", "frequency": 15, "vocab_size": 2358, "learned_vocab_size": 2107, "compression_ratio": 1.1712326285082713, "example_words": [] }, { "step": 2108, "pair": [ "प्र", "पात" ], "new_token": "प्रपात", "frequency": 15, "vocab_size": 2359, "learned_vocab_size": 2108, "compression_ratio": 1.1712326285082713, "example_words": [] }, { "step": 2109, "pair": [ "सी", "नाई" ], "new_token": "सीनाई", "frequency": 15, "vocab_size": 2360, "learned_vocab_size": 2109, "compression_ratio": 1.1712347506563583, "example_words": [] }, { "step": 2110, "pair": [ "झा", "मु" ], "new_token": "झामु", "frequency": 15, "vocab_size": 2361, "learned_vocab_size": 2110, "compression_ratio": 1.1712665838005125, "example_words": [] }, { "step": 2111, "pair": [ "झामु", "मो" ], "new_token": "झामुमो", "frequency": 15, "vocab_size": 2362, "learned_vocab_size": 2111, "compression_ratio": 1.1713005410616115, "example_words": [] }, { "step": 2112, "pair": [ "सार्", "व" ], "new_token": "सार्व", "frequency": 14, "vocab_size": 2363, "learned_vocab_size": 2112, "compression_ratio": 1.1713345002917397, "example_words": [] }, { "step": 2113, "pair": [ "कन्न", "ड़" ], "new_token": "कन्नड़", "frequency": 14, "vocab_size": 2364, "learned_vocab_size": 2113, "compression_ratio": 1.1713345002917397, "example_words": [] }, { "step": 2114, "pair": [ "प", "ब्" ], "new_token": "पब्", "frequency": 14, "vocab_size": 2365, "learned_vocab_size": 2114, "compression_ratio": 1.1713345002917397, "example_words": [] }, { "step": 2115, "pair": [ "आ", "लो" ], "new_token": "आलो", "frequency": 14, "vocab_size": 2366, "learned_vocab_size": 2115, "compression_ratio": 1.1713642162334557, "example_words": [] }, { "step": 2116, "pair": [ "हा", "ल" ], "new_token": "हाल", "frequency": 14, "vocab_size": 2367, "learned_vocab_size": 2116, "compression_ratio": 1.1713960564156185, "example_words": [] }, { "step": 2117, "pair": [ "अधिका", "ंश" ], "new_token": "अधिकांश", "frequency": 14, "vocab_size": 2368, "learned_vocab_size": 2117, "compression_ratio": 1.1713642162334557, "example_words": [] }, { "step": 2118, "pair": [ "छो", "ड़" ], "new_token": "छोड़", "frequency": 14, "vocab_size": 2369, "learned_vocab_size": 2118, "compression_ratio": 1.1713642162334557, "example_words": [] }, { "step": 2119, "pair": [ "न", "ए" ], "new_token": "नए", "frequency": 14, "vocab_size": 2370, "learned_vocab_size": 2119, "compression_ratio": 1.1713939336829553, "example_words": [] }, { "step": 2120, "pair": [ "छा", "या" ], "new_token": "छाया", "frequency": 14, "vocab_size": 2371, "learned_vocab_size": 2120, "compression_ratio": 1.1714236526403536, "example_words": [] }, { "step": 2121, "pair": [ "ब", "च्चे" ], "new_token": "बच्चे", "frequency": 14, "vocab_size": 2372, "learned_vocab_size": 2121, "compression_ratio": 1.1714554960538597, "example_words": [] }, { "step": 2122, "pair": [ "हु", "ल" ], "new_token": "हुल", "frequency": 14, "vocab_size": 2373, "learned_vocab_size": 2122, "compression_ratio": 1.1714554960538597, "example_words": [] }, { "step": 2123, "pair": [ "प्रतिनि", "धित्व" ], "new_token": "प्रतिनिधित्व", "frequency": 14, "vocab_size": 2374, "learned_vocab_size": 2123, "compression_ratio": 1.1714852181351272, "example_words": [] }, { "step": 2124, "pair": [ "ली", "वुड" ], "new_token": "लीवुड", "frequency": 14, "vocab_size": 2375, "learned_vocab_size": 2124, "compression_ratio": 1.1714852181351272, "example_words": [] }, { "step": 2125, "pair": [ "लोकप्रि", "य" ], "new_token": "लोकप्रिय", "frequency": 14, "vocab_size": 2376, "learned_vocab_size": 2125, "compression_ratio": 1.1715191880748494, "example_words": [] }, { "step": 2126, "pair": [ "तीर्", "थ" ], "new_token": "तीर्थ", "frequency": 14, "vocab_size": 2377, "learned_vocab_size": 2126, "compression_ratio": 1.1715191880748494, "example_words": [] }, { "step": 2127, "pair": [ "वि", "वाह" ], "new_token": "विवाह", "frequency": 14, "vocab_size": 2378, "learned_vocab_size": 2127, "compression_ratio": 1.1713790747697252, "example_words": [] }, { "step": 2128, "pair": [ "मु", "स" ], "new_token": "मुस", "frequency": 14, "vocab_size": 2379, "learned_vocab_size": 2128, "compression_ratio": 1.1714172841653936, "example_words": [] }, { "step": 2129, "pair": [ "त", "ला" ], "new_token": "तला", "frequency": 14, "vocab_size": 2380, "learned_vocab_size": 2129, "compression_ratio": 1.1713069082672707, "example_words": [] }, { "step": 2130, "pair": [ "छ", "ु" ], "new_token": "छु", "frequency": 14, "vocab_size": 2381, "learned_vocab_size": 2130, "compression_ratio": 1.1713429904069526, "example_words": [] }, { "step": 2131, "pair": [ "मे", "डि" ], "new_token": "मेडि", "frequency": 14, "vocab_size": 2382, "learned_vocab_size": 2131, "compression_ratio": 1.1713727067794522, "example_words": [] }, { "step": 2132, "pair": [ "से", "न" ], "new_token": "सेन", "frequency": 14, "vocab_size": 2383, "learned_vocab_size": 2132, "compression_ratio": 1.1714300211845594, "example_words": [] }, { "step": 2133, "pair": [ "दी", "प" ], "new_token": "दीप", "frequency": 14, "vocab_size": 2384, "learned_vocab_size": 2133, "compression_ratio": 1.1713005410616115, "example_words": [] }, { "step": 2134, "pair": [ "बी", "जापुर" ], "new_token": "बीजापुर", "frequency": 14, "vocab_size": 2385, "learned_vocab_size": 2134, "compression_ratio": 1.1713429904069526, "example_words": [] }, { "step": 2135, "pair": [ "मि", "थि" ], "new_token": "मिथि", "frequency": 14, "vocab_size": 2386, "learned_vocab_size": 2135, "compression_ratio": 1.1713748294351836, "example_words": [] }, { "step": 2136, "pair": [ "मिथि", "ला" ], "new_token": "मिथिला", "frequency": 14, "vocab_size": 2387, "learned_vocab_size": 2136, "compression_ratio": 1.171406670194336, "example_words": [] }, { "step": 2137, "pair": [ "फ़", "्" ], "new_token": "फ़्", "frequency": 14, "vocab_size": 2388, "learned_vocab_size": 2137, "compression_ratio": 1.1714385126845508, "example_words": [] }, { "step": 2138, "pair": [ "नॉर्", "थ" ], "new_token": "नॉर्थ", "frequency": 14, "vocab_size": 2389, "learned_vocab_size": 2138, "compression_ratio": 1.1715361737834993, "example_words": [] }, { "step": 2139, "pair": [ "सा", "बर" ], "new_token": "साबर", "frequency": 14, "vocab_size": 2390, "learned_vocab_size": 2139, "compression_ratio": 1.1715658999588583, "example_words": [] }, { "step": 2140, "pair": [ "साबर", "मती" ], "new_token": "साबरमती", "frequency": 14, "vocab_size": 2391, "learned_vocab_size": 2140, "compression_ratio": 1.1715956276427804, "example_words": [] }, { "step": 2141, "pair": [ "सि", "म्" ], "new_token": "सिम्", "frequency": 14, "vocab_size": 2392, "learned_vocab_size": 2141, "compression_ratio": 1.1715956276427804, "example_words": [] }, { "step": 2142, "pair": [ "वि", "भू" ], "new_token": "विभू", "frequency": 14, "vocab_size": 2393, "learned_vocab_size": 2142, "compression_ratio": 1.1716317275729444, "example_words": [] }, { "step": 2143, "pair": [ "शि", "ला" ], "new_token": "शिला", "frequency": 14, "vocab_size": 2394, "learned_vocab_size": 2143, "compression_ratio": 1.171661458597664, "example_words": [] }, { "step": 2144, "pair": [ "टे", "ड" ], "new_token": "टेड", "frequency": 14, "vocab_size": 2395, "learned_vocab_size": 2144, "compression_ratio": 1.1716954387593077, "example_words": [] }, { "step": 2145, "pair": [ "उ", "दा" ], "new_token": "उदा", "frequency": 14, "vocab_size": 2396, "learned_vocab_size": 2145, "compression_ratio": 1.1717379167331312, "example_words": [] }, { "step": 2146, "pair": [ "वा", "स्त" ], "new_token": "वास्त", "frequency": 14, "vocab_size": 2397, "learned_vocab_size": 2146, "compression_ratio": 1.1717846460618146, "example_words": [] }, { "step": 2147, "pair": [ "ब्राह्", "मण" ], "new_token": "ब्राह्मण", "frequency": 14, "vocab_size": 2398, "learned_vocab_size": 2147, "compression_ratio": 1.171858995857618, "example_words": [] }, { "step": 2148, "pair": [ "हो", "कर" ], "new_token": "होकर", "frequency": 14, "vocab_size": 2399, "learned_vocab_size": 2148, "compression_ratio": 1.171858995857618, "example_words": [] }, { "step": 2149, "pair": [ "क्षेत्र", "फल" ], "new_token": "क्षेत्रफल", "frequency": 14, "vocab_size": 2400, "learned_vocab_size": 2149, "compression_ratio": 1.1718887384178056, "example_words": [] }, { "step": 2150, "pair": [ "घ", "न" ], "new_token": "घन", "frequency": 14, "vocab_size": 2401, "learned_vocab_size": 2150, "compression_ratio": 1.1718887384178056, "example_words": [] }, { "step": 2151, "pair": [ "श्री", "का" ], "new_token": "श्रीका", "frequency": 14, "vocab_size": 2402, "learned_vocab_size": 2151, "compression_ratio": 1.1719184824878033, "example_words": [] }, { "step": 2152, "pair": [ "नुक", "सान" ], "new_token": "नुकसान", "frequency": 14, "vocab_size": 2403, "learned_vocab_size": 2152, "compression_ratio": 1.1719227317639167, "example_words": [] }, { "step": 2153, "pair": [ "नो", "बेल" ], "new_token": "नोबेल", "frequency": 14, "vocab_size": 2404, "learned_vocab_size": 2153, "compression_ratio": 1.1719227317639167, "example_words": [] }, { "step": 2154, "pair": [ "ग", "ृह" ], "new_token": "गृह", "frequency": 14, "vocab_size": 2405, "learned_vocab_size": 2154, "compression_ratio": 1.171960976635658, "example_words": [] }, { "step": 2155, "pair": [ "ज़", "र" ], "new_token": "ज़र", "frequency": 14, "vocab_size": 2406, "learned_vocab_size": 2155, "compression_ratio": 1.1720140986543182, "example_words": [] }, { "step": 2156, "pair": [ "ऊ", "र्" ], "new_token": "ऊर्", "frequency": 14, "vocab_size": 2407, "learned_vocab_size": 2156, "compression_ratio": 1.1720565997367285, "example_words": [] }, { "step": 2157, "pair": [ "१", "१" ], "new_token": "११", "frequency": 14, "vocab_size": 2408, "learned_vocab_size": 2157, "compression_ratio": 1.1720863523285248, "example_words": [] }, { "step": 2158, "pair": [ "१", "८" ], "new_token": "१८", "frequency": 14, "vocab_size": 2409, "learned_vocab_size": 2158, "compression_ratio": 1.1721182317817271, "example_words": [] }, { "step": 2159, "pair": [ "कल", "श" ], "new_token": "कलश", "frequency": 14, "vocab_size": 2410, "learned_vocab_size": 2159, "compression_ratio": 1.1721628659297298, "example_words": [] }, { "step": 2160, "pair": [ "इन", "की" ], "new_token": "इनकी", "frequency": 14, "vocab_size": 2411, "learned_vocab_size": 2160, "compression_ratio": 1.1721947495452956, "example_words": [] }, { "step": 2161, "pair": [ "भ", "द्र" ], "new_token": "भद्र", "frequency": 14, "vocab_size": 2412, "learned_vocab_size": 2161, "compression_ratio": 1.1722245091514445, "example_words": [] }, { "step": 2162, "pair": [ "क", "भी" ], "new_token": "कभी", "frequency": 14, "vocab_size": 2413, "learned_vocab_size": 2162, "compression_ratio": 1.1722245091514445, "example_words": [] }, { "step": 2163, "pair": [ "फो", "टो" ], "new_token": "फोटो", "frequency": 14, "vocab_size": 2414, "learned_vocab_size": 2163, "compression_ratio": 1.1722819069450288, "example_words": [] }, { "step": 2164, "pair": [ "ल", "ड़ा" ], "new_token": "लड़ा", "frequency": 14, "vocab_size": 2415, "learned_vocab_size": 2164, "compression_ratio": 1.1723116709768917, "example_words": [] }, { "step": 2165, "pair": [ "चि", "ह्" ], "new_token": "चिह्", "frequency": 14, "vocab_size": 2416, "learned_vocab_size": 2165, "compression_ratio": 1.1723414365201998, "example_words": [] }, { "step": 2166, "pair": [ "ज", "ौनपुर" ], "new_token": "जौनपुर", "frequency": 14, "vocab_size": 2417, "learned_vocab_size": 2166, "compression_ratio": 1.1723775824263518, "example_words": [] }, { "step": 2167, "pair": [ "छो", "टे" ], "new_token": "छोटे", "frequency": 14, "vocab_size": 2418, "learned_vocab_size": 2167, "compression_ratio": 1.1723775824263518, "example_words": [] }, { "step": 2168, "pair": [ "च", "ू" ], "new_token": "चू", "frequency": 14, "vocab_size": 2419, "learned_vocab_size": 2168, "compression_ratio": 1.1724116041388941, "example_words": [] }, { "step": 2169, "pair": [ "फ", "ॉ" ], "new_token": "फॉ", "frequency": 14, "vocab_size": 2420, "learned_vocab_size": 2169, "compression_ratio": 1.1724562606333002, "example_words": [] }, { "step": 2170, "pair": [ "रो", "मन" ], "new_token": "रोमन", "frequency": 14, "vocab_size": 2421, "learned_vocab_size": 2170, "compression_ratio": 1.172486033519553, "example_words": [] }, { "step": 2171, "pair": [ "थ", "्" ], "new_token": "थ्", "frequency": 14, "vocab_size": 2422, "learned_vocab_size": 2171, "compression_ratio": 1.1725221883428896, "example_words": [] }, { "step": 2172, "pair": [ "वि", "शि" ], "new_token": "विशि", "frequency": 14, "vocab_size": 2423, "learned_vocab_size": 2172, "compression_ratio": 1.172575361251492, "example_words": [] }, { "step": 2173, "pair": [ "द", "ौ" ], "new_token": "दौ", "frequency": 14, "vocab_size": 2424, "learned_vocab_size": 2173, "compression_ratio": 1.17260726731161, "example_words": [] }, { "step": 2174, "pair": [ "कौ", "श" ], "new_token": "कौश", "frequency": 14, "vocab_size": 2425, "learned_vocab_size": 2174, "compression_ratio": 1.1727391641161755, "example_words": [] }, { "step": 2175, "pair": [ "श्रा", "वस्ती" ], "new_token": "श्रावस्ती", "frequency": 14, "vocab_size": 2426, "learned_vocab_size": 2175, "compression_ratio": 1.1727732068180374, "example_words": [] }, { "step": 2176, "pair": [ "शु", "द्ध" ], "new_token": "शुद्ध", "frequency": 14, "vocab_size": 2427, "learned_vocab_size": 2176, "compression_ratio": 1.1727732068180374, "example_words": [] }, { "step": 2177, "pair": [ "मॉ", "डल" ], "new_token": "मॉडल", "frequency": 14, "vocab_size": 2428, "learned_vocab_size": 2177, "compression_ratio": 1.172805123646062, "example_words": [] }, { "step": 2178, "pair": [ "प", "स" ], "new_token": "पस", "frequency": 14, "vocab_size": 2429, "learned_vocab_size": 2178, "compression_ratio": 1.1728476821192053, "example_words": [] }, { "step": 2179, "pair": [ "धनु", "ष" ], "new_token": "धनुष", "frequency": 14, "vocab_size": 2430, "learned_vocab_size": 2179, "compression_ratio": 1.1728881155297017, "example_words": [] }, { "step": 2180, "pair": [ "पारं", "परिक" ], "new_token": "पारंपरिक", "frequency": 14, "vocab_size": 2431, "learned_vocab_size": 2180, "compression_ratio": 1.1728881155297017, "example_words": [] }, { "step": 2181, "pair": [ "कि", "ये" ], "new_token": "किये", "frequency": 14, "vocab_size": 2432, "learned_vocab_size": 2181, "compression_ratio": 1.1728881155297017, "example_words": [] }, { "step": 2182, "pair": [ "आ", "यु" ], "new_token": "आयु", "frequency": 14, "vocab_size": 2433, "learned_vocab_size": 2182, "compression_ratio": 1.1729242951549044, "example_words": [] }, { "step": 2183, "pair": [ "रो", "ग" ], "new_token": "रोग", "frequency": 14, "vocab_size": 2434, "learned_vocab_size": 2183, "compression_ratio": 1.1730158182883874, "example_words": [] }, { "step": 2184, "pair": [ "पै", "रा" ], "new_token": "पैरा", "frequency": 14, "vocab_size": 2435, "learned_vocab_size": 2184, "compression_ratio": 1.1730669071785165, "example_words": [] }, { "step": 2185, "pair": [ "सॉ", "फ्ट" ], "new_token": "सॉफ्ट", "frequency": 14, "vocab_size": 2436, "learned_vocab_size": 2185, "compression_ratio": 1.173100968911005, "example_words": [] }, { "step": 2186, "pair": [ "नव", "म्बर" ], "new_token": "नवम्बर", "frequency": 14, "vocab_size": 2437, "learned_vocab_size": 2186, "compression_ratio": 1.1731350326216166, "example_words": [] }, { "step": 2187, "pair": [ "पी", "टर" ], "new_token": "पीटर", "frequency": 14, "vocab_size": 2438, "learned_vocab_size": 2187, "compression_ratio": 1.1731350326216166, "example_words": [] }, { "step": 2188, "pair": [ "हेले", "ना" ], "new_token": "हेलेना", "frequency": 14, "vocab_size": 2439, "learned_vocab_size": 2188, "compression_ratio": 1.1731818734539277, "example_words": [] }, { "step": 2189, "pair": [ "अनो", "खी" ], "new_token": "अनोखी", "frequency": 14, "vocab_size": 2440, "learned_vocab_size": 2189, "compression_ratio": 1.173215941863272, "example_words": [] }, { "step": 2190, "pair": [ "मे", "हता" ], "new_token": "मेहता", "frequency": 14, "vocab_size": 2441, "learned_vocab_size": 2190, "compression_ratio": 1.173215941863272, "example_words": [] }, { "step": 2191, "pair": [ "ओ", "लं" ], "new_token": "ओलं", "frequency": 14, "vocab_size": 2442, "learned_vocab_size": 2191, "compression_ratio": 1.1732457533445984, "example_words": [] }, { "step": 2192, "pair": [ "अदिला", "बादु" ], "new_token": "अदिलाबादु", "frequency": 14, "vocab_size": 2443, "learned_vocab_size": 2192, "compression_ratio": 1.1732755663409862, "example_words": [] }, { "step": 2193, "pair": [ "परि", "वहन" ], "new_token": "परिवहन", "frequency": 14, "vocab_size": 2444, "learned_vocab_size": 2193, "compression_ratio": 1.1732755663409862, "example_words": [] }, { "step": 2194, "pair": [ "फा", "यर" ], "new_token": "फायर", "frequency": 14, "vocab_size": 2445, "learned_vocab_size": 2194, "compression_ratio": 1.1733075105185014, "example_words": [] }, { "step": 2195, "pair": [ "इंग्", "लैण्ड" ], "new_token": "इंग्लैण्ड", "frequency": 14, "vocab_size": 2446, "learned_vocab_size": 2195, "compression_ratio": 1.173345845827676, "example_words": [] }, { "step": 2196, "pair": [ "आइ", "॰" ], "new_token": "आइ॰", "frequency": 14, "vocab_size": 2447, "learned_vocab_size": 2196, "compression_ratio": 1.173345845827676, "example_words": [] }, { "step": 2197, "pair": [ "क्", "वाली" ], "new_token": "क्वाली", "frequency": 14, "vocab_size": 2448, "learned_vocab_size": 2197, "compression_ratio": 1.1733756639111856, "example_words": [] }, { "step": 2198, "pair": [ "वा", "ड़" ], "new_token": "वाड़", "frequency": 13, "vocab_size": 2449, "learned_vocab_size": 2198, "compression_ratio": 1.1733756639111856, "example_words": [] }, { "step": 2199, "pair": [ "डि", "ग्री" ], "new_token": "डिग्री", "frequency": 13, "vocab_size": 2450, "learned_vocab_size": 2199, "compression_ratio": 1.1733564949692419, "example_words": [] }, { "step": 2200, "pair": [ "लि", "न" ], "new_token": "लिन", "frequency": 13, "vocab_size": 2451, "learned_vocab_size": 2200, "compression_ratio": 1.1733564949692419, "example_words": [] }, { "step": 2201, "pair": [ "यु", "वा" ], "new_token": "युवा", "frequency": 13, "vocab_size": 2454, "learned_vocab_size": 2201, "compression_ratio": 1.1733863135940112, "example_words": [ "युवा", "युवावस्था", "क्षेत्रवादयुवा" ] }, { "step": 2202, "pair": [ "ग", "यी" ], "new_token": "गयी", "frequency": 13, "vocab_size": 2455, "learned_vocab_size": 2202, "compression_ratio": 1.1734161337343865, "example_words": [] }, { "step": 2203, "pair": [ "विरो", "ध" ], "new_token": "विरोध", "frequency": 13, "vocab_size": 2456, "learned_vocab_size": 2203, "compression_ratio": 1.173445955390483, "example_words": [] }, { "step": 2204, "pair": [ "बना", "ए" ], "new_token": "बनाए", "frequency": 13, "vocab_size": 2457, "learned_vocab_size": 2204, "compression_ratio": 1.1734736482855774, "example_words": [] }, { "step": 2205, "pair": [ "महिला", "ओं" ], "new_token": "महिलाओं", "frequency": 13, "vocab_size": 2458, "learned_vocab_size": 2205, "compression_ratio": 1.1734736482855774, "example_words": [] }, { "step": 2206, "pair": [ "मिन", "ट" ], "new_token": "मिनट", "frequency": 13, "vocab_size": 2459, "learned_vocab_size": 2206, "compression_ratio": 1.1734736482855774, "example_words": [] }, { "step": 2207, "pair": [ "चौ", "धरी" ], "new_token": "चौधरी", "frequency": 13, "vocab_size": 2460, "learned_vocab_size": 2207, "compression_ratio": 1.1735056032503026, "example_words": [] }, { "step": 2208, "pair": [ "म्", "मी" ], "new_token": "म्मी", "frequency": 13, "vocab_size": 2461, "learned_vocab_size": 2208, "compression_ratio": 1.1735056032503026, "example_words": [] }, { "step": 2209, "pair": [ "दे", "ते" ], "new_token": "देते", "frequency": 13, "vocab_size": 2462, "learned_vocab_size": 2209, "compression_ratio": 1.1735332989608371, "example_words": [] }, { "step": 2210, "pair": [ "जा", "यस" ], "new_token": "जायस", "frequency": 13, "vocab_size": 2463, "learned_vocab_size": 2210, "compression_ratio": 1.1735609959786861, "example_words": [] }, { "step": 2211, "pair": [ "जायस", "वाल" ], "new_token": "जायसवाल", "frequency": 13, "vocab_size": 2464, "learned_vocab_size": 2211, "compression_ratio": 1.1735886943039422, "example_words": [] }, { "step": 2212, "pair": [ "अ", "भ" ], "new_token": "अभ", "frequency": 13, "vocab_size": 2465, "learned_vocab_size": 2212, "compression_ratio": 1.1736163939366981, "example_words": [] }, { "step": 2213, "pair": [ "स्वत", "ंत्र" ], "new_token": "स्वतंत्र", "frequency": 13, "vocab_size": 2466, "learned_vocab_size": 2213, "compression_ratio": 1.1711095570757726, "example_words": [] }, { "step": 2214, "pair": [ "नेत", "ृत्व" ], "new_token": "नेतृत्व", "frequency": 13, "vocab_size": 2467, "learned_vocab_size": 2214, "compression_ratio": 1.1711095570757726, "example_words": [] }, { "step": 2215, "pair": [ "सु", "ल्तान" ], "new_token": "सुल्तान", "frequency": 13, "vocab_size": 2468, "learned_vocab_size": 2215, "compression_ratio": 1.1711095570757726, "example_words": [] }, { "step": 2216, "pair": [ "समर्", "पित" ], "new_token": "समर्पित", "frequency": 13, "vocab_size": 2469, "learned_vocab_size": 2216, "compression_ratio": 1.1711095570757726, "example_words": [] }, { "step": 2217, "pair": [ "ड़", "क" ], "new_token": "ड़क", "frequency": 13, "vocab_size": 2470, "learned_vocab_size": 2217, "compression_ratio": 1.1711095570757726, "example_words": [] }, { "step": 2218, "pair": [ "करि", "यर" ], "new_token": "करियर", "frequency": 13, "vocab_size": 2471, "learned_vocab_size": 2218, "compression_ratio": 1.1708974256794453, "example_words": [] }, { "step": 2219, "pair": [ "र", "थ" ], "new_token": "रथ", "frequency": 13, "vocab_size": 2472, "learned_vocab_size": 2219, "compression_ratio": 1.1708974256794453, "example_words": [] }, { "step": 2220, "pair": [ "ञ", "्" ], "new_token": "ञ्", "frequency": 13, "vocab_size": 2473, "learned_vocab_size": 2220, "compression_ratio": 1.1709737841284564, "example_words": [] }, { "step": 2221, "pair": [ "अली", "पुर" ], "new_token": "अलीपुर", "frequency": 13, "vocab_size": 2474, "learned_vocab_size": 2221, "compression_ratio": 1.171003481770522, "example_words": [] }, { "step": 2222, "pair": [ "अंड", "मान" ], "new_token": "अंडमान", "frequency": 13, "vocab_size": 2475, "learned_vocab_size": 2222, "compression_ratio": 1.171003481770522, "example_words": [] }, { "step": 2223, "pair": [ "बर", "ौनी" ], "new_token": "बरौनी", "frequency": 13, "vocab_size": 2476, "learned_vocab_size": 2223, "compression_ratio": 1.171003481770522, "example_words": [] }, { "step": 2224, "pair": [ "बु", "ध" ], "new_token": "बुध", "frequency": 13, "vocab_size": 2477, "learned_vocab_size": 2224, "compression_ratio": 1.171003481770522, "example_words": [] }, { "step": 2225, "pair": [ "टा", "उन" ], "new_token": "टाउन", "frequency": 13, "vocab_size": 2478, "learned_vocab_size": 2225, "compression_ratio": 1.171033180918979, "example_words": [] }, { "step": 2226, "pair": [ "को", "स्ट" ], "new_token": "कोस्ट", "frequency": 13, "vocab_size": 2479, "learned_vocab_size": 2226, "compression_ratio": 1.1710692461960155, "example_words": [] }, { "step": 2227, "pair": [ "पू", "जा" ], "new_token": "पूजा", "frequency": 13, "vocab_size": 2480, "learned_vocab_size": 2227, "compression_ratio": 1.1710989486804608, "example_words": [] }, { "step": 2228, "pair": [ "वा", "डा" ], "new_token": "वाडा", "frequency": 13, "vocab_size": 2481, "learned_vocab_size": 2228, "compression_ratio": 1.1711286526716658, "example_words": [] }, { "step": 2229, "pair": [ "शि", "मला" ], "new_token": "शिमला", "frequency": 13, "vocab_size": 2482, "learned_vocab_size": 2229, "compression_ratio": 1.1711604800487005, "example_words": [] }, { "step": 2230, "pair": [ "शि", "मो" ], "new_token": "शिमो", "frequency": 13, "vocab_size": 2483, "learned_vocab_size": 2230, "compression_ratio": 1.1711604800487005, "example_words": [] }, { "step": 2231, "pair": [ "तू", "फ़ान" ], "new_token": "तूफ़ान", "frequency": 13, "vocab_size": 2484, "learned_vocab_size": 2231, "compression_ratio": 1.1711880651748134, "example_words": [] }, { "step": 2232, "pair": [ "विशाखा", "पट्टनम" ], "new_token": "विशाखापट्टनम", "frequency": 13, "vocab_size": 2485, "learned_vocab_size": 2232, "compression_ratio": 1.1711880651748134, "example_words": [] }, { "step": 2233, "pair": [ "याता", "यात" ], "new_token": "यातायात", "frequency": 13, "vocab_size": 2486, "learned_vocab_size": 2233, "compression_ratio": 1.1711880651748134, "example_words": [] }, { "step": 2234, "pair": [ "सि", "विल" ], "new_token": "सिविल", "frequency": 13, "vocab_size": 2487, "learned_vocab_size": 2234, "compression_ratio": 1.1711880651748134, "example_words": [] }, { "step": 2235, "pair": [ "नगर", "पालिका" ], "new_token": "नगरपालिका", "frequency": 13, "vocab_size": 2488, "learned_vocab_size": 2235, "compression_ratio": 1.1712156516004189, "example_words": [] }, { "step": 2236, "pair": [ "तेलु", "गू" ], "new_token": "तेलुगू", "frequency": 13, "vocab_size": 2489, "learned_vocab_size": 2236, "compression_ratio": 1.1712156516004189, "example_words": [] }, { "step": 2237, "pair": [ "फि", "लि" ], "new_token": "फिलि", "frequency": 13, "vocab_size": 2490, "learned_vocab_size": 2237, "compression_ratio": 1.1712156516004189, "example_words": [] }, { "step": 2238, "pair": [ "डेवि", "ड" ], "new_token": "डेविड", "frequency": 13, "vocab_size": 2491, "learned_vocab_size": 2238, "compression_ratio": 1.1712538503352057, "example_words": [] }, { "step": 2239, "pair": [ "अशो", "क" ], "new_token": "अशोक", "frequency": 13, "vocab_size": 2492, "learned_vocab_size": 2239, "compression_ratio": 1.1712814398599714, "example_words": [] }, { "step": 2240, "pair": [ "३", "१" ], "new_token": "३१", "frequency": 13, "vocab_size": 2493, "learned_vocab_size": 2240, "compression_ratio": 1.1713153979824995, "example_words": [] }, { "step": 2241, "pair": [ "रह", "ने" ], "new_token": "रहने", "frequency": 13, "vocab_size": 2494, "learned_vocab_size": 2241, "compression_ratio": 1.1713493580741319, "example_words": [] }, { "step": 2242, "pair": [ "वा", "स" ], "new_token": "वास", "frequency": 13, "vocab_size": 2495, "learned_vocab_size": 2242, "compression_ratio": 1.171376952098608, "example_words": [] }, { "step": 2243, "pair": [ "सी", "रिया" ], "new_token": "सीरिया", "frequency": 13, "vocab_size": 2496, "learned_vocab_size": 2243, "compression_ratio": 1.1712962962962963, "example_words": [] }, { "step": 2244, "pair": [ "हा", "ई" ], "new_token": "हाई", "frequency": 13, "vocab_size": 2497, "learned_vocab_size": 2244, "compression_ratio": 1.1712962962962963, "example_words": [] }, { "step": 2245, "pair": [ "गण", "राज्य" ], "new_token": "गणराज्य", "frequency": 13, "vocab_size": 2498, "learned_vocab_size": 2245, "compression_ratio": 1.171328132786098, "example_words": [] }, { "step": 2246, "pair": [ "अंतर्", "गत" ], "new_token": "अंतर्गत", "frequency": 13, "vocab_size": 2499, "learned_vocab_size": 2246, "compression_ratio": 1.1713557258105434, "example_words": [] }, { "step": 2247, "pair": [ "शीर्ष", "क" ], "new_token": "शीर्षक", "frequency": 13, "vocab_size": 2500, "learned_vocab_size": 2247, "compression_ratio": 1.1713557258105434, "example_words": [] }, { "step": 2248, "pair": [ "फोटो", "ग्रा" ], "new_token": "फोटोग्रा", "frequency": 13, "vocab_size": 2501, "learned_vocab_size": 2248, "compression_ratio": 1.1713939336829553, "example_words": [] }, { "step": 2249, "pair": [ "मक", "बरा" ], "new_token": "मकबरा", "frequency": 13, "vocab_size": 2502, "learned_vocab_size": 2249, "compression_ratio": 1.1713939336829553, "example_words": [] }, { "step": 2250, "pair": [ "पी", "ली" ], "new_token": "पीली", "frequency": 13, "vocab_size": 2503, "learned_vocab_size": 2250, "compression_ratio": 1.1713939336829553, "example_words": [] }, { "step": 2251, "pair": [ "ब", "द्ध" ], "new_token": "बद्ध", "frequency": 13, "vocab_size": 2504, "learned_vocab_size": 2251, "compression_ratio": 1.1714257754807282, "example_words": [] }, { "step": 2252, "pair": [ "एशिया", "ई" ], "new_token": "एशियाई", "frequency": 13, "vocab_size": 2505, "learned_vocab_size": 2252, "compression_ratio": 1.1715425435512283, "example_words": [] }, { "step": 2253, "pair": [ "हा", "ट" ], "new_token": "हाट", "frequency": 13, "vocab_size": 2506, "learned_vocab_size": 2253, "compression_ratio": 1.1715425435512283, "example_words": [] }, { "step": 2254, "pair": [ "विशि", "ष्ट" ], "new_token": "विशिष्ट", "frequency": 13, "vocab_size": 2507, "learned_vocab_size": 2254, "compression_ratio": 1.1715786402100963, "example_words": [] }, { "step": 2255, "pair": [ "व्यव", "स्था" ], "new_token": "व्यवस्था", "frequency": 13, "vocab_size": 2508, "learned_vocab_size": 2255, "compression_ratio": 1.1716083685405803, "example_words": [] }, { "step": 2256, "pair": [ "बु", "जु" ], "new_token": "बुजु", "frequency": 13, "vocab_size": 2509, "learned_vocab_size": 2256, "compression_ratio": 1.1716083685405803, "example_words": [] }, { "step": 2257, "pair": [ "बुजु", "र्" ], "new_token": "बुजुर्", "frequency": 13, "vocab_size": 2510, "learned_vocab_size": 2257, "compression_ratio": 1.1716402219974698, "example_words": [] }, { "step": 2258, "pair": [ "बुजुर्", "ग" ], "new_token": "बुजुर्ग", "frequency": 13, "vocab_size": 2511, "learned_vocab_size": 2258, "compression_ratio": 1.1716720771864573, "example_words": [] }, { "step": 2259, "pair": [ "रघु", "नाथ" ], "new_token": "रघुनाथ", "frequency": 13, "vocab_size": 2512, "learned_vocab_size": 2259, "compression_ratio": 1.171703934107684, "example_words": [] }, { "step": 2260, "pair": [ "पा", "टन" ], "new_token": "पाटन", "frequency": 13, "vocab_size": 2513, "learned_vocab_size": 2260, "compression_ratio": 1.1717315448407124, "example_words": [] }, { "step": 2261, "pair": [ "ड", "कर" ], "new_token": "डकर", "frequency": 13, "vocab_size": 2514, "learned_vocab_size": 2261, "compression_ratio": 1.171759156875043, "example_words": [] }, { "step": 2262, "pair": [ "इटा", "वा" ], "new_token": "इटावा", "frequency": 13, "vocab_size": 2515, "learned_vocab_size": 2262, "compression_ratio": 1.1717910185317786, "example_words": [] }, { "step": 2263, "pair": [ "औरै", "या" ], "new_token": "औरैया", "frequency": 13, "vocab_size": 2516, "learned_vocab_size": 2263, "compression_ratio": 1.1717910185317786, "example_words": [] }, { "step": 2264, "pair": [ "गा", "जीपुर" ], "new_token": "गाजीपुर", "frequency": 13, "vocab_size": 2517, "learned_vocab_size": 2264, "compression_ratio": 1.1717910185317786, "example_words": [] }, { "step": 2265, "pair": [ "बाग", "पत" ], "new_token": "बागपत", "frequency": 13, "vocab_size": 2518, "learned_vocab_size": 2265, "compression_ratio": 1.1718186333692266, "example_words": [] }, { "step": 2266, "pair": [ "बि", "जनौर" ], "new_token": "बिजनौर", "frequency": 13, "vocab_size": 2519, "learned_vocab_size": 2266, "compression_ratio": 1.1718462495082675, "example_words": [] }, { "step": 2267, "pair": [ "सीता", "पुर" ], "new_token": "सीतापुर", "frequency": 13, "vocab_size": 2520, "learned_vocab_size": 2267, "compression_ratio": 1.1718462495082675, "example_words": [] }, { "step": 2268, "pair": [ "मा", "मलों" ], "new_token": "मामलों", "frequency": 13, "vocab_size": 2521, "learned_vocab_size": 2268, "compression_ratio": 1.1718738669489928, "example_words": [] }, { "step": 2269, "pair": [ "अभिया", "ंत्रिकी" ], "new_token": "अभियांत्रिकी", "frequency": 13, "vocab_size": 2522, "learned_vocab_size": 2269, "compression_ratio": 1.1718738669489928, "example_words": [] }, { "step": 2270, "pair": [ "विक", "सित" ], "new_token": "विकसित", "frequency": 13, "vocab_size": 2523, "learned_vocab_size": 2270, "compression_ratio": 1.1718738669489928, "example_words": [] }, { "step": 2271, "pair": [ "इंजीनियरि", "ंग" ], "new_token": "इंजीनियरिंग", "frequency": 13, "vocab_size": 2524, "learned_vocab_size": 2271, "compression_ratio": 1.1718738669489928, "example_words": [] }, { "step": 2272, "pair": [ "ड", "र" ], "new_token": "डर", "frequency": 13, "vocab_size": 2525, "learned_vocab_size": 2272, "compression_ratio": 1.1718738669489928, "example_words": [] }, { "step": 2273, "pair": [ "घ", "ू" ], "new_token": "घू", "frequency": 13, "vocab_size": 2526, "learned_vocab_size": 2273, "compression_ratio": 1.171880240389409, "example_words": [] }, { "step": 2274, "pair": [ "पु", "न" ], "new_token": "पुन", "frequency": 13, "vocab_size": 2527, "learned_vocab_size": 2274, "compression_ratio": 1.171912108631411, "example_words": [] }, { "step": 2275, "pair": [ "रह", "ती" ], "new_token": "रहती", "frequency": 13, "vocab_size": 2528, "learned_vocab_size": 2275, "compression_ratio": 1.1719439786067172, "example_words": [] }, { "step": 2276, "pair": [ "ऑ", "ल" ], "new_token": "ऑल", "frequency": 13, "vocab_size": 2529, "learned_vocab_size": 2276, "compression_ratio": 1.1719716006541423, "example_words": [] }, { "step": 2277, "pair": [ "न्यू", "जी" ], "new_token": "न्यूजी", "frequency": 13, "vocab_size": 2530, "learned_vocab_size": 2277, "compression_ratio": 1.1720077237578077, "example_words": [] }, { "step": 2278, "pair": [ "मेडि", "सिन" ], "new_token": "मेडिसिन", "frequency": 13, "vocab_size": 2531, "learned_vocab_size": 2278, "compression_ratio": 1.1720077237578077, "example_words": [] }, { "step": 2279, "pair": [ "ह", "पुर" ], "new_token": "हपुर", "frequency": 13, "vocab_size": 2532, "learned_vocab_size": 2279, "compression_ratio": 1.172035348810223, "example_words": [] }, { "step": 2280, "pair": [ "गी", "त" ], "new_token": "गीत", "frequency": 13, "vocab_size": 2533, "learned_vocab_size": 2280, "compression_ratio": 1.1720736010327935, "example_words": [] }, { "step": 2281, "pair": [ "मद्रा", "स" ], "new_token": "मद्रास", "frequency": 13, "vocab_size": 2534, "learned_vocab_size": 2281, "compression_ratio": 1.1722351379484186, "example_words": [] }, { "step": 2282, "pair": [ "अ", "फ्री" ], "new_token": "अफ्री", "frequency": 13, "vocab_size": 2535, "learned_vocab_size": 2282, "compression_ratio": 1.1722351379484186, "example_words": [] }, { "step": 2283, "pair": [ "मह", "तो" ], "new_token": "महतो", "frequency": 13, "vocab_size": 2536, "learned_vocab_size": 2283, "compression_ratio": 1.1722351379484186, "example_words": [] }, { "step": 2284, "pair": [ "रा", "हुल" ], "new_token": "राहुल", "frequency": 13, "vocab_size": 2537, "learned_vocab_size": 2284, "compression_ratio": 1.1722712772999215, "example_words": [] }, { "step": 2285, "pair": [ "का", "जीपुर" ], "new_token": "काजीपुर", "frequency": 13, "vocab_size": 2538, "learned_vocab_size": 2285, "compression_ratio": 1.172298914778168, "example_words": [] }, { "step": 2286, "pair": [ "मु", "ल्तान" ], "new_token": "मुल्तान", "frequency": 13, "vocab_size": 2539, "learned_vocab_size": 2286, "compression_ratio": 1.172326553559608, "example_words": [] }, { "step": 2287, "pair": [ "भौ", "तिक" ], "new_token": "भौतिक", "frequency": 13, "vocab_size": 2540, "learned_vocab_size": 2287, "compression_ratio": 1.172326553559608, "example_words": [] }, { "step": 2288, "pair": [ "एस॰", "एन॰" ], "new_token": "एस॰एन॰", "frequency": 13, "vocab_size": 2541, "learned_vocab_size": 2288, "compression_ratio": 1.172326553559608, "example_words": [] }, { "step": 2289, "pair": [ "आई", "पी" ], "new_token": "आईपी", "frequency": 13, "vocab_size": 2542, "learned_vocab_size": 2289, "compression_ratio": 1.172326553559608, "example_words": [] }, { "step": 2290, "pair": [ "कादम्बि", "नी" ], "new_token": "कादम्बिनी", "frequency": 13, "vocab_size": 2543, "learned_vocab_size": 2290, "compression_ratio": 1.1723541936443338, "example_words": [] }, { "step": 2291, "pair": [ "क", "वि" ], "new_token": "कवि", "frequency": 12, "vocab_size": 2544, "learned_vocab_size": 2291, "compression_ratio": 1.1723541936443338, "example_words": [] }, { "step": 2292, "pair": [ "तेलु", "गु" ], "new_token": "तेलुगु", "frequency": 12, "vocab_size": 2545, "learned_vocab_size": 2292, "compression_ratio": 1.1724349952117008, "example_words": [] }, { "step": 2293, "pair": [ "सर्वे", "क्षण" ], "new_token": "सर्वेक्षण", "frequency": 12, "vocab_size": 2546, "learned_vocab_size": 2293, "compression_ratio": 1.1724349952117008, "example_words": [] }, { "step": 2294, "pair": [ "कि", "ंग" ], "new_token": "किंग", "frequency": 12, "vocab_size": 2547, "learned_vocab_size": 2294, "compression_ratio": 1.1724349952117008, "example_words": [] }, { "step": 2295, "pair": [ "आधु", "निक" ], "new_token": "आधुनिक", "frequency": 12, "vocab_size": 2548, "learned_vocab_size": 2295, "compression_ratio": 1.1724902869124534, "example_words": [] }, { "step": 2296, "pair": [ "ह", "त्या" ], "new_token": "हत्या", "frequency": 12, "vocab_size": 2549, "learned_vocab_size": 2296, "compression_ratio": 1.1724902869124534, "example_words": [] }, { "step": 2297, "pair": [ "मै", "प" ], "new_token": "मैप", "frequency": 12, "vocab_size": 2550, "learned_vocab_size": 2297, "compression_ratio": 1.1724902869124534, "example_words": [] }, { "step": 2298, "pair": [ "पुरुष", "ों" ], "new_token": "पुरुषों", "frequency": 12, "vocab_size": 2551, "learned_vocab_size": 2298, "compression_ratio": 1.1725200615268527, "example_words": [] }, { "step": 2299, "pair": [ "मा", "मले" ], "new_token": "मामले", "frequency": 12, "vocab_size": 2552, "learned_vocab_size": 2299, "compression_ratio": 1.1725200615268527, "example_words": [] }, { "step": 2300, "pair": [ "स", "लाह" ], "new_token": "सलाह", "frequency": 12, "vocab_size": 2553, "learned_vocab_size": 2300, "compression_ratio": 1.1725200615268527, "example_words": [] }, { "step": 2301, "pair": [ "हाला", "ंकि" ], "new_token": "हालांकि", "frequency": 12, "vocab_size": 2555, "learned_vocab_size": 2301, "compression_ratio": 1.1725455838285337, "example_words": [ "हालांकि" ] }, { "step": 2302, "pair": [ "प्र", "चलित" ], "new_token": "प्रचलित", "frequency": 12, "vocab_size": 2556, "learned_vocab_size": 2302, "compression_ratio": 1.1725455838285337, "example_words": [] }, { "step": 2303, "pair": [ "ग", "हरा" ], "new_token": "गहरा", "frequency": 12, "vocab_size": 2557, "learned_vocab_size": 2303, "compression_ratio": 1.1725455838285337, "example_words": [] }, { "step": 2304, "pair": [ "कर्", "ता" ], "new_token": "कर्ता", "frequency": 12, "vocab_size": 2558, "learned_vocab_size": 2304, "compression_ratio": 1.1725455838285337, "example_words": [] }, { "step": 2305, "pair": [ "टेली", "वि" ], "new_token": "टेलीवि", "frequency": 12, "vocab_size": 2559, "learned_vocab_size": 2305, "compression_ratio": 1.1725455838285337, "example_words": [] }, { "step": 2306, "pair": [ "दू", "सरी" ], "new_token": "दूसरी", "frequency": 12, "vocab_size": 2560, "learned_vocab_size": 2306, "compression_ratio": 1.1725774882681483, "example_words": [] }, { "step": 2307, "pair": [ "वि", "नोद" ], "new_token": "विनोद", "frequency": 12, "vocab_size": 2561, "learned_vocab_size": 2307, "compression_ratio": 1.1725774882681483, "example_words": [] }, { "step": 2308, "pair": [ "पूर्वो", "त्तर" ], "new_token": "पूर्वोत्तर", "frequency": 12, "vocab_size": 2562, "learned_vocab_size": 2308, "compression_ratio": 1.1726030130699392, "example_words": [] }, { "step": 2309, "pair": [ "ता", "कि" ], "new_token": "ताकि", "frequency": 12, "vocab_size": 2563, "learned_vocab_size": 2309, "compression_ratio": 1.1726030130699392, "example_words": [] }, { "step": 2310, "pair": [ "भौ", "गोलिक" ], "new_token": "भौगोलिक", "frequency": 12, "vocab_size": 2564, "learned_vocab_size": 2310, "compression_ratio": 1.1726349206349207, "example_words": [] }, { "step": 2311, "pair": [ "गो", "आ" ], "new_token": "गोआ", "frequency": 12, "vocab_size": 2565, "learned_vocab_size": 2311, "compression_ratio": 1.1726349206349207, "example_words": [] }, { "step": 2312, "pair": [ "मि", "ठा" ], "new_token": "मिठा", "frequency": 12, "vocab_size": 2566, "learned_vocab_size": 2312, "compression_ratio": 1.1726647025956214, "example_words": [] }, { "step": 2313, "pair": [ "सै", "दपुर" ], "new_token": "सैदपुर", "frequency": 12, "vocab_size": 2567, "learned_vocab_size": 2313, "compression_ratio": 1.172690231194578, "example_words": [] }, { "step": 2314, "pair": [ "गे", "ट" ], "new_token": "गेट", "frequency": 12, "vocab_size": 2568, "learned_vocab_size": 2314, "compression_ratio": 1.1727263986124994, "example_words": [] }, { "step": 2315, "pair": [ "प्रो", "फेसर" ], "new_token": "प्रोफेसर", "frequency": 12, "vocab_size": 2569, "learned_vocab_size": 2315, "compression_ratio": 1.172758312892785, "example_words": [] }, { "step": 2316, "pair": [ "रा", "इ" ], "new_token": "राइ", "frequency": 12, "vocab_size": 2570, "learned_vocab_size": 2316, "compression_ratio": 1.172758312892785, "example_words": [] }, { "step": 2317, "pair": [ "जाल", "स्थल" ], "new_token": "जालस्थल", "frequency": 12, "vocab_size": 2571, "learned_vocab_size": 2317, "compression_ratio": 1.1728753467831048, "example_words": [] }, { "step": 2318, "pair": [ "अ", "त्य" ], "new_token": "अत्य", "frequency": 12, "vocab_size": 2572, "learned_vocab_size": 2318, "compression_ratio": 1.1730690359788476, "example_words": [] }, { "step": 2319, "pair": [ "ज", "ंक्" ], "new_token": "जंक्", "frequency": 12, "vocab_size": 2573, "learned_vocab_size": 2319, "compression_ratio": 1.1730690359788476, "example_words": [] }, { "step": 2320, "pair": [ "जंक्", "शन" ], "new_token": "जंक्शन", "frequency": 12, "vocab_size": 2574, "learned_vocab_size": 2320, "compression_ratio": 1.173071164786905, "example_words": [] }, { "step": 2321, "pair": [ "ऐ", "श" ], "new_token": "ऐश", "frequency": 12, "vocab_size": 2575, "learned_vocab_size": 2321, "compression_ratio": 1.1730732936026886, "example_words": [] }, { "step": 2322, "pair": [ "अलाहा", "बाद" ], "new_token": "अलाहाबाद", "frequency": 12, "vocab_size": 2576, "learned_vocab_size": 2322, "compression_ratio": 1.1730924532924405, "example_words": [] }, { "step": 2323, "pair": [ "ब्रह्", "म" ], "new_token": "ब्रह्म", "frequency": 12, "vocab_size": 2577, "learned_vocab_size": 2323, "compression_ratio": 1.1730924532924405, "example_words": [] }, { "step": 2324, "pair": [ "कै", "पि" ], "new_token": "कैपि", "frequency": 12, "vocab_size": 2578, "learned_vocab_size": 2324, "compression_ratio": 1.1730924532924405, "example_words": [] }, { "step": 2325, "pair": [ "कैपि", "टल" ], "new_token": "कैपिटल", "frequency": 12, "vocab_size": 2579, "learned_vocab_size": 2325, "compression_ratio": 1.173120129504811, "example_words": [] }, { "step": 2326, "pair": [ "मा", "चिलि" ], "new_token": "माचिलि", "frequency": 12, "vocab_size": 2580, "learned_vocab_size": 2326, "compression_ratio": 1.1731456779368796, "example_words": [] }, { "step": 2327, "pair": [ "माचिलि", "पट्" ], "new_token": "माचिलिपट्", "frequency": 12, "vocab_size": 2581, "learned_vocab_size": 2327, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2328, "pair": [ "माचिलिपट्", "नम" ], "new_token": "माचिलिपट्नम", "frequency": 12, "vocab_size": 2582, "learned_vocab_size": 2328, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2329, "pair": [ "को", "इंबा" ], "new_token": "कोइंबा", "frequency": 12, "vocab_size": 2583, "learned_vocab_size": 2329, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2330, "pair": [ "कोइंबा", "टोरे" ], "new_token": "कोइंबाटोरे", "frequency": 12, "vocab_size": 2584, "learned_vocab_size": 2330, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2331, "pair": [ "दार्", "जि" ], "new_token": "दार्जि", "frequency": 12, "vocab_size": 2585, "learned_vocab_size": 2331, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2332, "pair": [ "दार्जि", "लिंग" ], "new_token": "दार्जिलिंग", "frequency": 12, "vocab_size": 2586, "learned_vocab_size": 2332, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2333, "pair": [ "डे", "कन" ], "new_token": "डेकन", "frequency": 12, "vocab_size": 2587, "learned_vocab_size": 2333, "compression_ratio": 1.1731712274817694, "example_words": [] }, { "step": 2334, "pair": [ "फर", "क्का" ], "new_token": "फरक्का", "frequency": 12, "vocab_size": 2588, "learned_vocab_size": 2334, "compression_ratio": 1.1731967781395534, "example_words": [] }, { "step": 2335, "pair": [ "कामा", "ख्या" ], "new_token": "कामाख्या", "frequency": 12, "vocab_size": 2589, "learned_vocab_size": 2335, "compression_ratio": 1.1732223299103044, "example_words": [] }, { "step": 2336, "pair": [ "बा", "ज़ार" ], "new_token": "बाज़ार", "frequency": 12, "vocab_size": 2590, "learned_vocab_size": 2336, "compression_ratio": 1.1732223299103044, "example_words": [] }, { "step": 2337, "pair": [ "जयस", "लमेर" ], "new_token": "जयसलमेर", "frequency": 12, "vocab_size": 2591, "learned_vocab_size": 2337, "compression_ratio": 1.1732223299103044, "example_words": [] }, { "step": 2338, "pair": [ "ज", "मालपुर" ], "new_token": "जमालपुर", "frequency": 12, "vocab_size": 2592, "learned_vocab_size": 2338, "compression_ratio": 1.1732223299103044, "example_words": [] }, { "step": 2339, "pair": [ "कन्या", "कुमारी" ], "new_token": "कन्याकुमारी", "frequency": 12, "vocab_size": 2593, "learned_vocab_size": 2339, "compression_ratio": 1.1732223299103044, "example_words": [] }, { "step": 2340, "pair": [ "उज्", "जैन" ], "new_token": "उज्जैन", "frequency": 12, "vocab_size": 2594, "learned_vocab_size": 2340, "compression_ratio": 1.1732223299103044, "example_words": [] }, { "step": 2341, "pair": [ "व", "ई" ], "new_token": "वई", "frequency": 12, "vocab_size": 2595, "learned_vocab_size": 2341, "compression_ratio": 1.173262789157009, "example_words": [] }, { "step": 2342, "pair": [ "मछ", "ली" ], "new_token": "मछली", "frequency": 12, "vocab_size": 2596, "learned_vocab_size": 2342, "compression_ratio": 1.1732883438032609, "example_words": [] }, { "step": 2343, "pair": [ "श्वर", "म" ], "new_token": "श्वरम", "frequency": 12, "vocab_size": 2597, "learned_vocab_size": 2343, "compression_ratio": 1.1733138995627401, "example_words": [] }, { "step": 2344, "pair": [ "रा", "प्ती" ], "new_token": "राप्ती", "frequency": 12, "vocab_size": 2598, "learned_vocab_size": 2344, "compression_ratio": 1.1733138995627401, "example_words": [] }, { "step": 2345, "pair": [ "राप्ती", "सागर" ], "new_token": "राप्तीसागर", "frequency": 12, "vocab_size": 2599, "learned_vocab_size": 2345, "compression_ratio": 1.1733138995627401, "example_words": [] }, { "step": 2346, "pair": [ "सिया", "ल्" ], "new_token": "सियाल्", "frequency": 12, "vocab_size": 2600, "learned_vocab_size": 2346, "compression_ratio": 1.1733138995627401, "example_words": [] }, { "step": 2347, "pair": [ "सियाल्", "दा" ], "new_token": "सियाल्दा", "frequency": 12, "vocab_size": 2601, "learned_vocab_size": 2347, "compression_ratio": 1.1733138995627401, "example_words": [] }, { "step": 2348, "pair": [ "शिमो", "गा" ], "new_token": "शिमोगा", "frequency": 12, "vocab_size": 2602, "learned_vocab_size": 2348, "compression_ratio": 1.1733138995627401, "example_words": [] }, { "step": 2349, "pair": [ "सिम्", "हा" ], "new_token": "सिम्हा", "frequency": 12, "vocab_size": 2603, "learned_vocab_size": 2349, "compression_ratio": 1.1733394564355195, "example_words": [] }, { "step": 2350, "pair": [ "ता", "ज" ], "new_token": "ताज", "frequency": 12, "vocab_size": 2604, "learned_vocab_size": 2350, "compression_ratio": 1.1733650144216718, "example_words": [] }, { "step": 2351, "pair": [ "तु", "ंग" ], "new_token": "तुंग", "frequency": 12, "vocab_size": 2605, "learned_vocab_size": 2351, "compression_ratio": 1.1733969634701538, "example_words": [] }, { "step": 2352, "pair": [ "ल", "सी" ], "new_token": "लसी", "frequency": 12, "vocab_size": 2606, "learned_vocab_size": 2352, "compression_ratio": 1.1734225239616614, "example_words": [] }, { "step": 2353, "pair": [ "चि", "न" ], "new_token": "चिन", "frequency": 12, "vocab_size": 2607, "learned_vocab_size": 2353, "compression_ratio": 1.1734544761420675, "example_words": [] }, { "step": 2354, "pair": [ "ज़", "ो" ], "new_token": "ज़ो", "frequency": 12, "vocab_size": 2608, "learned_vocab_size": 2354, "compression_ratio": 1.1734140036740948, "example_words": [] }, { "step": 2355, "pair": [ "खिला", "ड़ी" ], "new_token": "खिलाड़ी", "frequency": 12, "vocab_size": 2609, "learned_vocab_size": 2355, "compression_ratio": 1.173262789157009, "example_words": [] }, { "step": 2356, "pair": [ "उदा", "हरण" ], "new_token": "उदाहरण", "frequency": 12, "vocab_size": 2610, "learned_vocab_size": 2356, "compression_ratio": 1.173298991901085, "example_words": [] }, { "step": 2357, "pair": [ "ष", "ित" ], "new_token": "षित", "frequency": 12, "vocab_size": 2611, "learned_vocab_size": 2357, "compression_ratio": 1.173298991901085, "example_words": [] }, { "step": 2358, "pair": [ "खा", "ड़ी" ], "new_token": "खाड़ी", "frequency": 12, "vocab_size": 2612, "learned_vocab_size": 2358, "compression_ratio": 1.1733288076032267, "example_words": [] }, { "step": 2359, "pair": [ "श्रीका", "कुलम" ], "new_token": "श्रीकाकुलम", "frequency": 12, "vocab_size": 2613, "learned_vocab_size": 2359, "compression_ratio": 1.1733543651254648, "example_words": [] }, { "step": 2360, "pair": [ "व्यक्ति", "यों" ], "new_token": "व्यक्तियों", "frequency": 12, "vocab_size": 2614, "learned_vocab_size": 2360, "compression_ratio": 1.1733543651254648, "example_words": [] }, { "step": 2361, "pair": [ "खा", "ली" ], "new_token": "खाली", "frequency": 12, "vocab_size": 2615, "learned_vocab_size": 2361, "compression_ratio": 1.1733543651254648, "example_words": [] }, { "step": 2362, "pair": [ "कर्", "म" ], "new_token": "कर्म", "frequency": 12, "vocab_size": 2616, "learned_vocab_size": 2362, "compression_ratio": 1.173384183641981, "example_words": [] }, { "step": 2363, "pair": [ "ह", "नु" ], "new_token": "हनु", "frequency": 12, "vocab_size": 2617, "learned_vocab_size": 2363, "compression_ratio": 1.173384183641981, "example_words": [] }, { "step": 2364, "pair": [ "ऊर्", "जा" ], "new_token": "ऊर्जा", "frequency": 12, "vocab_size": 2618, "learned_vocab_size": 2364, "compression_ratio": 1.173409743576711, "example_words": [] }, { "step": 2365, "pair": [ "पा", "ँच" ], "new_token": "पाँच", "frequency": 12, "vocab_size": 2619, "learned_vocab_size": 2365, "compression_ratio": 1.173435304625014, "example_words": [] }, { "step": 2366, "pair": [ "२", "७" ], "new_token": "२७", "frequency": 12, "vocab_size": 2620, "learned_vocab_size": 2366, "compression_ratio": 1.173465127255564, "example_words": [] }, { "step": 2367, "pair": [ "३", "०" ], "new_token": "३०", "frequency": 12, "vocab_size": 2621, "learned_vocab_size": 2367, "compression_ratio": 1.1734906907168583, "example_words": [] }, { "step": 2368, "pair": [ "ह", "ृ" ], "new_token": "हृ", "frequency": 12, "vocab_size": 2622, "learned_vocab_size": 2368, "compression_ratio": 1.1737037628824798, "example_words": [] }, { "step": 2369, "pair": [ "सोन", "भद्र" ], "new_token": "सोनभद्र", "frequency": 12, "vocab_size": 2623, "learned_vocab_size": 2369, "compression_ratio": 1.1737293367421051, "example_words": [] }, { "step": 2370, "pair": [ "रा", "व" ], "new_token": "राव", "frequency": 12, "vocab_size": 2624, "learned_vocab_size": 2370, "compression_ratio": 1.1737293367421051, "example_words": [] }, { "step": 2371, "pair": [ "हि", "र" ], "new_token": "हिर", "frequency": 12, "vocab_size": 2625, "learned_vocab_size": 2371, "compression_ratio": 1.1737144185218877, "example_words": [] }, { "step": 2372, "pair": [ "आर्", "थिक" ], "new_token": "आर्थिक", "frequency": 12, "vocab_size": 2626, "learned_vocab_size": 2372, "compression_ratio": 1.173746386601008, "example_words": [] }, { "step": 2373, "pair": [ "कि", "र" ], "new_token": "किर", "frequency": 12, "vocab_size": 2627, "learned_vocab_size": 2373, "compression_ratio": 1.173746386601008, "example_words": [] }, { "step": 2374, "pair": [ "देवासं", "उत्तर" ], "new_token": "देवासंउत्तर", "frequency": 12, "vocab_size": 2628, "learned_vocab_size": 2374, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2375, "pair": [ "मि", "रजापुर" ], "new_token": "मिरजापुर", "frequency": 12, "vocab_size": 2629, "learned_vocab_size": 2375, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2376, "pair": [ "अ", "ंबे" ], "new_token": "अंबे", "frequency": 12, "vocab_size": 2630, "learned_vocab_size": 2376, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2377, "pair": [ "अंबे", "डकर" ], "new_token": "अंबेडकर", "frequency": 12, "vocab_size": 2631, "learned_vocab_size": 2377, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2378, "pair": [ "उन्ना", "व" ], "new_token": "उन्नाव", "frequency": 12, "vocab_size": 2632, "learned_vocab_size": 2378, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2379, "pair": [ "कौश", "म्बी" ], "new_token": "कौशम्बी", "frequency": 12, "vocab_size": 2633, "learned_vocab_size": 2379, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2380, "pair": [ "गा", "जिया" ], "new_token": "गाजिया", "frequency": 12, "vocab_size": 2634, "learned_vocab_size": 2380, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2381, "pair": [ "गाजिया", "बाद" ], "new_token": "गाजियाबाद", "frequency": 12, "vocab_size": 2635, "learned_vocab_size": 2381, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2382, "pair": [ "ज्योति", "बा" ], "new_token": "ज्योतिबा", "frequency": 12, "vocab_size": 2636, "learned_vocab_size": 2382, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2383, "pair": [ "फु", "ले" ], "new_token": "फुले", "frequency": 12, "vocab_size": 2637, "learned_vocab_size": 2383, "compression_ratio": 1.1737890134154578, "example_words": [] }, { "step": 2384, "pair": [ "झा", "ंसी" ], "new_token": "झांसी", "frequency": 12, "vocab_size": 2638, "learned_vocab_size": 2384, "compression_ratio": 1.173816722505198, "example_words": [] }, { "step": 2385, "pair": [ "पीली", "भीत" ], "new_token": "पीलीभीत", "frequency": 12, "vocab_size": 2639, "learned_vocab_size": 2385, "compression_ratio": 1.173816722505198, "example_words": [] }, { "step": 2386, "pair": [ "ब", "दायू" ], "new_token": "बदायू", "frequency": 12, "vocab_size": 2640, "learned_vocab_size": 2386, "compression_ratio": 1.1738444329032, "example_words": [] }, { "step": 2387, "pair": [ "बा", "ंकी" ], "new_token": "बांकी", "frequency": 12, "vocab_size": 2641, "learned_vocab_size": 2387, "compression_ratio": 1.1738444329032, "example_words": [] }, { "step": 2388, "pair": [ "महा", "म" ], "new_token": "महाम", "frequency": 12, "vocab_size": 2642, "learned_vocab_size": 2388, "compression_ratio": 1.1738444329032, "example_words": [] }, { "step": 2389, "pair": [ "महो", "बा" ], "new_token": "महोबा", "frequency": 12, "vocab_size": 2643, "learned_vocab_size": 2389, "compression_ratio": 1.1738444329032, "example_words": [] }, { "step": 2390, "pair": [ "मु", "झ" ], "new_token": "मुझ", "frequency": 12, "vocab_size": 2644, "learned_vocab_size": 2390, "compression_ratio": 1.1738444329032, "example_words": [] }, { "step": 2391, "pair": [ "राय", "बरेली" ], "new_token": "रायबरेली", "frequency": 12, "vocab_size": 2645, "learned_vocab_size": 2391, "compression_ratio": 1.1738700128933843, "example_words": [] }, { "step": 2392, "pair": [ "ल", "लितपुर" ], "new_token": "ललितपुर", "frequency": 12, "vocab_size": 2646, "learned_vocab_size": 2392, "compression_ratio": 1.1738700128933843, "example_words": [] }, { "step": 2393, "pair": [ "रवि", "दास" ], "new_token": "रविदास", "frequency": 12, "vocab_size": 2647, "learned_vocab_size": 2393, "compression_ratio": 1.1738700128933843, "example_words": [] }, { "step": 2394, "pair": [ "हर", "दो" ], "new_token": "हरदो", "frequency": 12, "vocab_size": 2648, "learned_vocab_size": 2394, "compression_ratio": 1.1738955939984528, "example_words": [] }, { "step": 2395, "pair": [ "हिंदु", "स्तानी" ], "new_token": "हिंदुस्तानी", "frequency": 12, "vocab_size": 2649, "learned_vocab_size": 2395, "compression_ratio": 1.173921176218478, "example_words": [] }, { "step": 2396, "pair": [ "साय", "िक" ], "new_token": "सायिक", "frequency": 12, "vocab_size": 2650, "learned_vocab_size": 2396, "compression_ratio": 1.173921176218478, "example_words": [] }, { "step": 2397, "pair": [ "बा", "यो" ], "new_token": "बायो", "frequency": 12, "vocab_size": 2651, "learned_vocab_size": 2397, "compression_ratio": 1.173946759553533, "example_words": [] }, { "step": 2398, "pair": [ "हा", "सिल" ], "new_token": "हासिल", "frequency": 12, "vocab_size": 2652, "learned_vocab_size": 2398, "compression_ratio": 1.1739766081871346, "example_words": [] }, { "step": 2399, "pair": [ "अ", "ंग" ], "new_token": "अंग", "frequency": 12, "vocab_size": 2653, "learned_vocab_size": 2399, "compression_ratio": 1.1740021939383372, "example_words": [] }, { "step": 2400, "pair": [ "डॉ", "॰" ], "new_token": "डॉ॰", "frequency": 12, "vocab_size": 2654, "learned_vocab_size": 2400, "compression_ratio": 1.1746187211417378, "example_words": [] }, { "step": 2401, "pair": [ "पृ", "थ्" ], "new_token": "पृथ्", "frequency": 12, "vocab_size": 2655, "learned_vocab_size": 2401, "compression_ratio": 1.1746443348894344, "example_words": [ "पृथ्वी", "पृथ्वीपुर" ] }, { "step": 2402, "pair": [ "पृथ्", "वी" ], "new_token": "पृथ्वी", "frequency": 12, "vocab_size": 2656, "learned_vocab_size": 2402, "compression_ratio": 1.1746720843767149, "example_words": [] }, { "step": 2403, "pair": [ "ग", "ंभी" ], "new_token": "गंभी", "frequency": 12, "vocab_size": 2657, "learned_vocab_size": 2403, "compression_ratio": 1.1746998351751197, "example_words": [] }, { "step": 2404, "pair": [ "न्यूजी", "लैंड" ], "new_token": "न्यूजीलैंड", "frequency": 12, "vocab_size": 2658, "learned_vocab_size": 2404, "compression_ratio": 1.1746998351751197, "example_words": [] }, { "step": 2405, "pair": [ "फु", "टबॉल" ], "new_token": "फुटबॉल", "frequency": 12, "vocab_size": 2659, "learned_vocab_size": 2405, "compression_ratio": 1.1746998351751197, "example_words": [] }, { "step": 2406, "pair": [ "इंडि", "यन" ], "new_token": "इंडियन", "frequency": 12, "vocab_size": 2660, "learned_vocab_size": 2406, "compression_ratio": 1.174729722116718, "example_words": [] }, { "step": 2407, "pair": [ "वि", "वरण" ], "new_token": "विवरण", "frequency": 12, "vocab_size": 2661, "learned_vocab_size": 2407, "compression_ratio": 1.174729722116718, "example_words": [] }, { "step": 2408, "pair": [ "डि", "जा" ], "new_token": "डिजा", "frequency": 12, "vocab_size": 2662, "learned_vocab_size": 2408, "compression_ratio": 1.174729722116718, "example_words": [] }, { "step": 2409, "pair": [ "प्रयोग", "शाला" ], "new_token": "प्रयोगशाला", "frequency": 12, "vocab_size": 2663, "learned_vocab_size": 2409, "compression_ratio": 1.1747574756385233, "example_words": [] }, { "step": 2410, "pair": [ "बे", "टी" ], "new_token": "बेटी", "frequency": 12, "vocab_size": 2664, "learned_vocab_size": 2410, "compression_ratio": 1.1747574756385233, "example_words": [] }, { "step": 2411, "pair": [ "चै", "म्" ], "new_token": "चैम्", "frequency": 12, "vocab_size": 2665, "learned_vocab_size": 2411, "compression_ratio": 1.1747916356194956, "example_words": [] }, { "step": 2412, "pair": [ "चैम्", "पियनशिप" ], "new_token": "चैम्पियनशिप", "frequency": 12, "vocab_size": 2666, "learned_vocab_size": 2412, "compression_ratio": 1.1748172569089792, "example_words": [] }, { "step": 2413, "pair": [ "प्र", "कट" ], "new_token": "प्रकट", "frequency": 12, "vocab_size": 2667, "learned_vocab_size": 2413, "compression_ratio": 1.174842879316048, "example_words": [] }, { "step": 2414, "pair": [ "अक", "बर" ], "new_token": "अकबर", "frequency": 12, "vocab_size": 2668, "learned_vocab_size": 2414, "compression_ratio": 1.174842879316048, "example_words": [] }, { "step": 2415, "pair": [ "मु", "ला" ], "new_token": "मुला", "frequency": 12, "vocab_size": 2669, "learned_vocab_size": 2415, "compression_ratio": 1.1749005338185017, "example_words": [] }, { "step": 2416, "pair": [ "मा", "ही" ], "new_token": "माही", "frequency": 12, "vocab_size": 2670, "learned_vocab_size": 2416, "compression_ratio": 1.174926159858227, "example_words": [] }, { "step": 2417, "pair": [ "प्रो", "दु" ], "new_token": "प्रोदु", "frequency": 12, "vocab_size": 2671, "learned_vocab_size": 2417, "compression_ratio": 1.1749560583174743, "example_words": [] }, { "step": 2418, "pair": [ "प्रोदु", "नोवा" ], "new_token": "प्रोदुनोवा", "frequency": 12, "vocab_size": 2672, "learned_vocab_size": 2418, "compression_ratio": 1.1749560583174743, "example_words": [] }, { "step": 2419, "pair": [ "भ", "व" ], "new_token": "भव", "frequency": 12, "vocab_size": 2673, "learned_vocab_size": 2419, "compression_ratio": 1.1749560583174743, "example_words": [] }, { "step": 2420, "pair": [ "य", "ौ" ], "new_token": "यौ", "frequency": 12, "vocab_size": 2674, "learned_vocab_size": 2420, "compression_ratio": 1.1750179956810365, "example_words": [] }, { "step": 2421, "pair": [ "टै", "क्सी" ], "new_token": "टैक्सी", "frequency": 12, "vocab_size": 2675, "learned_vocab_size": 2421, "compression_ratio": 1.1750564428463919, "example_words": [] }, { "step": 2422, "pair": [ "लह", "सुन" ], "new_token": "लहसुन", "frequency": 12, "vocab_size": 2676, "learned_vocab_size": 2422, "compression_ratio": 1.1750564428463919, "example_words": [] }, { "step": 2423, "pair": [ "खंड", "ौली" ], "new_token": "खंडौली", "frequency": 12, "vocab_size": 2677, "learned_vocab_size": 2423, "compression_ratio": 1.1750906202167615, "example_words": [] }, { "step": 2424, "pair": [ "छ", "ड़ि" ], "new_token": "छड़ि", "frequency": 12, "vocab_size": 2678, "learned_vocab_size": 2424, "compression_ratio": 1.1750906202167615, "example_words": [] }, { "step": 2425, "pair": [ "डे", "मो" ], "new_token": "डेमो", "frequency": 12, "vocab_size": 2679, "learned_vocab_size": 2425, "compression_ratio": 1.1751162545492886, "example_words": [] }, { "step": 2426, "pair": [ "डेमो", "क्रे" ], "new_token": "डेमोक्रे", "frequency": 12, "vocab_size": 2680, "learned_vocab_size": 2426, "compression_ratio": 1.1751418900002546, "example_words": [] }, { "step": 2427, "pair": [ "डेमोक्रे", "टिक" ], "new_token": "डेमोक्रेटिक", "frequency": 12, "vocab_size": 2681, "learned_vocab_size": 2427, "compression_ratio": 1.1751418900002546, "example_words": [] }, { "step": 2428, "pair": [ "मि", "यम" ], "new_token": "मियम", "frequency": 12, "vocab_size": 2682, "learned_vocab_size": 2428, "compression_ratio": 1.1751418900002546, "example_words": [] }, { "step": 2429, "pair": [ "सर", "याँ" ], "new_token": "सरयाँ", "frequency": 12, "vocab_size": 2683, "learned_vocab_size": 2429, "compression_ratio": 1.1751739358868776, "example_words": [] }, { "step": 2430, "pair": [ "पे", "पे" ], "new_token": "पेपे", "frequency": 12, "vocab_size": 2684, "learned_vocab_size": 2430, "compression_ratio": 1.175199573854598, "example_words": [] }, { "step": 2431, "pair": [ "चिन्", "ह" ], "new_token": "चिन्ह", "frequency": 12, "vocab_size": 2685, "learned_vocab_size": 2431, "compression_ratio": 1.1752252129409946, "example_words": [] }, { "step": 2432, "pair": [ "एल्", "गोरि" ], "new_token": "एल्गोरि", "frequency": 12, "vocab_size": 2686, "learned_vocab_size": 2432, "compression_ratio": 1.1752252129409946, "example_words": [] }, { "step": 2433, "pair": [ "ता", "इ" ], "new_token": "ताइ", "frequency": 12, "vocab_size": 2687, "learned_vocab_size": 2433, "compression_ratio": 1.1752252129409946, "example_words": [] }, { "step": 2434, "pair": [ "हि", "ग्स" ], "new_token": "हिग्स", "frequency": 12, "vocab_size": 2688, "learned_vocab_size": 2434, "compression_ratio": 1.1752508531461412, "example_words": [] }, { "step": 2435, "pair": [ "मो", "ती" ], "new_token": "मोती", "frequency": 11, "vocab_size": 2689, "learned_vocab_size": 2435, "compression_ratio": 1.1752508531461412, "example_words": [] }, { "step": 2436, "pair": [ "सार्व", "जनिक" ], "new_token": "सार्वजनिक", "frequency": 11, "vocab_size": 2690, "learned_vocab_size": 2436, "compression_ratio": 1.1753299174888088, "example_words": [] }, { "step": 2437, "pair": [ "मा", "ं" ], "new_token": "मां", "frequency": 11, "vocab_size": 2691, "learned_vocab_size": 2437, "compression_ratio": 1.1753299174888088, "example_words": [] }, { "step": 2438, "pair": [ "गु", "आ" ], "new_token": "गुआ", "frequency": 11, "vocab_size": 2692, "learned_vocab_size": 2438, "compression_ratio": 1.175374796577964, "example_words": [] }, { "step": 2439, "pair": [ "कोशि", "श" ], "new_token": "कोशिश", "frequency": 11, "vocab_size": 2693, "learned_vocab_size": 2439, "compression_ratio": 1.1753983060401416, "example_words": [] }, { "step": 2440, "pair": [ "डॉ", "क्टर" ], "new_token": "डॉक्टर", "frequency": 11, "vocab_size": 2694, "learned_vocab_size": 2440, "compression_ratio": 1.1753983060401416, "example_words": [] }, { "step": 2441, "pair": [ "सु", "र" ], "new_token": "सुर", "frequency": 11, "vocab_size": 2695, "learned_vocab_size": 2441, "compression_ratio": 1.1753983060401416, "example_words": [] }, { "step": 2442, "pair": [ "टि", "ल" ], "new_token": "टिल", "frequency": 11, "vocab_size": 2696, "learned_vocab_size": 2442, "compression_ratio": 1.1754581525514343, "example_words": [] }, { "step": 2443, "pair": [ "इस्ते", "माल" ], "new_token": "इस्तेमाल", "frequency": 11, "vocab_size": 2697, "learned_vocab_size": 2443, "compression_ratio": 1.1754816653482811, "example_words": [] }, { "step": 2444, "pair": [ "स", "पना" ], "new_token": "सपना", "frequency": 11, "vocab_size": 2698, "learned_vocab_size": 2444, "compression_ratio": 1.1754816653482811, "example_words": [] }, { "step": 2445, "pair": [ "सा", "ंसद" ], "new_token": "सांसद", "frequency": 11, "vocab_size": 2699, "learned_vocab_size": 2445, "compression_ratio": 1.1754816653482811, "example_words": [] }, { "step": 2446, "pair": [ "प्र", "गति" ], "new_token": "प्रगति", "frequency": 11, "vocab_size": 2700, "learned_vocab_size": 2446, "compression_ratio": 1.1754816653482811, "example_words": [] }, { "step": 2447, "pair": [ "शी", "ल" ], "new_token": "शील", "frequency": 11, "vocab_size": 2701, "learned_vocab_size": 2447, "compression_ratio": 1.1754816653482811, "example_words": [] }, { "step": 2448, "pair": [ "गठ", "बंधन" ], "new_token": "गठबंधन", "frequency": 11, "vocab_size": 2702, "learned_vocab_size": 2448, "compression_ratio": 1.1755009037908297, "example_words": [] }, { "step": 2449, "pair": [ "द", "ह" ], "new_token": "दह", "frequency": 11, "vocab_size": 2703, "learned_vocab_size": 2449, "compression_ratio": 1.1755009037908297, "example_words": [] }, { "step": 2450, "pair": [ "रॉ", "य" ], "new_token": "रॉय", "frequency": 11, "vocab_size": 2704, "learned_vocab_size": 2450, "compression_ratio": 1.1754944909066773, "example_words": [] }, { "step": 2451, "pair": [ "जाती", "य" ], "new_token": "जातीय", "frequency": 11, "vocab_size": 2705, "learned_vocab_size": 2451, "compression_ratio": 1.1755265560271615, "example_words": [] }, { "step": 2452, "pair": [ "सह", "योग" ], "new_token": "सहयोग", "frequency": 11, "vocab_size": 2706, "learned_vocab_size": 2452, "compression_ratio": 1.175554347213306, "example_words": [] }, { "step": 2453, "pair": [ "लि", "ख" ], "new_token": "लिख", "frequency": 11, "vocab_size": 2707, "learned_vocab_size": 2453, "compression_ratio": 1.1755885535540542, "example_words": [] }, { "step": 2454, "pair": [ "ऊ", "पर" ], "new_token": "ऊपर", "frequency": 11, "vocab_size": 2708, "learned_vocab_size": 2454, "compression_ratio": 1.175624899972356, "example_words": [] }, { "step": 2455, "pair": [ "छो", "टी" ], "new_token": "छोटी", "frequency": 11, "vocab_size": 2709, "learned_vocab_size": 2455, "compression_ratio": 1.1756591104191827, "example_words": [] }, { "step": 2456, "pair": [ "स", "ड़क" ], "new_token": "सड़क", "frequency": 11, "vocab_size": 2710, "learned_vocab_size": 2456, "compression_ratio": 1.1756826312563544, "example_words": [] }, { "step": 2457, "pair": [ "य", "ि" ], "new_token": "यि", "frequency": 11, "vocab_size": 2711, "learned_vocab_size": 2457, "compression_ratio": 1.1757104298227745, "example_words": [] }, { "step": 2458, "pair": [ "मु", "म्ब" ], "new_token": "मुम्ब", "frequency": 11, "vocab_size": 2712, "learned_vocab_size": 2458, "compression_ratio": 1.1757596151222751, "example_words": [] }, { "step": 2459, "pair": [ "मुम्ब", "ई" ], "new_token": "मुम्बई", "frequency": 11, "vocab_size": 2713, "learned_vocab_size": 2459, "compression_ratio": 1.175813082072177, "example_words": [] }, { "step": 2460, "pair": [ "गिरि", "डीह" ], "new_token": "गिरिडीह", "frequency": 11, "vocab_size": 2714, "learned_vocab_size": 2460, "compression_ratio": 1.1758665538850537, "example_words": [] }, { "step": 2461, "pair": [ "ख", "ू" ], "new_token": "खू", "frequency": 11, "vocab_size": 2715, "learned_vocab_size": 2461, "compression_ratio": 1.1758665538850537, "example_words": [] }, { "step": 2462, "pair": [ "भी", "म" ], "new_token": "भीम", "frequency": 11, "vocab_size": 2716, "learned_vocab_size": 2462, "compression_ratio": 1.1758943611498176, "example_words": [] }, { "step": 2463, "pair": [ "ब", "जे" ], "new_token": "बजे", "frequency": 11, "vocab_size": 2717, "learned_vocab_size": 2463, "compression_ratio": 1.175930726480567, "example_words": [] }, { "step": 2464, "pair": [ "चंडी", "गढ़" ], "new_token": "चंडीगढ़", "frequency": 11, "vocab_size": 2718, "learned_vocab_size": 2464, "compression_ratio": 1.1759542581872824, "example_words": [] }, { "step": 2465, "pair": [ "दी", "क्षा" ], "new_token": "दीक्षा", "frequency": 11, "vocab_size": 2719, "learned_vocab_size": 2465, "compression_ratio": 1.1759542581872824, "example_words": [] }, { "step": 2466, "pair": [ "का", "ठ" ], "new_token": "काठ", "frequency": 11, "vocab_size": 2720, "learned_vocab_size": 2466, "compression_ratio": 1.1759542581872824, "example_words": [] }, { "step": 2467, "pair": [ "जो", "ग" ], "new_token": "जोग", "frequency": 11, "vocab_size": 2721, "learned_vocab_size": 2467, "compression_ratio": 1.1759777908358091, "example_words": [] }, { "step": 2468, "pair": [ "ग्रै", "ंड" ], "new_token": "ग्रैंड", "frequency": 11, "vocab_size": 2722, "learned_vocab_size": 2468, "compression_ratio": 1.1760120218241226, "example_words": [] }, { "step": 2469, "pair": [ "झे", "लम" ], "new_token": "झेलम", "frequency": 11, "vocab_size": 2723, "learned_vocab_size": 2469, "compression_ratio": 1.1760120218241226, "example_words": [] }, { "step": 2470, "pair": [ "माला", "बार" ], "new_token": "मालाबार", "frequency": 11, "vocab_size": 2724, "learned_vocab_size": 2470, "compression_ratio": 1.176035556784607, "example_words": [] }, { "step": 2471, "pair": [ "पि", "ना" ], "new_token": "पिना", "frequency": 11, "vocab_size": 2725, "learned_vocab_size": 2471, "compression_ratio": 1.176035556784607, "example_words": [] }, { "step": 2472, "pair": [ "ऊ", "ंचा" ], "new_token": "ऊंचा", "frequency": 11, "vocab_size": 2726, "learned_vocab_size": 2472, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 2473, "pair": [ "के", "न्द्र" ], "new_token": "केन्द्र", "frequency": 11, "vocab_size": 2727, "learned_vocab_size": 2473, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 2474, "pair": [ "उत्पाद", "न" ], "new_token": "उत्पादन", "frequency": 11, "vocab_size": 2728, "learned_vocab_size": 2474, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 2475, "pair": [ "शा", "स्त्र" ], "new_token": "शास्त्र", "frequency": 11, "vocab_size": 2729, "learned_vocab_size": 2475, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 2476, "pair": [ "आ", "कर्" ], "new_token": "आकर्", "frequency": 11, "vocab_size": 2730, "learned_vocab_size": 2476, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 2477, "pair": [ "इ", "मा" ], "new_token": "इमा", "frequency": 11, "vocab_size": 2731, "learned_vocab_size": 2477, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 2478, "pair": [ "वे", "न" ], "new_token": "वेन", "frequency": 11, "vocab_size": 2732, "learned_vocab_size": 2478, "compression_ratio": 1.1761553857350802, "example_words": [] }, { "step": 2479, "pair": [ "ल्", "ट" ], "new_token": "ल्ट", "frequency": 11, "vocab_size": 2733, "learned_vocab_size": 2479, "compression_ratio": 1.1761874869219502, "example_words": [] }, { "step": 2480, "pair": [ "टि", "न" ], "new_token": "टिन", "frequency": 11, "vocab_size": 2734, "learned_vocab_size": 2480, "compression_ratio": 1.176213169133127, "example_words": [] }, { "step": 2481, "pair": [ "मे", "न" ], "new_token": "मेन", "frequency": 11, "vocab_size": 2735, "learned_vocab_size": 2481, "compression_ratio": 1.1762431331303826, "example_words": [] }, { "step": 2482, "pair": [ "ष", "े" ], "new_token": "षे", "frequency": 11, "vocab_size": 2736, "learned_vocab_size": 2482, "compression_ratio": 1.1762773795681138, "example_words": [] }, { "step": 2483, "pair": [ "के", "ल" ], "new_token": "केल", "frequency": 11, "vocab_size": 2737, "learned_vocab_size": 2483, "compression_ratio": 1.1763137685932967, "example_words": [] }, { "step": 2484, "pair": [ "श", "प" ], "new_token": "शप", "frequency": 11, "vocab_size": 2738, "learned_vocab_size": 2484, "compression_ratio": 1.1763351749539595, "example_words": [] }, { "step": 2485, "pair": [ "प", "ढ़ा" ], "new_token": "पढ़ा", "frequency": 11, "vocab_size": 2739, "learned_vocab_size": 2485, "compression_ratio": 1.1762581157015168, "example_words": [] }, { "step": 2486, "pair": [ "ष्", "णु" ], "new_token": "ष्णु", "frequency": 11, "vocab_size": 2740, "learned_vocab_size": 2486, "compression_ratio": 1.1762838009971976, "example_words": [] }, { "step": 2487, "pair": [ "सेंट्र", "ल" ], "new_token": "सेंट्रल", "frequency": 11, "vocab_size": 2741, "learned_vocab_size": 2487, "compression_ratio": 1.17631162800008, "example_words": [] }, { "step": 2488, "pair": [ "उत्", "पन्न" ], "new_token": "उत्पन्न", "frequency": 11, "vocab_size": 2742, "learned_vocab_size": 2488, "compression_ratio": 1.17631162800008, "example_words": [] }, { "step": 2489, "pair": [ "डि", "यो" ], "new_token": "डियो", "frequency": 11, "vocab_size": 2743, "learned_vocab_size": 2489, "compression_ratio": 1.17631162800008, "example_words": [] }, { "step": 2490, "pair": [ "निर्", "मित" ], "new_token": "निर्मित", "frequency": 11, "vocab_size": 2744, "learned_vocab_size": 2490, "compression_ratio": 1.176343737716374, "example_words": [] }, { "step": 2491, "pair": [ "ला", "ख" ], "new_token": "लाख", "frequency": 11, "vocab_size": 2745, "learned_vocab_size": 2491, "compression_ratio": 1.176343737716374, "example_words": [] }, { "step": 2492, "pair": [ "सले", "मपुर" ], "new_token": "सलेमपुर", "frequency": 11, "vocab_size": 2746, "learned_vocab_size": 2492, "compression_ratio": 1.176377990012666, "example_words": [] }, { "step": 2493, "pair": [ "लखनऊ", "विषय" ], "new_token": "लखनऊविषय", "frequency": 11, "vocab_size": 2747, "learned_vocab_size": 2493, "compression_ratio": 1.1764036805439284, "example_words": [] }, { "step": 2494, "pair": [ "लखनऊविषय", "इतिहास" ], "new_token": "लखनऊविषयइतिहास", "frequency": 11, "vocab_size": 2748, "learned_vocab_size": 2494, "compression_ratio": 1.176427231183334, "example_words": [] }, { "step": 2495, "pair": [ "पर्यटनमंडल", "आगरा" ], "new_token": "पर्यटनमंडलआगरा", "frequency": 11, "vocab_size": 2749, "learned_vocab_size": 2495, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2496, "pair": [ "देवी", "पाटन" ], "new_token": "देवीपाटन", "frequency": 11, "vocab_size": 2750, "learned_vocab_size": 2496, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2497, "pair": [ "वाराणसी", "ज़िले" ], "new_token": "वाराणसीज़िले", "frequency": 11, "vocab_size": 2751, "learned_vocab_size": 2497, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2498, "pair": [ "वाराणसीज़िले", "अंबेडकर" ], "new_token": "वाराणसीज़िलेअंबेडकर", "frequency": 11, "vocab_size": 2752, "learned_vocab_size": 2498, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2499, "pair": [ "फिरो", "जाबाद" ], "new_token": "फिरोजाबाद", "frequency": 11, "vocab_size": 2753, "learned_vocab_size": 2499, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2500, "pair": [ "बदायू", "ँ" ], "new_token": "बदायूँ", "frequency": 11, "vocab_size": 2754, "learned_vocab_size": 2500, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2501, "pair": [ "बु", "लन्दशहर" ], "new_token": "बुलन्दशहर", "frequency": 11, "vocab_size": 2755, "learned_vocab_size": 2501, "compression_ratio": 1.1764507827656872, "example_words": [ "बुलन्दशहर" ] }, { "step": 2502, "pair": [ "बारा", "बांकी" ], "new_token": "बाराबांकी", "frequency": 11, "vocab_size": 2756, "learned_vocab_size": 2502, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2503, "pair": [ "बा", "ंदा" ], "new_token": "बांदा", "frequency": 11, "vocab_size": 2757, "learned_vocab_size": 2503, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2504, "pair": [ "महाम", "यानगर" ], "new_token": "महामयानगर", "frequency": 11, "vocab_size": 2758, "learned_vocab_size": 2504, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2505, "pair": [ "मुझ", "फ्" ], "new_token": "मुझफ्", "frequency": 11, "vocab_size": 2759, "learned_vocab_size": 2505, "compression_ratio": 1.1764507827656872, "example_words": [] }, { "step": 2506, "pair": [ "मुझफ्", "फरनगर" ], "new_token": "मुझफ्फरनगर", "frequency": 11, "vocab_size": 2760, "learned_vocab_size": 2506, "compression_ratio": 1.1764743352910452, "example_words": [] }, { "step": 2507, "pair": [ "लखि", "मपुर" ], "new_token": "लखिमपुर", "frequency": 11, "vocab_size": 2761, "learned_vocab_size": 2507, "compression_ratio": 1.1764743352910452, "example_words": [] }, { "step": 2508, "pair": [ "शाह", "जहां" ], "new_token": "शाहजहां", "frequency": 11, "vocab_size": 2762, "learned_vocab_size": 2508, "compression_ratio": 1.1764743352910452, "example_words": [] }, { "step": 2509, "pair": [ "शाहजहां", "पुर" ], "new_token": "शाहजहांपुर", "frequency": 11, "vocab_size": 2763, "learned_vocab_size": 2509, "compression_ratio": 1.1764978887594641, "example_words": [] }, { "step": 2510, "pair": [ "सिद्धार्", "थनगर" ], "new_token": "सिद्धार्थनगर", "frequency": 11, "vocab_size": 2764, "learned_vocab_size": 2510, "compression_ratio": 1.1765214431710012, "example_words": [] }, { "step": 2511, "pair": [ "हरदो", "ई" ], "new_token": "हरदोई", "frequency": 11, "vocab_size": 2765, "learned_vocab_size": 2511, "compression_ratio": 1.1765214431710012, "example_words": [] }, { "step": 2512, "pair": [ "हरदोई", "प्रमुख" ], "new_token": "हरदोईप्रमुख", "frequency": 11, "vocab_size": 2766, "learned_vocab_size": 2512, "compression_ratio": 1.1765449985257126, "example_words": [] }, { "step": 2513, "pair": [ "नगर", "आगरा" ], "new_token": "नगरआगरा", "frequency": 11, "vocab_size": 2767, "learned_vocab_size": 2513, "compression_ratio": 1.1765449985257126, "example_words": [] }, { "step": 2514, "pair": [ "वृन्दावन", "इतिहास" ], "new_token": "वृन्दावनइतिहास", "frequency": 11, "vocab_size": 2768, "learned_vocab_size": 2514, "compression_ratio": 1.1765449985257126, "example_words": [] }, { "step": 2515, "pair": [ "हड़", "प्पन" ], "new_token": "हड़प्पन", "frequency": 11, "vocab_size": 2769, "learned_vocab_size": 2515, "compression_ratio": 1.1765449985257126, "example_words": [] }, { "step": 2516, "pair": [ "महा", "जनपद" ], "new_token": "महाजनपद", "frequency": 11, "vocab_size": 2770, "learned_vocab_size": 2516, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 2517, "pair": [ "शु", "ंग" ], "new_token": "शुंग", "frequency": 11, "vocab_size": 2771, "learned_vocab_size": 2517, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 2518, "pair": [ "कु", "शा" ], "new_token": "कुशा", "frequency": 11, "vocab_size": 2772, "learned_vocab_size": 2518, "compression_ratio": 1.176594253679047, "example_words": [] }, { "step": 2519, "pair": [ "कुशा", "ण" ], "new_token": "कुशाण", "frequency": 11, "vocab_size": 2773, "learned_vocab_size": 2519, "compression_ratio": 1.1766242370959317, "example_words": [] }, { "step": 2520, "pair": [ "सल्", "तन" ], "new_token": "सल्तन", "frequency": 11, "vocab_size": 2774, "learned_vocab_size": 2520, "compression_ratio": 1.1766477965669768, "example_words": [] }, { "step": 2521, "pair": [ "सल्तन", "त" ], "new_token": "सल्तनत", "frequency": 11, "vocab_size": 2775, "learned_vocab_size": 2521, "compression_ratio": 1.1766713569815002, "example_words": [] }, { "step": 2522, "pair": [ "मुख्यमंत्री", "भाषा" ], "new_token": "मुख्यमंत्रीभाषा", "frequency": 11, "vocab_size": 2776, "learned_vocab_size": 2522, "compression_ratio": 1.176694918339559, "example_words": [] }, { "step": 2523, "pair": [ "मुख्यमंत्रीभाषा", "हिंदुस्तानी" ], "new_token": "मुख्यमंत्रीभाषाहिंदुस्तानी", "frequency": 11, "vocab_size": 2777, "learned_vocab_size": 2523, "compression_ratio": 1.176694918339559, "example_words": [] }, { "step": 2524, "pair": [ "बुंदे", "ली" ], "new_token": "बुंदेली", "frequency": 11, "vocab_size": 2778, "learned_vocab_size": 2524, "compression_ratio": 1.176694918339559, "example_words": [] }, { "step": 2525, "pair": [ "बुंदेली", "साहित्य" ], "new_token": "बुंदेलीसाहित्य", "frequency": 11, "vocab_size": 2779, "learned_vocab_size": 2525, "compression_ratio": 1.176694918339559, "example_words": [] }, { "step": 2526, "pair": [ "दिव", "स" ], "new_token": "दिवस", "frequency": 11, "vocab_size": 2780, "learned_vocab_size": 2526, "compression_ratio": 1.176694918339559, "example_words": [] }, { "step": 2527, "pair": [ "मह", "त्त्व" ], "new_token": "महत्त्व", "frequency": 11, "vocab_size": 2781, "learned_vocab_size": 2527, "compression_ratio": 1.1767270489848598, "example_words": [] }, { "step": 2528, "pair": [ "जी", "नो" ], "new_token": "जीनो", "frequency": 11, "vocab_size": 2782, "learned_vocab_size": 2528, "compression_ratio": 1.1767270489848598, "example_words": [] }, { "step": 2529, "pair": [ "सूक्ष्म", "जैविकी" ], "new_token": "सूक्ष्मजैविकी", "frequency": 11, "vocab_size": 2783, "learned_vocab_size": 2529, "compression_ratio": 1.1767591813849172, "example_words": [] }, { "step": 2530, "pair": [ "ज़", "न" ], "new_token": "ज़न", "frequency": 11, "vocab_size": 2784, "learned_vocab_size": 2530, "compression_ratio": 1.1767591813849172, "example_words": [] }, { "step": 2531, "pair": [ "क", "बा" ], "new_token": "कबा", "frequency": 11, "vocab_size": 2785, "learned_vocab_size": 2531, "compression_ratio": 1.1767977425814673, "example_words": [] }, { "step": 2532, "pair": [ "वा", "पस" ], "new_token": "वापस", "frequency": 11, "vocab_size": 2786, "learned_vocab_size": 2532, "compression_ratio": 1.1768213090012725, "example_words": [] }, { "step": 2533, "pair": [ "सी", "री" ], "new_token": "सीरी", "frequency": 11, "vocab_size": 2787, "learned_vocab_size": 2533, "compression_ratio": 1.1768491614416068, "example_words": [] }, { "step": 2534, "pair": [ "फ़", "ू" ], "new_token": "फ़ू", "frequency": 11, "vocab_size": 2788, "learned_vocab_size": 2534, "compression_ratio": 1.1768748725567304, "example_words": [] }, { "step": 2535, "pair": [ "हठ", "योग" ], "new_token": "हठयोग", "frequency": 11, "vocab_size": 2789, "learned_vocab_size": 2535, "compression_ratio": 1.1768984420658604, "example_words": [] }, { "step": 2536, "pair": [ "गंभी", "र" ], "new_token": "गंभीर", "frequency": 11, "vocab_size": 2790, "learned_vocab_size": 2536, "compression_ratio": 1.1769241553343615, "example_words": [] }, { "step": 2537, "pair": [ "आ", "त्" ], "new_token": "आत्", "frequency": 11, "vocab_size": 2791, "learned_vocab_size": 2537, "compression_ratio": 1.1769241553343615, "example_words": [] }, { "step": 2538, "pair": [ "फै", "शन" ], "new_token": "फैशन", "frequency": 11, "vocab_size": 2792, "learned_vocab_size": 2538, "compression_ratio": 1.176952012643201, "example_words": [] }, { "step": 2539, "pair": [ "कै", "थो" ], "new_token": "कैथो", "frequency": 11, "vocab_size": 2793, "learned_vocab_size": 2539, "compression_ratio": 1.176975585242263, "example_words": [] }, { "step": 2540, "pair": [ "कैथो", "लिक" ], "new_token": "कैथोलिक", "frequency": 11, "vocab_size": 2794, "learned_vocab_size": 2540, "compression_ratio": 1.177001301881811, "example_words": [] }, { "step": 2541, "pair": [ "खिला", "फ" ], "new_token": "खिलाफ", "frequency": 11, "vocab_size": 2795, "learned_vocab_size": 2541, "compression_ratio": 1.177001301881811, "example_words": [] }, { "step": 2542, "pair": [ "य", "ॉर्" ], "new_token": "यॉर्", "frequency": 11, "vocab_size": 2796, "learned_vocab_size": 2542, "compression_ratio": 1.1770270196451884, "example_words": [] }, { "step": 2543, "pair": [ "यॉर्", "क" ], "new_token": "यॉर्क", "frequency": 11, "vocab_size": 2797, "learned_vocab_size": 2543, "compression_ratio": 1.1770527385324692, "example_words": [] }, { "step": 2544, "pair": [ "थ", "ू" ], "new_token": "थू", "frequency": 11, "vocab_size": 2798, "learned_vocab_size": 2544, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 2545, "pair": [ "द्", "वि" ], "new_token": "द्वि", "frequency": 11, "vocab_size": 2799, "learned_vocab_size": 2545, "compression_ratio": 1.1771020362081586, "example_words": [] }, { "step": 2546, "pair": [ "ला", "गू" ], "new_token": "लागू", "frequency": 11, "vocab_size": 2800, "learned_vocab_size": 2546, "compression_ratio": 1.1771985001265677, "example_words": [] }, { "step": 2547, "pair": [ "द", "न" ], "new_token": "दन", "frequency": 11, "vocab_size": 2801, "learned_vocab_size": 2547, "compression_ratio": 1.1772220826003184, "example_words": [] }, { "step": 2548, "pair": [ "बौ", "द्ध" ], "new_token": "बौद्ध", "frequency": 11, "vocab_size": 2802, "learned_vocab_size": 2548, "compression_ratio": 1.1773228547231152, "example_words": [] }, { "step": 2549, "pair": [ "पेरि", "स" ], "new_token": "पेरिस", "frequency": 11, "vocab_size": 2803, "learned_vocab_size": 2549, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 2550, "pair": [ "मुहम्", "मद" ], "new_token": "मुहम्मद", "frequency": 11, "vocab_size": 2804, "learned_vocab_size": 2550, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 2551, "pair": [ "चै", "ं" ], "new_token": "चैं", "frequency": 11, "vocab_size": 2805, "learned_vocab_size": 2551, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 2552, "pair": [ "ठा", "कुर" ], "new_token": "ठाकुर", "frequency": 11, "vocab_size": 2806, "learned_vocab_size": 2552, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 2553, "pair": [ "ले", "मी" ], "new_token": "लेमी", "frequency": 11, "vocab_size": 2807, "learned_vocab_size": 2553, "compression_ratio": 1.1774279333923492, "example_words": [] }, { "step": 2554, "pair": [ "पनी", "र" ], "new_token": "पनीर", "frequency": 11, "vocab_size": 2808, "learned_vocab_size": 2554, "compression_ratio": 1.1774665384307126, "example_words": [] }, { "step": 2555, "pair": [ "उस्", "मानपुर" ], "new_token": "उस्मानपुर", "frequency": 11, "vocab_size": 2809, "learned_vocab_size": 2555, "compression_ratio": 1.1774665384307126, "example_words": [] }, { "step": 2556, "pair": [ "प्र", "श" ], "new_token": "प्रश", "frequency": 11, "vocab_size": 2810, "learned_vocab_size": 2556, "compression_ratio": 1.1774665384307126, "example_words": [] }, { "step": 2557, "pair": [ "उप", "जिला" ], "new_token": "उपजिला", "frequency": 11, "vocab_size": 2811, "learned_vocab_size": 2557, "compression_ratio": 1.1774665384307126, "example_words": [] }, { "step": 2558, "pair": [ "शा", "ल" ], "new_token": "शाल", "frequency": 11, "vocab_size": 2812, "learned_vocab_size": 2558, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 2559, "pair": [ "जर्", "मनी" ], "new_token": "जर्मनी", "frequency": 11, "vocab_size": 2813, "learned_vocab_size": 2559, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 2560, "pair": [ "ख़ा", "गान" ], "new_token": "ख़ागान", "frequency": 11, "vocab_size": 2814, "learned_vocab_size": 2560, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 2561, "pair": [ "बस", "ई" ], "new_token": "बसई", "frequency": 11, "vocab_size": 2815, "learned_vocab_size": 2561, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 2562, "pair": [ "म", "जरा" ], "new_token": "मजरा", "frequency": 11, "vocab_size": 2816, "learned_vocab_size": 2562, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 2563, "pair": [ "संका", "य" ], "new_token": "संकाय", "frequency": 11, "vocab_size": 2817, "learned_vocab_size": 2563, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 2564, "pair": [ "खरा", "द" ], "new_token": "खराद", "frequency": 11, "vocab_size": 2818, "learned_vocab_size": 2564, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 2565, "pair": [ "आइ॰", "एस॰" ], "new_token": "आइ॰एस॰", "frequency": 11, "vocab_size": 2819, "learned_vocab_size": 2565, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 2566, "pair": [ "आइ॰एस॰", "एस॰एन॰" ], "new_token": "आइ॰एस॰एस॰एन॰", "frequency": 11, "vocab_size": 2820, "learned_vocab_size": 2566, "compression_ratio": 1.1773442978262256, "example_words": [] }, { "step": 2567, "pair": [ "पौ", "डी" ], "new_token": "पौडी", "frequency": 10, "vocab_size": 2821, "learned_vocab_size": 2567, "compression_ratio": 1.1773442978262256, "example_words": [] }, { "step": 2568, "pair": [ "उत्", "कृष्ट" ], "new_token": "उत्कृष्ट", "frequency": 10, "vocab_size": 2822, "learned_vocab_size": 2568, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 2569, "pair": [ "नि", "भाई" ], "new_token": "निभाई", "frequency": 10, "vocab_size": 2823, "learned_vocab_size": 2569, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 2570, "pair": [ "चु", "के" ], "new_token": "चुके", "frequency": 10, "vocab_size": 2824, "learned_vocab_size": 2570, "compression_ratio": 1.177389330885353, "example_words": [] }, { "step": 2571, "pair": [ "का", "ई" ], "new_token": "काई", "frequency": 10, "vocab_size": 2825, "learned_vocab_size": 2571, "compression_ratio": 1.1774129210055135, "example_words": [] }, { "step": 2572, "pair": [ "चा", "इना" ], "new_token": "चाइना", "frequency": 10, "vocab_size": 2826, "learned_vocab_size": 2572, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 2573, "pair": [ "त", "ख्" ], "new_token": "तख्", "frequency": 10, "vocab_size": 2827, "learned_vocab_size": 2573, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 2574, "pair": [ "उद्", "देश्य" ], "new_token": "उद्देश्य", "frequency": 10, "vocab_size": 2828, "learned_vocab_size": 2574, "compression_ratio": 1.177462248856992, "example_words": [] }, { "step": 2575, "pair": [ "ना", "यक" ], "new_token": "नायक", "frequency": 10, "vocab_size": 2829, "learned_vocab_size": 2575, "compression_ratio": 1.177462248856992, "example_words": [] }, { "step": 2576, "pair": [ "प्रस्तु", "त" ], "new_token": "प्रस्तुत", "frequency": 10, "vocab_size": 2830, "learned_vocab_size": 2576, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 2577, "pair": [ "तु", "लना" ], "new_token": "तुलना", "frequency": 10, "vocab_size": 2831, "learned_vocab_size": 2577, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 2578, "pair": [ "ला", "गत" ], "new_token": "लागत", "frequency": 10, "vocab_size": 2832, "learned_vocab_size": 2578, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 2579, "pair": [ "पड़", "ता" ], "new_token": "पड़ता", "frequency": 10, "vocab_size": 2833, "learned_vocab_size": 2579, "compression_ratio": 1.177515870775004, "example_words": [] }, { "step": 2580, "pair": [ "चा", "हि" ], "new_token": "चाहि", "frequency": 10, "vocab_size": 2834, "learned_vocab_size": 2580, "compression_ratio": 1.1775373209097284, "example_words": [] }, { "step": 2581, "pair": [ "बॉ", "लीवुड" ], "new_token": "बॉलीवुड", "frequency": 10, "vocab_size": 2835, "learned_vocab_size": 2581, "compression_ratio": 1.177595240177218, "example_words": [] }, { "step": 2582, "pair": [ "ईसा", "ई" ], "new_token": "ईसाई", "frequency": 10, "vocab_size": 2836, "learned_vocab_size": 2582, "compression_ratio": 1.1776188385493618, "example_words": [] }, { "step": 2583, "pair": [ "बना", "ये" ], "new_token": "बनाये", "frequency": 10, "vocab_size": 2837, "learned_vocab_size": 2583, "compression_ratio": 1.177640292435695, "example_words": [] }, { "step": 2584, "pair": [ "गा", "ँ" ], "new_token": "गाँ", "frequency": 10, "vocab_size": 2838, "learned_vocab_size": 2584, "compression_ratio": 1.177640292435695, "example_words": [] }, { "step": 2585, "pair": [ "सै", "य" ], "new_token": "सैय", "frequency": 10, "vocab_size": 2839, "learned_vocab_size": 2585, "compression_ratio": 1.1769155841200194, "example_words": [] }, { "step": 2586, "pair": [ "मसू", "द" ], "new_token": "मसूद", "frequency": 10, "vocab_size": 2840, "learned_vocab_size": 2586, "compression_ratio": 1.1769370123899605, "example_words": [] }, { "step": 2587, "pair": [ "ई", "स्वी" ], "new_token": "ईस्वी", "frequency": 10, "vocab_size": 2841, "learned_vocab_size": 2587, "compression_ratio": 1.1769370123899605, "example_words": [] }, { "step": 2588, "pair": [ "गा", "ह" ], "new_token": "गाह", "frequency": 10, "vocab_size": 2842, "learned_vocab_size": 2588, "compression_ratio": 1.1769370123899605, "example_words": [] }, { "step": 2589, "pair": [ "निम्", "न" ], "new_token": "निम्न", "frequency": 10, "vocab_size": 2843, "learned_vocab_size": 2589, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 2590, "pair": [ "उपा", "धि" ], "new_token": "उपाधि", "frequency": 10, "vocab_size": 2844, "learned_vocab_size": 2590, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 2591, "pair": [ "न", "ष्ट" ], "new_token": "नष्ट", "frequency": 10, "vocab_size": 2845, "learned_vocab_size": 2591, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 2592, "pair": [ "के", "त" ], "new_token": "केत", "frequency": 10, "vocab_size": 2846, "learned_vocab_size": 2592, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 2593, "pair": [ "समु", "द्र" ], "new_token": "समुद्र", "frequency": 10, "vocab_size": 2847, "learned_vocab_size": 2593, "compression_ratio": 1.1771063231577183, "example_words": [] }, { "step": 2594, "pair": [ "मु", "केश" ], "new_token": "मुकेश", "frequency": 10, "vocab_size": 2848, "learned_vocab_size": 2594, "compression_ratio": 1.1771063231577183, "example_words": [] }, { "step": 2595, "pair": [ "मौ", "जू" ], "new_token": "मौजू", "frequency": 10, "vocab_size": 2849, "learned_vocab_size": 2595, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 2596, "pair": [ "ंड", "व" ], "new_token": "ंडव", "frequency": 10, "vocab_size": 2850, "learned_vocab_size": 2596, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 2597, "pair": [ "भ", "्र" ], "new_token": "भ्र", "frequency": 10, "vocab_size": 2851, "learned_vocab_size": 2597, "compression_ratio": 1.1771727748691099, "example_words": [] }, { "step": 2598, "pair": [ "वि", "रा" ], "new_token": "विरा", "frequency": 10, "vocab_size": 2852, "learned_vocab_size": 2598, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 2599, "pair": [ "प्", "पु" ], "new_token": "प्पु", "frequency": 10, "vocab_size": 2853, "learned_vocab_size": 2599, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 2600, "pair": [ "अर्", "चना" ], "new_token": "अर्चना", "frequency": 10, "vocab_size": 2854, "learned_vocab_size": 2600, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 2601, "pair": [ "आ", "श्रम" ], "new_token": "आश्रम", "frequency": 10, "vocab_size": 2855, "learned_vocab_size": 2601, "compression_ratio": 1.1772520980243604, "example_words": [ "आश्रम्वासिकापर्व", "आश्रम" ] }, { "step": 2602, "pair": [ "ब्", "लै" ], "new_token": "ब्लै", "frequency": 10, "vocab_size": 2856, "learned_vocab_size": 2602, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 2603, "pair": [ "ब्लै", "क" ], "new_token": "ब्लैक", "frequency": 10, "vocab_size": 2857, "learned_vocab_size": 2603, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 2604, "pair": [ "मु", "ंडी" ], "new_token": "मुंडी", "frequency": 10, "vocab_size": 2858, "learned_vocab_size": 2604, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 2605, "pair": [ "गरी", "ब" ], "new_token": "गरीब", "frequency": 10, "vocab_size": 2859, "learned_vocab_size": 2605, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 2606, "pair": [ "आ", "न" ], "new_token": "आन", "frequency": 10, "vocab_size": 2860, "learned_vocab_size": 2606, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 2607, "pair": [ "गो", "कुल" ], "new_token": "गोकुल", "frequency": 10, "vocab_size": 2861, "learned_vocab_size": 2607, "compression_ratio": 1.1764357952859943, "example_words": [] }, { "step": 2608, "pair": [ "स्", "पेश" ], "new_token": "स्पेश", "frequency": 10, "vocab_size": 2862, "learned_vocab_size": 2608, "compression_ratio": 1.176467911781514, "example_words": [] }, { "step": 2609, "pair": [ "नंदी", "ग्राम" ], "new_token": "नंदीग्राम", "frequency": 10, "vocab_size": 2863, "learned_vocab_size": 2609, "compression_ratio": 1.176491464992729, "example_words": [] }, { "step": 2610, "pair": [ "नर्", "मदा" ], "new_token": "नर्मदा", "frequency": 10, "vocab_size": 2864, "learned_vocab_size": 2610, "compression_ratio": 1.176491464992729, "example_words": [] }, { "step": 2611, "pair": [ "पु", "ष्" ], "new_token": "पुष्", "frequency": 10, "vocab_size": 2865, "learned_vocab_size": 2611, "compression_ratio": 1.176491464992729, "example_words": [] }, { "step": 2612, "pair": [ "श", "ही" ], "new_token": "शही", "frequency": 10, "vocab_size": 2866, "learned_vocab_size": 2612, "compression_ratio": 1.176530008645402, "example_words": [] }, { "step": 2613, "pair": [ "ती", "स्ता" ], "new_token": "तीस्ता", "frequency": 10, "vocab_size": 2867, "learned_vocab_size": 2613, "compression_ratio": 1.1765578472985665, "example_words": [] }, { "step": 2614, "pair": [ "रा", "पल्ली" ], "new_token": "रापल्ली", "frequency": 10, "vocab_size": 2868, "learned_vocab_size": 2614, "compression_ratio": 1.1765578472985665, "example_words": [] }, { "step": 2615, "pair": [ "बे", "नी" ], "new_token": "बेनी", "frequency": 10, "vocab_size": 2869, "learned_vocab_size": 2615, "compression_ratio": 1.1765578472985665, "example_words": [] }, { "step": 2616, "pair": [ "चु", "से" ], "new_token": "चुसे", "frequency": 10, "vocab_size": 2870, "learned_vocab_size": 2616, "compression_ratio": 1.1765814041110227, "example_words": [] }, { "step": 2617, "pair": [ "चुसे", "ट्स" ], "new_token": "चुसेट्स", "frequency": 10, "vocab_size": 2871, "learned_vocab_size": 2617, "compression_ratio": 1.1766028202136547, "example_words": [] }, { "step": 2618, "pair": [ "ऑ", "नलाइन" ], "new_token": "ऑनलाइन", "frequency": 10, "vocab_size": 2872, "learned_vocab_size": 2618, "compression_ratio": 1.1766242370959317, "example_words": [] }, { "step": 2619, "pair": [ "क", "स्" ], "new_token": "कस्", "frequency": 10, "vocab_size": 2873, "learned_vocab_size": 2619, "compression_ratio": 1.1766242370959317, "example_words": [] }, { "step": 2620, "pair": [ "नि", "ंग" ], "new_token": "निंग", "frequency": 10, "vocab_size": 2874, "learned_vocab_size": 2620, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 2621, "pair": [ "समु", "दाय" ], "new_token": "समुदाय", "frequency": 10, "vocab_size": 2875, "learned_vocab_size": 2621, "compression_ratio": 1.1766992023242182, "example_words": [] }, { "step": 2622, "pair": [ "वि", "वादास्" ], "new_token": "विवादास्", "frequency": 10, "vocab_size": 2876, "learned_vocab_size": 2622, "compression_ratio": 1.1766992023242182, "example_words": [] }, { "step": 2623, "pair": [ "वि", "वादित" ], "new_token": "विवादित", "frequency": 10, "vocab_size": 2877, "learned_vocab_size": 2623, "compression_ratio": 1.1766992023242182, "example_words": [] }, { "step": 2624, "pair": [ "तुर", "ंत" ], "new_token": "तुरंत", "frequency": 10, "vocab_size": 2878, "learned_vocab_size": 2624, "compression_ratio": 1.1766992023242182, "example_words": [] }, { "step": 2625, "pair": [ "दे", "ह" ], "new_token": "देह", "frequency": 10, "vocab_size": 2879, "learned_vocab_size": 2625, "compression_ratio": 1.1767206227154237, "example_words": [] }, { "step": 2626, "pair": [ "वि", "ख्यात" ], "new_token": "विख्यात", "frequency": 10, "vocab_size": 2880, "learned_vocab_size": 2626, "compression_ratio": 1.1767998849442654, "example_words": [] }, { "step": 2627, "pair": [ "निर्", "मल" ], "new_token": "निर्मल", "frequency": 10, "vocab_size": 2881, "learned_vocab_size": 2627, "compression_ratio": 1.1767998849442654, "example_words": [] }, { "step": 2628, "pair": [ "मह", "बू" ], "new_token": "महबू", "frequency": 10, "vocab_size": 2882, "learned_vocab_size": 2628, "compression_ratio": 1.1768213090012725, "example_words": [] }, { "step": 2629, "pair": [ "मार्", "टिन" ], "new_token": "मार्टिन", "frequency": 10, "vocab_size": 2883, "learned_vocab_size": 2629, "compression_ratio": 1.1768448763649737, "example_words": [] }, { "step": 2630, "pair": [ "वे", "ल" ], "new_token": "वेल", "frequency": 10, "vocab_size": 2884, "learned_vocab_size": 2630, "compression_ratio": 1.1768448763649737, "example_words": [] }, { "step": 2631, "pair": [ "पर", "माणु" ], "new_token": "परमाणु", "frequency": 10, "vocab_size": 2885, "learned_vocab_size": 2631, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 2632, "pair": [ "रा", "सायनिक" ], "new_token": "रासायनिक", "frequency": 10, "vocab_size": 2886, "learned_vocab_size": 2632, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 2633, "pair": [ "उ", "द" ], "new_token": "उद", "frequency": 10, "vocab_size": 2887, "learned_vocab_size": 2633, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 2634, "pair": [ "सर", "ल" ], "new_token": "सरल", "frequency": 10, "vocab_size": 2888, "learned_vocab_size": 2634, "compression_ratio": 1.1761832066624573, "example_words": [] }, { "step": 2635, "pair": [ "आ", "ते" ], "new_token": "आते", "frequency": 10, "vocab_size": 2889, "learned_vocab_size": 2635, "compression_ratio": 1.1762067484751881, "example_words": [] }, { "step": 2636, "pair": [ "१", "३" ], "new_token": "१३", "frequency": 10, "vocab_size": 2890, "learned_vocab_size": 2636, "compression_ratio": 1.1762302912303366, "example_words": [] }, { "step": 2637, "pair": [ "१", "६" ], "new_token": "१६", "frequency": 10, "vocab_size": 2891, "learned_vocab_size": 2637, "compression_ratio": 1.1762581157015168, "example_words": [] }, { "step": 2638, "pair": [ "संस्था", "पक" ], "new_token": "संस्थापक", "frequency": 10, "vocab_size": 2892, "learned_vocab_size": 2638, "compression_ratio": 1.1762859414891391, "example_words": [] }, { "step": 2639, "pair": [ "पाठ", "क" ], "new_token": "पाठक", "frequency": 10, "vocab_size": 2893, "learned_vocab_size": 2639, "compression_ratio": 1.1762859414891391, "example_words": [] }, { "step": 2640, "pair": [ "घ", "ी" ], "new_token": "घी", "frequency": 10, "vocab_size": 2894, "learned_vocab_size": 2640, "compression_ratio": 1.1763201904196912, "example_words": [] }, { "step": 2641, "pair": [ "पै", "दा" ], "new_token": "पैदा", "frequency": 10, "vocab_size": 2895, "learned_vocab_size": 2641, "compression_ratio": 1.1763415970140834, "example_words": [] }, { "step": 2642, "pair": [ "सं", "पत्ति" ], "new_token": "संपत्ति", "frequency": 10, "vocab_size": 2896, "learned_vocab_size": 2642, "compression_ratio": 1.1763651451678065, "example_words": [] }, { "step": 2643, "pair": [ "ले", "कर" ], "new_token": "लेकर", "frequency": 10, "vocab_size": 2897, "learned_vocab_size": 2643, "compression_ratio": 1.1763651451678065, "example_words": [] }, { "step": 2644, "pair": [ "दा", "हि" ], "new_token": "दाहि", "frequency": 10, "vocab_size": 2898, "learned_vocab_size": 2644, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 2645, "pair": [ "बि", "लि" ], "new_token": "बिलि", "frequency": 10, "vocab_size": 2899, "learned_vocab_size": 2645, "compression_ratio": 1.1764208081881646, "example_words": [] }, { "step": 2646, "pair": [ "पोर्", "ट" ], "new_token": "पोर्ट", "frequency": 10, "vocab_size": 2900, "learned_vocab_size": 2646, "compression_ratio": 1.1764443595133447, "example_words": [] }, { "step": 2647, "pair": [ "डू", "ंगरपुर" ], "new_token": "डूंगरपुर", "frequency": 10, "vocab_size": 2901, "learned_vocab_size": 2647, "compression_ratio": 1.1764443595133447, "example_words": [] }, { "step": 2648, "pair": [ "धो", "पुर" ], "new_token": "धोपुर", "frequency": 10, "vocab_size": 2902, "learned_vocab_size": 2648, "compression_ratio": 1.1764443595133447, "example_words": [] }, { "step": 2649, "pair": [ "ध", "ू" ], "new_token": "धू", "frequency": 10, "vocab_size": 2903, "learned_vocab_size": 2649, "compression_ratio": 1.1764700529435639, "example_words": [] }, { "step": 2650, "pair": [ "नारायण", "पुर" ], "new_token": "नारायणपुर", "frequency": 10, "vocab_size": 2904, "learned_vocab_size": 2650, "compression_ratio": 1.176491464992729, "example_words": [] }, { "step": 2651, "pair": [ "हा", "जीपुर" ], "new_token": "हाजीपुर", "frequency": 10, "vocab_size": 2905, "learned_vocab_size": 2651, "compression_ratio": 1.176491464992729, "example_words": [] }, { "step": 2652, "pair": [ "व्या", "पक" ], "new_token": "व्यापक", "frequency": 10, "vocab_size": 2906, "learned_vocab_size": 2652, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 2653, "pair": [ "की", "य" ], "new_token": "कीय", "frequency": 10, "vocab_size": 2907, "learned_vocab_size": 2653, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 2654, "pair": [ "जै", "व" ], "new_token": "जैव", "frequency": 10, "vocab_size": 2908, "learned_vocab_size": 2654, "compression_ratio": 1.1765471399683665, "example_words": [] }, { "step": 2655, "pair": [ "सा", "इंस" ], "new_token": "साइंस", "frequency": 10, "vocab_size": 2909, "learned_vocab_size": 2655, "compression_ratio": 1.1765856872691796, "example_words": [] }, { "step": 2656, "pair": [ "भ", "ट्ट" ], "new_token": "भट्ट", "frequency": 10, "vocab_size": 2910, "learned_vocab_size": 2656, "compression_ratio": 1.1765856872691796, "example_words": [] }, { "step": 2657, "pair": [ "र", "ौ" ], "new_token": "रौ", "frequency": 10, "vocab_size": 2911, "learned_vocab_size": 2657, "compression_ratio": 1.1766156702494608, "example_words": [] }, { "step": 2658, "pair": [ "पो", "खरी" ], "new_token": "पोखरी", "frequency": 10, "vocab_size": 2912, "learned_vocab_size": 2658, "compression_ratio": 1.1769048702776514, "example_words": [] }, { "step": 2659, "pair": [ "च", "तुर्" ], "new_token": "चतुर्", "frequency": 10, "vocab_size": 2913, "learned_vocab_size": 2659, "compression_ratio": 1.1769048702776514, "example_words": [] }, { "step": 2660, "pair": [ "ह", "न" ], "new_token": "हन", "frequency": 10, "vocab_size": 2914, "learned_vocab_size": 2660, "compression_ratio": 1.1769048702776514, "example_words": [] }, { "step": 2661, "pair": [ "चा", "ह" ], "new_token": "चाह", "frequency": 10, "vocab_size": 2915, "learned_vocab_size": 2661, "compression_ratio": 1.1769134413359406, "example_words": [] }, { "step": 2662, "pair": [ "के", "ट" ], "new_token": "केट", "frequency": 10, "vocab_size": 2916, "learned_vocab_size": 2662, "compression_ratio": 1.1768791578518085, "example_words": [] }, { "step": 2663, "pair": [ "तकनी", "क" ], "new_token": "तकनीक", "frequency": 10, "vocab_size": 2917, "learned_vocab_size": 2663, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 2664, "pair": [ "कल्", "चर" ], "new_token": "कल्चर", "frequency": 10, "vocab_size": 2918, "learned_vocab_size": 2664, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 2665, "pair": [ "फ़ू", "ड" ], "new_token": "फ़ूड", "frequency": 10, "vocab_size": 2919, "learned_vocab_size": 2665, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 2666, "pair": [ "ग्रह", "ण" ], "new_token": "ग्रहण", "frequency": 10, "vocab_size": 2920, "learned_vocab_size": 2666, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 2667, "pair": [ "अव", "स्थिति" ], "new_token": "अवस्थिति", "frequency": 10, "vocab_size": 2921, "learned_vocab_size": 2667, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 2668, "pair": [ "श्", "चित" ], "new_token": "श्चित", "frequency": 10, "vocab_size": 2922, "learned_vocab_size": 2668, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 2669, "pair": [ "फो", "न" ], "new_token": "फोन", "frequency": 10, "vocab_size": 2923, "learned_vocab_size": 2669, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 2670, "pair": [ "त", "ल" ], "new_token": "तल", "frequency": 10, "vocab_size": 2924, "learned_vocab_size": 2670, "compression_ratio": 1.177181349830001, "example_words": [] }, { "step": 2671, "pair": [ "न्यू", "क्लि" ], "new_token": "न्यूक्लि", "frequency": 10, "vocab_size": 2925, "learned_vocab_size": 2671, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 2672, "pair": [ "न्यूक्लि", "यर" ], "new_token": "न्यूक्लियर", "frequency": 10, "vocab_size": 2926, "learned_vocab_size": 2672, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 2673, "pair": [ "फु", "ल" ], "new_token": "फुल", "frequency": 10, "vocab_size": 2927, "learned_vocab_size": 2673, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 2674, "pair": [ "थ", "ॉ" ], "new_token": "थॉ", "frequency": 10, "vocab_size": 2928, "learned_vocab_size": 2674, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 2675, "pair": [ "कॉ", "ल" ], "new_token": "कॉल", "frequency": 10, "vocab_size": 2929, "learned_vocab_size": 2675, "compression_ratio": 1.1771684874355113, "example_words": [] }, { "step": 2676, "pair": [ "बि", "ल्स" ], "new_token": "बिल्स", "frequency": 10, "vocab_size": 2930, "learned_vocab_size": 2676, "compression_ratio": 1.1770291628428673, "example_words": [] }, { "step": 2677, "pair": [ "फरी", "दपुर" ], "new_token": "फरीदपुर", "frequency": 10, "vocab_size": 2931, "learned_vocab_size": 2677, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 2678, "pair": [ "लै", "ब" ], "new_token": "लैब", "frequency": 10, "vocab_size": 2932, "learned_vocab_size": 2678, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 2679, "pair": [ "खो", "ज" ], "new_token": "खोज", "frequency": 10, "vocab_size": 2933, "learned_vocab_size": 2679, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 2680, "pair": [ "ति", "ब्" ], "new_token": "तिब्", "frequency": 10, "vocab_size": 2934, "learned_vocab_size": 2680, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 2681, "pair": [ "तुर्", "की" ], "new_token": "तुर्की", "frequency": 10, "vocab_size": 2935, "learned_vocab_size": 2681, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 2682, "pair": [ "अधी", "न" ], "new_token": "अधीन", "frequency": 10, "vocab_size": 2936, "learned_vocab_size": 2682, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 2683, "pair": [ "परी", "क्षा" ], "new_token": "परीक्षा", "frequency": 10, "vocab_size": 2937, "learned_vocab_size": 2683, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 2684, "pair": [ "झ", "ंग" ], "new_token": "झंग", "frequency": 10, "vocab_size": 2938, "learned_vocab_size": 2684, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 2685, "pair": [ "स्", "पी" ], "new_token": "स्पी", "frequency": 10, "vocab_size": 2939, "learned_vocab_size": 2685, "compression_ratio": 1.1773057008030043, "example_words": [] }, { "step": 2686, "pair": [ "ब", "ड़" ], "new_token": "बड़", "frequency": 10, "vocab_size": 2940, "learned_vocab_size": 2686, "compression_ratio": 1.1773335761770332, "example_words": [] }, { "step": 2687, "pair": [ "ए", "तमा" ], "new_token": "एतमा", "frequency": 10, "vocab_size": 2941, "learned_vocab_size": 2687, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 2688, "pair": [ "ध", "ौली" ], "new_token": "धौली", "frequency": 10, "vocab_size": 2942, "learned_vocab_size": 2688, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 2689, "pair": [ "कै", "मरू" ], "new_token": "कैमरू", "frequency": 10, "vocab_size": 2943, "learned_vocab_size": 2689, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 2690, "pair": [ "कैमरू", "न" ], "new_token": "कैमरून", "frequency": 10, "vocab_size": 2944, "learned_vocab_size": 2690, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 2691, "pair": [ "लॉ", "स" ], "new_token": "लॉस", "frequency": 10, "vocab_size": 2945, "learned_vocab_size": 2691, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 2692, "pair": [ "पा", "ड़ा" ], "new_token": "पाड़ा", "frequency": 10, "vocab_size": 2946, "learned_vocab_size": 2692, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 2693, "pair": [ "प", "पुर" ], "new_token": "पपुर", "frequency": 10, "vocab_size": 2947, "learned_vocab_size": 2693, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 2694, "pair": [ "पहाड़", "पुर" ], "new_token": "पहाड़पुर", "frequency": 10, "vocab_size": 2948, "learned_vocab_size": 2694, "compression_ratio": 1.1771942125055772, "example_words": [] }, { "step": 2695, "pair": [ "श", "ौ" ], "new_token": "शौ", "frequency": 10, "vocab_size": 2949, "learned_vocab_size": 2695, "compression_ratio": 1.1771942125055772, "example_words": [] }, { "step": 2696, "pair": [ "खन", "न" ], "new_token": "खनन", "frequency": 10, "vocab_size": 2950, "learned_vocab_size": 2696, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 2697, "pair": [ "कै", "ड" ], "new_token": "कैड", "frequency": 10, "vocab_size": 2951, "learned_vocab_size": 2697, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 2698, "pair": [ "कैड", "मियम" ], "new_token": "कैडमियम", "frequency": 10, "vocab_size": 2952, "learned_vocab_size": 2698, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 2699, "pair": [ "ह", "ंस" ], "new_token": "हंस", "frequency": 10, "vocab_size": 2953, "learned_vocab_size": 2699, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 2700, "pair": [ "एल्गोरि", "दम" ], "new_token": "एल्गोरिदम", "frequency": 10, "vocab_size": 2954, "learned_vocab_size": 2700, "compression_ratio": 1.1773292875720331, "example_words": [] }, { "step": 2701, "pair": [ "शि", "यन" ], "new_token": "शियन", "frequency": 10, "vocab_size": 2956, "learned_vocab_size": 2701, "compression_ratio": 1.1773292875720331, "example_words": [ "एस्थेटिशियन", "मार्शियन", "एशियन" ] }, { "step": 2702, "pair": [ "अव", "य" ], "new_token": "अवय", "frequency": 10, "vocab_size": 2957, "learned_vocab_size": 2702, "compression_ratio": 1.177350730909475, "example_words": [] }, { "step": 2703, "pair": [ "प", "चा" ], "new_token": "पचा", "frequency": 10, "vocab_size": 2958, "learned_vocab_size": 2703, "compression_ratio": 1.1773721750280495, "example_words": [] }, { "step": 2704, "pair": [ "ओ", "वर" ], "new_token": "ओवर", "frequency": 10, "vocab_size": 2959, "learned_vocab_size": 2704, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 2705, "pair": [ "ओ", "हि" ], "new_token": "ओहि", "frequency": 10, "vocab_size": 2960, "learned_vocab_size": 2705, "compression_ratio": 1.177558771825957, "example_words": [] }, { "step": 2706, "pair": [ "ओहि", "यो" ], "new_token": "ओहियो", "frequency": 10, "vocab_size": 2961, "learned_vocab_size": 2706, "compression_ratio": 1.1775802235237323, "example_words": [] }, { "step": 2707, "pair": [ "आई", "आई" ], "new_token": "आईआई", "frequency": 10, "vocab_size": 2962, "learned_vocab_size": 2707, "compression_ratio": 1.177601676003097, "example_words": [] }, { "step": 2708, "pair": [ "अव", "शेष" ], "new_token": "अवशेष", "frequency": 10, "vocab_size": 2963, "learned_vocab_size": 2708, "compression_ratio": 1.1776145478658964, "example_words": [] }, { "step": 2709, "pair": [ "अक्षा", "ंश" ], "new_token": "अक्षांश", "frequency": 10, "vocab_size": 2964, "learned_vocab_size": 2709, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 2710, "pair": [ "हा", "इलैंड" ], "new_token": "हाइलैंड", "frequency": 10, "vocab_size": 2965, "learned_vocab_size": 2710, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 2711, "pair": [ "हाइलैंड", "्स" ], "new_token": "हाइलैंड्स", "frequency": 10, "vocab_size": 2966, "learned_vocab_size": 2711, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 2712, "pair": [ "न", "बर्ग" ], "new_token": "नबर्ग", "frequency": 10, "vocab_size": 2967, "learned_vocab_size": 2712, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 2713, "pair": [ "आयो", "वा" ], "new_token": "आयोवा", "frequency": 10, "vocab_size": 2968, "learned_vocab_size": 2713, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 2714, "pair": [ "जी", "न" ], "new_token": "जीन", "frequency": 10, "vocab_size": 2969, "learned_vocab_size": 2714, "compression_ratio": 1.1776596016017549, "example_words": [] }, { "step": 2715, "pair": [ "घि", "रा" ], "new_token": "घिरा", "frequency": 9, "vocab_size": 2970, "learned_vocab_size": 2715, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 2716, "pair": [ "योग", "दान" ], "new_token": "योगदान", "frequency": 9, "vocab_size": 2971, "learned_vocab_size": 2716, "compression_ratio": 1.177640292435695, "example_words": [] }, { "step": 2717, "pair": [ "ज़", "्" ], "new_token": "ज़्", "frequency": 9, "vocab_size": 2972, "learned_vocab_size": 2717, "compression_ratio": 1.177640292435695, "example_words": [] }, { "step": 2718, "pair": [ "क्ष", "ी" ], "new_token": "क्षी", "frequency": 9, "vocab_size": 2973, "learned_vocab_size": 2718, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 2719, "pair": [ "रो", "ज़" ], "new_token": "रोज़", "frequency": 9, "vocab_size": 2974, "learned_vocab_size": 2719, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 2720, "pair": [ "रि", "पब्" ], "new_token": "रिपब्", "frequency": 9, "vocab_size": 2975, "learned_vocab_size": 2720, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 2721, "pair": [ "आलो", "चना" ], "new_token": "आलोचना", "frequency": 9, "vocab_size": 2976, "learned_vocab_size": 2721, "compression_ratio": 1.177726115798545, "example_words": [] }, { "step": 2722, "pair": [ "ब", "ंद" ], "new_token": "बंद", "frequency": 9, "vocab_size": 2977, "learned_vocab_size": 2722, "compression_ratio": 1.177726115798545, "example_words": [] }, { "step": 2723, "pair": [ "इ", "यों" ], "new_token": "इयों", "frequency": 9, "vocab_size": 2978, "learned_vocab_size": 2723, "compression_ratio": 1.1778226820353412, "example_words": [] }, { "step": 2724, "pair": [ "पहु", "ँच" ], "new_token": "पहुँच", "frequency": 9, "vocab_size": 2979, "learned_vocab_size": 2724, "compression_ratio": 1.1778226820353412, "example_words": [] }, { "step": 2725, "pair": [ "मही", "ने" ], "new_token": "महीने", "frequency": 9, "vocab_size": 2980, "learned_vocab_size": 2725, "compression_ratio": 1.1778226820353412, "example_words": [] }, { "step": 2726, "pair": [ "र", "क्त" ], "new_token": "रक्त", "frequency": 9, "vocab_size": 2981, "learned_vocab_size": 2726, "compression_ratio": 1.1778226820353412, "example_words": [] }, { "step": 2727, "pair": [ "जु", "ड़े" ], "new_token": "जुड़े", "frequency": 9, "vocab_size": 2982, "learned_vocab_size": 2727, "compression_ratio": 1.177850581896434, "example_words": [] }, { "step": 2728, "pair": [ "पो", "जी" ], "new_token": "पोजी", "frequency": 9, "vocab_size": 2983, "learned_vocab_size": 2728, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 2729, "pair": [ "पोजी", "शन" ], "new_token": "पोजीशन", "frequency": 9, "vocab_size": 2984, "learned_vocab_size": 2729, "compression_ratio": 1.1778892146554882, "example_words": [] }, { "step": 2730, "pair": [ "नी", "त" ], "new_token": "नीत", "frequency": 9, "vocab_size": 2985, "learned_vocab_size": 2730, "compression_ratio": 1.1779085319853786, "example_words": [] }, { "step": 2731, "pair": [ "स्वी", "कार" ], "new_token": "स्वीकार", "frequency": 9, "vocab_size": 2986, "learned_vocab_size": 2731, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 2732, "pair": [ "स", "भर" ], "new_token": "सभर", "frequency": 9, "vocab_size": 2987, "learned_vocab_size": 2732, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 2733, "pair": [ "केन्द्री", "य" ], "new_token": "केन्द्रीय", "frequency": 9, "vocab_size": 2988, "learned_vocab_size": 2733, "compression_ratio": 1.1777325530550373, "example_words": [] }, { "step": 2734, "pair": [ "बो", "लने" ], "new_token": "बोलने", "frequency": 9, "vocab_size": 2989, "learned_vocab_size": 2734, "compression_ratio": 1.1777325530550373, "example_words": [] }, { "step": 2735, "pair": [ "ज", "म" ], "new_token": "जम", "frequency": 9, "vocab_size": 2990, "learned_vocab_size": 2735, "compression_ratio": 1.1777325530550373, "example_words": [] }, { "step": 2736, "pair": [ "क्षेत्री", "य" ], "new_token": "क्षेत्रीय", "frequency": 9, "vocab_size": 2991, "learned_vocab_size": 2736, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 2737, "pair": [ "सु", "ल" ], "new_token": "सुल", "frequency": 9, "vocab_size": 2992, "learned_vocab_size": 2737, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 2738, "pair": [ "दिखा", "ई" ], "new_token": "दिखाई", "frequency": 9, "vocab_size": 2993, "learned_vocab_size": 2738, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 2739, "pair": [ "श्", "ते" ], "new_token": "श्ते", "frequency": 9, "vocab_size": 2994, "learned_vocab_size": 2739, "compression_ratio": 1.1773185661962238, "example_words": [] }, { "step": 2740, "pair": [ "मिल", "ती" ], "new_token": "मिलती", "frequency": 9, "vocab_size": 2995, "learned_vocab_size": 2740, "compression_ratio": 1.1773378648132768, "example_words": [] }, { "step": 2741, "pair": [ "पूर्णि", "मा" ], "new_token": "पूर्णिमा", "frequency": 9, "vocab_size": 2996, "learned_vocab_size": 2741, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 2742, "pair": [ "पर्", "क" ], "new_token": "पर्क", "frequency": 9, "vocab_size": 2997, "learned_vocab_size": 2742, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 2743, "pair": [ "विद्यु", "त" ], "new_token": "विद्युत", "frequency": 9, "vocab_size": 2998, "learned_vocab_size": 2743, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 2744, "pair": [ "सिने", "मा" ], "new_token": "सिनेमा", "frequency": 9, "vocab_size": 2999, "learned_vocab_size": 2744, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 2745, "pair": [ "बो", "ल" ], "new_token": "बोल", "frequency": 9, "vocab_size": 3000, "learned_vocab_size": 2745, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 2746, "pair": [ "दि", "ल" ], "new_token": "दिल", "frequency": 9, "vocab_size": 3001, "learned_vocab_size": 2746, "compression_ratio": 1.177361452871118, "example_words": [] }, { "step": 2747, "pair": [ "अ", "ंदर" ], "new_token": "अंदर", "frequency": 9, "vocab_size": 3002, "learned_vocab_size": 2747, "compression_ratio": 1.1767034863400712, "example_words": [] }, { "step": 2748, "pair": [ "सिर्", "फ" ], "new_token": "सिर्फ", "frequency": 9, "vocab_size": 3003, "learned_vocab_size": 2748, "compression_ratio": 1.1767034863400712, "example_words": [] }, { "step": 2749, "pair": [ "आजा", "द" ], "new_token": "आजाद", "frequency": 9, "vocab_size": 3004, "learned_vocab_size": 2749, "compression_ratio": 1.1767034863400712, "example_words": [] }, { "step": 2750, "pair": [ "बे", "तवा" ], "new_token": "बेतवा", "frequency": 9, "vocab_size": 3005, "learned_vocab_size": 2750, "compression_ratio": 1.1767034863400712, "example_words": [] }, { "step": 2751, "pair": [ "भा", "वनगर" ], "new_token": "भावनगर", "frequency": 9, "vocab_size": 3006, "learned_vocab_size": 2751, "compression_ratio": 1.176722764797437, "example_words": [] }, { "step": 2752, "pair": [ "नेल", "वेली" ], "new_token": "नेलवेली", "frequency": 9, "vocab_size": 3007, "learned_vocab_size": 2752, "compression_ratio": 1.176722764797437, "example_words": [] }, { "step": 2753, "pair": [ "चा", "लु" ], "new_token": "चालु", "frequency": 9, "vocab_size": 3008, "learned_vocab_size": 2753, "compression_ratio": 1.176722764797437, "example_words": [] }, { "step": 2754, "pair": [ "चालु", "क्य" ], "new_token": "चालुक्य", "frequency": 9, "vocab_size": 3009, "learned_vocab_size": 2754, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2755, "pair": [ "त्रि", "ची" ], "new_token": "त्रिची", "frequency": 9, "vocab_size": 3010, "learned_vocab_size": 2755, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2756, "pair": [ "एक्स", "प" ], "new_token": "एक्सप", "frequency": 9, "vocab_size": 3011, "learned_vocab_size": 2756, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2757, "pair": [ "फी", "ल्ड" ], "new_token": "फील्ड", "frequency": 9, "vocab_size": 3012, "learned_vocab_size": 2757, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2758, "pair": [ "डे", "हरी" ], "new_token": "डेहरी", "frequency": 9, "vocab_size": 3013, "learned_vocab_size": 2758, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2759, "pair": [ "जोग", "बनी" ], "new_token": "जोगबनी", "frequency": 9, "vocab_size": 3014, "learned_vocab_size": 2759, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2760, "pair": [ "धार", "वाड़" ], "new_token": "धारवाड़", "frequency": 9, "vocab_size": 3015, "learned_vocab_size": 2760, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2761, "pair": [ "म्", "पल" ], "new_token": "म्पल", "frequency": 9, "vocab_size": 3016, "learned_vocab_size": 2761, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 2762, "pair": [ "गुरु", "देव" ], "new_token": "गुरुदेव", "frequency": 9, "vocab_size": 3017, "learned_vocab_size": 2762, "compression_ratio": 1.176761323607316, "example_words": [] }, { "step": 2763, "pair": [ "ह", "बी" ], "new_token": "हबी", "frequency": 9, "vocab_size": 3018, "learned_vocab_size": 2763, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 2764, "pair": [ "ब", "गंज" ], "new_token": "बगंज", "frequency": 9, "vocab_size": 3019, "learned_vocab_size": 2764, "compression_ratio": 1.1767998849442654, "example_words": [] }, { "step": 2765, "pair": [ "जान", "की" ], "new_token": "जानकी", "frequency": 9, "vocab_size": 3020, "learned_vocab_size": 2765, "compression_ratio": 1.176823451449877, "example_words": [] }, { "step": 2766, "pair": [ "कचे", "गु" ], "new_token": "कचेगु", "frequency": 9, "vocab_size": 3021, "learned_vocab_size": 2766, "compression_ratio": 1.176823451449877, "example_words": [] }, { "step": 2767, "pair": [ "कचेगु", "डा" ], "new_token": "कचेगुडा", "frequency": 9, "vocab_size": 3022, "learned_vocab_size": 2767, "compression_ratio": 1.176842733838359, "example_words": [] }, { "step": 2768, "pair": [ "स्पेश", "ल" ], "new_token": "स्पेशल", "frequency": 9, "vocab_size": 3023, "learned_vocab_size": 2768, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 2769, "pair": [ "कोंक", "ण" ], "new_token": "कोंकण", "frequency": 9, "vocab_size": 3024, "learned_vocab_size": 2769, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 2770, "pair": [ "लनो", "व" ], "new_token": "लनोव", "frequency": 9, "vocab_size": 3025, "learned_vocab_size": 2770, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 2771, "pair": [ "विजय", "वाडा" ], "new_token": "विजयवाडा", "frequency": 9, "vocab_size": 3026, "learned_vocab_size": 2771, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 2772, "pair": [ "नन्दे", "द" ], "new_token": "नन्देद", "frequency": 9, "vocab_size": 3027, "learned_vocab_size": 2772, "compression_ratio": 1.1769005847953216, "example_words": [] }, { "step": 2773, "pair": [ "नी", "लगिरि" ], "new_token": "नीलगिरि", "frequency": 9, "vocab_size": 3028, "learned_vocab_size": 2773, "compression_ratio": 1.1769005847953216, "example_words": [] }, { "step": 2774, "pair": [ "निजा", "मुद्दीन" ], "new_token": "निजामुद्दीन", "frequency": 9, "vocab_size": 3029, "learned_vocab_size": 2774, "compression_ratio": 1.1769005847953216, "example_words": [] }, { "step": 2775, "pair": [ "व", "टी" ], "new_token": "वटी", "frequency": 9, "vocab_size": 3030, "learned_vocab_size": 2775, "compression_ratio": 1.1769220125190718, "example_words": [] }, { "step": 2776, "pair": [ "पर", "शु" ], "new_token": "परशु", "frequency": 9, "vocab_size": 3031, "learned_vocab_size": 2776, "compression_ratio": 1.1769412981375846, "example_words": [] }, { "step": 2777, "pair": [ "परशु", "राम" ], "new_token": "परशुराम", "frequency": 9, "vocab_size": 3032, "learned_vocab_size": 2777, "compression_ratio": 1.176960584388155, "example_words": [] }, { "step": 2778, "pair": [ "राधिका", "पुर" ], "new_token": "राधिकापुर", "frequency": 9, "vocab_size": 3033, "learned_vocab_size": 2778, "compression_ratio": 1.1769798712708137, "example_words": [] }, { "step": 2779, "pair": [ "रे", "वंचल" ], "new_token": "रेवंचल", "frequency": 9, "vocab_size": 3034, "learned_vocab_size": 2779, "compression_ratio": 1.1769798712708137, "example_words": [] }, { "step": 2780, "pair": [ "फोर्", "ट" ], "new_token": "फोर्ट", "frequency": 9, "vocab_size": 3035, "learned_vocab_size": 2780, "compression_ratio": 1.1769798712708137, "example_words": [] }, { "step": 2781, "pair": [ "सा", "केत" ], "new_token": "साकेत", "frequency": 9, "vocab_size": 3036, "learned_vocab_size": 2781, "compression_ratio": 1.1769798712708137, "example_words": [] }, { "step": 2782, "pair": [ "स", "या" ], "new_token": "सया", "frequency": 9, "vocab_size": 3037, "learned_vocab_size": 2782, "compression_ratio": 1.177001301881811, "example_words": [] }, { "step": 2783, "pair": [ "सया", "जी" ], "new_token": "सयाजी", "frequency": 9, "vocab_size": 3038, "learned_vocab_size": 2783, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 2784, "pair": [ "स्टी", "ल" ], "new_token": "स्टील", "frequency": 9, "vocab_size": 3039, "learned_vocab_size": 2784, "compression_ratio": 1.1770398789483363, "example_words": [] }, { "step": 2785, "pair": [ "त", "पो" ], "new_token": "तपो", "frequency": 9, "vocab_size": 3040, "learned_vocab_size": 2785, "compression_ratio": 1.1770398789483363, "example_words": [] }, { "step": 2786, "pair": [ "त", "पती" ], "new_token": "तपती", "frequency": 9, "vocab_size": 3041, "learned_vocab_size": 2786, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 2787, "pair": [ "का", "सी" ], "new_token": "कासी", "frequency": 9, "vocab_size": 3042, "learned_vocab_size": 2787, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 2788, "pair": [ "तिरु", "च्छि" ], "new_token": "तिरुच्छि", "frequency": 9, "vocab_size": 3043, "learned_vocab_size": 2788, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 2789, "pair": [ "तिरुच्छि", "रापल्ली" ], "new_token": "तिरुच्छिरापल्ली", "frequency": 9, "vocab_size": 3044, "learned_vocab_size": 2789, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 2790, "pair": [ "तिरु", "वन" ], "new_token": "तिरुवन", "frequency": 9, "vocab_size": 3045, "learned_vocab_size": 2790, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 2791, "pair": [ "तिरुवन", "न्तपुर" ], "new_token": "तिरुवनन्तपुर", "frequency": 9, "vocab_size": 3046, "learned_vocab_size": 2791, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 2792, "pair": [ "तिरुवनन्तपुर", "म" ], "new_token": "तिरुवनन्तपुरम", "frequency": 9, "vocab_size": 3047, "learned_vocab_size": 2792, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 2793, "pair": [ "तुंग", "भद्रा" ], "new_token": "तुंगभद्रा", "frequency": 9, "vocab_size": 3048, "learned_vocab_size": 2793, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 2794, "pair": [ "आ", "भा" ], "new_token": "आभा", "frequency": 9, "vocab_size": 3049, "learned_vocab_size": 2794, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 2795, "pair": [ "व", "डो" ], "new_token": "वडो", "frequency": 9, "vocab_size": 3050, "learned_vocab_size": 2795, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 2796, "pair": [ "वडो", "दरा" ], "new_token": "वडोदरा", "frequency": 9, "vocab_size": 3051, "learned_vocab_size": 2796, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 2797, "pair": [ "विभू", "ति" ], "new_token": "विभूति", "frequency": 9, "vocab_size": 3052, "learned_vocab_size": 2797, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 2798, "pair": [ "को", "च" ], "new_token": "कोच", "frequency": 9, "vocab_size": 3053, "learned_vocab_size": 2798, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 2799, "pair": [ "मै", "सा" ], "new_token": "मैसा", "frequency": 9, "vocab_size": 3054, "learned_vocab_size": 2799, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 2800, "pair": [ "मैसा", "चुसेट्स" ], "new_token": "मैसाचुसेट्स", "frequency": 9, "vocab_size": 3055, "learned_vocab_size": 2800, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 2801, "pair": [ "लि", "श" ], "new_token": "लिश", "frequency": 9, "vocab_size": 3056, "learned_vocab_size": 2801, "compression_ratio": 1.1771856373572942, "example_words": [ "इंग्लिश", "पोलिश", "मजलिशपुर" ] }, { "step": 2802, "pair": [ "सुनी", "ल" ], "new_token": "सुनील", "frequency": 9, "vocab_size": 3057, "learned_vocab_size": 2802, "compression_ratio": 1.1772156509228653, "example_words": [] }, { "step": 2803, "pair": [ "विवादास्", "पक" ], "new_token": "विवादास्पक", "frequency": 9, "vocab_size": 3058, "learned_vocab_size": 2803, "compression_ratio": 1.1772156509228653, "example_words": [] }, { "step": 2804, "pair": [ "हटा", "ई" ], "new_token": "हटाई", "frequency": 9, "vocab_size": 3059, "learned_vocab_size": 2804, "compression_ratio": 1.1772156509228653, "example_words": [] }, { "step": 2805, "pair": [ "मान", "हानिकार" ], "new_token": "मानहानिकार", "frequency": 9, "vocab_size": 3060, "learned_vocab_size": 2805, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 2806, "pair": [ "मानहानिकार", "क" ], "new_token": "मानहानिकारक", "frequency": 9, "vocab_size": 3061, "learned_vocab_size": 2806, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 2807, "pair": [ "नुकसान", "देह" ], "new_token": "नुकसानदेह", "frequency": 9, "vocab_size": 3062, "learned_vocab_size": 2807, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 2808, "pair": [ "जै", "सा" ], "new_token": "जैसा", "frequency": 9, "vocab_size": 3063, "learned_vocab_size": 2808, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 2809, "pair": [ "करी", "मनगर" ], "new_token": "करीमनगर", "frequency": 9, "vocab_size": 3064, "learned_vocab_size": 2809, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 2810, "pair": [ "ड", "क" ], "new_token": "डक", "frequency": 9, "vocab_size": 3065, "learned_vocab_size": 2810, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 2811, "pair": [ "चार्", "ल्स" ], "new_token": "चार्ल्स", "frequency": 9, "vocab_size": 3066, "learned_vocab_size": 2811, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 2812, "pair": [ "पॉ", "ल" ], "new_token": "पॉल", "frequency": 9, "vocab_size": 3067, "learned_vocab_size": 2812, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 2813, "pair": [ "रे", "ड" ], "new_token": "रेड", "frequency": 9, "vocab_size": 3068, "learned_vocab_size": 2813, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 2814, "pair": [ "लि", "यो" ], "new_token": "लियो", "frequency": 9, "vocab_size": 3069, "learned_vocab_size": 2814, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 2815, "pair": [ "कार्या", "लय" ], "new_token": "कार्यालय", "frequency": 9, "vocab_size": 3070, "learned_vocab_size": 2815, "compression_ratio": 1.1772671063103621, "example_words": [] }, { "step": 2816, "pair": [ "ज", "ौ" ], "new_token": "जौ", "frequency": 9, "vocab_size": 3071, "learned_vocab_size": 2816, "compression_ratio": 1.1772671063103621, "example_words": [] }, { "step": 2817, "pair": [ "लॉ", "ग" ], "new_token": "लॉग", "frequency": 9, "vocab_size": 3072, "learned_vocab_size": 2817, "compression_ratio": 1.1773550196706979, "example_words": [] }, { "step": 2818, "pair": [ "अ", "स" ], "new_token": "अस", "frequency": 9, "vocab_size": 3073, "learned_vocab_size": 2818, "compression_ratio": 1.177378608415949, "example_words": [] }, { "step": 2819, "pair": [ "नि", "स" ], "new_token": "निस", "frequency": 9, "vocab_size": 3074, "learned_vocab_size": 2819, "compression_ratio": 1.1772413780543551, "example_words": [] }, { "step": 2820, "pair": [ "पो", "स्टर" ], "new_token": "पोस्टर", "frequency": 9, "vocab_size": 3075, "learned_vocab_size": 2820, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 2821, "pair": [ "२", "८" ], "new_token": "२८", "frequency": 9, "vocab_size": 3076, "learned_vocab_size": 2821, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 2822, "pair": [ "२", "९" ], "new_token": "२९", "frequency": 9, "vocab_size": 3077, "learned_vocab_size": 2822, "compression_ratio": 1.1772671063103621, "example_words": [] }, { "step": 2823, "pair": [ "ग्रे", "गोरी" ], "new_token": "ग्रेगोरी", "frequency": 9, "vocab_size": 3078, "learned_vocab_size": 2823, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 2824, "pair": [ "ज्", "वालामुखी" ], "new_token": "ज्वालामुखी", "frequency": 9, "vocab_size": 3079, "learned_vocab_size": 2824, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 2825, "pair": [ "ह", "जार" ], "new_token": "हजार", "frequency": 9, "vocab_size": 3080, "learned_vocab_size": 2825, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 2826, "pair": [ "महा", "द्वीप" ], "new_token": "महाद्वीप", "frequency": 9, "vocab_size": 3081, "learned_vocab_size": 2826, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 2827, "pair": [ "टे", "न" ], "new_token": "टेन", "frequency": 9, "vocab_size": 3082, "learned_vocab_size": 2827, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 2828, "pair": [ "स्", "काउ" ], "new_token": "स्काउ", "frequency": 9, "vocab_size": 3083, "learned_vocab_size": 2828, "compression_ratio": 1.1773121334644665, "example_words": [] }, { "step": 2829, "pair": [ "भा", "व" ], "new_token": "भाव", "frequency": 9, "vocab_size": 3084, "learned_vocab_size": 2829, "compression_ratio": 1.1773357204912493, "example_words": [] }, { "step": 2830, "pair": [ "बि", "शप" ], "new_token": "बिशप", "frequency": 9, "vocab_size": 3085, "learned_vocab_size": 2830, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 2831, "pair": [ "ब्", "लॉ" ], "new_token": "ब्लॉ", "frequency": 9, "vocab_size": 3086, "learned_vocab_size": 2831, "compression_ratio": 1.1776102572136975, "example_words": [] }, { "step": 2832, "pair": [ "सी", "धे" ], "new_token": "सीधे", "frequency": 9, "vocab_size": 3087, "learned_vocab_size": 2832, "compression_ratio": 1.177631710787359, "example_words": [] }, { "step": 2833, "pair": [ "समा", "प्त" ], "new_token": "समाप्त", "frequency": 9, "vocab_size": 3088, "learned_vocab_size": 2833, "compression_ratio": 1.1776510196719998, "example_words": [] }, { "step": 2834, "pair": [ "जु", "मा" ], "new_token": "जुमा", "frequency": 9, "vocab_size": 3089, "learned_vocab_size": 2834, "compression_ratio": 1.1776510196719998, "example_words": [] }, { "step": 2835, "pair": [ "आ", "लम" ], "new_token": "आलम", "frequency": 9, "vocab_size": 3090, "learned_vocab_size": 2835, "compression_ratio": 1.177670329189842, "example_words": [] }, { "step": 2836, "pair": [ "दी", "न" ], "new_token": "दीन", "frequency": 9, "vocab_size": 3091, "learned_vocab_size": 2836, "compression_ratio": 1.1777110958070522, "example_words": [] }, { "step": 2837, "pair": [ "स्", "पर्" ], "new_token": "स्पर्", "frequency": 9, "vocab_size": 3092, "learned_vocab_size": 2837, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 2838, "pair": [ "ग्री", "ष्" ], "new_token": "ग्रीष्", "frequency": 9, "vocab_size": 3093, "learned_vocab_size": 2838, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 2839, "pair": [ "ऑ", "परे" ], "new_token": "ऑपरे", "frequency": 9, "vocab_size": 3094, "learned_vocab_size": 2839, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 2840, "pair": [ "आँ", "कड़े" ], "new_token": "आँकड़े", "frequency": 9, "vocab_size": 3095, "learned_vocab_size": 2840, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 2841, "pair": [ "चिह्", "न" ], "new_token": "चिह्न", "frequency": 9, "vocab_size": 3096, "learned_vocab_size": 2841, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 2842, "pair": [ "अक्ष", "र" ], "new_token": "अक्षर", "frequency": 9, "vocab_size": 3097, "learned_vocab_size": 2842, "compression_ratio": 1.177777615820918, "example_words": [] }, { "step": 2843, "pair": [ "पा", "या" ], "new_token": "पाया", "frequency": 9, "vocab_size": 3098, "learned_vocab_size": 2843, "compression_ratio": 1.177777615820918, "example_words": [] }, { "step": 2844, "pair": [ "मा", "धोपुर" ], "new_token": "माधोपुर", "frequency": 9, "vocab_size": 3099, "learned_vocab_size": 2844, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 2845, "pair": [ "गण", "े" ], "new_token": "गणे", "frequency": 9, "vocab_size": 3100, "learned_vocab_size": 2845, "compression_ratio": 1.1778248281315766, "example_words": [] }, { "step": 2846, "pair": [ "ब", "ंस" ], "new_token": "बंस", "frequency": 9, "vocab_size": 3101, "learned_vocab_size": 2846, "compression_ratio": 1.1778462895240802, "example_words": [] }, { "step": 2847, "pair": [ "बायो", "लॉजी" ], "new_token": "बायोलॉजी", "frequency": 9, "vocab_size": 3102, "learned_vocab_size": 2847, "compression_ratio": 1.1778849220015561, "example_words": [] }, { "step": 2848, "pair": [ "इ", "म्" ], "new_token": "इम्", "frequency": 9, "vocab_size": 3103, "learned_vocab_size": 2848, "compression_ratio": 1.177904239190647, "example_words": [] }, { "step": 2849, "pair": [ "श", "ह" ], "new_token": "शह", "frequency": 9, "vocab_size": 3104, "learned_vocab_size": 2849, "compression_ratio": 1.1779257034772055, "example_words": [] }, { "step": 2850, "pair": [ "प्र", "क्रम" ], "new_token": "प्रक्रम", "frequency": 9, "vocab_size": 3105, "learned_vocab_size": 2850, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2851, "pair": [ "रि", "सर्" ], "new_token": "रिसर्", "frequency": 9, "vocab_size": 3107, "learned_vocab_size": 2851, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2852, "pair": [ "रिसर्", "च" ], "new_token": "रिसर्च", "frequency": 9, "vocab_size": 3108, "learned_vocab_size": 2852, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2853, "pair": [ "जर्", "नल" ], "new_token": "जर्नल", "frequency": 9, "vocab_size": 3109, "learned_vocab_size": 2853, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2854, "pair": [ "बल्", "कि" ], "new_token": "बल्कि", "frequency": 9, "vocab_size": 3110, "learned_vocab_size": 2854, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2855, "pair": [ "ब", "दलने" ], "new_token": "बदलने", "frequency": 9, "vocab_size": 3111, "learned_vocab_size": 2855, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2856, "pair": [ "कि", "स" ], "new_token": "किस", "frequency": 9, "vocab_size": 3112, "learned_vocab_size": 2856, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 2857, "pair": [ "पा", "ई" ], "new_token": "पाई", "frequency": 9, "vocab_size": 3113, "learned_vocab_size": 2857, "compression_ratio": 1.1775437561025373, "example_words": [] }, { "step": 2858, "pair": [ "मार्", "क" ], "new_token": "मार्क", "frequency": 9, "vocab_size": 3114, "learned_vocab_size": 2858, "compression_ratio": 1.177567352411279, "example_words": [] }, { "step": 2859, "pair": [ "परी", "क्षण" ], "new_token": "परीक्षण", "frequency": 9, "vocab_size": 3115, "learned_vocab_size": 2859, "compression_ratio": 1.177567352411279, "example_words": [] }, { "step": 2860, "pair": [ "रमे", "श" ], "new_token": "रमेश", "frequency": 9, "vocab_size": 3116, "learned_vocab_size": 2860, "compression_ratio": 1.177567352411279, "example_words": [] }, { "step": 2861, "pair": [ "दया", "ल" ], "new_token": "दयाल", "frequency": 9, "vocab_size": 3117, "learned_vocab_size": 2861, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 2862, "pair": [ "सॉफ्ट", "वेयर" ], "new_token": "सॉफ्टवेयर", "frequency": 9, "vocab_size": 3118, "learned_vocab_size": 2862, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 2863, "pair": [ "सा", "मना" ], "new_token": "सामना", "frequency": 9, "vocab_size": 3119, "learned_vocab_size": 2863, "compression_ratio": 1.1776145478658964, "example_words": [] }, { "step": 2864, "pair": [ "मि", "थ" ], "new_token": "मिथ", "frequency": 9, "vocab_size": 3120, "learned_vocab_size": 2864, "compression_ratio": 1.1776145478658964, "example_words": [] }, { "step": 2865, "pair": [ "दू", "पुर" ], "new_token": "दूपुर", "frequency": 9, "vocab_size": 3121, "learned_vocab_size": 2865, "compression_ratio": 1.1775694975771487, "example_words": [] }, { "step": 2866, "pair": [ "डिजा", "इन" ], "new_token": "डिजाइन", "frequency": 9, "vocab_size": 3122, "learned_vocab_size": 2866, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 2867, "pair": [ "माइ", "क्रो" ], "new_token": "माइक्रो", "frequency": 9, "vocab_size": 3123, "learned_vocab_size": 2867, "compression_ratio": 1.1776188385493618, "example_words": [] }, { "step": 2868, "pair": [ "सा", "झा" ], "new_token": "साझा", "frequency": 9, "vocab_size": 3124, "learned_vocab_size": 2868, "compression_ratio": 1.1776188385493618, "example_words": [] }, { "step": 2869, "pair": [ "१९९", "८" ], "new_token": "१९९८", "frequency": 9, "vocab_size": 3125, "learned_vocab_size": 2869, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 2870, "pair": [ "अ", "ंक" ], "new_token": "अंक", "frequency": 9, "vocab_size": 3126, "learned_vocab_size": 2870, "compression_ratio": 1.1776596016017549, "example_words": [] }, { "step": 2871, "pair": [ "स्", "कॉ" ], "new_token": "स्कॉ", "frequency": 9, "vocab_size": 3127, "learned_vocab_size": 2871, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 2872, "pair": [ "काली", "न" ], "new_token": "कालीन", "frequency": 9, "vocab_size": 3128, "learned_vocab_size": 2872, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 2873, "pair": [ "अ", "ंचल" ], "new_token": "अंचल", "frequency": 9, "vocab_size": 3129, "learned_vocab_size": 2873, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 2874, "pair": [ "कला", "कार" ], "new_token": "कलाकार", "frequency": 9, "vocab_size": 3130, "learned_vocab_size": 2874, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 2875, "pair": [ "नि", "जी" ], "new_token": "निजी", "frequency": 9, "vocab_size": 3131, "learned_vocab_size": 2875, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 2876, "pair": [ "दिखा", "या" ], "new_token": "दिखाया", "frequency": 9, "vocab_size": 3132, "learned_vocab_size": 2876, "compression_ratio": 1.177760448646354, "example_words": [] }, { "step": 2877, "pair": [ "अ", "द्" ], "new_token": "अद्", "frequency": 9, "vocab_size": 3133, "learned_vocab_size": 2877, "compression_ratio": 1.177779761752927, "example_words": [] }, { "step": 2878, "pair": [ "स्त", "ंभ" ], "new_token": "स्तंभ", "frequency": 9, "vocab_size": 3134, "learned_vocab_size": 2878, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 2879, "pair": [ "प", "थ" ], "new_token": "पथ", "frequency": 9, "vocab_size": 3135, "learned_vocab_size": 2879, "compression_ratio": 1.1778355587300662, "example_words": [] }, { "step": 2880, "pair": [ "आर", "म्भ" ], "new_token": "आरम्भ", "frequency": 9, "vocab_size": 3136, "learned_vocab_size": 2880, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 2881, "pair": [ "सो", "श" ], "new_token": "सोश", "frequency": 9, "vocab_size": 3137, "learned_vocab_size": 2881, "compression_ratio": 1.1778784830793227, "example_words": [] }, { "step": 2882, "pair": [ "फ्र", "ंट" ], "new_token": "फ्रंट", "frequency": 9, "vocab_size": 3138, "learned_vocab_size": 2882, "compression_ratio": 1.1778999464272049, "example_words": [] }, { "step": 2883, "pair": [ "विंडो", "ज" ], "new_token": "विंडोज", "frequency": 9, "vocab_size": 3139, "learned_vocab_size": 2883, "compression_ratio": 1.1778999464272049, "example_words": [] }, { "step": 2884, "pair": [ "प्ले", "ट" ], "new_token": "प्लेट", "frequency": 9, "vocab_size": 3140, "learned_vocab_size": 2884, "compression_ratio": 1.1778441433496352, "example_words": [] }, { "step": 2885, "pair": [ "संर", "क्षित" ], "new_token": "संरक्षित", "frequency": 9, "vocab_size": 3141, "learned_vocab_size": 2885, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 2886, "pair": [ "गो", "पालपुर" ], "new_token": "गोपालपुर", "frequency": 9, "vocab_size": 3142, "learned_vocab_size": 2886, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 2887, "pair": [ "हो", "गा" ], "new_token": "होगा", "frequency": 9, "vocab_size": 3143, "learned_vocab_size": 2887, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 2888, "pair": [ "अफ्री", "का" ], "new_token": "अफ्रीका", "frequency": 9, "vocab_size": 3144, "learned_vocab_size": 2888, "compression_ratio": 1.1778956536950516, "example_words": [] }, { "step": 2889, "pair": [ "कबा", "ब" ], "new_token": "कबाब", "frequency": 9, "vocab_size": 3145, "learned_vocab_size": 2889, "compression_ratio": 1.1778956536950516, "example_words": [] }, { "step": 2890, "pair": [ "ं", "ठा" ], "new_token": "ंठा", "frequency": 9, "vocab_size": 3146, "learned_vocab_size": 2890, "compression_ratio": 1.1779149712361443, "example_words": [] }, { "step": 2891, "pair": [ "मुर्", "ग" ], "new_token": "मुर्ग", "frequency": 9, "vocab_size": 3147, "learned_vocab_size": 2891, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2892, "pair": [ "ग", "वर्" ], "new_token": "गवर्", "frequency": 9, "vocab_size": 3148, "learned_vocab_size": 2892, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2893, "pair": [ "संसदी", "य" ], "new_token": "संसदीय", "frequency": 9, "vocab_size": 3149, "learned_vocab_size": 2893, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2894, "pair": [ "कु", "ँवर" ], "new_token": "कुँवर", "frequency": 9, "vocab_size": 3150, "learned_vocab_size": 2894, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2895, "pair": [ "राज", "शाही" ], "new_token": "राजशाही", "frequency": 9, "vocab_size": 3151, "learned_vocab_size": 2895, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2896, "pair": [ "ञ्", "ज" ], "new_token": "ञ्ज", "frequency": 9, "vocab_size": 3152, "learned_vocab_size": 2896, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2897, "pair": [ "पुरा", "ण" ], "new_token": "पुराण", "frequency": 9, "vocab_size": 3153, "learned_vocab_size": 2897, "compression_ratio": 1.1779557547926234, "example_words": [] }, { "step": 2898, "pair": [ "द्रवि", "ड़" ], "new_token": "द्रविड़", "frequency": 9, "vocab_size": 3154, "learned_vocab_size": 2898, "compression_ratio": 1.1779557547926234, "example_words": [] }, { "step": 2899, "pair": [ "१९", "६" ], "new_token": "१९६", "frequency": 9, "vocab_size": 3155, "learned_vocab_size": 2899, "compression_ratio": 1.1779557547926234, "example_words": [] }, { "step": 2900, "pair": [ "मले", "शिया" ], "new_token": "मलेशिया", "frequency": 9, "vocab_size": 3156, "learned_vocab_size": 2900, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 2901, "pair": [ "इलाहा", "बाद" ], "new_token": "इलाहाबाद", "frequency": 9, "vocab_size": 3157, "learned_vocab_size": 2901, "compression_ratio": 1.1779793676161596, "example_words": [ "इलाहाबाद" ] }, { "step": 2902, "pair": [ "बीबी", "पुर" ], "new_token": "बीबीपुर", "frequency": 9, "vocab_size": 3158, "learned_vocab_size": 2902, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 2903, "pair": [ "क", "सौ" ], "new_token": "कसौ", "frequency": 9, "vocab_size": 3159, "learned_vocab_size": 2903, "compression_ratio": 1.1779986879031965, "example_words": [] }, { "step": 2904, "pair": [ "बीरा", "पुर" ], "new_token": "बीरापुर", "frequency": 9, "vocab_size": 3160, "learned_vocab_size": 2904, "compression_ratio": 1.178020155632096, "example_words": [] }, { "step": 2905, "pair": [ "दा", "पुर" ], "new_token": "दापुर", "frequency": 9, "vocab_size": 3161, "learned_vocab_size": 2905, "compression_ratio": 1.178020155632096, "example_words": [] }, { "step": 2906, "pair": [ "मु", "त" ], "new_token": "मुत", "frequency": 9, "vocab_size": 3162, "learned_vocab_size": 2906, "compression_ratio": 1.1780394772571126, "example_words": [] }, { "step": 2907, "pair": [ "ने", "वादा" ], "new_token": "नेवादा", "frequency": 9, "vocab_size": 3163, "learned_vocab_size": 2907, "compression_ratio": 1.1780587995159573, "example_words": [] }, { "step": 2908, "pair": [ "परता", "पपुर" ], "new_token": "परतापपुर", "frequency": 9, "vocab_size": 3164, "learned_vocab_size": 2908, "compression_ratio": 1.1780587995159573, "example_words": [] }, { "step": 2909, "pair": [ "ध्या", "य" ], "new_token": "ध्याय", "frequency": 9, "vocab_size": 3165, "learned_vocab_size": 2909, "compression_ratio": 1.1780587995159573, "example_words": [] }, { "step": 2910, "pair": [ "ग", "हा" ], "new_token": "गहा", "frequency": 9, "vocab_size": 3166, "learned_vocab_size": 2910, "compression_ratio": 1.1780587995159573, "example_words": [] }, { "step": 2911, "pair": [ "ई", "पुर" ], "new_token": "ईपुर", "frequency": 9, "vocab_size": 3167, "learned_vocab_size": 2911, "compression_ratio": 1.1780781224086618, "example_words": [] }, { "step": 2912, "pair": [ "उतरा", "ँव" ], "new_token": "उतराँव", "frequency": 9, "vocab_size": 3168, "learned_vocab_size": 2912, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2913, "pair": [ "सोरा", "ँव" ], "new_token": "सोराँव", "frequency": 9, "vocab_size": 3169, "learned_vocab_size": 2913, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2914, "pair": [ "सै", "दहा" ], "new_token": "सैदहा", "frequency": 9, "vocab_size": 3170, "learned_vocab_size": 2914, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2915, "pair": [ "हरी", "पुर" ], "new_token": "हरीपुर", "frequency": 9, "vocab_size": 3171, "learned_vocab_size": 2915, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2916, "pair": [ "अब्दु", "ल" ], "new_token": "अब्दुल", "frequency": 9, "vocab_size": 3172, "learned_vocab_size": 2916, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2917, "pair": [ "इंदि", "रा" ], "new_token": "इंदिरा", "frequency": 9, "vocab_size": 3173, "learned_vocab_size": 2917, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2918, "pair": [ "वि", "शाल" ], "new_token": "विशाल", "frequency": 9, "vocab_size": 3174, "learned_vocab_size": 2918, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 2919, "pair": [ "गेंद", "बा" ], "new_token": "गेंदबा", "frequency": 9, "vocab_size": 3175, "learned_vocab_size": 2919, "compression_ratio": 1.178118917263853, "example_words": [] }, { "step": 2920, "pair": [ "मे", "डल" ], "new_token": "मेडल", "frequency": 9, "vocab_size": 3176, "learned_vocab_size": 2920, "compression_ratio": 1.178118917263853, "example_words": [] }, { "step": 2921, "pair": [ "क़", "ौ" ], "new_token": "क़ौ", "frequency": 9, "vocab_size": 3177, "learned_vocab_size": 2921, "compression_ratio": 1.1781403893751117, "example_words": [] }, { "step": 2922, "pair": [ "क़ौ", "मी" ], "new_token": "क़ौमी", "frequency": 9, "vocab_size": 3178, "learned_vocab_size": 2922, "compression_ratio": 1.178159714944456, "example_words": [] }, { "step": 2923, "pair": [ "इंडी", "ज" ], "new_token": "इंडीज", "frequency": 9, "vocab_size": 3179, "learned_vocab_size": 2923, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2924, "pair": [ "क्वाली", "फायर" ], "new_token": "क्वालीफायर", "frequency": 9, "vocab_size": 3180, "learned_vocab_size": 2924, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2925, "pair": [ "एकि", "डना" ], "new_token": "एकिडना", "frequency": 9, "vocab_size": 3181, "learned_vocab_size": 2925, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2926, "pair": [ "जल", "प्रपात" ], "new_token": "जलप्रपात", "frequency": 9, "vocab_size": 3182, "learned_vocab_size": 2926, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2927, "pair": [ "सोरे", "न" ], "new_token": "सोरेन", "frequency": 9, "vocab_size": 3183, "learned_vocab_size": 2927, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2928, "pair": [ "तरा", "ई" ], "new_token": "तराई", "frequency": 9, "vocab_size": 3184, "learned_vocab_size": 2928, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2929, "pair": [ "टी", "डी" ], "new_token": "टीडी", "frequency": 9, "vocab_size": 3185, "learned_vocab_size": 2929, "compression_ratio": 1.178179041147823, "example_words": [] }, { "step": 2930, "pair": [ "ताइ", "क्" ], "new_token": "ताइक्", "frequency": 9, "vocab_size": 3186, "learned_vocab_size": 2930, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 2931, "pair": [ "ताइक्", "वांडो" ], "new_token": "ताइक्वांडो", "frequency": 9, "vocab_size": 3187, "learned_vocab_size": 2931, "compression_ratio": 1.1782198429927255, "example_words": [] }, { "step": 2932, "pair": [ "अ", "णु" ], "new_token": "अणु", "frequency": 9, "vocab_size": 3188, "learned_vocab_size": 2932, "compression_ratio": 1.1782198429927255, "example_words": [] }, { "step": 2933, "pair": [ "बार्", "थे" ], "new_token": "बार्थे", "frequency": 9, "vocab_size": 3189, "learned_vocab_size": 2933, "compression_ratio": 1.1782391711688065, "example_words": [] }, { "step": 2934, "pair": [ "बार्थे", "लेमी" ], "new_token": "बार्थेलेमी", "frequency": 9, "vocab_size": 3190, "learned_vocab_size": 2934, "compression_ratio": 1.1782391711688065, "example_words": [] }, { "step": 2935, "pair": [ "गो", "पी" ], "new_token": "गोपी", "frequency": 8, "vocab_size": 3191, "learned_vocab_size": 2935, "compression_ratio": 1.1782391711688065, "example_words": [] }, { "step": 2936, "pair": [ "नव", "युग" ], "new_token": "नवयुग", "frequency": 8, "vocab_size": 3192, "learned_vocab_size": 2936, "compression_ratio": 1.1782563523021399, "example_words": [] }, { "step": 2937, "pair": [ "स", "प्त" ], "new_token": "सप्त", "frequency": 8, "vocab_size": 3193, "learned_vocab_size": 2937, "compression_ratio": 1.1782735339365527, "example_words": [] }, { "step": 2938, "pair": [ "भ", "क्ति" ], "new_token": "भक्ति", "frequency": 8, "vocab_size": 3194, "learned_vocab_size": 2938, "compression_ratio": 1.178312194446166, "example_words": [] }, { "step": 2939, "pair": [ "बि", "ग" ], "new_token": "बिग", "frequency": 8, "vocab_size": 3195, "learned_vocab_size": 2939, "compression_ratio": 1.178312194446166, "example_words": [] }, { "step": 2940, "pair": [ "डि", "श" ], "new_token": "डिश", "frequency": 8, "vocab_size": 3196, "learned_vocab_size": 2940, "compression_ratio": 1.1783336736033132, "example_words": [] }, { "step": 2941, "pair": [ "दर्", "द" ], "new_token": "दर्द", "frequency": 8, "vocab_size": 3197, "learned_vocab_size": 2941, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 2942, "pair": [ "रख", "ता" ], "new_token": "रखता", "frequency": 8, "vocab_size": 3198, "learned_vocab_size": 2942, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 2943, "pair": [ "संभो", "ग" ], "new_token": "संभोग", "frequency": 8, "vocab_size": 3199, "learned_vocab_size": 2943, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 2944, "pair": [ "वि", "परी" ], "new_token": "विपरी", "frequency": 8, "vocab_size": 3200, "learned_vocab_size": 2944, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 2945, "pair": [ "विपरी", "त" ], "new_token": "विपरीत", "frequency": 8, "vocab_size": 3201, "learned_vocab_size": 2945, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 2946, "pair": [ "चाहि", "ए" ], "new_token": "चाहिए", "frequency": 8, "vocab_size": 3202, "learned_vocab_size": 2946, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 2947, "pair": [ "ते", "ज" ], "new_token": "तेज", "frequency": 8, "vocab_size": 3203, "learned_vocab_size": 2947, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 2948, "pair": [ "जिन्", "हें" ], "new_token": "जिन्हें", "frequency": 8, "vocab_size": 3204, "learned_vocab_size": 2948, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 2949, "pair": [ "तर्", "क" ], "new_token": "तर्क", "frequency": 8, "vocab_size": 3205, "learned_vocab_size": 2949, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 2950, "pair": [ "प्रार", "ंभ" ], "new_token": "प्रारंभ", "frequency": 8, "vocab_size": 3206, "learned_vocab_size": 2950, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 2951, "pair": [ "मुखर्", "जी" ], "new_token": "मुखर्जी", "frequency": 8, "vocab_size": 3207, "learned_vocab_size": 2951, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 2952, "pair": [ "टेलीवि", "जन" ], "new_token": "टेलीविजन", "frequency": 8, "vocab_size": 3208, "learned_vocab_size": 2952, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 2953, "pair": [ "चल", "ता" ], "new_token": "चलता", "frequency": 8, "vocab_size": 3209, "learned_vocab_size": 2953, "compression_ratio": 1.178428191198454, "example_words": [] }, { "step": 2954, "pair": [ "सभर", "वाल" ], "new_token": "सभरवाल", "frequency": 8, "vocab_size": 3210, "learned_vocab_size": 2954, "compression_ratio": 1.178445377844866, "example_words": [] }, { "step": 2955, "pair": [ "वरु", "ण" ], "new_token": "वरुण", "frequency": 8, "vocab_size": 3211, "learned_vocab_size": 2955, "compression_ratio": 1.178464713421315, "example_words": [] }, { "step": 2956, "pair": [ "सा", "ंख्यिकी" ], "new_token": "सांख्यिकी", "frequency": 8, "vocab_size": 3212, "learned_vocab_size": 2956, "compression_ratio": 1.178464713421315, "example_words": [] }, { "step": 2957, "pair": [ "त", "ंत्र" ], "new_token": "तंत्र", "frequency": 8, "vocab_size": 3213, "learned_vocab_size": 2957, "compression_ratio": 1.178464713421315, "example_words": [] }, { "step": 2958, "pair": [ "सु", "विधा" ], "new_token": "सुविधा", "frequency": 8, "vocab_size": 3214, "learned_vocab_size": 2958, "compression_ratio": 1.178464713421315, "example_words": [] }, { "step": 2959, "pair": [ "मु", "हि" ], "new_token": "मुहि", "frequency": 8, "vocab_size": 3215, "learned_vocab_size": 2959, "compression_ratio": 1.178464713421315, "example_words": [] }, { "step": 2960, "pair": [ "इ", "काई" ], "new_token": "इकाई", "frequency": 8, "vocab_size": 3216, "learned_vocab_size": 2960, "compression_ratio": 1.1784819011330592, "example_words": [] }, { "step": 2961, "pair": [ "आ", "कर" ], "new_token": "आकर", "frequency": 8, "vocab_size": 3217, "learned_vocab_size": 2961, "compression_ratio": 1.1784990893461706, "example_words": [] }, { "step": 2962, "pair": [ "दर्", "ज" ], "new_token": "दर्ज", "frequency": 8, "vocab_size": 3218, "learned_vocab_size": 2962, "compression_ratio": 1.1785399133618237, "example_words": [] }, { "step": 2963, "pair": [ "अनु", "मति" ], "new_token": "अनुमति", "frequency": 8, "vocab_size": 3219, "learned_vocab_size": 2963, "compression_ratio": 1.1785399133618237, "example_words": [] }, { "step": 2964, "pair": [ "प्र", "दाय" ], "new_token": "प्रदाय", "frequency": 8, "vocab_size": 3220, "learned_vocab_size": 2964, "compression_ratio": 1.1785399133618237, "example_words": [] }, { "step": 2965, "pair": [ "मै", "थि" ], "new_token": "मैथि", "frequency": 8, "vocab_size": 3221, "learned_vocab_size": 2965, "compression_ratio": 1.1785399133618237, "example_words": [] }, { "step": 2966, "pair": [ "सक्रि", "य" ], "new_token": "सक्रिय", "frequency": 8, "vocab_size": 3222, "learned_vocab_size": 2966, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 2967, "pair": [ "ढ", "ो" ], "new_token": "ढो", "frequency": 8, "vocab_size": 3223, "learned_vocab_size": 2967, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 2968, "pair": [ "अभि", "मन्यु" ], "new_token": "अभिमन्यु", "frequency": 8, "vocab_size": 3224, "learned_vocab_size": 2968, "compression_ratio": 1.178597931302317, "example_words": [] }, { "step": 2969, "pair": [ "मै", "ं" ], "new_token": "मैं", "frequency": 8, "vocab_size": 3225, "learned_vocab_size": 2969, "compression_ratio": 1.178597931302317, "example_words": [] }, { "step": 2970, "pair": [ "ज्ञ", "ा" ], "new_token": "ज्ञा", "frequency": 8, "vocab_size": 3226, "learned_vocab_size": 2970, "compression_ratio": 1.1786172718852332, "example_words": [] }, { "step": 2971, "pair": [ "मा", "या" ], "new_token": "माया", "frequency": 8, "vocab_size": 3227, "learned_vocab_size": 2971, "compression_ratio": 1.1779342894108642, "example_words": [] }, { "step": 2972, "pair": [ "संचा", "लित" ], "new_token": "संचालित", "frequency": 8, "vocab_size": 3228, "learned_vocab_size": 2972, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 2973, "pair": [ "तख्", "त" ], "new_token": "तख्त", "frequency": 8, "vocab_size": 3229, "learned_vocab_size": 2973, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 2974, "pair": [ "अन", "न्य" ], "new_token": "अनन्य", "frequency": 8, "vocab_size": 3230, "learned_vocab_size": 2974, "compression_ratio": 1.177983660958511, "example_words": [] }, { "step": 2975, "pair": [ "तिरु", "नेलवेली" ], "new_token": "तिरुनेलवेली", "frequency": 8, "vocab_size": 3231, "learned_vocab_size": 2975, "compression_ratio": 1.177983660958511, "example_words": [] }, { "step": 2976, "pair": [ "ब्रह्म", "पुत्र" ], "new_token": "ब्रह्मपुत्र", "frequency": 8, "vocab_size": 3232, "learned_vocab_size": 2976, "compression_ratio": 1.177983660958511, "example_words": [] }, { "step": 2977, "pair": [ "ध", "ौला" ], "new_token": "धौला", "frequency": 8, "vocab_size": 3233, "learned_vocab_size": 2977, "compression_ratio": 1.177983660958511, "example_words": [] }, { "step": 2978, "pair": [ "मा", "पुर" ], "new_token": "मापुर", "frequency": 8, "vocab_size": 3234, "learned_vocab_size": 2978, "compression_ratio": 1.177983660958511, "example_words": [] }, { "step": 2979, "pair": [ "टे", "म्पल" ], "new_token": "टेम्पल", "frequency": 8, "vocab_size": 3235, "learned_vocab_size": 2979, "compression_ratio": 1.178002981386381, "example_words": [] }, { "step": 2980, "pair": [ "री", "वा" ], "new_token": "रीवा", "frequency": 8, "vocab_size": 3236, "learned_vocab_size": 2980, "compression_ratio": 1.178020155632096, "example_words": [] }, { "step": 2981, "pair": [ "इस्", "पात" ], "new_token": "इस्पात", "frequency": 8, "vocab_size": 3237, "learned_vocab_size": 2981, "compression_ratio": 1.1780566525670069, "example_words": [] }, { "step": 2982, "pair": [ "ख", "जु" ], "new_token": "खजु", "frequency": 8, "vocab_size": 3238, "learned_vocab_size": 2982, "compression_ratio": 1.1780566525670069, "example_words": [] }, { "step": 2983, "pair": [ "कोल्", "लम" ], "new_token": "कोल्लम", "frequency": 8, "vocab_size": 3239, "learned_vocab_size": 2983, "compression_ratio": 1.1780738283777257, "example_words": [] }, { "step": 2984, "pair": [ "बा", "घ" ], "new_token": "बाघ", "frequency": 8, "vocab_size": 3240, "learned_vocab_size": 2984, "compression_ratio": 1.1780738283777257, "example_words": [] }, { "step": 2985, "pair": [ "पल्", "ल" ], "new_token": "पल्ल", "frequency": 8, "vocab_size": 3241, "learned_vocab_size": 2985, "compression_ratio": 1.1780931517634536, "example_words": [] }, { "step": 2986, "pair": [ "पुरुष", "ो" ], "new_token": "पुरुषो", "frequency": 8, "vocab_size": 3242, "learned_vocab_size": 2986, "compression_ratio": 1.1780931517634536, "example_words": [] }, { "step": 2987, "pair": [ "पुरुषो", "त्तम" ], "new_token": "पुरुषोत्तम", "frequency": 8, "vocab_size": 3243, "learned_vocab_size": 2987, "compression_ratio": 1.1780931517634536, "example_words": [] }, { "step": 2988, "pair": [ "पुष्", "पक" ], "new_token": "पुष्पक", "frequency": 8, "vocab_size": 3244, "learned_vocab_size": 2988, "compression_ratio": 1.1780931517634536, "example_words": [] }, { "step": 2989, "pair": [ "रत्", "ना" ], "new_token": "रत्ना", "frequency": 8, "vocab_size": 3245, "learned_vocab_size": 2989, "compression_ratio": 1.1781103286384977, "example_words": [] }, { "step": 2990, "pair": [ "स", "च" ], "new_token": "सच", "frequency": 8, "vocab_size": 3246, "learned_vocab_size": 2990, "compression_ratio": 1.1781103286384977, "example_words": [] }, { "step": 2991, "pair": [ "शही", "द" ], "new_token": "शहीद", "frequency": 8, "vocab_size": 3247, "learned_vocab_size": 2991, "compression_ratio": 1.1781232116234905, "example_words": [] }, { "step": 2992, "pair": [ "सु", "वर्ण" ], "new_token": "सुवर्ण", "frequency": 8, "vocab_size": 3248, "learned_vocab_size": 2992, "compression_ratio": 1.1781232116234905, "example_words": [] }, { "step": 2993, "pair": [ "ति", "र" ], "new_token": "तिर", "frequency": 8, "vocab_size": 3249, "learned_vocab_size": 2993, "compression_ratio": 1.1781232116234905, "example_words": [] }, { "step": 2994, "pair": [ "वे", "णी" ], "new_token": "वेणी", "frequency": 8, "vocab_size": 3250, "learned_vocab_size": 2994, "compression_ratio": 1.1779257034772055, "example_words": [] }, { "step": 2995, "pair": [ "तु", "लसी" ], "new_token": "तुलसी", "frequency": 8, "vocab_size": 3251, "learned_vocab_size": 2995, "compression_ratio": 1.1779428754696901, "example_words": [] }, { "step": 2996, "pair": [ "दक्षिण", "पूर्व" ], "new_token": "दक्षिणपूर्व", "frequency": 8, "vocab_size": 3252, "learned_vocab_size": 2996, "compression_ratio": 1.177968634397198, "example_words": [] }, { "step": 2997, "pair": [ "ज", "ट" ], "new_token": "जट", "frequency": 8, "vocab_size": 3253, "learned_vocab_size": 2997, "compression_ratio": 1.177992247737101, "example_words": [] }, { "step": 2998, "pair": [ "मुस", "लमानों" ], "new_token": "मुसलमानों", "frequency": 8, "vocab_size": 3254, "learned_vocab_size": 2998, "compression_ratio": 1.1780008346408766, "example_words": [] }, { "step": 2999, "pair": [ "नि", "श" ], "new_token": "निश", "frequency": 8, "vocab_size": 3255, "learned_vocab_size": 2999, "compression_ratio": 1.1780008346408766, "example_words": [] }, { "step": 3000, "pair": [ "दृ", "ष्टि" ], "new_token": "दृष्टि", "frequency": 8, "vocab_size": 3256, "learned_vocab_size": 3000, "compression_ratio": 1.1780330366450165, "example_words": [] }, { "step": 3001, "pair": [ "बा", "व" ], "new_token": "बाव", "frequency": 8, "vocab_size": 3257, "learned_vocab_size": 3001, "compression_ratio": 1.1780330366450165, "example_words": [ "बावड़ियां", "बावामान", "बावा" ] }, { "step": 3002, "pair": [ "उप", "विभागों" ], "new_token": "उपविभागों", "frequency": 8, "vocab_size": 3258, "learned_vocab_size": 3002, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 3003, "pair": [ "गा", "यक" ], "new_token": "गायक", "frequency": 8, "vocab_size": 3259, "learned_vocab_size": 3003, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 3004, "pair": [ "गु", "ड" ], "new_token": "गुड", "frequency": 8, "vocab_size": 3260, "learned_vocab_size": 3004, "compression_ratio": 1.1780974459352571, "example_words": [] }, { "step": 3005, "pair": [ "क्रॉ", "स" ], "new_token": "क्रॉस", "frequency": 8, "vocab_size": 3261, "learned_vocab_size": 3005, "compression_ratio": 1.178103887251659, "example_words": [] }, { "step": 3006, "pair": [ "ड", "ै" ], "new_token": "डै", "frequency": 8, "vocab_size": 3262, "learned_vocab_size": 3006, "compression_ratio": 1.178103887251659, "example_words": [] }, { "step": 3007, "pair": [ "सर", "दार" ], "new_token": "सरदार", "frequency": 8, "vocab_size": 3263, "learned_vocab_size": 3007, "compression_ratio": 1.178125358815049, "example_words": [] }, { "step": 3008, "pair": [ "फ़", "े" ], "new_token": "फ़े", "frequency": 8, "vocab_size": 3264, "learned_vocab_size": 3008, "compression_ratio": 1.178125358815049, "example_words": [] }, { "step": 3009, "pair": [ "शै", "क्षिक" ], "new_token": "शैक्षिक", "frequency": 8, "vocab_size": 3265, "learned_vocab_size": 3009, "compression_ratio": 1.1781661569417965, "example_words": [] }, { "step": 3010, "pair": [ "प्रस्ता", "व" ], "new_token": "प्रस्ताव", "frequency": 8, "vocab_size": 3266, "learned_vocab_size": 3010, "compression_ratio": 1.1781661569417965, "example_words": [] }, { "step": 3011, "pair": [ "आ", "ए" ], "new_token": "आए", "frequency": 8, "vocab_size": 3267, "learned_vocab_size": 3011, "compression_ratio": 1.1781661569417965, "example_words": [] }, { "step": 3012, "pair": [ "उ", "ंड" ], "new_token": "उंड", "frequency": 8, "vocab_size": 3268, "learned_vocab_size": 3012, "compression_ratio": 1.1781833359457874, "example_words": [] }, { "step": 3013, "pair": [ "ब्लॉ", "क" ], "new_token": "ब्लॉक", "frequency": 8, "vocab_size": 3269, "learned_vocab_size": 3013, "compression_ratio": 1.1782176954567494, "example_words": [] }, { "step": 3014, "pair": [ "नि", "र" ], "new_token": "निर", "frequency": 8, "vocab_size": 3270, "learned_vocab_size": 3014, "compression_ratio": 1.178237023562371, "example_words": [] }, { "step": 3015, "pair": [ "इ", "त्यादि" ], "new_token": "इत्यादि", "frequency": 8, "vocab_size": 3271, "learned_vocab_size": 3015, "compression_ratio": 1.1763651451678065, "example_words": [] }, { "step": 3016, "pair": [ "षे", "क" ], "new_token": "षेक", "frequency": 8, "vocab_size": 3272, "learned_vocab_size": 3016, "compression_ratio": 1.1763651451678065, "example_words": [] }, { "step": 3017, "pair": [ "लड़ा", "ई" ], "new_token": "लड़ाई", "frequency": 8, "vocab_size": 3273, "learned_vocab_size": 3017, "compression_ratio": 1.1763822716899548, "example_words": [] }, { "step": 3018, "pair": [ "इ", "ब्रा" ], "new_token": "इब्रा", "frequency": 8, "vocab_size": 3274, "learned_vocab_size": 3018, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 3019, "pair": [ "मी", "ना" ], "new_token": "मीना", "frequency": 8, "vocab_size": 3275, "learned_vocab_size": 3019, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 3020, "pair": [ "कि", "ला" ], "new_token": "किला", "frequency": 8, "vocab_size": 3276, "learned_vocab_size": 3020, "compression_ratio": 1.176427231183334, "example_words": [] }, { "step": 3021, "pair": [ "कु", "तु" ], "new_token": "कुतु", "frequency": 8, "vocab_size": 3277, "learned_vocab_size": 3021, "compression_ratio": 1.176459347211252, "example_words": [] }, { "step": 3022, "pair": [ "चौ", "क" ], "new_token": "चौक", "frequency": 8, "vocab_size": 3278, "learned_vocab_size": 3022, "compression_ratio": 1.1764786176697017, "example_words": [] }, { "step": 3023, "pair": [ "मुबार", "कपुर" ], "new_token": "मुबारकपुर", "frequency": 8, "vocab_size": 3279, "learned_vocab_size": 3023, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 3024, "pair": [ "परि", "सर" ], "new_token": "परिसर", "frequency": 8, "vocab_size": 3280, "learned_vocab_size": 3024, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 3025, "pair": [ "म", "टर" ], "new_token": "मटर", "frequency": 8, "vocab_size": 3281, "learned_vocab_size": 3025, "compression_ratio": 1.176538574244523, "example_words": [] }, { "step": 3026, "pair": [ "ना", "श" ], "new_token": "नाश", "frequency": 8, "vocab_size": 3282, "learned_vocab_size": 3026, "compression_ratio": 1.1765557058169356, "example_words": [] }, { "step": 3027, "pair": [ "क्ष", "मता" ], "new_token": "क्षमता", "frequency": 8, "vocab_size": 3283, "learned_vocab_size": 3027, "compression_ratio": 1.176562130285215, "example_words": [] }, { "step": 3028, "pair": [ "म", "ंद" ], "new_token": "मंद", "frequency": 8, "vocab_size": 3284, "learned_vocab_size": 3028, "compression_ratio": 1.176562130285215, "example_words": [] }, { "step": 3029, "pair": [ "शिको", "त्सू" ], "new_token": "शिकोत्सू", "frequency": 8, "vocab_size": 3285, "learned_vocab_size": 3029, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 3030, "pair": [ "व्या", "व" ], "new_token": "व्याव", "frequency": 8, "vocab_size": 3286, "learned_vocab_size": 3030, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 3031, "pair": [ "व्याव", "सायिक" ], "new_token": "व्यावसायिक", "frequency": 8, "vocab_size": 3287, "learned_vocab_size": 3031, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 3032, "pair": [ "छ", "ह" ], "new_token": "छह", "frequency": 8, "vocab_size": 3288, "learned_vocab_size": 3032, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 3033, "pair": [ "ख", "गोल" ], "new_token": "खगोल", "frequency": 8, "vocab_size": 3289, "learned_vocab_size": 3033, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 3034, "pair": [ "ब", "च" ], "new_token": "बच", "frequency": 8, "vocab_size": 3290, "learned_vocab_size": 3034, "compression_ratio": 1.1769220125190718, "example_words": [] }, { "step": 3035, "pair": [ "ई", "रान" ], "new_token": "ईरान", "frequency": 8, "vocab_size": 3291, "learned_vocab_size": 3035, "compression_ratio": 1.1769305838270476, "example_words": [] }, { "step": 3036, "pair": [ "व", "स्तु" ], "new_token": "वस्तु", "frequency": 8, "vocab_size": 3292, "learned_vocab_size": 3036, "compression_ratio": 1.1769305838270476, "example_words": [] }, { "step": 3037, "pair": [ "ङ", "्" ], "new_token": "ङ्", "frequency": 8, "vocab_size": 3293, "learned_vocab_size": 3037, "compression_ratio": 1.1769305838270476, "example_words": [] }, { "step": 3038, "pair": [ "कै", "से" ], "new_token": "कैसे", "frequency": 8, "vocab_size": 3294, "learned_vocab_size": 3038, "compression_ratio": 1.176949869726471, "example_words": [] }, { "step": 3039, "pair": [ "ड", "्राइ" ], "new_token": "ड्राइ", "frequency": 8, "vocab_size": 3295, "learned_vocab_size": 3039, "compression_ratio": 1.1769670132788077, "example_words": [] }, { "step": 3040, "pair": [ "रा", "शि" ], "new_token": "राशि", "frequency": 8, "vocab_size": 3296, "learned_vocab_size": 3040, "compression_ratio": 1.1769670132788077, "example_words": [] }, { "step": 3041, "pair": [ "सर्वो", "च्च" ], "new_token": "सर्वोच्च", "frequency": 8, "vocab_size": 3297, "learned_vocab_size": 3041, "compression_ratio": 1.176988443421563, "example_words": [] }, { "step": 3042, "pair": [ "गुण", "वत्ता" ], "new_token": "गुणवत्ता", "frequency": 8, "vocab_size": 3298, "learned_vocab_size": 3042, "compression_ratio": 1.176988443421563, "example_words": [] }, { "step": 3043, "pair": [ "यूरो", "प" ], "new_token": "यूरोप", "frequency": 8, "vocab_size": 3299, "learned_vocab_size": 3043, "compression_ratio": 1.176988443421563, "example_words": [] }, { "step": 3044, "pair": [ "जै", "सी" ], "new_token": "जैसी", "frequency": 8, "vocab_size": 3300, "learned_vocab_size": 3044, "compression_ratio": 1.176988443421563, "example_words": [] }, { "step": 3045, "pair": [ "फॉ", "र" ], "new_token": "फॉर", "frequency": 8, "vocab_size": 3301, "learned_vocab_size": 3045, "compression_ratio": 1.17700987434473, "example_words": [] }, { "step": 3046, "pair": [ "प्र", "वाह" ], "new_token": "प्रवाह", "frequency": 8, "vocab_size": 3302, "learned_vocab_size": 3046, "compression_ratio": 1.1770270196451884, "example_words": [] }, { "step": 3047, "pair": [ "जा", "या" ], "new_token": "जाया", "frequency": 8, "vocab_size": 3303, "learned_vocab_size": 3047, "compression_ratio": 1.1770270196451884, "example_words": [] }, { "step": 3048, "pair": [ "सू", "त्र" ], "new_token": "सूत्र", "frequency": 8, "vocab_size": 3304, "learned_vocab_size": 3048, "compression_ratio": 1.1770441654451596, "example_words": [] }, { "step": 3049, "pair": [ "उ", "म्मी" ], "new_token": "उम्मी", "frequency": 8, "vocab_size": 3305, "learned_vocab_size": 3049, "compression_ratio": 1.1770441654451596, "example_words": [] }, { "step": 3050, "pair": [ "निय", "ंत्रित" ], "new_token": "नियंत्रित", "frequency": 8, "vocab_size": 3306, "learned_vocab_size": 3050, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3051, "pair": [ "ग्री", "न" ], "new_token": "ग्रीन", "frequency": 8, "vocab_size": 3307, "learned_vocab_size": 3051, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3052, "pair": [ "न्यू", "यॉर्क" ], "new_token": "न्यूयॉर्क", "frequency": 8, "vocab_size": 3308, "learned_vocab_size": 3052, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3053, "pair": [ "न्यू", "ज़ी" ], "new_token": "न्यूज़ी", "frequency": 8, "vocab_size": 3309, "learned_vocab_size": 3053, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3054, "pair": [ "भवि", "ष्य" ], "new_token": "भविष्य", "frequency": 8, "vocab_size": 3310, "learned_vocab_size": 3054, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3055, "pair": [ "राज", "कुमार" ], "new_token": "राजकुमार", "frequency": 8, "vocab_size": 3311, "learned_vocab_size": 3055, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3056, "pair": [ "तारा", "पुर" ], "new_token": "तारापुर", "frequency": 8, "vocab_size": 3312, "learned_vocab_size": 3056, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3057, "pair": [ "थॉ", "मस" ], "new_token": "थॉमस", "frequency": 8, "vocab_size": 3313, "learned_vocab_size": 3057, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 3058, "pair": [ "हॉ", "ल" ], "new_token": "हॉल", "frequency": 8, "vocab_size": 3314, "learned_vocab_size": 3058, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 3059, "pair": [ "फ़", "ु" ], "new_token": "फ़ु", "frequency": 8, "vocab_size": 3315, "learned_vocab_size": 3059, "compression_ratio": 1.1770956058423667, "example_words": [] }, { "step": 3060, "pair": [ "छ", "ः" ], "new_token": "छः", "frequency": 8, "vocab_size": 3316, "learned_vocab_size": 3060, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 3061, "pair": [ "गो", "बि" ], "new_token": "गोबि", "frequency": 8, "vocab_size": 3317, "learned_vocab_size": 3061, "compression_ratio": 1.177129901938468, "example_words": [] }, { "step": 3062, "pair": [ "ल", "ड" ], "new_token": "लड", "frequency": 8, "vocab_size": 3318, "learned_vocab_size": 3062, "compression_ratio": 1.177151338013421, "example_words": [] }, { "step": 3063, "pair": [ "क्ष", "क" ], "new_token": "क्षक", "frequency": 8, "vocab_size": 3319, "learned_vocab_size": 3063, "compression_ratio": 1.1770806019287359, "example_words": [] }, { "step": 3064, "pair": [ "म", "झ" ], "new_token": "मझ", "frequency": 8, "vocab_size": 3320, "learned_vocab_size": 3064, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 3065, "pair": [ "ती", "व्र" ], "new_token": "तीव्र", "frequency": 8, "vocab_size": 3321, "learned_vocab_size": 3065, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 3066, "pair": [ "माइ", "कल" ], "new_token": "माइकल", "frequency": 8, "vocab_size": 3322, "learned_vocab_size": 3066, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 3067, "pair": [ "डब्", "ल्यू" ], "new_token": "डब्ल्यू", "frequency": 8, "vocab_size": 3323, "learned_vocab_size": 3067, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 3068, "pair": [ "र", "क्" ], "new_token": "रक्", "frequency": 8, "vocab_size": 3324, "learned_vocab_size": 3068, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 3069, "pair": [ "ख", "ली" ], "new_token": "खली", "frequency": 8, "vocab_size": 3325, "learned_vocab_size": 3069, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 3070, "pair": [ "वि", "स" ], "new_token": "विस", "frequency": 8, "vocab_size": 3326, "learned_vocab_size": 3070, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 3071, "pair": [ "हि", "स्से" ], "new_token": "हिस्से", "frequency": 8, "vocab_size": 3327, "learned_vocab_size": 3071, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 3072, "pair": [ "संसा", "धन" ], "new_token": "संसाधन", "frequency": 8, "vocab_size": 3328, "learned_vocab_size": 3072, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 3073, "pair": [ "तत्", "कालीन" ], "new_token": "तत्कालीन", "frequency": 8, "vocab_size": 3329, "learned_vocab_size": 3073, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 3074, "pair": [ "ँ", "कि" ], "new_token": "ँकि", "frequency": 8, "vocab_size": 3330, "learned_vocab_size": 3074, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 3075, "pair": [ "फा", "ई" ], "new_token": "फाई", "frequency": 8, "vocab_size": 3331, "learned_vocab_size": 3075, "compression_ratio": 1.177063455067228, "example_words": [] }, { "step": 3076, "pair": [ "चै", "तन्य" ], "new_token": "चैतन्य", "frequency": 8, "vocab_size": 3332, "learned_vocab_size": 3076, "compression_ratio": 1.1770870321305982, "example_words": [] }, { "step": 3077, "pair": [ "श", "द" ], "new_token": "शद", "frequency": 8, "vocab_size": 3333, "learned_vocab_size": 3077, "compression_ratio": 1.1770870321305982, "example_words": [] }, { "step": 3078, "pair": [ "मनो", "हर" ], "new_token": "मनोहर", "frequency": 8, "vocab_size": 3334, "learned_vocab_size": 3078, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 3079, "pair": [ "ज़", "े" ], "new_token": "ज़े", "frequency": 8, "vocab_size": 3335, "learned_vocab_size": 3079, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 3080, "pair": [ "सीरी", "ज" ], "new_token": "सीरीज", "frequency": 8, "vocab_size": 3336, "learned_vocab_size": 3080, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 3081, "pair": [ "प", "ढ़" ], "new_token": "पढ़", "frequency": 8, "vocab_size": 3337, "learned_vocab_size": 3081, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 3082, "pair": [ "भ", "टनागर" ], "new_token": "भटनागर", "frequency": 8, "vocab_size": 3338, "learned_vocab_size": 3082, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 3083, "pair": [ "मै", "री" ], "new_token": "मैरी", "frequency": 8, "vocab_size": 3339, "learned_vocab_size": 3083, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 3084, "pair": [ "प्लेट", "फॉर्" ], "new_token": "प्लेटफॉर्", "frequency": 8, "vocab_size": 3340, "learned_vocab_size": 3084, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 3085, "pair": [ "दा", "ई" ], "new_token": "दाई", "frequency": 8, "vocab_size": 3341, "learned_vocab_size": 3085, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 3086, "pair": [ "टा", "ई" ], "new_token": "टाई", "frequency": 8, "vocab_size": 3342, "learned_vocab_size": 3086, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 3087, "pair": [ "मिठा", "ई" ], "new_token": "मिठाई", "frequency": 8, "vocab_size": 3343, "learned_vocab_size": 3087, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 3088, "pair": [ "रो", "टी" ], "new_token": "रोटी", "frequency": 8, "vocab_size": 3344, "learned_vocab_size": 3088, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 3089, "pair": [ "परा", "ंठा" ], "new_token": "परांठा", "frequency": 8, "vocab_size": 3345, "learned_vocab_size": 3089, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 3090, "pair": [ "म", "ठ" ], "new_token": "मठ", "frequency": 8, "vocab_size": 3346, "learned_vocab_size": 3090, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 3091, "pair": [ "लाह", "ौल" ], "new_token": "लाहौल", "frequency": 8, "vocab_size": 3347, "learned_vocab_size": 3091, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 3092, "pair": [ "स्पी", "ति" ], "new_token": "स्पीति", "frequency": 8, "vocab_size": 3348, "learned_vocab_size": 3092, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 3093, "pair": [ "बारा", "कोट" ], "new_token": "बाराकोट", "frequency": 8, "vocab_size": 3349, "learned_vocab_size": 3093, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 3094, "pair": [ "जहांगी", "र" ], "new_token": "जहांगीर", "frequency": 8, "vocab_size": 3350, "learned_vocab_size": 3094, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 3095, "pair": [ "आ", "ठ" ], "new_token": "आठ", "frequency": 8, "vocab_size": 3351, "learned_vocab_size": 3095, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 3096, "pair": [ "च", "ट्ट" ], "new_token": "चट्ट", "frequency": 8, "vocab_size": 3352, "learned_vocab_size": 3096, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 3097, "pair": [ "चट्ट", "ग्राम" ], "new_token": "चट्टग्राम", "frequency": 8, "vocab_size": 3353, "learned_vocab_size": 3097, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 3098, "pair": [ "राज्यी", "य" ], "new_token": "राज्यीय", "frequency": 8, "vocab_size": 3354, "learned_vocab_size": 3098, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 3099, "pair": [ "वि", "भा" ], "new_token": "विभा", "frequency": 8, "vocab_size": 3355, "learned_vocab_size": 3099, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 3100, "pair": [ "ख़ागान", "त" ], "new_token": "ख़ागानत", "frequency": 8, "vocab_size": 3356, "learned_vocab_size": 3100, "compression_ratio": 1.1772006439487754, "example_words": [] }, { "step": 3101, "pair": [ "न्या", "य" ], "new_token": "न्याय", "frequency": 8, "vocab_size": 3357, "learned_vocab_size": 3101, "compression_ratio": 1.1772006439487754, "example_words": [ "न्यायमूर्ति", "अन्याय", "न्याय" ] }, { "step": 3102, "pair": [ "ती", "पुर" ], "new_token": "तीपुर", "frequency": 8, "vocab_size": 3358, "learned_vocab_size": 3102, "compression_ratio": 1.1772006439487754, "example_words": [] }, { "step": 3103, "pair": [ "भवानी", "पुर" ], "new_token": "भवानीपुर", "frequency": 8, "vocab_size": 3359, "learned_vocab_size": 3103, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 3104, "pair": [ "रॉ", "बर्ट" ], "new_token": "रॉबर्ट", "frequency": 8, "vocab_size": 3360, "learned_vocab_size": 3104, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 3105, "pair": [ "शु", "क्ल" ], "new_token": "शुक्ल", "frequency": 8, "vocab_size": 3361, "learned_vocab_size": 3105, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 3106, "pair": [ "मे", "यर" ], "new_token": "मेयर", "frequency": 8, "vocab_size": 3362, "learned_vocab_size": 3106, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 3107, "pair": [ "कृत्रि", "म" ], "new_token": "कृत्रिम", "frequency": 8, "vocab_size": 3363, "learned_vocab_size": 3107, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 3108, "pair": [ "ए", "आई" ], "new_token": "एआई", "frequency": 8, "vocab_size": 3364, "learned_vocab_size": 3108, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 3109, "pair": [ "आई", "टी" ], "new_token": "आईटी", "frequency": 8, "vocab_size": 3365, "learned_vocab_size": 3109, "compression_ratio": 1.1772992682118362, "example_words": [] }, { "step": 3110, "pair": [ "एंड", "्रॉ" ], "new_token": "एंड्रॉ", "frequency": 8, "vocab_size": 3366, "learned_vocab_size": 3110, "compression_ratio": 1.1773185661962238, "example_words": [] }, { "step": 3111, "pair": [ "एंड्रॉ", "एड" ], "new_token": "एंड्रॉएड", "frequency": 8, "vocab_size": 3367, "learned_vocab_size": 3111, "compression_ratio": 1.1773185661962238, "example_words": [] }, { "step": 3112, "pair": [ "प्राइ", "ज़" ], "new_token": "प्राइज़", "frequency": 8, "vocab_size": 3368, "learned_vocab_size": 3112, "compression_ratio": 1.1773185661962238, "example_words": [] }, { "step": 3113, "pair": [ "वी", "ओ" ], "new_token": "वीओ", "frequency": 8, "vocab_size": 3369, "learned_vocab_size": 3113, "compression_ratio": 1.1773185661962238, "example_words": [] }, { "step": 3114, "pair": [ "वीओ", "आईपी" ], "new_token": "वीओआईपी", "frequency": 8, "vocab_size": 3370, "learned_vocab_size": 3114, "compression_ratio": 1.1773357204912493, "example_words": [] }, { "step": 3115, "pair": [ "वन्य", "जीव" ], "new_token": "वन्यजीव", "frequency": 8, "vocab_size": 3371, "learned_vocab_size": 3115, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 3116, "pair": [ "डॉ", "लर" ], "new_token": "डॉलर", "frequency": 8, "vocab_size": 3372, "learned_vocab_size": 3116, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 3117, "pair": [ "लो", "ढ़ा" ], "new_token": "लोढ़ा", "frequency": 8, "vocab_size": 3373, "learned_vocab_size": 3117, "compression_ratio": 1.1773700305810397, "example_words": [] }, { "step": 3118, "pair": [ "ओ", "न्" ], "new_token": "ओन्", "frequency": 8, "vocab_size": 3374, "learned_vocab_size": 3118, "compression_ratio": 1.177389330885353, "example_words": [] }, { "step": 3119, "pair": [ "लाइ", "ब्रेरी" ], "new_token": "लाइब्रेरी", "frequency": 8, "vocab_size": 3375, "learned_vocab_size": 3119, "compression_ratio": 1.1774107764100734, "example_words": [] }, { "step": 3120, "pair": [ "गु", "याना" ], "new_token": "गुयाना", "frequency": 8, "vocab_size": 3376, "learned_vocab_size": 3120, "compression_ratio": 1.1774107764100734, "example_words": [] }, { "step": 3121, "pair": [ "से", "वक" ], "new_token": "सेवक", "frequency": 8, "vocab_size": 3377, "learned_vocab_size": 3121, "compression_ratio": 1.1774107764100734, "example_words": [] }, { "step": 3122, "pair": [ "दै", "निक" ], "new_token": "दैनिक", "frequency": 8, "vocab_size": 3378, "learned_vocab_size": 3122, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 3123, "pair": [ "ड", "्स" ], "new_token": "ड्स", "frequency": 8, "vocab_size": 3379, "learned_vocab_size": 3123, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 3124, "pair": [ "हि", "चकी" ], "new_token": "हिचकी", "frequency": 8, "vocab_size": 3380, "learned_vocab_size": 3124, "compression_ratio": 1.1774729728498958, "example_words": [] }, { "step": 3125, "pair": [ "स्टी", "फ" ], "new_token": "स्टीफ", "frequency": 8, "vocab_size": 3381, "learned_vocab_size": 3125, "compression_ratio": 1.1774729728498958, "example_words": [] }, { "step": 3126, "pair": [ "कौशा", "म्बी" ], "new_token": "कौशाम्बी", "frequency": 8, "vocab_size": 3382, "learned_vocab_size": 3126, "compression_ratio": 1.1774729728498958, "example_words": [] }, { "step": 3127, "pair": [ "ले", "पचा" ], "new_token": "लेपचा", "frequency": 8, "vocab_size": 3383, "learned_vocab_size": 3127, "compression_ratio": 1.1774729728498958, "example_words": [] }, { "step": 3128, "pair": [ "ग्र", "ं" ], "new_token": "ग्रं", "frequency": 7, "vocab_size": 3384, "learned_vocab_size": 3128, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 3129, "pair": [ "राजे", "न्द्र" ], "new_token": "राजेन्द्र", "frequency": 7, "vocab_size": 3385, "learned_vocab_size": 3129, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 3130, "pair": [ "मलया", "लम" ], "new_token": "मलयालम", "frequency": 7, "vocab_size": 3386, "learned_vocab_size": 3130, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 3131, "pair": [ "रि", "ली" ], "new_token": "रिली", "frequency": 7, "vocab_size": 3387, "learned_vocab_size": 3131, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 3132, "pair": [ "रिली", "ज़" ], "new_token": "रिलीज़", "frequency": 7, "vocab_size": 3388, "learned_vocab_size": 3132, "compression_ratio": 1.1775137258045125, "example_words": [] }, { "step": 3133, "pair": [ "संचा", "लन" ], "new_token": "संचालन", "frequency": 7, "vocab_size": 3389, "learned_vocab_size": 3133, "compression_ratio": 1.1775287407620605, "example_words": [] }, { "step": 3134, "pair": [ "चु", "न" ], "new_token": "चुन", "frequency": 7, "vocab_size": 3390, "learned_vocab_size": 3134, "compression_ratio": 1.1775287407620605, "example_words": [] }, { "step": 3135, "pair": [ "जि", "ंग" ], "new_token": "जिंग", "frequency": 7, "vocab_size": 3391, "learned_vocab_size": 3135, "compression_ratio": 1.1771899249158193, "example_words": [] }, { "step": 3136, "pair": [ "पृष्ठ", "भूमि" ], "new_token": "पृष्ठभूमि", "frequency": 7, "vocab_size": 3392, "learned_vocab_size": 3136, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 3137, "pair": [ "स्था", "यी" ], "new_token": "स्थायी", "frequency": 7, "vocab_size": 3393, "learned_vocab_size": 3137, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 3138, "pair": [ "समी", "क्षा" ], "new_token": "समीक्षा", "frequency": 7, "vocab_size": 3394, "learned_vocab_size": 3138, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 3139, "pair": [ "चे", "तक" ], "new_token": "चेतक", "frequency": 7, "vocab_size": 3395, "learned_vocab_size": 3139, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 3140, "pair": [ "बन्ध्या", "करण" ], "new_token": "बन्ध्याकरण", "frequency": 7, "vocab_size": 3396, "learned_vocab_size": 3140, "compression_ratio": 1.1772478100129304, "example_words": [] }, { "step": 3141, "pair": [ "घ", "ंटे" ], "new_token": "घंटे", "frequency": 7, "vocab_size": 3397, "learned_vocab_size": 3141, "compression_ratio": 1.1772478100129304, "example_words": [] }, { "step": 3142, "pair": [ "ए", "पि" ], "new_token": "एपि", "frequency": 7, "vocab_size": 3398, "learned_vocab_size": 3142, "compression_ratio": 1.1772478100129304, "example_words": [] }, { "step": 3143, "pair": [ "ह", "सन" ], "new_token": "हसन", "frequency": 7, "vocab_size": 3399, "learned_vocab_size": 3143, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 3144, "pair": [ "भाषा", "ई" ], "new_token": "भाषाई", "frequency": 7, "vocab_size": 3400, "learned_vocab_size": 3144, "compression_ratio": 1.1773464421794975, "example_words": [] }, { "step": 3145, "pair": [ "पी", "छे" ], "new_token": "पीछे", "frequency": 7, "vocab_size": 3401, "learned_vocab_size": 3145, "compression_ratio": 1.1773464421794975, "example_words": [] }, { "step": 3146, "pair": [ "स्", "प" ], "new_token": "स्प", "frequency": 7, "vocab_size": 3402, "learned_vocab_size": 3146, "compression_ratio": 1.177361452871118, "example_words": [] }, { "step": 3147, "pair": [ "अस्", "मिता" ], "new_token": "अस्मिता", "frequency": 7, "vocab_size": 3403, "learned_vocab_size": 3147, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 3148, "pair": [ "मिल", "ते" ], "new_token": "मिलते", "frequency": 7, "vocab_size": 3404, "learned_vocab_size": 3148, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 3149, "pair": [ "्य", "द" ], "new_token": "्यद", "frequency": 7, "vocab_size": 3405, "learned_vocab_size": 3149, "compression_ratio": 1.177314277700575, "example_words": [] }, { "step": 3150, "pair": [ "प्रति", "ष्ठ" ], "new_token": "प्रतिष्ठ", "frequency": 7, "vocab_size": 3406, "learned_vocab_size": 3150, "compression_ratio": 1.177324998998277, "example_words": [] }, { "step": 3151, "pair": [ "प्रतिष्ठ", "ित" ], "new_token": "प्रतिष्ठित", "frequency": 7, "vocab_size": 3407, "learned_vocab_size": 3151, "compression_ratio": 1.177324998998277, "example_words": [] }, { "step": 3152, "pair": [ "मिल", "ता" ], "new_token": "मिलता", "frequency": 7, "vocab_size": 3408, "learned_vocab_size": 3152, "compression_ratio": 1.177324998998277, "example_words": [] }, { "step": 3153, "pair": [ "सो", "मनाथ" ], "new_token": "सोमनाथ", "frequency": 7, "vocab_size": 3409, "learned_vocab_size": 3153, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 3154, "pair": [ "ह", "त" ], "new_token": "हत", "frequency": 7, "vocab_size": 3410, "learned_vocab_size": 3154, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 3155, "pair": [ "टि", "प्" ], "new_token": "टिप्", "frequency": 7, "vocab_size": 3411, "learned_vocab_size": 3155, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 3156, "pair": [ "भो", "जन" ], "new_token": "भोजन", "frequency": 7, "vocab_size": 3412, "learned_vocab_size": 3156, "compression_ratio": 1.17722422650842, "example_words": [] }, { "step": 3157, "pair": [ "पत्", "थर" ], "new_token": "पत्थर", "frequency": 7, "vocab_size": 3413, "learned_vocab_size": 3157, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 3158, "pair": [ "सं", "पर्क" ], "new_token": "संपर्क", "frequency": 7, "vocab_size": 3414, "learned_vocab_size": 3158, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 3159, "pair": [ "ष्", "ण" ], "new_token": "ष्ण", "frequency": 7, "vocab_size": 3415, "learned_vocab_size": 3159, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 3160, "pair": [ "अनु", "या" ], "new_token": "अनुया", "frequency": 7, "vocab_size": 3416, "learned_vocab_size": 3160, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 3161, "pair": [ "मैथि", "ली" ], "new_token": "मैथिली", "frequency": 7, "vocab_size": 3417, "learned_vocab_size": 3161, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 3162, "pair": [ "मध्य", "प्रदेश" ], "new_token": "मध्यप्रदेश", "frequency": 7, "vocab_size": 3418, "learned_vocab_size": 3162, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 3163, "pair": [ "वर", "दान" ], "new_token": "वरदान", "frequency": 7, "vocab_size": 3419, "learned_vocab_size": 3163, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 3164, "pair": [ "व", "ध" ], "new_token": "वध", "frequency": 7, "vocab_size": 3420, "learned_vocab_size": 3164, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 3165, "pair": [ "अत्य", "धिक" ], "new_token": "अत्यधिक", "frequency": 7, "vocab_size": 3421, "learned_vocab_size": 3165, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 3166, "pair": [ "कठि", "न" ], "new_token": "कठिन", "frequency": 7, "vocab_size": 3422, "learned_vocab_size": 3166, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 3167, "pair": [ "सो", "म" ], "new_token": "सोम", "frequency": 7, "vocab_size": 3423, "learned_vocab_size": 3167, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 3168, "pair": [ "नी", "ल" ], "new_token": "नील", "frequency": 7, "vocab_size": 3424, "learned_vocab_size": 3168, "compression_ratio": 1.1773421534807649, "example_words": [] }, { "step": 3169, "pair": [ "आला", "प्पु" ], "new_token": "आलाप्पु", "frequency": 7, "vocab_size": 3425, "learned_vocab_size": 3169, "compression_ratio": 1.1773936199277988, "example_words": [] }, { "step": 3170, "pair": [ "आलाप्पु", "ड़ा" ], "new_token": "आलाप्पुड़ा", "frequency": 7, "vocab_size": 3426, "learned_vocab_size": 3170, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 3171, "pair": [ "प्", "पी" ], "new_token": "प्पी", "frequency": 7, "vocab_size": 3427, "learned_vocab_size": 3171, "compression_ratio": 1.1774236440999037, "example_words": [] }, { "step": 3172, "pair": [ "भि", "ंड" ], "new_token": "भिंड", "frequency": 7, "vocab_size": 3428, "learned_vocab_size": 3172, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 3173, "pair": [ "फै", "जाबाद" ], "new_token": "फैजाबाद", "frequency": 7, "vocab_size": 3429, "learned_vocab_size": 3173, "compression_ratio": 1.177462248856992, "example_words": [] }, { "step": 3174, "pair": [ "ट्र", "ंक" ], "new_token": "ट्रंक", "frequency": 7, "vocab_size": 3430, "learned_vocab_size": 3174, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 3175, "pair": [ "हम्", "पी" ], "new_token": "हम्पी", "frequency": 7, "vocab_size": 3431, "learned_vocab_size": 3175, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 3176, "pair": [ "ही", "रा" ], "new_token": "हीरा", "frequency": 7, "vocab_size": 3432, "learned_vocab_size": 3176, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 3177, "pair": [ "पु", "ट" ], "new_token": "पुट", "frequency": 7, "vocab_size": 3433, "learned_vocab_size": 3177, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 3178, "pair": [ "कर्", "णा" ], "new_token": "कर्णा", "frequency": 7, "vocab_size": 3434, "learned_vocab_size": 3178, "compression_ratio": 1.1775094358869733, "example_words": [] }, { "step": 3179, "pair": [ "को", "यना" ], "new_token": "कोयना", "frequency": 7, "vocab_size": 3435, "learned_vocab_size": 3179, "compression_ratio": 1.1775094358869733, "example_words": [] }, { "step": 3180, "pair": [ "ि", "ला" ], "new_token": "िला", "frequency": 7, "vocab_size": 3436, "learned_vocab_size": 3180, "compression_ratio": 1.1775094358869733, "example_words": [] }, { "step": 3181, "pair": [ "ल", "श्" ], "new_token": "लश्", "frequency": 7, "vocab_size": 3437, "learned_vocab_size": 3181, "compression_ratio": 1.1777153871941, "example_words": [] }, { "step": 3182, "pair": [ "मछली", "पट्टनम" ], "new_token": "मछलीपट्टनम", "frequency": 7, "vocab_size": 3438, "learned_vocab_size": 3182, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 3183, "pair": [ "माल", "वा" ], "new_token": "मालवा", "frequency": 7, "vocab_size": 3439, "learned_vocab_size": 3183, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 3184, "pair": [ "म", "ंगला" ], "new_token": "मंगला", "frequency": 7, "vocab_size": 3440, "learned_vocab_size": 3184, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 3185, "pair": [ "ग", "ंधा" ], "new_token": "गंधा", "frequency": 7, "vocab_size": 3441, "learned_vocab_size": 3185, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 3186, "pair": [ "नी", "म" ], "new_token": "नीम", "frequency": 7, "vocab_size": 3442, "learned_vocab_size": 3186, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 3187, "pair": [ "पद्मा", "वती" ], "new_token": "पद्मावती", "frequency": 7, "vocab_size": 3443, "learned_vocab_size": 3187, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 3188, "pair": [ "पा", "ंडि" ], "new_token": "पांडि", "frequency": 7, "vocab_size": 3444, "learned_vocab_size": 3188, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 3189, "pair": [ "पांडि", "यन" ], "new_token": "पांडियन", "frequency": 7, "vocab_size": 3445, "learned_vocab_size": 3189, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 3190, "pair": [ "पर्", "ल" ], "new_token": "पर्ल", "frequency": 7, "vocab_size": 3446, "learned_vocab_size": 3190, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 3191, "pair": [ "चेन्नम्", "मा" ], "new_token": "चेन्नम्मा", "frequency": 7, "vocab_size": 3447, "learned_vocab_size": 3191, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 3192, "pair": [ "ह", "ट" ], "new_token": "हट", "frequency": 7, "vocab_size": 3448, "learned_vocab_size": 3192, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 3193, "pair": [ "रॉ", "क" ], "new_token": "रॉक", "frequency": 7, "vocab_size": 3449, "learned_vocab_size": 3193, "compression_ratio": 1.1775180157533098, "example_words": [] }, { "step": 3194, "pair": [ "रु", "पा" ], "new_token": "रुपा", "frequency": 7, "vocab_size": 3450, "learned_vocab_size": 3194, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 3195, "pair": [ "ब", "ंगला" ], "new_token": "बंगला", "frequency": 7, "vocab_size": 3451, "learned_vocab_size": 3195, "compression_ratio": 1.1775501913656825, "example_words": [] }, { "step": 3196, "pair": [ "सर", "यू" ], "new_token": "सरयू", "frequency": 7, "vocab_size": 3452, "learned_vocab_size": 3196, "compression_ratio": 1.1775501913656825, "example_words": [] }, { "step": 3197, "pair": [ "ग", "ड" ], "new_token": "गड", "frequency": 7, "vocab_size": 3453, "learned_vocab_size": 3197, "compression_ratio": 1.177567352411279, "example_words": [] }, { "step": 3198, "pair": [ "ते", "न" ], "new_token": "तेन", "frequency": 7, "vocab_size": 3454, "learned_vocab_size": 3198, "compression_ratio": 1.1775737879323347, "example_words": [] }, { "step": 3199, "pair": [ "फ़", "ोर्" ], "new_token": "फ़ोर्", "frequency": 7, "vocab_size": 3455, "learned_vocab_size": 3199, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 3200, "pair": [ "त्रि", "वेणी" ], "new_token": "त्रिवेणी", "frequency": 7, "vocab_size": 3456, "learned_vocab_size": 3200, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 3201, "pair": [ "खान", "पान" ], "new_token": "खानपान", "frequency": 7, "vocab_size": 3457, "learned_vocab_size": 3201, "compression_ratio": 1.1775909496657133, "example_words": [ "खानपान" ] }, { "step": 3202, "pair": [ "स", "वारी" ], "new_token": "सवारी", "frequency": 7, "vocab_size": 3458, "learned_vocab_size": 3202, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 3203, "pair": [ "ऑ", "न" ], "new_token": "ऑन", "frequency": 7, "vocab_size": 3459, "learned_vocab_size": 3203, "compression_ratio": 1.1775909496657133, "example_words": [] }, { "step": 3204, "pair": [ "व्", "ही" ], "new_token": "व्ही", "frequency": 7, "vocab_size": 3460, "learned_vocab_size": 3204, "compression_ratio": 1.177631710787359, "example_words": [] }, { "step": 3205, "pair": [ "हाथ", "गेंदबाजी" ], "new_token": "हाथगेंदबाजी", "frequency": 7, "vocab_size": 3461, "learned_vocab_size": 3205, "compression_ratio": 1.1776467287540262, "example_words": [] }, { "step": 3206, "pair": [ "बि", "सा" ], "new_token": "बिसा", "frequency": 7, "vocab_size": 3462, "learned_vocab_size": 3206, "compression_ratio": 1.1776467287540262, "example_words": [] }, { "step": 3207, "pair": [ "विशेष", "ज्ञ" ], "new_token": "विशेषज्ञ", "frequency": 7, "vocab_size": 3463, "learned_vocab_size": 3207, "compression_ratio": 1.1776681836565894, "example_words": [] }, { "step": 3208, "pair": [ "घन", "त्व" ], "new_token": "घनत्व", "frequency": 7, "vocab_size": 3464, "learned_vocab_size": 3208, "compression_ratio": 1.177683202553531, "example_words": [] }, { "step": 3209, "pair": [ "कर्", "नू" ], "new_token": "कर्नू", "frequency": 7, "vocab_size": 3465, "learned_vocab_size": 3209, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 3210, "pair": [ "अन", "ंतपुर" ], "new_token": "अनंतपुर", "frequency": 7, "vocab_size": 3466, "learned_vocab_size": 3210, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 3211, "pair": [ "य", "ब" ], "new_token": "यब", "frequency": 7, "vocab_size": 3467, "learned_vocab_size": 3211, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 3212, "pair": [ "सूर्या", "पेट" ], "new_token": "सूर्यापेट", "frequency": 7, "vocab_size": 3468, "learned_vocab_size": 3212, "compression_ratio": 1.1777153871941, "example_words": [] }, { "step": 3213, "pair": [ "लु", "ई" ], "new_token": "लुई", "frequency": 7, "vocab_size": 3469, "learned_vocab_size": 3213, "compression_ratio": 1.1777153871941, "example_words": [] }, { "step": 3214, "pair": [ "च", "ॉ" ], "new_token": "चॉ", "frequency": 7, "vocab_size": 3470, "learned_vocab_size": 3214, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 3215, "pair": [ "ले", "न" ], "new_token": "लेन", "frequency": 7, "vocab_size": 3471, "learned_vocab_size": 3215, "compression_ratio": 1.1777454277791342, "example_words": [] }, { "step": 3216, "pair": [ "काउ", "ंसिल" ], "new_token": "काउंसिल", "frequency": 7, "vocab_size": 3472, "learned_vocab_size": 3216, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 3217, "pair": [ "मुरा", "द" ], "new_token": "मुराद", "frequency": 7, "vocab_size": 3473, "learned_vocab_size": 3217, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 3218, "pair": [ "अवै", "ध" ], "new_token": "अवैध", "frequency": 7, "vocab_size": 3474, "learned_vocab_size": 3218, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 3219, "pair": [ "१", "४" ], "new_token": "१४", "frequency": 7, "vocab_size": 3475, "learned_vocab_size": 3219, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 3220, "pair": [ "निर्वा", "चित" ], "new_token": "निर्वाचित", "frequency": 7, "vocab_size": 3476, "learned_vocab_size": 3220, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 3221, "pair": [ "अ", "फ़" ], "new_token": "अफ़", "frequency": 7, "vocab_size": 3477, "learned_vocab_size": 3221, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 3222, "pair": [ "लगा", "या" ], "new_token": "लगाया", "frequency": 7, "vocab_size": 3478, "learned_vocab_size": 3222, "compression_ratio": 1.1777540110849152, "example_words": [] }, { "step": 3223, "pair": [ "क्ष", "र" ], "new_token": "क्षर", "frequency": 7, "vocab_size": 3479, "learned_vocab_size": 3223, "compression_ratio": 1.1777540110849152, "example_words": [] }, { "step": 3224, "pair": [ "५", "२" ], "new_token": "५२", "frequency": 7, "vocab_size": 3480, "learned_vocab_size": 3224, "compression_ratio": 1.177779761752927, "example_words": [] }, { "step": 3225, "pair": [ "हू", "ँ" ], "new_token": "हूँ", "frequency": 7, "vocab_size": 3481, "learned_vocab_size": 3225, "compression_ratio": 1.17779692949052, "example_words": [] }, { "step": 3226, "pair": [ "३", "४" ], "new_token": "३४", "frequency": 7, "vocab_size": 3482, "learned_vocab_size": 3226, "compression_ratio": 1.1778119516714738, "example_words": [] }, { "step": 3227, "pair": [ "पि", "परी" ], "new_token": "पिपरी", "frequency": 7, "vocab_size": 3483, "learned_vocab_size": 3227, "compression_ratio": 1.1778291203475098, "example_words": [] }, { "step": 3228, "pair": [ "बहु", "विकल्" ], "new_token": "बहुविकल्", "frequency": 7, "vocab_size": 3484, "learned_vocab_size": 3228, "compression_ratio": 1.1778291203475098, "example_words": [] }, { "step": 3229, "pair": [ "बहुविकल्", "पी" ], "new_token": "बहुविकल्पी", "frequency": 7, "vocab_size": 3485, "learned_vocab_size": 3229, "compression_ratio": 1.1778291203475098, "example_words": [] }, { "step": 3230, "pair": [ "भे", "जे" ], "new_token": "भेजे", "frequency": 7, "vocab_size": 3486, "learned_vocab_size": 3230, "compression_ratio": 1.1778291203475098, "example_words": [] }, { "step": 3231, "pair": [ "न", "क्" ], "new_token": "नक्", "frequency": 7, "vocab_size": 3487, "learned_vocab_size": 3231, "compression_ratio": 1.1778441433496352, "example_words": [] }, { "step": 3232, "pair": [ "ली", "ला" ], "new_token": "लीला", "frequency": 7, "vocab_size": 3488, "learned_vocab_size": 3232, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 3233, "pair": [ "बे", "टे" ], "new_token": "बेटे", "frequency": 7, "vocab_size": 3489, "learned_vocab_size": 3233, "compression_ratio": 1.1778935073407084, "example_words": [] }, { "step": 3234, "pair": [ "पानी", "पत" ], "new_token": "पानीपत", "frequency": 7, "vocab_size": 3490, "learned_vocab_size": 3234, "compression_ratio": 1.1779085319853786, "example_words": [] }, { "step": 3235, "pair": [ "मुबार", "क" ], "new_token": "मुबारक", "frequency": 7, "vocab_size": 3491, "learned_vocab_size": 3235, "compression_ratio": 1.1779085319853786, "example_words": [] }, { "step": 3236, "pair": [ "उस्", "मान" ], "new_token": "उस्मान", "frequency": 7, "vocab_size": 3492, "learned_vocab_size": 3236, "compression_ratio": 1.1779085319853786, "example_words": [] }, { "step": 3237, "pair": [ "रो", "जा" ], "new_token": "रोजा", "frequency": 7, "vocab_size": 3493, "learned_vocab_size": 3237, "compression_ratio": 1.1779085319853786, "example_words": [] }, { "step": 3238, "pair": [ "गु", "ल" ], "new_token": "गुल", "frequency": 7, "vocab_size": 3494, "learned_vocab_size": 3238, "compression_ratio": 1.177923557013348, "example_words": [] }, { "step": 3239, "pair": [ "खु", "द" ], "new_token": "खुद", "frequency": 7, "vocab_size": 3495, "learned_vocab_size": 3239, "compression_ratio": 1.1779471685460416, "example_words": [] }, { "step": 3240, "pair": [ "बा", "ड़ा" ], "new_token": "बाड़ा", "frequency": 7, "vocab_size": 3496, "learned_vocab_size": 3240, "compression_ratio": 1.177953608219243, "example_words": [] }, { "step": 3241, "pair": [ "आ", "कार" ], "new_token": "आकार", "frequency": 7, "vocab_size": 3497, "learned_vocab_size": 3241, "compression_ratio": 1.1779707810253428, "example_words": [] }, { "step": 3242, "pair": [ "वृ", "द्धि" ], "new_token": "वृद्धि", "frequency": 7, "vocab_size": 3498, "learned_vocab_size": 3242, "compression_ratio": 1.1779707810253428, "example_words": [] }, { "step": 3243, "pair": [ "ऋ", "तु" ], "new_token": "ऋतु", "frequency": 7, "vocab_size": 3499, "learned_vocab_size": 3243, "compression_ratio": 1.1779707810253428, "example_words": [] }, { "step": 3244, "pair": [ "स्टू", "डियो" ], "new_token": "स्टूडियो", "frequency": 7, "vocab_size": 3500, "learned_vocab_size": 3244, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 3245, "pair": [ "भू", "त" ], "new_token": "भूत", "frequency": 7, "vocab_size": 3501, "learned_vocab_size": 3245, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 3246, "pair": [ "ऑ", "स्ट्रो" ], "new_token": "ऑस्ट्रो", "frequency": 7, "vocab_size": 3502, "learned_vocab_size": 3246, "compression_ratio": 1.178007274900863, "example_words": [] }, { "step": 3247, "pair": [ "ग़", "ल" ], "new_token": "ग़ल", "frequency": 7, "vocab_size": 3503, "learned_vocab_size": 3247, "compression_ratio": 1.178007274900863, "example_words": [] }, { "step": 3248, "pair": [ "स", "टी" ], "new_token": "सटी", "frequency": 7, "vocab_size": 3504, "learned_vocab_size": 3248, "compression_ratio": 1.1780223024480208, "example_words": [] }, { "step": 3249, "pair": [ "पसंदी", "दा" ], "new_token": "पसंदीदा", "frequency": 7, "vocab_size": 3505, "learned_vocab_size": 3249, "compression_ratio": 1.1780373303785887, "example_words": [] }, { "step": 3250, "pair": [ "बिहारी", "पुर" ], "new_token": "बिहारीपुर", "frequency": 7, "vocab_size": 3506, "learned_vocab_size": 3250, "compression_ratio": 1.1780373303785887, "example_words": [] }, { "step": 3251, "pair": [ "तारी", "ख़" ], "new_token": "तारीख़", "frequency": 7, "vocab_size": 3509, "learned_vocab_size": 3251, "compression_ratio": 1.1780373303785887, "example_words": [] }, { "step": 3252, "pair": [ "डि", "ज़ा" ], "new_token": "डिज़ा", "frequency": 7, "vocab_size": 3510, "learned_vocab_size": 3252, "compression_ratio": 1.1780373303785887, "example_words": [] }, { "step": 3253, "pair": [ "र्", "घ" ], "new_token": "र्घ", "frequency": 7, "vocab_size": 3511, "learned_vocab_size": 3253, "compression_ratio": 1.1780523586925817, "example_words": [] }, { "step": 3254, "pair": [ "पिछ", "ले" ], "new_token": "पिछले", "frequency": 7, "vocab_size": 3512, "learned_vocab_size": 3254, "compression_ratio": 1.1780673873900143, "example_words": [] }, { "step": 3255, "pair": [ "मि", "हिर" ], "new_token": "मिहिर", "frequency": 7, "vocab_size": 3513, "learned_vocab_size": 3255, "compression_ratio": 1.1780845635137598, "example_words": [] }, { "step": 3256, "pair": [ "४", "५" ], "new_token": "४५", "frequency": 7, "vocab_size": 3514, "learned_vocab_size": 3256, "compression_ratio": 1.1781017401383653, "example_words": [] }, { "step": 3257, "pair": [ "जन", "क" ], "new_token": "जनक", "frequency": 7, "vocab_size": 3515, "learned_vocab_size": 3257, "compression_ratio": 1.1781210644397584, "example_words": [] }, { "step": 3258, "pair": [ "नी", "रज" ], "new_token": "नीरज", "frequency": 7, "vocab_size": 3516, "learned_vocab_size": 3258, "compression_ratio": 1.1781554203186997, "example_words": [] }, { "step": 3259, "pair": [ "व्यव", "साय" ], "new_token": "व्यवसाय", "frequency": 7, "vocab_size": 3517, "learned_vocab_size": 3259, "compression_ratio": 1.1781768937605828, "example_words": [] }, { "step": 3260, "pair": [ "२०१", "७" ], "new_token": "२०१७", "frequency": 7, "vocab_size": 3518, "learned_vocab_size": 3260, "compression_ratio": 1.1781768937605828, "example_words": [] }, { "step": 3261, "pair": [ "ले", "ते" ], "new_token": "लेते", "frequency": 7, "vocab_size": 3519, "learned_vocab_size": 3261, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 3262, "pair": [ "मल्", "हो" ], "new_token": "मल्हो", "frequency": 7, "vocab_size": 3520, "learned_vocab_size": 3262, "compression_ratio": 1.1782091053911294, "example_words": [] }, { "step": 3263, "pair": [ "मल्हो", "त्रा" ], "new_token": "मल्होत्रा", "frequency": 7, "vocab_size": 3521, "learned_vocab_size": 3263, "compression_ratio": 1.1782091053911294, "example_words": [] }, { "step": 3264, "pair": [ "निर्", "देशन" ], "new_token": "निर्देशन", "frequency": 7, "vocab_size": 3522, "learned_vocab_size": 3264, "compression_ratio": 1.1782091053911294, "example_words": [] }, { "step": 3265, "pair": [ "ती", "सरे" ], "new_token": "तीसरे", "frequency": 7, "vocab_size": 3523, "learned_vocab_size": 3265, "compression_ratio": 1.1782091053911294, "example_words": [] }, { "step": 3266, "pair": [ "बि", "ल्" ], "new_token": "बिल्", "frequency": 7, "vocab_size": 3524, "learned_vocab_size": 3266, "compression_ratio": 1.1782091053911294, "example_words": [] }, { "step": 3267, "pair": [ "आयो", "जन" ], "new_token": "आयोजन", "frequency": 7, "vocab_size": 3525, "learned_vocab_size": 3267, "compression_ratio": 1.1782155479286014, "example_words": [] }, { "step": 3268, "pair": [ "आ", "खि" ], "new_token": "आखि", "frequency": 7, "vocab_size": 3526, "learned_vocab_size": 3268, "compression_ratio": 1.1782305807900377, "example_words": [] }, { "step": 3269, "pair": [ "ऑस्ट्रेलिया", "ई" ], "new_token": "ऑस्ट्रेलियाई", "frequency": 7, "vocab_size": 3527, "learned_vocab_size": 3269, "compression_ratio": 1.1782456140350877, "example_words": [] }, { "step": 3270, "pair": [ "महत्त्व", "पूर्ण" ], "new_token": "महत्त्वपूर्ण", "frequency": 7, "vocab_size": 3528, "learned_vocab_size": 3270, "compression_ratio": 1.1782456140350877, "example_words": [] }, { "step": 3271, "pair": [ "कल्चर", "ल" ], "new_token": "कल्चरल", "frequency": 7, "vocab_size": 3529, "learned_vocab_size": 3271, "compression_ratio": 1.1782456140350877, "example_words": [] }, { "step": 3272, "pair": [ "कोशिका", "ओं" ], "new_token": "कोशिकाओं", "frequency": 7, "vocab_size": 3530, "learned_vocab_size": 3272, "compression_ratio": 1.1782456140350877, "example_words": [] }, { "step": 3273, "pair": [ "वि", "विध" ], "new_token": "विविध", "frequency": 7, "vocab_size": 3531, "learned_vocab_size": 3273, "compression_ratio": 1.1782456140350877, "example_words": [] }, { "step": 3274, "pair": [ "बि", "ल" ], "new_token": "बिल", "frequency": 7, "vocab_size": 3532, "learned_vocab_size": 3274, "compression_ratio": 1.178260647663766, "example_words": [] }, { "step": 3275, "pair": [ "ं", "घ" ], "new_token": "ंघ", "frequency": 7, "vocab_size": 3533, "learned_vocab_size": 3275, "compression_ratio": 1.1781210644397584, "example_words": [] }, { "step": 3276, "pair": [ "क", "थ" ], "new_token": "कथ", "frequency": 7, "vocab_size": 3534, "learned_vocab_size": 3276, "compression_ratio": 1.1781382421287647, "example_words": [] }, { "step": 3277, "pair": [ "की", "र्" ], "new_token": "कीर्", "frequency": 7, "vocab_size": 3535, "learned_vocab_size": 3277, "compression_ratio": 1.1781167700957744, "example_words": [] }, { "step": 3278, "pair": [ "ट", "मा" ], "new_token": "टमा", "frequency": 7, "vocab_size": 3536, "learned_vocab_size": 3278, "compression_ratio": 1.1781360948902448, "example_words": [] }, { "step": 3279, "pair": [ "मात", "ृ" ], "new_token": "मातृ", "frequency": 7, "vocab_size": 3537, "learned_vocab_size": 3279, "compression_ratio": 1.1781511257242527, "example_words": [] }, { "step": 3280, "pair": [ "पर", "ं" ], "new_token": "परं", "frequency": 7, "vocab_size": 3538, "learned_vocab_size": 3280, "compression_ratio": 1.1781511257242527, "example_words": [] }, { "step": 3281, "pair": [ "परं", "परा" ], "new_token": "परंपरा", "frequency": 7, "vocab_size": 3539, "learned_vocab_size": 3281, "compression_ratio": 1.1781768937605828, "example_words": [] }, { "step": 3282, "pair": [ "पो", "स्ट" ], "new_token": "पोस्ट", "frequency": 7, "vocab_size": 3540, "learned_vocab_size": 3282, "compression_ratio": 1.1781768937605828, "example_words": [] }, { "step": 3283, "pair": [ "०", "०" ], "new_token": "००", "frequency": 7, "vocab_size": 3541, "learned_vocab_size": 3283, "compression_ratio": 1.1782155479286014, "example_words": [] }, { "step": 3284, "pair": [ "आ", "लू" ], "new_token": "आलू", "frequency": 7, "vocab_size": 3542, "learned_vocab_size": 3284, "compression_ratio": 1.1782563523021399, "example_words": [] }, { "step": 3285, "pair": [ "रु", "प" ], "new_token": "रुप", "frequency": 7, "vocab_size": 3543, "learned_vocab_size": 3285, "compression_ratio": 1.1782713862048475, "example_words": [] }, { "step": 3286, "pair": [ "स्", "कै" ], "new_token": "स्कै", "frequency": 7, "vocab_size": 3544, "learned_vocab_size": 3286, "compression_ratio": 1.1782735339365527, "example_words": [] }, { "step": 3287, "pair": [ "स", "ला" ], "new_token": "सला", "frequency": 7, "vocab_size": 3545, "learned_vocab_size": 3287, "compression_ratio": 1.1783293777092378, "example_words": [] }, { "step": 3288, "pair": [ "ढ", "ी" ], "new_token": "ढी", "frequency": 7, "vocab_size": 3546, "learned_vocab_size": 3288, "compression_ratio": 1.178322933926856, "example_words": [] }, { "step": 3289, "pair": [ "पा", "ंडे" ], "new_token": "पांडे", "frequency": 7, "vocab_size": 3547, "learned_vocab_size": 3289, "compression_ratio": 1.1783401175031583, "example_words": [] }, { "step": 3290, "pair": [ "ज", "स" ], "new_token": "जस", "frequency": 7, "vocab_size": 3548, "learned_vocab_size": 3290, "compression_ratio": 1.1783401175031583, "example_words": [] }, { "step": 3291, "pair": [ "प्रो", "जे" ], "new_token": "प्रोजे", "frequency": 7, "vocab_size": 3549, "learned_vocab_size": 3291, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 3292, "pair": [ "प्रोजे", "क्ट" ], "new_token": "प्रोजेक्ट", "frequency": 7, "vocab_size": 3550, "learned_vocab_size": 3292, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 3293, "pair": [ "आ", "ंतरिक" ], "new_token": "आंतरिक", "frequency": 7, "vocab_size": 3551, "learned_vocab_size": 3293, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 3294, "pair": [ "हि", "ल" ], "new_token": "हिल", "frequency": 7, "vocab_size": 3552, "learned_vocab_size": 3294, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 3295, "pair": [ "न", "ज़र" ], "new_token": "नज़र", "frequency": 7, "vocab_size": 3553, "learned_vocab_size": 3295, "compression_ratio": 1.1783615976783315, "example_words": [] }, { "step": 3296, "pair": [ "यो", "जित" ], "new_token": "योजित", "frequency": 7, "vocab_size": 3554, "learned_vocab_size": 3296, "compression_ratio": 1.1783766342669224, "example_words": [] }, { "step": 3297, "pair": [ "जा", "ए" ], "new_token": "जाए", "frequency": 7, "vocab_size": 3555, "learned_vocab_size": 3297, "compression_ratio": 1.1783766342669224, "example_words": [] }, { "step": 3298, "pair": [ "दि", "यों" ], "new_token": "दियों", "frequency": 7, "vocab_size": 3556, "learned_vocab_size": 3298, "compression_ratio": 1.1784024121687644, "example_words": [] }, { "step": 3299, "pair": [ "७", "१" ], "new_token": "७१", "frequency": 7, "vocab_size": 3557, "learned_vocab_size": 3299, "compression_ratio": 1.1784024121687644, "example_words": [] }, { "step": 3300, "pair": [ "वा", "यरस" ], "new_token": "वायरस", "frequency": 7, "vocab_size": 3558, "learned_vocab_size": 3300, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 3301, "pair": [ "निय", "ंत्रण" ], "new_token": "नियंत्रण", "frequency": 7, "vocab_size": 3562, "learned_vocab_size": 3301, "compression_ratio": 1.1784174497990139, "example_words": [ "नियंत्रण" ] }, { "step": 3302, "pair": [ "जीनो", "म" ], "new_token": "जीनोम", "frequency": 7, "vocab_size": 3563, "learned_vocab_size": 3302, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 3303, "pair": [ "समान", "ता" ], "new_token": "समानता", "frequency": 7, "vocab_size": 3564, "learned_vocab_size": 3303, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 3304, "pair": [ "करी", "ब" ], "new_token": "करीब", "frequency": 7, "vocab_size": 3565, "learned_vocab_size": 3304, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 3305, "pair": [ "स्", "मिथ" ], "new_token": "स्मिथ", "frequency": 7, "vocab_size": 3566, "learned_vocab_size": 3305, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 3306, "pair": [ "रक्", "खा" ], "new_token": "रक्खा", "frequency": 7, "vocab_size": 3567, "learned_vocab_size": 3306, "compression_ratio": 1.1784367844589962, "example_words": [] }, { "step": 3307, "pair": [ "कर्म", "चारी" ], "new_token": "कर्मचारी", "frequency": 7, "vocab_size": 3568, "learned_vocab_size": 3307, "compression_ratio": 1.178451822966516, "example_words": [] }, { "step": 3308, "pair": [ "भ", "ै" ], "new_token": "भै", "frequency": 7, "vocab_size": 3569, "learned_vocab_size": 3308, "compression_ratio": 1.178451822966516, "example_words": [] }, { "step": 3309, "pair": [ "पर्या", "वरण" ], "new_token": "पर्यावरण", "frequency": 7, "vocab_size": 3570, "learned_vocab_size": 3309, "compression_ratio": 1.1784754556824024, "example_words": [] }, { "step": 3310, "pair": [ "प्रा", "कृतिक" ], "new_token": "प्राकृतिक", "frequency": 7, "vocab_size": 3571, "learned_vocab_size": 3310, "compression_ratio": 1.1784754556824024, "example_words": [] }, { "step": 3311, "pair": [ "हाला", "ँकि" ], "new_token": "हालाँकि", "frequency": 7, "vocab_size": 3572, "learned_vocab_size": 3311, "compression_ratio": 1.1784754556824024, "example_words": [] }, { "step": 3312, "pair": [ "पेशे", "वर" ], "new_token": "पेशेवर", "frequency": 7, "vocab_size": 3573, "learned_vocab_size": 3312, "compression_ratio": 1.1784754556824024, "example_words": [] }, { "step": 3313, "pair": [ "यू", "ना" ], "new_token": "यूना", "frequency": 7, "vocab_size": 3574, "learned_vocab_size": 3313, "compression_ratio": 1.1784754556824024, "example_words": [] }, { "step": 3314, "pair": [ "यूना", "इटेड" ], "new_token": "यूनाइटेड", "frequency": 7, "vocab_size": 3575, "learned_vocab_size": 3314, "compression_ratio": 1.1785184266852387, "example_words": [] }, { "step": 3315, "pair": [ "जे", "ल" ], "new_token": "जेल", "frequency": 7, "vocab_size": 3576, "learned_vocab_size": 3315, "compression_ratio": 1.1785184266852387, "example_words": [] }, { "step": 3316, "pair": [ "४", "४" ], "new_token": "४४", "frequency": 7, "vocab_size": 3577, "learned_vocab_size": 3316, "compression_ratio": 1.1785270212618553, "example_words": [] }, { "step": 3317, "pair": [ "सोश", "लिस्ट" ], "new_token": "सोशलिस्ट", "frequency": 7, "vocab_size": 3578, "learned_vocab_size": 3317, "compression_ratio": 1.1785420620725742, "example_words": [] }, { "step": 3318, "pair": [ "अर", "शद" ], "new_token": "अरशद", "frequency": 7, "vocab_size": 3579, "learned_vocab_size": 3318, "compression_ratio": 1.1785420620725742, "example_words": [] }, { "step": 3319, "pair": [ "आ", "या" ], "new_token": "आया", "frequency": 7, "vocab_size": 3580, "learned_vocab_size": 3319, "compression_ratio": 1.1785592520406434, "example_words": [] }, { "step": 3320, "pair": [ "गु", "न" ], "new_token": "गुन", "frequency": 7, "vocab_size": 3581, "learned_vocab_size": 3320, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 3321, "pair": [ "गा", "ई" ], "new_token": "गाई", "frequency": 7, "vocab_size": 3582, "learned_vocab_size": 3321, "compression_ratio": 1.178595782387841, "example_words": [] }, { "step": 3322, "pair": [ "पढ़ा", "ई" ], "new_token": "पढ़ाई", "frequency": 7, "vocab_size": 3583, "learned_vocab_size": 3322, "compression_ratio": 1.1786108249537337, "example_words": [] }, { "step": 3323, "pair": [ "च", "ट" ], "new_token": "चट", "frequency": 7, "vocab_size": 3584, "learned_vocab_size": 3323, "compression_ratio": 1.1786108249537337, "example_words": [] }, { "step": 3324, "pair": [ "ग्रीष्", "मकालीन" ], "new_token": "ग्रीष्मकालीन", "frequency": 7, "vocab_size": 3585, "learned_vocab_size": 3324, "compression_ratio": 1.1785893356914297, "example_words": [] }, { "step": 3325, "pair": [ "ओलं", "पिक" ], "new_token": "ओलंपिक", "frequency": 7, "vocab_size": 3586, "learned_vocab_size": 3325, "compression_ratio": 1.1785893356914297, "example_words": [] }, { "step": 3326, "pair": [ "मी", "सा" ], "new_token": "मीसा", "frequency": 7, "vocab_size": 3587, "learned_vocab_size": 3326, "compression_ratio": 1.1785893356914297, "example_words": [] }, { "step": 3327, "pair": [ "राम", "फल" ], "new_token": "रामफल", "frequency": 7, "vocab_size": 3588, "learned_vocab_size": 3327, "compression_ratio": 1.1786065270385828, "example_words": [] }, { "step": 3328, "pair": [ "प्लेटफॉर्", "म" ], "new_token": "प्लेटफॉर्म", "frequency": 7, "vocab_size": 3589, "learned_vocab_size": 3328, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3329, "pair": [ "एम्बे", "डे" ], "new_token": "एम्बेडे", "frequency": 7, "vocab_size": 3590, "learned_vocab_size": 3329, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3330, "pair": [ "एम्बेडे", "ड" ], "new_token": "एम्बेडेड", "frequency": 7, "vocab_size": 3591, "learned_vocab_size": 3330, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3331, "pair": [ "सचि", "व" ], "new_token": "सचिव", "frequency": 7, "vocab_size": 3592, "learned_vocab_size": 3331, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3332, "pair": [ "ग", "छिया" ], "new_token": "गछिया", "frequency": 7, "vocab_size": 3593, "learned_vocab_size": 3332, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3333, "pair": [ "ह", "ौला" ], "new_token": "हौला", "frequency": 7, "vocab_size": 3594, "learned_vocab_size": 3333, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3334, "pair": [ "ज़ि", "लों" ], "new_token": "ज़िलों", "frequency": 7, "vocab_size": 3595, "learned_vocab_size": 3334, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3335, "pair": [ "चा", "वल" ], "new_token": "चावल", "frequency": 7, "vocab_size": 3596, "learned_vocab_size": 3335, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3336, "pair": [ "यौ", "गिक" ], "new_token": "यौगिक", "frequency": 7, "vocab_size": 3597, "learned_vocab_size": 3336, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3337, "pair": [ "समाज", "वादी" ], "new_token": "समाजवादी", "frequency": 7, "vocab_size": 3598, "learned_vocab_size": 3337, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3338, "pair": [ "ल", "वा" ], "new_token": "लवा", "frequency": 7, "vocab_size": 3599, "learned_vocab_size": 3338, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3339, "pair": [ "हा", "उस" ], "new_token": "हाउस", "frequency": 7, "vocab_size": 3600, "learned_vocab_size": 3339, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 3340, "pair": [ "गा", "वाँ" ], "new_token": "गावाँ", "frequency": 7, "vocab_size": 3601, "learned_vocab_size": 3340, "compression_ratio": 1.1786860435432698, "example_words": [] }, { "step": 3341, "pair": [ "खड़", "गपुर" ], "new_token": "खड़गपुर", "frequency": 7, "vocab_size": 3602, "learned_vocab_size": 3341, "compression_ratio": 1.1787010884132945, "example_words": [] }, { "step": 3342, "pair": [ "नया", "बंस" ], "new_token": "नयाबंस", "frequency": 7, "vocab_size": 3603, "learned_vocab_size": 3342, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 3343, "pair": [ "बरो", "ली" ], "new_token": "बरोली", "frequency": 7, "vocab_size": 3604, "learned_vocab_size": 3343, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 3344, "pair": [ "सी", "करी" ], "new_token": "सीकरी", "frequency": 7, "vocab_size": 3605, "learned_vocab_size": 3344, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 3345, "pair": [ "ब", "गुड़ा" ], "new_token": "बगुड़ा", "frequency": 7, "vocab_size": 3606, "learned_vocab_size": 3345, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 3346, "pair": [ "दि", "शा" ], "new_token": "दिशा", "frequency": 7, "vocab_size": 3607, "learned_vocab_size": 3346, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 3347, "pair": [ "स", "ई" ], "new_token": "सई", "frequency": 7, "vocab_size": 3608, "learned_vocab_size": 3347, "compression_ratio": 1.1787505242619303, "example_words": [] }, { "step": 3348, "pair": [ "समारो", "ह" ], "new_token": "समारोह", "frequency": 7, "vocab_size": 3609, "learned_vocab_size": 3348, "compression_ratio": 1.1787677203117535, "example_words": [] }, { "step": 3349, "pair": [ "गा", "पुर" ], "new_token": "गापुर", "frequency": 7, "vocab_size": 3610, "learned_vocab_size": 3349, "compression_ratio": 1.1787677203117535, "example_words": [] }, { "step": 3350, "pair": [ "कन", "कपुर" ], "new_token": "कनकपुर", "frequency": 7, "vocab_size": 3611, "learned_vocab_size": 3350, "compression_ratio": 1.1787999642575138, "example_words": [] }, { "step": 3351, "pair": [ "गोवि", "ंदपुर" ], "new_token": "गोविंदपुर", "frequency": 7, "vocab_size": 3612, "learned_vocab_size": 3351, "compression_ratio": 1.1787999642575138, "example_words": [] }, { "step": 3352, "pair": [ "दु", "बे" ], "new_token": "दुबे", "frequency": 7, "vocab_size": 3613, "learned_vocab_size": 3352, "compression_ratio": 1.1787999642575138, "example_words": [] }, { "step": 3353, "pair": [ "गो", "सा" ], "new_token": "गोसा", "frequency": 7, "vocab_size": 3614, "learned_vocab_size": 3353, "compression_ratio": 1.178815012035889, "example_words": [] }, { "step": 3354, "pair": [ "दु", "ब" ], "new_token": "दुब", "frequency": 7, "vocab_size": 3615, "learned_vocab_size": 3354, "compression_ratio": 1.1788300601984487, "example_words": [] }, { "step": 3355, "pair": [ "ब", "घ" ], "new_token": "बघ", "frequency": 7, "vocab_size": 3616, "learned_vocab_size": 3355, "compression_ratio": 1.1788322099673203, "example_words": [] }, { "step": 3356, "pair": [ "बू", "पुर" ], "new_token": "बूपुर", "frequency": 7, "vocab_size": 3617, "learned_vocab_size": 3356, "compression_ratio": 1.1788515582400068, "example_words": [] }, { "step": 3357, "pair": [ "पा", "खी" ], "new_token": "पाखी", "frequency": 7, "vocab_size": 3618, "learned_vocab_size": 3357, "compression_ratio": 1.1788666073356482, "example_words": [] }, { "step": 3358, "pair": [ "लि", "ल" ], "new_token": "लिल", "frequency": 7, "vocab_size": 3619, "learned_vocab_size": 3358, "compression_ratio": 1.178881656815525, "example_words": [] }, { "step": 3359, "pair": [ "श्री", "पुर" ], "new_token": "श्रीपुर", "frequency": 7, "vocab_size": 3620, "learned_vocab_size": 3359, "compression_ratio": 1.1788967066796516, "example_words": [] }, { "step": 3360, "pair": [ "ड", "बि" ], "new_token": "डबि", "frequency": 7, "vocab_size": 3621, "learned_vocab_size": 3360, "compression_ratio": 1.1788967066796516, "example_words": [] }, { "step": 3361, "pair": [ "डबि", "ंग" ], "new_token": "डबिंग", "frequency": 7, "vocab_size": 3622, "learned_vocab_size": 3361, "compression_ratio": 1.1789117569280432, "example_words": [] }, { "step": 3362, "pair": [ "उत्स", "व" ], "new_token": "उत्सव", "frequency": 7, "vocab_size": 3623, "learned_vocab_size": 3362, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 3363, "pair": [ "सह", "कारी" ], "new_token": "सहकारी", "frequency": 7, "vocab_size": 3624, "learned_vocab_size": 3363, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 3364, "pair": [ "ए", "वर्" ], "new_token": "एवर्", "frequency": 7, "vocab_size": 3625, "learned_vocab_size": 3364, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 3365, "pair": [ "का", "ंस्य" ], "new_token": "कांस्य", "frequency": 7, "vocab_size": 3626, "learned_vocab_size": 3365, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 3366, "pair": [ "आ", "ण" ], "new_token": "आण", "frequency": 7, "vocab_size": 3627, "learned_vocab_size": 3366, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 3367, "pair": [ "म", "यूर" ], "new_token": "मयूर", "frequency": 7, "vocab_size": 3628, "learned_vocab_size": 3367, "compression_ratio": 1.1789010067114094, "example_words": [] }, { "step": 3368, "pair": [ "दी", "क्षित" ], "new_token": "दीक्षित", "frequency": 7, "vocab_size": 3629, "learned_vocab_size": 3368, "compression_ratio": 1.1789010067114094, "example_words": [] }, { "step": 3369, "pair": [ "बना", "स" ], "new_token": "बनास", "frequency": 7, "vocab_size": 3630, "learned_vocab_size": 3369, "compression_ratio": 1.1789010067114094, "example_words": [] }, { "step": 3370, "pair": [ "डा", "यलर" ], "new_token": "डायलर", "frequency": 7, "vocab_size": 3631, "learned_vocab_size": 3370, "compression_ratio": 1.1789010067114094, "example_words": [] }, { "step": 3371, "pair": [ "क", "च्छ" ], "new_token": "कच्छ", "frequency": 7, "vocab_size": 3632, "learned_vocab_size": 3371, "compression_ratio": 1.1789010067114094, "example_words": [] }, { "step": 3372, "pair": [ "शिला", "ंग" ], "new_token": "शिलांग", "frequency": 7, "vocab_size": 3633, "learned_vocab_size": 3372, "compression_ratio": 1.1789182071521325, "example_words": [] }, { "step": 3373, "pair": [ "अवा", "मी" ], "new_token": "अवामी", "frequency": 7, "vocab_size": 3634, "learned_vocab_size": 3373, "compression_ratio": 1.1789375582479031, "example_words": [] }, { "step": 3374, "pair": [ "वन", "डे" ], "new_token": "वनडे", "frequency": 7, "vocab_size": 3635, "learned_vocab_size": 3374, "compression_ratio": 1.1789375582479031, "example_words": [] }, { "step": 3375, "pair": [ "गौर", "व" ], "new_token": "गौरव", "frequency": 7, "vocab_size": 3636, "learned_vocab_size": 3375, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 3376, "pair": [ "ओलं", "पिया" ], "new_token": "ओलंपिया", "frequency": 7, "vocab_size": 3637, "learned_vocab_size": 3376, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 3377, "pair": [ "ओलंपिया", "ड" ], "new_token": "ओलंपियाड", "frequency": 7, "vocab_size": 3638, "learned_vocab_size": 3377, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 3378, "pair": [ "ग्रही", "य" ], "new_token": "ग्रहीय", "frequency": 7, "vocab_size": 3639, "learned_vocab_size": 3378, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 3379, "pair": [ "रत्", "न" ], "new_token": "रत्न", "frequency": 7, "vocab_size": 3640, "learned_vocab_size": 3379, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 3380, "pair": [ "बि", "नोद" ], "new_token": "बिनोद", "frequency": 7, "vocab_size": 3641, "learned_vocab_size": 3380, "compression_ratio": 1.1789590602105078, "example_words": [] }, { "step": 3381, "pair": [ "ड", "्र" ], "new_token": "ड्र", "frequency": 7, "vocab_size": 3642, "learned_vocab_size": 3381, "compression_ratio": 1.1789741120510098, "example_words": [] }, { "step": 3382, "pair": [ "टॉ", "स" ], "new_token": "टॉस", "frequency": 7, "vocab_size": 3643, "learned_vocab_size": 3382, "compression_ratio": 1.1791009928369087, "example_words": [] }, { "step": 3383, "pair": [ "माया", "पुरी" ], "new_token": "मायापुरी", "frequency": 7, "vocab_size": 3644, "learned_vocab_size": 3383, "compression_ratio": 1.1791160483017766, "example_words": [] }, { "step": 3384, "pair": [ "से", "मैन" ], "new_token": "सेमैन", "frequency": 7, "vocab_size": 3645, "learned_vocab_size": 3384, "compression_ratio": 1.1791160483017766, "example_words": [] }, { "step": 3385, "pair": [ "बे", "थ" ], "new_token": "बेथ", "frequency": 7, "vocab_size": 3646, "learned_vocab_size": 3385, "compression_ratio": 1.1791311041511237, "example_words": [] }, { "step": 3386, "pair": [ "स्टीफ", "न" ], "new_token": "स्टीफन", "frequency": 7, "vocab_size": 3647, "learned_vocab_size": 3386, "compression_ratio": 1.1791461603849647, "example_words": [] }, { "step": 3387, "pair": [ "तीर्थ", "ंकर" ], "new_token": "तीर्थंकर", "frequency": 7, "vocab_size": 3648, "learned_vocab_size": 3387, "compression_ratio": 1.1791461603849647, "example_words": [] }, { "step": 3388, "pair": [ "कम्", "प्यू" ], "new_token": "कम्प्यू", "frequency": 6, "vocab_size": 3649, "learned_vocab_size": 3388, "compression_ratio": 1.1791461603849647, "example_words": [] }, { "step": 3389, "pair": [ "सेवा", "ओं" ], "new_token": "सेवाओं", "frequency": 6, "vocab_size": 3650, "learned_vocab_size": 3389, "compression_ratio": 1.1791461603849647, "example_words": [] }, { "step": 3390, "pair": [ "पिछ", "ला" ], "new_token": "पिछला", "frequency": 6, "vocab_size": 3651, "learned_vocab_size": 3390, "compression_ratio": 1.1791612170033146, "example_words": [] }, { "step": 3391, "pair": [ "म्यू", "जिक" ], "new_token": "म्यूजिक", "frequency": 6, "vocab_size": 3652, "learned_vocab_size": 3391, "compression_ratio": 1.1791741229822343, "example_words": [] }, { "step": 3392, "pair": [ "मरा", "ठी" ], "new_token": "मराठी", "frequency": 6, "vocab_size": 3653, "learned_vocab_size": 3392, "compression_ratio": 1.1791741229822343, "example_words": [] }, { "step": 3393, "pair": [ "फ़", "ॉ" ], "new_token": "फ़ॉ", "frequency": 6, "vocab_size": 3654, "learned_vocab_size": 3393, "compression_ratio": 1.1791741229822343, "example_words": [] }, { "step": 3394, "pair": [ "म", "जबू" ], "new_token": "मजबू", "frequency": 6, "vocab_size": 3655, "learned_vocab_size": 3394, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 3395, "pair": [ "मजबू", "त" ], "new_token": "मजबूत", "frequency": 6, "vocab_size": 3656, "learned_vocab_size": 3395, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 3396, "pair": [ "पत्", "नी" ], "new_token": "पत्नी", "frequency": 6, "vocab_size": 3657, "learned_vocab_size": 3396, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 3397, "pair": [ "ला", "भ" ], "new_token": "लाभ", "frequency": 6, "vocab_size": 3658, "learned_vocab_size": 3397, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 3398, "pair": [ "श", "ल्य" ], "new_token": "शल्य", "frequency": 6, "vocab_size": 3659, "learned_vocab_size": 3398, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3399, "pair": [ "वै", "कल्" ], "new_token": "वैकल्", "frequency": 6, "vocab_size": 3660, "learned_vocab_size": 3399, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3400, "pair": [ "वैकल्", "पिक" ], "new_token": "वैकल्पिक", "frequency": 6, "vocab_size": 3661, "learned_vocab_size": 3400, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3401, "pair": [ "ख", "तरे" ], "new_token": "खतरे", "frequency": 6, "vocab_size": 3662, "learned_vocab_size": 3401, "compression_ratio": 1.1792149937793475, "example_words": [ "खतरे" ] }, { "step": 3402, "pair": [ "विधि", "यों" ], "new_token": "विधियों", "frequency": 6, "vocab_size": 3663, "learned_vocab_size": 3402, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3403, "pair": [ "गहरा", "ई" ], "new_token": "गहराई", "frequency": 6, "vocab_size": 3664, "learned_vocab_size": 3403, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3404, "pair": [ "स", "पने" ], "new_token": "सपने", "frequency": 6, "vocab_size": 3665, "learned_vocab_size": 3404, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3405, "pair": [ "एपि", "सो" ], "new_token": "एपिसो", "frequency": 6, "vocab_size": 3666, "learned_vocab_size": 3405, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 3406, "pair": [ "एपिसो", "ड" ], "new_token": "एपिसोड", "frequency": 6, "vocab_size": 3667, "learned_vocab_size": 3406, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 3407, "pair": [ "महे", "श" ], "new_token": "महेश", "frequency": 6, "vocab_size": 3668, "learned_vocab_size": 3407, "compression_ratio": 1.1792580187319621, "example_words": [] }, { "step": 3408, "pair": [ "स्प", "ष्ट" ], "new_token": "स्पष्ट", "frequency": 6, "vocab_size": 3669, "learned_vocab_size": 3408, "compression_ratio": 1.1792580187319621, "example_words": [] }, { "step": 3409, "pair": [ "गाँ", "धी" ], "new_token": "गाँधी", "frequency": 6, "vocab_size": 3670, "learned_vocab_size": 3409, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 3410, "pair": [ "वित्ती", "य" ], "new_token": "वित्तीय", "frequency": 6, "vocab_size": 3671, "learned_vocab_size": 3410, "compression_ratio": 1.1792881380669171, "example_words": [] }, { "step": 3411, "pair": [ "सा", "मने" ], "new_token": "सामने", "frequency": 6, "vocab_size": 3672, "learned_vocab_size": 3411, "compression_ratio": 1.1792881380669171, "example_words": [] }, { "step": 3412, "pair": [ "ग़", "ा" ], "new_token": "ग़ा", "frequency": 6, "vocab_size": 3673, "learned_vocab_size": 3412, "compression_ratio": 1.1792881380669171, "example_words": [] }, { "step": 3413, "pair": [ "ग़ा", "ज़ी" ], "new_token": "ग़ाज़ी", "frequency": 6, "vocab_size": 3674, "learned_vocab_size": 3413, "compression_ratio": 1.1793010468243166, "example_words": [] }, { "step": 3414, "pair": [ "ह", "जरत" ], "new_token": "हजरत", "frequency": 6, "vocab_size": 3675, "learned_vocab_size": 3414, "compression_ratio": 1.1793139558643237, "example_words": [] }, { "step": 3415, "pair": [ "इ", "रा" ], "new_token": "इरा", "frequency": 6, "vocab_size": 3676, "learned_vocab_size": 3415, "compression_ratio": 1.1793139558643237, "example_words": [] }, { "step": 3416, "pair": [ "हे", "नरी" ], "new_token": "हेनरी", "frequency": 6, "vocab_size": 3677, "learned_vocab_size": 3416, "compression_ratio": 1.1793290167681953, "example_words": [] }, { "step": 3417, "pair": [ "उ", "ड़ी" ], "new_token": "उड़ी", "frequency": 6, "vocab_size": 3678, "learned_vocab_size": 3417, "compression_ratio": 1.1793290167681953, "example_words": [] }, { "step": 3418, "pair": [ "इया", "ं" ], "new_token": "इयां", "frequency": 6, "vocab_size": 3679, "learned_vocab_size": 3418, "compression_ratio": 1.1793419264205505, "example_words": [] }, { "step": 3419, "pair": [ "बर्", "तन" ], "new_token": "बर्तन", "frequency": 6, "vocab_size": 3680, "learned_vocab_size": 3419, "compression_ratio": 1.1793569880388537, "example_words": [] }, { "step": 3420, "pair": [ "चा", "य" ], "new_token": "चाय", "frequency": 6, "vocab_size": 3681, "learned_vocab_size": 3420, "compression_ratio": 1.1793569880388537, "example_words": [] }, { "step": 3421, "pair": [ "जिन", "का" ], "new_token": "जिनका", "frequency": 6, "vocab_size": 3682, "learned_vocab_size": 3421, "compression_ratio": 1.179378505303796, "example_words": [] }, { "step": 3422, "pair": [ "यात्रि", "यों" ], "new_token": "यात्रियों", "frequency": 6, "vocab_size": 3683, "learned_vocab_size": 3422, "compression_ratio": 1.179391416039643, "example_words": [] }, { "step": 3423, "pair": [ "उप", "विभाग" ], "new_token": "उपविभाग", "frequency": 6, "vocab_size": 3684, "learned_vocab_size": 3423, "compression_ratio": 1.179391416039643, "example_words": [] }, { "step": 3424, "pair": [ "ता", "प" ], "new_token": "ताप", "frequency": 6, "vocab_size": 3685, "learned_vocab_size": 3424, "compression_ratio": 1.179391416039643, "example_words": [] }, { "step": 3425, "pair": [ "मौजू", "द" ], "new_token": "मौजूद", "frequency": 6, "vocab_size": 3686, "learned_vocab_size": 3425, "compression_ratio": 1.1794043270581624, "example_words": [] }, { "step": 3426, "pair": [ "ती", "सरी" ], "new_token": "तीसरी", "frequency": 6, "vocab_size": 3687, "learned_vocab_size": 3426, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 3427, "pair": [ "दिने", "श" ], "new_token": "दिनेश", "frequency": 6, "vocab_size": 3688, "learned_vocab_size": 3427, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 3428, "pair": [ "गि", "ल" ], "new_token": "गिल", "frequency": 6, "vocab_size": 3689, "learned_vocab_size": 3428, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 3429, "pair": [ "महा", "भारत" ], "new_token": "महाभारत", "frequency": 6, "vocab_size": 3690, "learned_vocab_size": 3429, "compression_ratio": 1.1794387578229057, "example_words": [] }, { "step": 3430, "pair": [ "व्यू", "ह" ], "new_token": "व्यूह", "frequency": 6, "vocab_size": 3691, "learned_vocab_size": 3430, "compression_ratio": 1.1794387578229057, "example_words": [] }, { "step": 3431, "pair": [ "पा", "ंडव" ], "new_token": "पांडव", "frequency": 6, "vocab_size": 3692, "learned_vocab_size": 3431, "compression_ratio": 1.1794387578229057, "example_words": [] }, { "step": 3432, "pair": [ "बा", "ण" ], "new_token": "बाण", "frequency": 6, "vocab_size": 3693, "learned_vocab_size": 3432, "compression_ratio": 1.179453821914634, "example_words": [] }, { "step": 3433, "pair": [ "कर्", "ण" ], "new_token": "कर्ण", "frequency": 6, "vocab_size": 3694, "learned_vocab_size": 3433, "compression_ratio": 1.1794667342995346, "example_words": [] }, { "step": 3434, "pair": [ "ट्रे", "न" ], "new_token": "ट्रेन", "frequency": 6, "vocab_size": 3695, "learned_vocab_size": 3434, "compression_ratio": 1.1794667342995346, "example_words": [] }, { "step": 3435, "pair": [ "लु", "म" ], "new_token": "लुम", "frequency": 6, "vocab_size": 3696, "learned_vocab_size": 3435, "compression_ratio": 1.1794667342995346, "example_words": [] }, { "step": 3436, "pair": [ "लुम", "डि" ], "new_token": "लुमडि", "frequency": 6, "vocab_size": 3697, "learned_vocab_size": 3436, "compression_ratio": 1.1794796469671618, "example_words": [] }, { "step": 3437, "pair": [ "लुमडि", "ंग" ], "new_token": "लुमडिंग", "frequency": 6, "vocab_size": 3698, "learned_vocab_size": 3437, "compression_ratio": 1.179492559917525, "example_words": [] }, { "step": 3438, "pair": [ "अग्नि", "वी" ], "new_token": "अग्निवी", "frequency": 6, "vocab_size": 3699, "learned_vocab_size": 3438, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3439, "pair": [ "अग्निवी", "णा" ], "new_token": "अग्निवीणा", "frequency": 6, "vocab_size": 3700, "learned_vocab_size": 3439, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3440, "pair": [ "ऐश", "बाग़" ], "new_token": "ऐशबाग़", "frequency": 6, "vocab_size": 3701, "learned_vocab_size": 3440, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3441, "pair": [ "अज", "ंता" ], "new_token": "अजंता", "frequency": 6, "vocab_size": 3702, "learned_vocab_size": 3441, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3442, "pair": [ "अमर", "कंटक" ], "new_token": "अमरकंटक", "frequency": 6, "vocab_size": 3703, "learned_vocab_size": 3442, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3443, "pair": [ "अ", "ंबिका" ], "new_token": "अंबिका", "frequency": 6, "vocab_size": 3704, "learned_vocab_size": 3443, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3444, "pair": [ "अंबिका", "पुर" ], "new_token": "अंबिकापुर", "frequency": 6, "vocab_size": 3705, "learned_vocab_size": 3444, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3445, "pair": [ "आम्र", "पाली" ], "new_token": "आम्रपाली", "frequency": 6, "vocab_size": 3706, "learned_vocab_size": 3445, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3446, "pair": [ "अन", "न्तपुरी" ], "new_token": "अनन्तपुरी", "frequency": 6, "vocab_size": 3707, "learned_vocab_size": 3446, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3447, "pair": [ "अ", "त्तारी" ], "new_token": "अत्तारी", "frequency": 6, "vocab_size": 3708, "learned_vocab_size": 3447, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3448, "pair": [ "हि", "ंद" ], "new_token": "हिंद", "frequency": 6, "vocab_size": 3709, "learned_vocab_size": 3448, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 3449, "pair": [ "अजी", "माबाद" ], "new_token": "अजीमाबाद", "frequency": 6, "vocab_size": 3710, "learned_vocab_size": 3449, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3450, "pair": [ "बै", "द्यनाथ" ], "new_token": "बैद्यनाथ", "frequency": 6, "vocab_size": 3711, "learned_vocab_size": 3450, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3451, "pair": [ "बैद्यनाथ", "धाम" ], "new_token": "बैद्यनाथधाम", "frequency": 6, "vocab_size": 3713, "learned_vocab_size": 3451, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3452, "pair": [ "बालु", "र" ], "new_token": "बालुर", "frequency": 6, "vocab_size": 3714, "learned_vocab_size": 3452, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3453, "pair": [ "बालुर", "घाट" ], "new_token": "बालुरघाट", "frequency": 6, "vocab_size": 3715, "learned_vocab_size": 3453, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3454, "pair": [ "बर्", "मेर" ], "new_token": "बर्मेर", "frequency": 6, "vocab_size": 3716, "learned_vocab_size": 3454, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3455, "pair": [ "बस", "वा" ], "new_token": "बसवा", "frequency": 6, "vocab_size": 3717, "learned_vocab_size": 3455, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 3456, "pair": [ "भागी", "रती" ], "new_token": "भागीरती", "frequency": 6, "vocab_size": 3718, "learned_vocab_size": 3456, "compression_ratio": 1.1797637972036012, "example_words": [] }, { "step": 3457, "pair": [ "भ", "टि" ], "new_token": "भटि", "frequency": 6, "vocab_size": 3719, "learned_vocab_size": 3457, "compression_ratio": 1.1797637972036012, "example_words": [] }, { "step": 3458, "pair": [ "भटि", "ंडा" ], "new_token": "भटिंडा", "frequency": 6, "vocab_size": 3720, "learned_vocab_size": 3458, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3459, "pair": [ "पारा", "दीप" ], "new_token": "पारादीप", "frequency": 6, "vocab_size": 3721, "learned_vocab_size": 3459, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3460, "pair": [ "डा", "यमंड" ], "new_token": "डायमंड", "frequency": 6, "vocab_size": 3722, "learned_vocab_size": 3460, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3461, "pair": [ "ब्रि", "न्दावन" ], "new_token": "ब्रिन्दावन", "frequency": 6, "vocab_size": 3723, "learned_vocab_size": 3461, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3462, "pair": [ "बुंदे", "लखंड" ], "new_token": "बुंदेलखंड", "frequency": 6, "vocab_size": 3724, "learned_vocab_size": 3462, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3463, "pair": [ "चा", "मुंडी" ], "new_token": "चामुंडी", "frequency": 6, "vocab_size": 3725, "learned_vocab_size": 3463, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3464, "pair": [ "चार", "मिनार" ], "new_token": "चारमिनार", "frequency": 6, "vocab_size": 3726, "learned_vocab_size": 3464, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3465, "pair": [ "से", "लम" ], "new_token": "सेलम", "frequency": 6, "vocab_size": 3727, "learned_vocab_size": 3465, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 3466, "pair": [ "चित्तौर", "गढ़" ], "new_token": "चित्तौरगढ़", "frequency": 6, "vocab_size": 3728, "learned_vocab_size": 3466, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3467, "pair": [ "सिर", "कार" ], "new_token": "सिरकार", "frequency": 6, "vocab_size": 3729, "learned_vocab_size": 3467, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3468, "pair": [ "कोल", "फील्ड" ], "new_token": "कोलफील्ड", "frequency": 6, "vocab_size": 3730, "learned_vocab_size": 3468, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3469, "pair": [ "कोरो", "मंडल" ], "new_token": "कोरोमंडल", "frequency": 6, "vocab_size": 3731, "learned_vocab_size": 3469, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3470, "pair": [ "दयो", "दय" ], "new_token": "दयोदय", "frequency": 6, "vocab_size": 3732, "learned_vocab_size": 3470, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3471, "pair": [ "दीक्षा", "भूमि" ], "new_token": "दीक्षाभूमि", "frequency": 6, "vocab_size": 3733, "learned_vocab_size": 3471, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3472, "pair": [ "काठ", "गोदा" ], "new_token": "काठगोदा", "frequency": 6, "vocab_size": 3734, "learned_vocab_size": 3472, "compression_ratio": 1.1797917891025103, "example_words": [] }, { "step": 3473, "pair": [ "काठगोदा", "म" ], "new_token": "काठगोदाम", "frequency": 6, "vocab_size": 3735, "learned_vocab_size": 3473, "compression_ratio": 1.1798047088884833, "example_words": [] }, { "step": 3474, "pair": [ "प", "ठान" ], "new_token": "पठान", "frequency": 6, "vocab_size": 3736, "learned_vocab_size": 3474, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 3475, "pair": [ "पठान", "कोट" ], "new_token": "पठानकोट", "frequency": 6, "vocab_size": 3737, "learned_vocab_size": 3475, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 3476, "pair": [ "देव", "गिरि" ], "new_token": "देवगिरि", "frequency": 6, "vocab_size": 3738, "learned_vocab_size": 3476, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 3477, "pair": [ "धौला", "धार" ], "new_token": "धौलाधार", "frequency": 6, "vocab_size": 3739, "learned_vocab_size": 3477, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 3478, "pair": [ "धु", "ली" ], "new_token": "धुली", "frequency": 6, "vocab_size": 3740, "learned_vocab_size": 3478, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 3479, "pair": [ "डि", "ब्रू" ], "new_token": "डिब्रू", "frequency": 6, "vocab_size": 3741, "learned_vocab_size": 3479, "compression_ratio": 1.1798370095914288, "example_words": [] }, { "step": 3480, "pair": [ "डिब्रू", "गढ़" ], "new_token": "डिब्रूगढ़", "frequency": 6, "vocab_size": 3742, "learned_vocab_size": 3480, "compression_ratio": 1.1798370095914288, "example_words": [] }, { "step": 3481, "pair": [ "दी", "घा" ], "new_token": "दीघा", "frequency": 6, "vocab_size": 3743, "learned_vocab_size": 3481, "compression_ratio": 1.1798370095914288, "example_words": [] }, { "step": 3482, "pair": [ "द्वार", "का" ], "new_token": "द्वारका", "frequency": 6, "vocab_size": 3744, "learned_vocab_size": 3482, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3483, "pair": [ "फलकनु", "मा" ], "new_token": "फलकनुमा", "frequency": 6, "vocab_size": 3745, "learned_vocab_size": 3483, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3484, "pair": [ "फ्", "लाइंग" ], "new_token": "फ्लाइंग", "frequency": 6, "vocab_size": 3746, "learned_vocab_size": 3484, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3485, "pair": [ "गण", "देवता" ], "new_token": "गणदेवता", "frequency": 6, "vocab_size": 3747, "learned_vocab_size": 3485, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3486, "pair": [ "गांधी", "धाम" ], "new_token": "गांधीधाम", "frequency": 6, "vocab_size": 3748, "learned_vocab_size": 3486, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3487, "pair": [ "सतल", "ज" ], "new_token": "सतलज", "frequency": 6, "vocab_size": 3749, "learned_vocab_size": 3487, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3488, "pair": [ "वी", "क्ली" ], "new_token": "वीक्ली", "frequency": 6, "vocab_size": 3750, "learned_vocab_size": 3488, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3489, "pair": [ "गीता", "ंजलि" ], "new_token": "गीतांजलि", "frequency": 6, "vocab_size": 3751, "learned_vocab_size": 3489, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3490, "pair": [ "गोरख", "धाम" ], "new_token": "गोरखधाम", "frequency": 6, "vocab_size": 3752, "learned_vocab_size": 3490, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3491, "pair": [ "हबी", "बगंज" ], "new_token": "हबीबगंज", "frequency": 6, "vocab_size": 3753, "learned_vocab_size": 3491, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 3492, "pair": [ "हल्", "दि" ], "new_token": "हल्दि", "frequency": 6, "vocab_size": 3754, "learned_vocab_size": 3492, "compression_ratio": 1.179862851427247, "example_words": [] }, { "step": 3493, "pair": [ "हल्दि", "बारी" ], "new_token": "हल्दिबारी", "frequency": 6, "vocab_size": 3755, "learned_vocab_size": 3493, "compression_ratio": 1.179862851427247, "example_words": [] }, { "step": 3494, "pair": [ "कोल्", "कता" ], "new_token": "कोल्कता", "frequency": 6, "vocab_size": 3756, "learned_vocab_size": 3494, "compression_ratio": 1.179862851427247, "example_words": [] }, { "step": 3495, "pair": [ "हा", "पा" ], "new_token": "हापा", "frequency": 6, "vocab_size": 3757, "learned_vocab_size": 3495, "compression_ratio": 1.179862851427247, "example_words": [] }, { "step": 3496, "pair": [ "हरि", "हर" ], "new_token": "हरिहर", "frequency": 6, "vocab_size": 3758, "learned_vocab_size": 3496, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3497, "pair": [ "हज़र", "दु" ], "new_token": "हज़रदु", "frequency": 6, "vocab_size": 3759, "learned_vocab_size": 3497, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3498, "pair": [ "हज़रदु", "आरी" ], "new_token": "हज़रदुआरी", "frequency": 6, "vocab_size": 3760, "learned_vocab_size": 3498, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3499, "pair": [ "हेमकु", "ंट" ], "new_token": "हेमकुंट", "frequency": 6, "vocab_size": 3761, "learned_vocab_size": 3499, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3500, "pair": [ "हि", "मगिरि" ], "new_token": "हिमगिरि", "frequency": 6, "vocab_size": 3762, "learned_vocab_size": 3500, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3501, "pair": [ "हि", "मसागर" ], "new_token": "हिमसागर", "frequency": 6, "vocab_size": 3763, "learned_vocab_size": 3501, "compression_ratio": 1.1798757727696685, "example_words": [ "हिमसागर" ] }, { "step": 3502, "pair": [ "हिरा", "खण्ड" ], "new_token": "हिराखण्ड", "frequency": 6, "vocab_size": 3764, "learned_vocab_size": 3502, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3503, "pair": [ "प्यु", "रे" ], "new_token": "प्युरे", "frequency": 6, "vocab_size": 3765, "learned_vocab_size": 3503, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3504, "pair": [ "व", "ॅ" ], "new_token": "वॅ", "frequency": 6, "vocab_size": 3766, "learned_vocab_size": 3504, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 3505, "pair": [ "वॅ", "स्को" ], "new_token": "वॅस्को", "frequency": 6, "vocab_size": 3767, "learned_vocab_size": 3505, "compression_ratio": 1.1798886943951112, "example_words": [] }, { "step": 3506, "pair": [ "हु", "तात्" ], "new_token": "हुतात्", "frequency": 6, "vocab_size": 3768, "learned_vocab_size": 3506, "compression_ratio": 1.179901616303584, "example_words": [] }, { "step": 3507, "pair": [ "हुतात्", "मा" ], "new_token": "हुतात्मा", "frequency": 6, "vocab_size": 3769, "learned_vocab_size": 3507, "compression_ratio": 1.179901616303584, "example_words": [] }, { "step": 3508, "pair": [ "इन्द्र", "यानी" ], "new_token": "इन्द्रयानी", "frequency": 6, "vocab_size": 3770, "learned_vocab_size": 3508, "compression_ratio": 1.179901616303584, "example_words": [] }, { "step": 3509, "pair": [ "आई", "लैंड" ], "new_token": "आईलैंड", "frequency": 6, "vocab_size": 3771, "learned_vocab_size": 3509, "compression_ratio": 1.179901616303584, "example_words": [] }, { "step": 3510, "pair": [ "जन्म", "भूमि" ], "new_token": "जन्मभूमि", "frequency": 6, "vocab_size": 3772, "learned_vocab_size": 3510, "compression_ratio": 1.1799145384950962, "example_words": [] }, { "step": 3511, "pair": [ "ज्ञाने", "श्वरी" ], "new_token": "ज्ञानेश्वरी", "frequency": 6, "vocab_size": 3773, "learned_vocab_size": 3511, "compression_ratio": 1.1799145384950962, "example_words": [] }, { "step": 3512, "pair": [ "कचे", "गू" ], "new_token": "कचेगू", "frequency": 6, "vocab_size": 3774, "learned_vocab_size": 3512, "compression_ratio": 1.1799145384950962, "example_words": [] }, { "step": 3513, "pair": [ "कचेगू", "डा" ], "new_token": "कचेगूडा", "frequency": 6, "vocab_size": 3775, "learned_vocab_size": 3513, "compression_ratio": 1.1799274609696573, "example_words": [] }, { "step": 3514, "pair": [ "कै", "फि" ], "new_token": "कैफि", "frequency": 6, "vocab_size": 3776, "learned_vocab_size": 3514, "compression_ratio": 1.1799403837272766, "example_words": [] }, { "step": 3515, "pair": [ "कैफि", "यत" ], "new_token": "कैफियत", "frequency": 6, "vocab_size": 3777, "learned_vocab_size": 3515, "compression_ratio": 1.179953306767963, "example_words": [] }, { "step": 3516, "pair": [ "उत्", "कल" ], "new_token": "उत्कल", "frequency": 6, "vocab_size": 3778, "learned_vocab_size": 3516, "compression_ratio": 1.1799662300917264, "example_words": [] }, { "step": 3517, "pair": [ "कामा", "यनी" ], "new_token": "कामायनी", "frequency": 6, "vocab_size": 3779, "learned_vocab_size": 3517, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3518, "pair": [ "कंचन", "ज" ], "new_token": "कंचनज", "frequency": 6, "vocab_size": 3780, "learned_vocab_size": 3518, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3519, "pair": [ "कंचनज", "ंगा" ], "new_token": "कंचनजंगा", "frequency": 6, "vocab_size": 3781, "learned_vocab_size": 3519, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3520, "pair": [ "कर्णा", "वती" ], "new_token": "कर्णावती", "frequency": 6, "vocab_size": 3782, "learned_vocab_size": 3520, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3521, "pair": [ "केंदु", "झार्" ], "new_token": "केंदुझार्", "frequency": 6, "vocab_size": 3783, "learned_vocab_size": 3521, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3522, "pair": [ "केंदुझार्", "गढ़" ], "new_token": "केंदुझार्गढ़", "frequency": 6, "vocab_size": 3784, "learned_vocab_size": 3522, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3523, "pair": [ "निज़ा", "मुद्दीन" ], "new_token": "निज़ामुद्दीन", "frequency": 6, "vocab_size": 3785, "learned_vocab_size": 3523, "compression_ratio": 1.1799791536985755, "example_words": [] }, { "step": 3524, "pair": [ "को", "णार्" ], "new_token": "कोणार्", "frequency": 6, "vocab_size": 3786, "learned_vocab_size": 3524, "compression_ratio": 1.1799920775885202, "example_words": [] }, { "step": 3525, "pair": [ "कोणार्", "क" ], "new_token": "कोणार्क", "frequency": 6, "vocab_size": 3787, "learned_vocab_size": 3525, "compression_ratio": 1.1799920775885202, "example_words": [] }, { "step": 3526, "pair": [ "को", "वई" ], "new_token": "कोवई", "frequency": 6, "vocab_size": 3788, "learned_vocab_size": 3526, "compression_ratio": 1.1799920775885202, "example_words": [] }, { "step": 3527, "pair": [ "कृष", "क" ], "new_token": "कृषक", "frequency": 6, "vocab_size": 3789, "learned_vocab_size": 3527, "compression_ratio": 1.1800050017615693, "example_words": [] }, { "step": 3528, "pair": [ "कुमा", "ओं" ], "new_token": "कुमाओं", "frequency": 6, "vocab_size": 3790, "learned_vocab_size": 3528, "compression_ratio": 1.1800200803212852, "example_words": [] }, { "step": 3529, "pair": [ "कु", "त्" ], "new_token": "कुत्", "frequency": 6, "vocab_size": 3791, "learned_vocab_size": 3529, "compression_ratio": 1.1800330051077594, "example_words": [] }, { "step": 3530, "pair": [ "कुत्", "च" ], "new_token": "कुत्च", "frequency": 6, "vocab_size": 3792, "learned_vocab_size": 3530, "compression_ratio": 1.1800480843831636, "example_words": [] }, { "step": 3531, "pair": [ "क़", "िला" ], "new_token": "क़िला", "frequency": 6, "vocab_size": 3793, "learned_vocab_size": 3531, "compression_ratio": 1.1800610097831068, "example_words": [] }, { "step": 3532, "pair": [ "लाल", "बाग़" ], "new_token": "लालबाग़", "frequency": 6, "vocab_size": 3794, "learned_vocab_size": 3532, "compression_ratio": 1.1800739354662042, "example_words": [] }, { "step": 3533, "pair": [ "लश्", "कर" ], "new_token": "लश्कर", "frequency": 6, "vocab_size": 3795, "learned_vocab_size": 3533, "compression_ratio": 1.1800739354662042, "example_words": [] }, { "step": 3534, "pair": [ "लि", "च्छा" ], "new_token": "लिच्छा", "frequency": 6, "vocab_size": 3796, "learned_vocab_size": 3534, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3535, "pair": [ "लिच्छा", "वी" ], "new_token": "लिच्छावी", "frequency": 6, "vocab_size": 3797, "learned_vocab_size": 3535, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3536, "pair": [ "लो", "हित" ], "new_token": "लोहित", "frequency": 6, "vocab_size": 3798, "learned_vocab_size": 3536, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3537, "pair": [ "लोक", "शक्ति" ], "new_token": "लोकशक्ति", "frequency": 6, "vocab_size": 3799, "learned_vocab_size": 3537, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3538, "pair": [ "पत्", "नाम" ], "new_token": "पत्नाम", "frequency": 6, "vocab_size": 3800, "learned_vocab_size": 3538, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3539, "pair": [ "महा", "बोधि" ], "new_token": "महाबोधि", "frequency": 6, "vocab_size": 3801, "learned_vocab_size": 3539, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3540, "pair": [ "महा", "कोश" ], "new_token": "महाकोश", "frequency": 6, "vocab_size": 3802, "learned_vocab_size": 3540, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3541, "pair": [ "महाकोश", "ल" ], "new_token": "महाकोशल", "frequency": 6, "vocab_size": 3803, "learned_vocab_size": 3541, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3542, "pair": [ "ऐश", "बाघ" ], "new_token": "ऐशबाघ", "frequency": 6, "vocab_size": 3804, "learned_vocab_size": 3542, "compression_ratio": 1.180086861432465, "example_words": [] }, { "step": 3543, "pair": [ "माल", "दा" ], "new_token": "मालदा", "frequency": 6, "vocab_size": 3805, "learned_vocab_size": 3543, "compression_ratio": 1.1800997876818988, "example_words": [] }, { "step": 3544, "pair": [ "मांडो", "वी" ], "new_token": "मांडोवी", "frequency": 6, "vocab_size": 3806, "learned_vocab_size": 3544, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3545, "pair": [ "म", "ंगलोरे" ], "new_token": "मंगलोरे", "frequency": 6, "vocab_size": 3807, "learned_vocab_size": 3545, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3546, "pair": [ "मनो", "हार" ], "new_token": "मनोहार", "frequency": 6, "vocab_size": 3808, "learned_vocab_size": 3546, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3547, "pair": [ "मनोहार", "बाद" ], "new_token": "मनोहारबाद", "frequency": 6, "vocab_size": 3809, "learned_vocab_size": 3547, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3548, "pair": [ "मरु", "सागर" ], "new_token": "मरुसागर", "frequency": 6, "vocab_size": 3810, "learned_vocab_size": 3548, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3549, "pair": [ "मत्स्य", "गंधा" ], "new_token": "मत्स्यगंधा", "frequency": 6, "vocab_size": 3811, "learned_vocab_size": 3549, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3550, "pair": [ "मा", "वेली" ], "new_token": "मावेली", "frequency": 6, "vocab_size": 3812, "learned_vocab_size": 3550, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3551, "pair": [ "मे", "वार" ], "new_token": "मेवार", "frequency": 6, "vocab_size": 3813, "learned_vocab_size": 3551, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3552, "pair": [ "मिल्", "लेन्नियम" ], "new_token": "मिल्लेन्नियम", "frequency": 6, "vocab_size": 3814, "learned_vocab_size": 3552, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3553, "pair": [ "मिथिला", "ंचल" ], "new_token": "मिथिलांचल", "frequency": 6, "vocab_size": 3815, "learned_vocab_size": 3553, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3554, "pair": [ "नरसा", "पुर" ], "new_token": "नरसापुर", "frequency": 6, "vocab_size": 3816, "learned_vocab_size": 3554, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3555, "pair": [ "नारायना", "दरी" ], "new_token": "नारायनादरी", "frequency": 6, "vocab_size": 3817, "learned_vocab_size": 3555, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3556, "pair": [ "नौ", "चंदी" ], "new_token": "नौचंदी", "frequency": 6, "vocab_size": 3818, "learned_vocab_size": 3556, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3557, "pair": [ "नव", "जीवन" ], "new_token": "नवजीवन", "frequency": 6, "vocab_size": 3819, "learned_vocab_size": 3557, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3558, "pair": [ "नीला", "चल" ], "new_token": "नीलाचल", "frequency": 6, "vocab_size": 3820, "learned_vocab_size": 3558, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3559, "pair": [ "पल्ल", "वन" ], "new_token": "पल्लवन", "frequency": 6, "vocab_size": 3821, "learned_vocab_size": 3559, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3560, "pair": [ "पल्", "ना" ], "new_token": "पल्ना", "frequency": 6, "vocab_size": 3822, "learned_vocab_size": 3560, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3561, "pair": [ "पल्ना", "दु" ], "new_token": "पल्नादु", "frequency": 6, "vocab_size": 3823, "learned_vocab_size": 3561, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3562, "pair": [ "पंच", "वटी" ], "new_token": "पंचवटी", "frequency": 6, "vocab_size": 3824, "learned_vocab_size": 3562, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3563, "pair": [ "पिना", "किनी" ], "new_token": "पिनाकिनी", "frequency": 6, "vocab_size": 3825, "learned_vocab_size": 3563, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3564, "pair": [ "पूर", "बिया" ], "new_token": "पूरबिया", "frequency": 6, "vocab_size": 3826, "learned_vocab_size": 3564, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3565, "pair": [ "पुदु", "चेर्री" ], "new_token": "पुदुचेर्री", "frequency": 6, "vocab_size": 3827, "learned_vocab_size": 3565, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3566, "pair": [ "राज", "कोट" ], "new_token": "राजकोट", "frequency": 6, "vocab_size": 3828, "learned_vocab_size": 3566, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3567, "pair": [ "रामे", "श्वरम" ], "new_token": "रामेश्वरम", "frequency": 6, "vocab_size": 3829, "learned_vocab_size": 3567, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3568, "pair": [ "रण", "कपुर" ], "new_token": "रणकपुर", "frequency": 6, "vocab_size": 3830, "learned_vocab_size": 3568, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3569, "pair": [ "रा", "ंची" ], "new_token": "रांची", "frequency": 6, "vocab_size": 3831, "learned_vocab_size": 3569, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3570, "pair": [ "रान्", "था" ], "new_token": "रान्था", "frequency": 6, "vocab_size": 3832, "learned_vocab_size": 3570, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3571, "pair": [ "रान्था", "म्भोर" ], "new_token": "रान्थाम्भोर", "frequency": 6, "vocab_size": 3833, "learned_vocab_size": 3571, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3572, "pair": [ "रत्ना", "चल" ], "new_token": "रत्नाचल", "frequency": 6, "vocab_size": 3834, "learned_vocab_size": 3572, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3573, "pair": [ "रे", "वांचल" ], "new_token": "रेवांचल", "frequency": 6, "vocab_size": 3835, "learned_vocab_size": 3573, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3574, "pair": [ "रुपा", "शी" ], "new_token": "रुपाशी", "frequency": 6, "vocab_size": 3836, "learned_vocab_size": 3574, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3575, "pair": [ "श", "बरी" ], "new_token": "शबरी", "frequency": 6, "vocab_size": 3837, "learned_vocab_size": 3575, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3576, "pair": [ "सच", "खंड" ], "new_token": "सचखंड", "frequency": 6, "vocab_size": 3838, "learned_vocab_size": 3576, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3577, "pair": [ "सप्त", "गिरि" ], "new_token": "सप्तगिरि", "frequency": 6, "vocab_size": 3839, "learned_vocab_size": 3577, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3578, "pair": [ "सर्वो", "दय" ], "new_token": "सर्वोदय", "frequency": 6, "vocab_size": 3840, "learned_vocab_size": 3578, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3579, "pair": [ "सता", "वाहना" ], "new_token": "सतावाहना", "frequency": 6, "vocab_size": 3841, "learned_vocab_size": 3579, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3580, "pair": [ "सत्या", "ग्रह" ], "new_token": "सत्याग्रह", "frequency": 6, "vocab_size": 3842, "learned_vocab_size": 3580, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3581, "pair": [ "सेंगो", "त्त" ], "new_token": "सेंगोत्त", "frequency": 6, "vocab_size": 3843, "learned_vocab_size": 3581, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3582, "pair": [ "सेंगोत्त", "ई" ], "new_token": "सेंगोत्तई", "frequency": 6, "vocab_size": 3844, "learned_vocab_size": 3582, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3583, "pair": [ "सेवा", "ग्राम" ], "new_token": "सेवाग्राम", "frequency": 6, "vocab_size": 3845, "learned_vocab_size": 3583, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3584, "pair": [ "श", "क्" ], "new_token": "शक्", "frequency": 6, "vocab_size": 3846, "learned_vocab_size": 3584, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3585, "pair": [ "शक्", "थि" ], "new_token": "शक्थि", "frequency": 6, "vocab_size": 3847, "learned_vocab_size": 3585, "compression_ratio": 1.1802247560274235, "example_words": [] }, { "step": 3586, "pair": [ "शक्थि", "पुन्" ], "new_token": "शक्थिपुन्", "frequency": 6, "vocab_size": 3848, "learned_vocab_size": 3586, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3587, "pair": [ "शक्थिपुन्", "ज" ], "new_token": "शक्थिपुन्ज", "frequency": 6, "vocab_size": 3849, "learned_vocab_size": 3587, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3588, "pair": [ "शान्ति", "निकेतन" ], "new_token": "शान्तिनिकेतन", "frequency": 6, "vocab_size": 3850, "learned_vocab_size": 3588, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3589, "pair": [ "श्रम", "जीवी" ], "new_token": "श्रमजीवी", "frequency": 6, "vocab_size": 3851, "learned_vocab_size": 3589, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3590, "pair": [ "सिद्धा", "गंगा" ], "new_token": "सिद्धागंगा", "frequency": 6, "vocab_size": 3852, "learned_vocab_size": 3590, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3591, "pair": [ "सिद्धे", "श्वर" ], "new_token": "सिद्धेश्वर", "frequency": 6, "vocab_size": 3853, "learned_vocab_size": 3591, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3592, "pair": [ "सिम्हा", "दरी" ], "new_token": "सिम्हादरी", "frequency": 6, "vocab_size": 3854, "learned_vocab_size": 3592, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3593, "pair": [ "सिम्हा", "पुरी" ], "new_token": "सिम्हापुरी", "frequency": 6, "vocab_size": 3855, "learned_vocab_size": 3593, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3594, "pair": [ "सिंह", "गड" ], "new_token": "सिंहगड", "frequency": 6, "vocab_size": 3856, "learned_vocab_size": 3594, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3595, "pair": [ "शो", "लापुर" ], "new_token": "शोलापुर", "frequency": 6, "vocab_size": 3857, "learned_vocab_size": 3595, "compression_ratio": 1.1802506148517509, "example_words": [] }, { "step": 3596, "pair": [ "सूर्या", "ण" ], "new_token": "सूर्याण", "frequency": 6, "vocab_size": 3858, "learned_vocab_size": 3596, "compression_ratio": 1.180263544688846, "example_words": [] }, { "step": 3597, "pair": [ "सूर्याण", "गरी" ], "new_token": "सूर्याणगरी", "frequency": 6, "vocab_size": 3859, "learned_vocab_size": 3597, "compression_ratio": 1.180263544688846, "example_words": [] }, { "step": 3598, "pair": [ "ना", "डू" ], "new_token": "नाडू", "frequency": 6, "vocab_size": 3860, "learned_vocab_size": 3598, "compression_ratio": 1.180263544688846, "example_words": [] }, { "step": 3599, "pair": [ "त", "पस्वि" ], "new_token": "तपस्वि", "frequency": 6, "vocab_size": 3861, "learned_vocab_size": 3599, "compression_ratio": 1.1802764748092411, "example_words": [] }, { "step": 3600, "pair": [ "तपस्वि", "नी" ], "new_token": "तपस्विनी", "frequency": 6, "vocab_size": 3862, "learned_vocab_size": 3600, "compression_ratio": 1.1802764748092411, "example_words": [] }, { "step": 3601, "pair": [ "तपो", "वन" ], "new_token": "तपोवन", "frequency": 6, "vocab_size": 3863, "learned_vocab_size": 3601, "compression_ratio": 1.1802764748092411, "example_words": [ "तपोवन" ] }, { "step": 3602, "pair": [ "तोर्", "षा" ], "new_token": "तोर्षा", "frequency": 6, "vocab_size": 3864, "learned_vocab_size": 3602, "compression_ratio": 1.1802894052129456, "example_words": [] }, { "step": 3603, "pair": [ "तेलन्", "गाना" ], "new_token": "तेलन्गाना", "frequency": 6, "vocab_size": 3865, "learned_vocab_size": 3603, "compression_ratio": 1.1802894052129456, "example_words": [] }, { "step": 3604, "pair": [ "तेन", "कासी" ], "new_token": "तेनकासी", "frequency": 6, "vocab_size": 3866, "learned_vocab_size": 3604, "compression_ratio": 1.1802894052129456, "example_words": [] }, { "step": 3605, "pair": [ "उ", "र" ], "new_token": "उर", "frequency": 6, "vocab_size": 3867, "learned_vocab_size": 3605, "compression_ratio": 1.1803023358999687, "example_words": [] }, { "step": 3606, "pair": [ "रोक", "क" ], "new_token": "रोकक", "frequency": 6, "vocab_size": 3868, "learned_vocab_size": 3606, "compression_ratio": 1.1798219357099575, "example_words": [] }, { "step": 3607, "pair": [ "रोकक", "फ़ोर्" ], "new_token": "रोककफ़ोर्", "frequency": 6, "vocab_size": 3869, "learned_vocab_size": 3607, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3608, "pair": [ "रोककफ़ोर्", "ट" ], "new_token": "रोककफ़ोर्ट", "frequency": 6, "vocab_size": 3870, "learned_vocab_size": 3608, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3609, "pair": [ "तिरु", "क्" ], "new_token": "तिरुक्", "frequency": 6, "vocab_size": 3871, "learned_vocab_size": 3609, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3610, "pair": [ "तिरुक्", "कुर" ], "new_token": "तिरुक्कुर", "frequency": 6, "vocab_size": 3872, "learned_vocab_size": 3610, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3611, "pair": [ "तिरुक्कुर", "ल" ], "new_token": "तिरुक्कुरल", "frequency": 6, "vocab_size": 3873, "learned_vocab_size": 3611, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3612, "pair": [ "तिरु", "माला" ], "new_token": "तिरुमाला", "frequency": 6, "vocab_size": 3874, "learned_vocab_size": 3612, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3613, "pair": [ "ति", "प्" ], "new_token": "तिप्", "frequency": 6, "vocab_size": 3875, "learned_vocab_size": 3613, "compression_ratio": 1.1798348561562078, "example_words": [] }, { "step": 3614, "pair": [ "तिप्", "पू" ], "new_token": "तिप्पू", "frequency": 6, "vocab_size": 3876, "learned_vocab_size": 3614, "compression_ratio": 1.1798477768854494, "example_words": [] }, { "step": 3615, "pair": [ "तिर", "छेंडु" ], "new_token": "तिरछेंडु", "frequency": 6, "vocab_size": 3877, "learned_vocab_size": 3615, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 3616, "pair": [ "तिरछेंडु", "र" ], "new_token": "तिरछेंडुर", "frequency": 6, "vocab_size": 3878, "learned_vocab_size": 3616, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 3617, "pair": [ "त्रि", "बेनी" ], "new_token": "त्रिबेनी", "frequency": 6, "vocab_size": 3879, "learned_vocab_size": 3617, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 3618, "pair": [ "उद्योग", "कर्मी" ], "new_token": "उद्योगकर्मी", "frequency": 6, "vocab_size": 3880, "learned_vocab_size": 3618, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 3619, "pair": [ "उत्तरा", "ँचल" ], "new_token": "उत्तराँचल", "frequency": 6, "vocab_size": 3881, "learned_vocab_size": 3619, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 3620, "pair": [ "वै", "गई" ], "new_token": "वैगई", "frequency": 6, "vocab_size": 3882, "learned_vocab_size": 3620, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 3621, "pair": [ "वना", "ंचल" ], "new_token": "वनांचल", "frequency": 6, "vocab_size": 3883, "learned_vocab_size": 3621, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3622, "pair": [ "वन्", "चिन" ], "new_token": "वन्चिन", "frequency": 6, "vocab_size": 3884, "learned_vocab_size": 3622, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3623, "pair": [ "वन्चिन", "द" ], "new_token": "वन्चिनद", "frequency": 6, "vocab_size": 3885, "learned_vocab_size": 3623, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3624, "pair": [ "वेना", "द" ], "new_token": "वेनाद", "frequency": 6, "vocab_size": 3886, "learned_vocab_size": 3624, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3625, "pair": [ "वेंकटा", "दि" ], "new_token": "वेंकटादि", "frequency": 6, "vocab_size": 3887, "learned_vocab_size": 3625, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3626, "pair": [ "वेंकटादि", "री" ], "new_token": "वेंकटादिरी", "frequency": 6, "vocab_size": 3888, "learned_vocab_size": 3626, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3627, "pair": [ "वि", "दर्" ], "new_token": "विदर्", "frequency": 6, "vocab_size": 3889, "learned_vocab_size": 3627, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3628, "pair": [ "विदर्", "भा" ], "new_token": "विदर्भा", "frequency": 6, "vocab_size": 3890, "learned_vocab_size": 3628, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3629, "pair": [ "विक्रम", "शिला" ], "new_token": "विक्रमशिला", "frequency": 6, "vocab_size": 3891, "learned_vocab_size": 3629, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3630, "pair": [ "वि", "न्ध्या" ], "new_token": "विन्ध्या", "frequency": 6, "vocab_size": 3892, "learned_vocab_size": 3630, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3631, "pair": [ "विन्ध्या", "चल" ], "new_token": "विन्ध्याचल", "frequency": 6, "vocab_size": 3893, "learned_vocab_size": 3631, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3632, "pair": [ "वै", "नगंगा" ], "new_token": "वैनगंगा", "frequency": 6, "vocab_size": 3894, "learned_vocab_size": 3632, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3633, "pair": [ "येर", "का" ], "new_token": "येरका", "frequency": 6, "vocab_size": 3895, "learned_vocab_size": 3633, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3634, "pair": [ "येरका", "ड" ], "new_token": "येरकाड", "frequency": 6, "vocab_size": 3896, "learned_vocab_size": 3634, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3635, "pair": [ "लिमि", "टेड" ], "new_token": "लिमिटेड", "frequency": 6, "vocab_size": 3897, "learned_vocab_size": 3635, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3636, "pair": [ "तटी", "य" ], "new_token": "तटीय", "frequency": 6, "vocab_size": 3898, "learned_vocab_size": 3636, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3637, "pair": [ "विरा", "सत" ], "new_token": "विरासत", "frequency": 6, "vocab_size": 3899, "learned_vocab_size": 3637, "compression_ratio": 1.1798736191929442, "example_words": [] }, { "step": 3638, "pair": [ "व्ही", "ल्स" ], "new_token": "व्हील्स", "frequency": 6, "vocab_size": 3900, "learned_vocab_size": 3638, "compression_ratio": 1.1798886943951112, "example_words": [] }, { "step": 3639, "pair": [ "द", "क्" ], "new_token": "दक्", "frequency": 6, "vocab_size": 3901, "learned_vocab_size": 3639, "compression_ratio": 1.179901616303584, "example_words": [] }, { "step": 3640, "pair": [ "जानकारी", "पूरा" ], "new_token": "जानकारीपूरा", "frequency": 6, "vocab_size": 3902, "learned_vocab_size": 3640, "compression_ratio": 1.178999916100344, "example_words": [] }, { "step": 3641, "pair": [ "ज्ञ", "प्ति" ], "new_token": "ज्ञप्ति", "frequency": 6, "vocab_size": 3903, "learned_vocab_size": 3641, "compression_ratio": 1.178999916100344, "example_words": [] }, { "step": 3642, "pair": [ "आव", "श्यक" ], "new_token": "आवश्यक", "frequency": 6, "vocab_size": 3904, "learned_vocab_size": 3642, "compression_ratio": 1.178999916100344, "example_words": [] }, { "step": 3643, "pair": [ "जु", "ड़ी" ], "new_token": "जुड़ी", "frequency": 6, "vocab_size": 3905, "learned_vocab_size": 3643, "compression_ratio": 1.178999916100344, "example_words": [] }, { "step": 3644, "pair": [ "आकर्", "षित" ], "new_token": "आकर्षित", "frequency": 6, "vocab_size": 3906, "learned_vocab_size": 3644, "compression_ratio": 1.179012818548593, "example_words": [] }, { "step": 3645, "pair": [ "दरवा", "जा" ], "new_token": "दरवाजा", "frequency": 6, "vocab_size": 3907, "learned_vocab_size": 3645, "compression_ratio": 1.179012818548593, "example_words": [] }, { "step": 3646, "pair": [ "बिसा", "ऊ" ], "new_token": "बिसाऊ", "frequency": 6, "vocab_size": 3908, "learned_vocab_size": 3646, "compression_ratio": 1.1790257212792423, "example_words": [] }, { "step": 3647, "pair": [ "शास्त्री", "य" ], "new_token": "शास्त्रीय", "frequency": 6, "vocab_size": 3909, "learned_vocab_size": 3647, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 3648, "pair": [ "को", "इ" ], "new_token": "कोइ", "frequency": 6, "vocab_size": 3910, "learned_vocab_size": 3648, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 3649, "pair": [ "चौ", "थे" ], "new_token": "चौथे", "frequency": 6, "vocab_size": 3911, "learned_vocab_size": 3649, "compression_ratio": 1.1790622805497541, "example_words": [] }, { "step": 3650, "pair": [ "उच्च", "तम" ], "new_token": "उच्चतम", "frequency": 6, "vocab_size": 3912, "learned_vocab_size": 3650, "compression_ratio": 1.179075184363024, "example_words": [] }, { "step": 3651, "pair": [ "द", "स" ], "new_token": "दस", "frequency": 6, "vocab_size": 3913, "learned_vocab_size": 3651, "compression_ratio": 1.179090239168819, "example_words": [] }, { "step": 3652, "pair": [ "जन", "जाति" ], "new_token": "जनजाति", "frequency": 6, "vocab_size": 3914, "learned_vocab_size": 3652, "compression_ratio": 1.1791009928369087, "example_words": [] }, { "step": 3653, "pair": [ "क", "ड" ], "new_token": "कड", "frequency": 6, "vocab_size": 3915, "learned_vocab_size": 3653, "compression_ratio": 1.1791225007615598, "example_words": [] }, { "step": 3654, "pair": [ "पू", "नम" ], "new_token": "पूनम", "frequency": 6, "vocab_size": 3916, "learned_vocab_size": 3654, "compression_ratio": 1.178587186808298, "example_words": [] }, { "step": 3655, "pair": [ "सु", "दर्शन" ], "new_token": "सुदर्शन", "frequency": 6, "vocab_size": 3917, "learned_vocab_size": 3655, "compression_ratio": 1.178604378092762, "example_words": [] }, { "step": 3656, "pair": [ "गा", "यब" ], "new_token": "गायब", "frequency": 6, "vocab_size": 3918, "learned_vocab_size": 3656, "compression_ratio": 1.178604378092762, "example_words": [] }, { "step": 3657, "pair": [ "हो", "ना" ], "new_token": "होना", "frequency": 6, "vocab_size": 3919, "learned_vocab_size": 3657, "compression_ratio": 1.1786172718852332, "example_words": [] }, { "step": 3658, "pair": [ "महबू", "बनगर" ], "new_token": "महबूबनगर", "frequency": 6, "vocab_size": 3920, "learned_vocab_size": 3658, "compression_ratio": 1.178630165959821, "example_words": [] }, { "step": 3659, "pair": [ "२००", "३" ], "new_token": "२००३", "frequency": 6, "vocab_size": 3921, "learned_vocab_size": 3659, "compression_ratio": 1.178630165959821, "example_words": [] }, { "step": 3660, "pair": [ "सक्ष", "म" ], "new_token": "सक्षम", "frequency": 6, "vocab_size": 3922, "learned_vocab_size": 3660, "compression_ratio": 1.1786452094034159, "example_words": [] }, { "step": 3661, "pair": [ "ड", "्यू" ], "new_token": "ड्यू", "frequency": 6, "vocab_size": 3923, "learned_vocab_size": 3661, "compression_ratio": 1.1786452094034159, "example_words": [] }, { "step": 3662, "pair": [ "न", "ॉ" ], "new_token": "नॉ", "frequency": 6, "vocab_size": 3924, "learned_vocab_size": 3662, "compression_ratio": 1.1786452094034159, "example_words": [] }, { "step": 3663, "pair": [ "चि", "यन" ], "new_token": "चियन", "frequency": 6, "vocab_size": 3925, "learned_vocab_size": 3663, "compression_ratio": 1.178595782387841, "example_words": [] }, { "step": 3664, "pair": [ "मार्", "श" ], "new_token": "मार्श", "frequency": 6, "vocab_size": 3926, "learned_vocab_size": 3664, "compression_ratio": 1.17860867599224, "example_words": [] }, { "step": 3665, "pair": [ "स्", "कर" ], "new_token": "स्कर", "frequency": 6, "vocab_size": 3927, "learned_vocab_size": 3665, "compression_ratio": 1.17860867599224, "example_words": [] }, { "step": 3666, "pair": [ "स्था", "पन" ], "new_token": "स्थापन", "frequency": 6, "vocab_size": 3928, "learned_vocab_size": 3666, "compression_ratio": 1.178638762166282, "example_words": [] }, { "step": 3667, "pair": [ "बि", "न" ], "new_token": "बिन", "frequency": 6, "vocab_size": 3929, "learned_vocab_size": 3667, "compression_ratio": 1.178638762166282, "example_words": [] }, { "step": 3668, "pair": [ "था", "ई" ], "new_token": "थाई", "frequency": 6, "vocab_size": 3930, "learned_vocab_size": 3668, "compression_ratio": 1.1785893356914297, "example_words": [] }, { "step": 3669, "pair": [ "ख़", "्" ], "new_token": "ख़्", "frequency": 6, "vocab_size": 3931, "learned_vocab_size": 3669, "compression_ratio": 1.178604378092762, "example_words": [] }, { "step": 3670, "pair": [ "मनु", "ष्य" ], "new_token": "मनुष्य", "frequency": 6, "vocab_size": 3932, "learned_vocab_size": 3670, "compression_ratio": 1.1786215698787492, "example_words": [] }, { "step": 3671, "pair": [ "गै", "र" ], "new_token": "गैर", "frequency": 6, "vocab_size": 3933, "learned_vocab_size": 3671, "compression_ratio": 1.1786215698787492, "example_words": [] }, { "step": 3672, "pair": [ "हि", "म" ], "new_token": "हिम", "frequency": 6, "vocab_size": 3934, "learned_vocab_size": 3672, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 3673, "pair": [ "ंज", "क" ], "new_token": "ंजक", "frequency": 6, "vocab_size": 3935, "learned_vocab_size": 3673, "compression_ratio": 1.178389523076867, "example_words": [] }, { "step": 3674, "pair": [ "१", "२" ], "new_token": "१२", "frequency": 6, "vocab_size": 3936, "learned_vocab_size": 3674, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 3675, "pair": [ "१", "७" ], "new_token": "१७", "frequency": 6, "vocab_size": 3937, "learned_vocab_size": 3675, "compression_ratio": 1.1784303395018403, "example_words": [] }, { "step": 3676, "pair": [ "२", "२" ], "new_token": "२२", "frequency": 6, "vocab_size": 3938, "learned_vocab_size": 3676, "compression_ratio": 1.178460416571715, "example_words": [] }, { "step": 3677, "pair": [ "गी", "र" ], "new_token": "गीर", "frequency": 6, "vocab_size": 3939, "learned_vocab_size": 3677, "compression_ratio": 1.1784711587544665, "example_words": [] }, { "step": 3678, "pair": [ "इ", "ताल" ], "new_token": "इताल", "frequency": 6, "vocab_size": 3940, "learned_vocab_size": 3678, "compression_ratio": 1.178552805743853, "example_words": [] }, { "step": 3679, "pair": [ "इताल", "वी" ], "new_token": "इतालवी", "frequency": 6, "vocab_size": 3941, "learned_vocab_size": 3679, "compression_ratio": 1.1785656984079522, "example_words": [] }, { "step": 3680, "pair": [ "ह", "स्ता" ], "new_token": "हस्ता", "frequency": 6, "vocab_size": 3942, "learned_vocab_size": 3680, "compression_ratio": 1.1785785913541307, "example_words": [] }, { "step": 3681, "pair": [ "हस्ता", "क्षर" ], "new_token": "हस्ताक्षर", "frequency": 6, "vocab_size": 3943, "learned_vocab_size": 3681, "compression_ratio": 1.1785785913541307, "example_words": [] }, { "step": 3682, "pair": [ "यू", "नी" ], "new_token": "यूनी", "frequency": 6, "vocab_size": 3944, "learned_vocab_size": 3682, "compression_ratio": 1.1785785913541307, "example_words": [] }, { "step": 3683, "pair": [ "पद्ध", "ति" ], "new_token": "पद्धति", "frequency": 6, "vocab_size": 3945, "learned_vocab_size": 3683, "compression_ratio": 1.178595782387841, "example_words": [] }, { "step": 3684, "pair": [ "सि", "ए" ], "new_token": "सिए", "frequency": 6, "vocab_size": 3946, "learned_vocab_size": 3684, "compression_ratio": 1.178595782387841, "example_words": [] }, { "step": 3685, "pair": [ "बन", "ता" ], "new_token": "बनता", "frequency": 6, "vocab_size": 3947, "learned_vocab_size": 3685, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 3686, "pair": [ "बि", "ष्णु" ], "new_token": "बिष्णु", "frequency": 6, "vocab_size": 3948, "learned_vocab_size": 3686, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3687, "pair": [ "अग्र", "वाल" ], "new_token": "अग्रवाल", "frequency": 6, "vocab_size": 3949, "learned_vocab_size": 3687, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3688, "pair": [ "एक्", "शन" ], "new_token": "एक्शन", "frequency": 6, "vocab_size": 3950, "learned_vocab_size": 3688, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3689, "pair": [ "फोटोग्रा", "फी" ], "new_token": "फोटोग्राफी", "frequency": 6, "vocab_size": 3951, "learned_vocab_size": 3689, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3690, "pair": [ "का", "सि" ], "new_token": "कासि", "frequency": 6, "vocab_size": 3952, "learned_vocab_size": 3690, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 3691, "pair": [ "सर्वा", "धिक" ], "new_token": "सर्वाधिक", "frequency": 6, "vocab_size": 3953, "learned_vocab_size": 3691, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3692, "pair": [ "क्ष", "ति" ], "new_token": "क्षति", "frequency": 6, "vocab_size": 3954, "learned_vocab_size": 3692, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3693, "pair": [ "चल", "चित्र" ], "new_token": "चलचित्र", "frequency": 6, "vocab_size": 3955, "learned_vocab_size": 3693, "compression_ratio": 1.1786538058293143, "example_words": [] }, { "step": 3694, "pair": [ "वॉ", "ल्ट" ], "new_token": "वॉल्ट", "frequency": 6, "vocab_size": 3956, "learned_vocab_size": 3694, "compression_ratio": 1.1786538058293143, "example_words": [] }, { "step": 3695, "pair": [ "अनु", "मानित" ], "new_token": "अनुमानित", "frequency": 6, "vocab_size": 3957, "learned_vocab_size": 3695, "compression_ratio": 1.1786709990573039, "example_words": [] }, { "step": 3696, "pair": [ "सटी", "क" ], "new_token": "सटीक", "frequency": 6, "vocab_size": 3958, "learned_vocab_size": 3696, "compression_ratio": 1.1786709990573039, "example_words": [] }, { "step": 3697, "pair": [ "वै", "श्विक" ], "new_token": "वैश्विक", "frequency": 6, "vocab_size": 3959, "learned_vocab_size": 3697, "compression_ratio": 1.1786838943074756, "example_words": [] }, { "step": 3698, "pair": [ "मि", "यों" ], "new_token": "मियों", "frequency": 6, "vocab_size": 3960, "learned_vocab_size": 3698, "compression_ratio": 1.1786838943074756, "example_words": [] }, { "step": 3699, "pair": [ "डे", "ट" ], "new_token": "डेट", "frequency": 6, "vocab_size": 3961, "learned_vocab_size": 3699, "compression_ratio": 1.1786838943074756, "example_words": [] }, { "step": 3700, "pair": [ "अर्थ", "व्यवस्था" ], "new_token": "अर्थव्यवस्था", "frequency": 6, "vocab_size": 3962, "learned_vocab_size": 3700, "compression_ratio": 1.1785893356914297, "example_words": [] }, { "step": 3701, "pair": [ "बु", "ला" ], "new_token": "बुला", "frequency": 6, "vocab_size": 3964, "learned_vocab_size": 3701, "compression_ratio": 1.1785893356914297, "example_words": [ "बुलाकीपुर", "बुलाया", "बुलाते" ] }, { "step": 3702, "pair": [ "लो", "हा" ], "new_token": "लोहा", "frequency": 6, "vocab_size": 3965, "learned_vocab_size": 3702, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 3703, "pair": [ "रघुनाथ", "पुर" ], "new_token": "रघुनाथपुर", "frequency": 6, "vocab_size": 3966, "learned_vocab_size": 3703, "compression_ratio": 1.178630165959821, "example_words": [] }, { "step": 3704, "pair": [ "सु", "जानपुर" ], "new_token": "सुजानपुर", "frequency": 6, "vocab_size": 3967, "learned_vocab_size": 3704, "compression_ratio": 1.178643060316534, "example_words": [] }, { "step": 3705, "pair": [ "उ", "ड" ], "new_token": "उड", "frequency": 6, "vocab_size": 3968, "learned_vocab_size": 3705, "compression_ratio": 1.178643060316534, "example_words": [] }, { "step": 3706, "pair": [ "मना", "या" ], "new_token": "मनाया", "frequency": 6, "vocab_size": 3969, "learned_vocab_size": 3706, "compression_ratio": 1.1786280169277978, "example_words": [] }, { "step": 3707, "pair": [ "गां", "ठ" ], "new_token": "गांठ", "frequency": 6, "vocab_size": 3970, "learned_vocab_size": 3707, "compression_ratio": 1.1786280169277978, "example_words": [] }, { "step": 3708, "pair": [ "पिथोरा", "गढ" ], "new_token": "पिथोरागढ", "frequency": 6, "vocab_size": 3971, "learned_vocab_size": 3708, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3709, "pair": [ "न्यूरो", "साइंस" ], "new_token": "न्यूरोसाइंस", "frequency": 6, "vocab_size": 3972, "learned_vocab_size": 3709, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3710, "pair": [ "वा", "ज" ], "new_token": "वाज", "frequency": 6, "vocab_size": 3973, "learned_vocab_size": 3710, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 3711, "pair": [ "न", "ट" ], "new_token": "नट", "frequency": 6, "vocab_size": 3974, "learned_vocab_size": 3711, "compression_ratio": 1.1786538058293143, "example_words": [] }, { "step": 3712, "pair": [ "बता", "या" ], "new_token": "बताया", "frequency": 6, "vocab_size": 3975, "learned_vocab_size": 3712, "compression_ratio": 1.1786774466471197, "example_words": [] }, { "step": 3713, "pair": [ "ज्योति", "ष" ], "new_token": "ज्योतिष", "frequency": 6, "vocab_size": 3976, "learned_vocab_size": 3713, "compression_ratio": 1.1786774466471197, "example_words": [] }, { "step": 3714, "pair": [ "वहा", "ं" ], "new_token": "वहां", "frequency": 6, "vocab_size": 3977, "learned_vocab_size": 3714, "compression_ratio": 1.1786774466471197, "example_words": [] }, { "step": 3715, "pair": [ "बु", "ङ" ], "new_token": "बुङ", "frequency": 6, "vocab_size": 3978, "learned_vocab_size": 3715, "compression_ratio": 1.1786774466471197, "example_words": [] }, { "step": 3716, "pair": [ "लक्ष्मी", "पुर" ], "new_token": "लक्ष्मीपुर", "frequency": 6, "vocab_size": 3979, "learned_vocab_size": 3716, "compression_ratio": 1.178690342038372, "example_words": [] }, { "step": 3717, "pair": [ "वर्ण", "ों" ], "new_token": "वर्णों", "frequency": 6, "vocab_size": 3980, "learned_vocab_size": 3717, "compression_ratio": 1.178690342038372, "example_words": [] }, { "step": 3718, "pair": [ "मतल", "ब" ], "new_token": "मतलब", "frequency": 6, "vocab_size": 3981, "learned_vocab_size": 3718, "compression_ratio": 1.178690342038372, "example_words": [] }, { "step": 3719, "pair": [ "जिन", "के" ], "new_token": "जिनके", "frequency": 6, "vocab_size": 3982, "learned_vocab_size": 3719, "compression_ratio": 1.178690342038372, "example_words": [] }, { "step": 3720, "pair": [ "शुद्ध", "ता" ], "new_token": "शुद्धता", "frequency": 6, "vocab_size": 3983, "learned_vocab_size": 3720, "compression_ratio": 1.1787032377117934, "example_words": [] }, { "step": 3721, "pair": [ "संघर्", "ष" ], "new_token": "संघर्ष", "frequency": 6, "vocab_size": 3984, "learned_vocab_size": 3721, "compression_ratio": 1.1787161336673924, "example_words": [] }, { "step": 3722, "pair": [ "टे", "लर" ], "new_token": "टेलर", "frequency": 6, "vocab_size": 3985, "learned_vocab_size": 3722, "compression_ratio": 1.1787161336673924, "example_words": [] }, { "step": 3723, "pair": [ "सी", "ई" ], "new_token": "सीई", "frequency": 6, "vocab_size": 3986, "learned_vocab_size": 3723, "compression_ratio": 1.1787333287138173, "example_words": [] }, { "step": 3724, "pair": [ "दा", "दा" ], "new_token": "दादा", "frequency": 6, "vocab_size": 3987, "learned_vocab_size": 3724, "compression_ratio": 1.1787483747909795, "example_words": [] }, { "step": 3725, "pair": [ "बो", "स्टन" ], "new_token": "बोस्टन", "frequency": 6, "vocab_size": 3988, "learned_vocab_size": 3725, "compression_ratio": 1.178763421252261, "example_words": [] }, { "step": 3726, "pair": [ "बिलि", "यन" ], "new_token": "बिलियन", "frequency": 6, "vocab_size": 3989, "learned_vocab_size": 3726, "compression_ratio": 1.178763421252261, "example_words": [] }, { "step": 3727, "pair": [ "चो", "पड़ा" ], "new_token": "चोपड़ा", "frequency": 6, "vocab_size": 3990, "learned_vocab_size": 3727, "compression_ratio": 1.178763421252261, "example_words": [] }, { "step": 3728, "pair": [ "सै", "गल" ], "new_token": "सैगल", "frequency": 6, "vocab_size": 3991, "learned_vocab_size": 3728, "compression_ratio": 1.178763421252261, "example_words": [] }, { "step": 3729, "pair": [ "ड्राइ", "वर" ], "new_token": "ड्राइवर", "frequency": 6, "vocab_size": 3992, "learned_vocab_size": 3729, "compression_ratio": 1.1787763185248132, "example_words": [] }, { "step": 3730, "pair": [ "दे", "ती" ], "new_token": "देती", "frequency": 6, "vocab_size": 3993, "learned_vocab_size": 3730, "compression_ratio": 1.1787763185248132, "example_words": [] }, { "step": 3731, "pair": [ "ब", "दला" ], "new_token": "बदला", "frequency": 6, "vocab_size": 3994, "learned_vocab_size": 3731, "compression_ratio": 1.1787892160795956, "example_words": [] }, { "step": 3732, "pair": [ "ज", "क" ], "new_token": "जक", "frequency": 6, "vocab_size": 3995, "learned_vocab_size": 3732, "compression_ratio": 1.1787892160795956, "example_words": [] }, { "step": 3733, "pair": [ "कु", "ंभ" ], "new_token": "कुंभ", "frequency": 6, "vocab_size": 3996, "learned_vocab_size": 3733, "compression_ratio": 1.178804263583562, "example_words": [] }, { "step": 3734, "pair": [ "अर्", "ध" ], "new_token": "अर्ध", "frequency": 6, "vocab_size": 3997, "learned_vocab_size": 3734, "compression_ratio": 1.1788193114717027, "example_words": [] }, { "step": 3735, "pair": [ "शि", "ल्" ], "new_token": "शिल्", "frequency": 6, "vocab_size": 3998, "learned_vocab_size": 3735, "compression_ratio": 1.1788193114717027, "example_words": [] }, { "step": 3736, "pair": [ "धरो", "हर" ], "new_token": "धरोहर", "frequency": 6, "vocab_size": 3999, "learned_vocab_size": 3736, "compression_ratio": 1.1788386593209799, "example_words": [] }, { "step": 3737, "pair": [ "हनु", "मान" ], "new_token": "हनुमान", "frequency": 6, "vocab_size": 4000, "learned_vocab_size": 3737, "compression_ratio": 1.1788386593209799, "example_words": [] }, { "step": 3738, "pair": [ "राव", "ण" ], "new_token": "रावण", "frequency": 6, "vocab_size": 4001, "learned_vocab_size": 3738, "compression_ratio": 1.1788386593209799, "example_words": [] }, { "step": 3739, "pair": [ "ल", "व" ], "new_token": "लव", "frequency": 6, "vocab_size": 4002, "learned_vocab_size": 3739, "compression_ratio": 1.1788515582400068, "example_words": [] }, { "step": 3740, "pair": [ "को", "प" ], "new_token": "कोप", "frequency": 6, "vocab_size": 4003, "learned_vocab_size": 3740, "compression_ratio": 1.178849408400566, "example_words": [] }, { "step": 3741, "pair": [ "म", "ृ" ], "new_token": "मृ", "frequency": 6, "vocab_size": 4004, "learned_vocab_size": 3741, "compression_ratio": 1.178864457441318, "example_words": [] }, { "step": 3742, "pair": [ "प्रति", "द्" ], "new_token": "प्रतिद्", "frequency": 6, "vocab_size": 4005, "learned_vocab_size": 3742, "compression_ratio": 1.1789655109522332, "example_words": [] }, { "step": 3743, "pair": [ "शै", "क्षणिक" ], "new_token": "शैक्षणिक", "frequency": 6, "vocab_size": 4006, "learned_vocab_size": 3743, "compression_ratio": 1.1789655109522332, "example_words": [] }, { "step": 3744, "pair": [ "कमी", "शन" ], "new_token": "कमीशन", "frequency": 6, "vocab_size": 4007, "learned_vocab_size": 3744, "compression_ratio": 1.1789655109522332, "example_words": [] }, { "step": 3745, "pair": [ "घ", "टक" ], "new_token": "घटक", "frequency": 6, "vocab_size": 4008, "learned_vocab_size": 3745, "compression_ratio": 1.1789655109522332, "example_words": [] }, { "step": 3746, "pair": [ "ग", "ॉ" ], "new_token": "गॉ", "frequency": 6, "vocab_size": 4009, "learned_vocab_size": 3746, "compression_ratio": 1.1789827132752853, "example_words": [] }, { "step": 3747, "pair": [ "व्यव", "स्थित" ], "new_token": "व्यवस्थित", "frequency": 6, "vocab_size": 4010, "learned_vocab_size": 3747, "compression_ratio": 1.1789977657197575, "example_words": [] }, { "step": 3748, "pair": [ "बु", "रा" ], "new_token": "बुरा", "frequency": 6, "vocab_size": 4011, "learned_vocab_size": 3748, "compression_ratio": 1.1789977657197575, "example_words": [] }, { "step": 3749, "pair": [ "मान", "ते" ], "new_token": "मानते", "frequency": 6, "vocab_size": 4012, "learned_vocab_size": 3749, "compression_ratio": 1.179019269878617, "example_words": [] }, { "step": 3750, "pair": [ "खो", "ल" ], "new_token": "खोल", "frequency": 6, "vocab_size": 4013, "learned_vocab_size": 3750, "compression_ratio": 1.179019269878617, "example_words": [] }, { "step": 3751, "pair": [ "कै", "मरा" ], "new_token": "कैमरा", "frequency": 6, "vocab_size": 4014, "learned_vocab_size": 3751, "compression_ratio": 1.1790407748219351, "example_words": [] }, { "step": 3752, "pair": [ "हृ", "दय" ], "new_token": "हृदय", "frequency": 6, "vocab_size": 4015, "learned_vocab_size": 3752, "compression_ratio": 1.1790407748219351, "example_words": [] }, { "step": 3753, "pair": [ "ख", "प" ], "new_token": "खप", "frequency": 6, "vocab_size": 4016, "learned_vocab_size": 3753, "compression_ratio": 1.1790579793414282, "example_words": [] }, { "step": 3754, "pair": [ "ई", "स्" ], "new_token": "ईस्", "frequency": 6, "vocab_size": 4017, "learned_vocab_size": 3754, "compression_ratio": 1.1790708830605519, "example_words": [] }, { "step": 3755, "pair": [ "ईस्", "माइलपुर" ], "new_token": "ईस्माइलपुर", "frequency": 6, "vocab_size": 4018, "learned_vocab_size": 3755, "compression_ratio": 1.1790622805497541, "example_words": [] }, { "step": 3756, "pair": [ "दौल", "तपुर" ], "new_token": "दौलतपुर", "frequency": 6, "vocab_size": 4019, "learned_vocab_size": 3756, "compression_ratio": 1.1790622805497541, "example_words": [] }, { "step": 3757, "pair": [ "बि", "शु" ], "new_token": "बिशु", "frequency": 6, "vocab_size": 4020, "learned_vocab_size": 3757, "compression_ratio": 1.1790622805497541, "example_words": [] }, { "step": 3758, "pair": [ "उम्मी", "दवार" ], "new_token": "उम्मीदवार", "frequency": 6, "vocab_size": 4021, "learned_vocab_size": 3758, "compression_ratio": 1.179075184363024, "example_words": [] }, { "step": 3759, "pair": [ "पो", "लिश" ], "new_token": "पोलिश", "frequency": 6, "vocab_size": 4022, "learned_vocab_size": 3759, "compression_ratio": 1.179075184363024, "example_words": [] }, { "step": 3760, "pair": [ "ले", "फ्टिनेंट" ], "new_token": "लेफ्टिनेंट", "frequency": 6, "vocab_size": 4023, "learned_vocab_size": 3760, "compression_ratio": 1.179090239168819, "example_words": [] }, { "step": 3761, "pair": [ "शि", "ंग" ], "new_token": "शिंग", "frequency": 6, "vocab_size": 4024, "learned_vocab_size": 3761, "compression_ratio": 1.179090239168819, "example_words": [] }, { "step": 3762, "pair": [ "फिलि", "पो" ], "new_token": "फिलिपो", "frequency": 6, "vocab_size": 4025, "learned_vocab_size": 3762, "compression_ratio": 1.1791074451319168, "example_words": [] }, { "step": 3763, "pair": [ "प्रो", "टो" ], "new_token": "प्रोटो", "frequency": 6, "vocab_size": 4026, "learned_vocab_size": 3763, "compression_ratio": 1.1791225007615598, "example_words": [] }, { "step": 3764, "pair": [ "सा", "इड" ], "new_token": "साइड", "frequency": 6, "vocab_size": 4027, "learned_vocab_size": 3764, "compression_ratio": 1.1791246515971807, "example_words": [] }, { "step": 3765, "pair": [ "ब", "फलो" ], "new_token": "बफलो", "frequency": 6, "vocab_size": 4028, "learned_vocab_size": 3765, "compression_ratio": 1.1791397076662369, "example_words": [] }, { "step": 3766, "pair": [ "खिता", "ब" ], "new_token": "खिताब", "frequency": 6, "vocab_size": 4029, "learned_vocab_size": 3766, "compression_ratio": 1.1791397076662369, "example_words": [] }, { "step": 3767, "pair": [ "त्रि", "पाठी" ], "new_token": "त्रिपाठी", "frequency": 6, "vocab_size": 4030, "learned_vocab_size": 3767, "compression_ratio": 1.1791397076662369, "example_words": [] }, { "step": 3768, "pair": [ "ब", "छ" ], "new_token": "बछ", "frequency": 6, "vocab_size": 4031, "learned_vocab_size": 3768, "compression_ratio": 1.1791397076662369, "example_words": [] }, { "step": 3769, "pair": [ "दा", "दूपुर" ], "new_token": "दादूपुर", "frequency": 6, "vocab_size": 4032, "learned_vocab_size": 3769, "compression_ratio": 1.1791526131743169, "example_words": [] }, { "step": 3770, "pair": [ "मो", "दी" ], "new_token": "मोदी", "frequency": 6, "vocab_size": 4033, "learned_vocab_size": 3770, "compression_ratio": 1.1791655189648977, "example_words": [] }, { "step": 3771, "pair": [ "खा", "ल" ], "new_token": "खाल", "frequency": 6, "vocab_size": 4034, "learned_vocab_size": 3771, "compression_ratio": 1.1791848781804781, "example_words": [] }, { "step": 3772, "pair": [ "एस", "ए" ], "new_token": "एसए", "frequency": 6, "vocab_size": 4035, "learned_vocab_size": 3772, "compression_ratio": 1.1791784250379886, "example_words": [] }, { "step": 3773, "pair": [ "एसए", "आर" ], "new_token": "एसएआर", "frequency": 6, "vocab_size": 4036, "learned_vocab_size": 3773, "compression_ratio": 1.179202086905761, "example_words": [] }, { "step": 3774, "pair": [ "एसएआर", "एस" ], "new_token": "एसएआरएस", "frequency": 6, "vocab_size": 4037, "learned_vocab_size": 3774, "compression_ratio": 1.1792192961333303, "example_words": [] }, { "step": 3775, "pair": [ "वा", "यर" ], "new_token": "वायर", "frequency": 6, "vocab_size": 4038, "learned_vocab_size": 3775, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 3776, "pair": [ "ना", "ल्ड" ], "new_token": "नाल्ड", "frequency": 6, "vocab_size": 4039, "learned_vocab_size": 3776, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 3777, "pair": [ "पंक्ति", "यों" ], "new_token": "पंक्तियों", "frequency": 6, "vocab_size": 4040, "learned_vocab_size": 3777, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 3778, "pair": [ "मि", "ट" ], "new_token": "मिट", "frequency": 6, "vocab_size": 4041, "learned_vocab_size": 3778, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 3779, "pair": [ "आ", "त" ], "new_token": "आत", "frequency": 6, "vocab_size": 4042, "learned_vocab_size": 3779, "compression_ratio": 1.179283835210584, "example_words": [] }, { "step": 3780, "pair": [ "शु", "दा" ], "new_token": "शुदा", "frequency": 6, "vocab_size": 4043, "learned_vocab_size": 3780, "compression_ratio": 1.1791977846773516, "example_words": [] }, { "step": 3781, "pair": [ "मिलि", "यन" ], "new_token": "मिलियन", "frequency": 6, "vocab_size": 4044, "learned_vocab_size": 3781, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 3782, "pair": [ "फ़्रा", "ंस" ], "new_token": "फ़्रांस", "frequency": 6, "vocab_size": 4045, "learned_vocab_size": 3782, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 3783, "pair": [ "मा", "सिक" ], "new_token": "मासिक", "frequency": 6, "vocab_size": 4046, "learned_vocab_size": 3783, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 3784, "pair": [ "देख", "भा" ], "new_token": "देखभा", "frequency": 6, "vocab_size": 4047, "learned_vocab_size": 3784, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 3785, "pair": [ "देखभा", "ल" ], "new_token": "देखभाल", "frequency": 6, "vocab_size": 4048, "learned_vocab_size": 3785, "compression_ratio": 1.1792235985187076, "example_words": [] }, { "step": 3786, "pair": [ "र", "ग्" ], "new_token": "रग्", "frequency": 6, "vocab_size": 4049, "learned_vocab_size": 3786, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 3787, "pair": [ "रग्", "बी" ], "new_token": "रग्बी", "frequency": 6, "vocab_size": 4050, "learned_vocab_size": 3787, "compression_ratio": 1.1792537160954182, "example_words": [] }, { "step": 3788, "pair": [ "र", "व" ], "new_token": "रव", "frequency": 6, "vocab_size": 4051, "learned_vocab_size": 3788, "compression_ratio": 1.1792666240992429, "example_words": [] }, { "step": 3789, "pair": [ "बन", "ने" ], "new_token": "बनने", "frequency": 6, "vocab_size": 4052, "learned_vocab_size": 3789, "compression_ratio": 1.1789182071521325, "example_words": [] }, { "step": 3790, "pair": [ "शि", "खर" ], "new_token": "शिखर", "frequency": 6, "vocab_size": 4053, "learned_vocab_size": 3790, "compression_ratio": 1.1789311078120612, "example_words": [] }, { "step": 3791, "pair": [ "थ", "ली" ], "new_token": "थली", "frequency": 6, "vocab_size": 4054, "learned_vocab_size": 3791, "compression_ratio": 1.1789504593313478, "example_words": [] }, { "step": 3792, "pair": [ "स्पर्", "धा" ], "new_token": "स्पर्धा", "frequency": 6, "vocab_size": 4055, "learned_vocab_size": 3792, "compression_ratio": 1.1789633606971481, "example_words": [] }, { "step": 3793, "pair": [ "एफ", "सी" ], "new_token": "एफसी", "frequency": 6, "vocab_size": 4056, "learned_vocab_size": 3793, "compression_ratio": 1.1789633606971481, "example_words": [] }, { "step": 3794, "pair": [ "वि", "न" ], "new_token": "विन", "frequency": 6, "vocab_size": 4057, "learned_vocab_size": 3794, "compression_ratio": 1.17897841264746, "example_words": [] }, { "step": 3795, "pair": [ "आर्", "मी" ], "new_token": "आर्मी", "frequency": 6, "vocab_size": 4058, "learned_vocab_size": 3795, "compression_ratio": 1.1789160570695936, "example_words": [] }, { "step": 3796, "pair": [ "तार", "कीय" ], "new_token": "तारकीय", "frequency": 6, "vocab_size": 4059, "learned_vocab_size": 3796, "compression_ratio": 1.1789160570695936, "example_words": [] }, { "step": 3797, "pair": [ "भ", "ल्ला" ], "new_token": "भल्ला", "frequency": 6, "vocab_size": 4060, "learned_vocab_size": 3797, "compression_ratio": 1.1789160570695936, "example_words": [] }, { "step": 3798, "pair": [ "जिम्", "ना" ], "new_token": "जिम्ना", "frequency": 6, "vocab_size": 4061, "learned_vocab_size": 3798, "compression_ratio": 1.1789289576824662, "example_words": [] }, { "step": 3799, "pair": [ "ष", "िक" ], "new_token": "षिक", "frequency": 6, "vocab_size": 4062, "learned_vocab_size": 3799, "compression_ratio": 1.1789289576824662, "example_words": [] }, { "step": 3800, "pair": [ "सलाह", "कार" ], "new_token": "सलाहकार", "frequency": 6, "vocab_size": 4063, "learned_vocab_size": 3800, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3801, "pair": [ "सुल", "तानगंज" ], "new_token": "सुलतानगंज", "frequency": 6, "vocab_size": 4065, "learned_vocab_size": 3801, "compression_ratio": 1.1789461589388273, "example_words": [ "सुलतानगंज" ] }, { "step": 3802, "pair": [ "नव", "गछिया" ], "new_token": "नवगछिया", "frequency": 6, "vocab_size": 4066, "learned_vocab_size": 3802, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3803, "pair": [ "सन", "हौला" ], "new_token": "सनहौला", "frequency": 6, "vocab_size": 4067, "learned_vocab_size": 3803, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3804, "pair": [ "वॉर्", "ट" ], "new_token": "वॉर्ट", "frequency": 6, "vocab_size": 4068, "learned_vocab_size": 3804, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3805, "pair": [ "अफ़्री", "का" ], "new_token": "अफ़्रीका", "frequency": 6, "vocab_size": 4069, "learned_vocab_size": 3805, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3806, "pair": [ "मी", "ठा" ], "new_token": "मीठा", "frequency": 6, "vocab_size": 4070, "learned_vocab_size": 3806, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3807, "pair": [ "टमा", "टर" ], "new_token": "टमाटर", "frequency": 6, "vocab_size": 4071, "learned_vocab_size": 3807, "compression_ratio": 1.1789633606971481, "example_words": [] }, { "step": 3808, "pair": [ "बर्", "फ़ी" ], "new_token": "बर्फ़ी", "frequency": 6, "vocab_size": 4072, "learned_vocab_size": 3808, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 3809, "pair": [ "पन्तो", "ली" ], "new_token": "पन्तोली", "frequency": 6, "vocab_size": 4073, "learned_vocab_size": 3809, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 3810, "pair": [ "जिन", "की" ], "new_token": "जिनकी", "frequency": 6, "vocab_size": 4074, "learned_vocab_size": 3810, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 3811, "pair": [ "कि", "ल" ], "new_token": "किल", "frequency": 6, "vocab_size": 4075, "learned_vocab_size": 3811, "compression_ratio": 1.1789891642758523, "example_words": [] }, { "step": 3812, "pair": [ "भू", "टान" ], "new_token": "भूटान", "frequency": 6, "vocab_size": 4076, "learned_vocab_size": 3812, "compression_ratio": 1.1788902566908313, "example_words": [] }, { "step": 3813, "pair": [ "बारा", "ब" ], "new_token": "बाराब", "frequency": 6, "vocab_size": 4077, "learned_vocab_size": 3813, "compression_ratio": 1.1788902566908313, "example_words": [] }, { "step": 3814, "pair": [ "बाराब", "ंकी" ], "new_token": "बाराबंकी", "frequency": 6, "vocab_size": 4078, "learned_vocab_size": 3814, "compression_ratio": 1.1788902566908313, "example_words": [] }, { "step": 3815, "pair": [ "वकी", "ल" ], "new_token": "वकील", "frequency": 6, "vocab_size": 4079, "learned_vocab_size": 3815, "compression_ratio": 1.1788902566908313, "example_words": [] }, { "step": 3816, "pair": [ "मा", "थु" ], "new_token": "माथु", "frequency": 6, "vocab_size": 4080, "learned_vocab_size": 3816, "compression_ratio": 1.1788902566908313, "example_words": [] }, { "step": 3817, "pair": [ "माथु", "र" ], "new_token": "माथुर", "frequency": 6, "vocab_size": 4081, "learned_vocab_size": 3817, "compression_ratio": 1.1789096068690317, "example_words": [] }, { "step": 3818, "pair": [ "मु", "श्" ], "new_token": "मुश्", "frequency": 6, "vocab_size": 4082, "learned_vocab_size": 3818, "compression_ratio": 1.1789289576824662, "example_words": [] }, { "step": 3819, "pair": [ "म", "ंगोलिया" ], "new_token": "मंगोलिया", "frequency": 6, "vocab_size": 4083, "learned_vocab_size": 3819, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3820, "pair": [ "कर्नू", "लु" ], "new_token": "कर्नूलु", "frequency": 6, "vocab_size": 4084, "learned_vocab_size": 3820, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3821, "pair": [ "नै", "ना" ], "new_token": "नैना", "frequency": 6, "vocab_size": 4085, "learned_vocab_size": 3821, "compression_ratio": 1.1789461589388273, "example_words": [] }, { "step": 3822, "pair": [ "मुर", "ली" ], "new_token": "मुरली", "frequency": 6, "vocab_size": 4086, "learned_vocab_size": 3822, "compression_ratio": 1.1789612104499063, "example_words": [] }, { "step": 3823, "pair": [ "देवासं", "आगरा" ], "new_token": "देवासंआगरा", "frequency": 6, "vocab_size": 4087, "learned_vocab_size": 3823, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 3824, "pair": [ "गांव", "आगरा" ], "new_token": "गांवआगरा", "frequency": 6, "vocab_size": 4088, "learned_vocab_size": 3824, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 3825, "pair": [ "इतिहास", "अकबर" ], "new_token": "इतिहासअकबर", "frequency": 6, "vocab_size": 4089, "learned_vocab_size": 3825, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 3826, "pair": [ "मु", "ग़ल" ], "new_token": "मुग़ल", "frequency": 6, "vocab_size": 4090, "learned_vocab_size": 3826, "compression_ratio": 1.1789891642758523, "example_words": [] }, { "step": 3827, "pair": [ "अवध", "आगरा" ], "new_token": "अवधआगरा", "frequency": 6, "vocab_size": 4091, "learned_vocab_size": 3827, "compression_ratio": 1.1790020664887748, "example_words": [] }, { "step": 3828, "pair": [ "सैया", "ं" ], "new_token": "सैयां", "frequency": 6, "vocab_size": 4092, "learned_vocab_size": 3828, "compression_ratio": 1.1790020664887748, "example_words": [] }, { "step": 3829, "pair": [ "सैयां", "आगरा" ], "new_token": "सैयांआगरा", "frequency": 6, "vocab_size": 4093, "learned_vocab_size": 3829, "compression_ratio": 1.1790020664887748, "example_words": [] }, { "step": 3830, "pair": [ "स्थल", "ताजमहल" ], "new_token": "स्थलताजमहल", "frequency": 6, "vocab_size": 4094, "learned_vocab_size": 3830, "compression_ratio": 1.1790020664887748, "example_words": [] }, { "step": 3831, "pair": [ "शी", "श" ], "new_token": "शीश", "frequency": 6, "vocab_size": 4095, "learned_vocab_size": 3831, "compression_ratio": 1.1790020664887748, "example_words": [] }, { "step": 3832, "pair": [ "मुसम्", "मन" ], "new_token": "मुसम्मन", "frequency": 6, "vocab_size": 4096, "learned_vocab_size": 3832, "compression_ratio": 1.1790149689840899, "example_words": [] }, { "step": 3833, "pair": [ "बु", "लंद" ], "new_token": "बुलंद", "frequency": 6, "vocab_size": 4097, "learned_vocab_size": 3833, "compression_ratio": 1.1790149689840899, "example_words": [] }, { "step": 3834, "pair": [ "एतमा", "दु" ], "new_token": "एतमादु", "frequency": 6, "vocab_size": 4098, "learned_vocab_size": 3834, "compression_ratio": 1.1790149689840899, "example_words": [] }, { "step": 3835, "pair": [ "एतमादु", "द्" ], "new_token": "एतमादुद्", "frequency": 6, "vocab_size": 4099, "learned_vocab_size": 3835, "compression_ratio": 1.1790149689840899, "example_words": [] }, { "step": 3836, "pair": [ "एतमादुद्", "दौला" ], "new_token": "एतमादुद्दौला", "frequency": 6, "vocab_size": 4100, "learned_vocab_size": 3836, "compression_ratio": 1.1790149689840899, "example_words": [] }, { "step": 3837, "pair": [ "राम", "बाग" ], "new_token": "रामबाग", "frequency": 6, "vocab_size": 4101, "learned_vocab_size": 3837, "compression_ratio": 1.1790149689840899, "example_words": [] }, { "step": 3838, "pair": [ "मरि", "यम" ], "new_token": "मरियम", "frequency": 6, "vocab_size": 4102, "learned_vocab_size": 3838, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 3839, "pair": [ "मेहता", "ब" ], "new_token": "मेहताब", "frequency": 6, "vocab_size": 4103, "learned_vocab_size": 3839, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 3840, "pair": [ "कै", "मरु" ], "new_token": "कैमरु", "frequency": 6, "vocab_size": 4104, "learned_vocab_size": 3840, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 3841, "pair": [ "कैमरु", "न" ], "new_token": "कैमरुन", "frequency": 6, "vocab_size": 4105, "learned_vocab_size": 3841, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 3842, "pair": [ "ना", "इ" ], "new_token": "नाइ", "frequency": 6, "vocab_size": 4106, "learned_vocab_size": 3842, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 3843, "pair": [ "दिखा", "एँ" ], "new_token": "दिखाएँ", "frequency": 6, "vocab_size": 4107, "learned_vocab_size": 3843, "compression_ratio": 1.1790579793414282, "example_words": [] }, { "step": 3844, "pair": [ "स्वी", "डिश" ], "new_token": "स्वीडिश", "frequency": 6, "vocab_size": 4108, "learned_vocab_size": 3844, "compression_ratio": 1.1790773350260288, "example_words": [] }, { "step": 3845, "pair": [ "ह", "ौ" ], "new_token": "हौ", "frequency": 6, "vocab_size": 4109, "learned_vocab_size": 3845, "compression_ratio": 1.1790773350260288, "example_words": [] }, { "step": 3846, "pair": [ "इला", "कों" ], "new_token": "इलाकों", "frequency": 6, "vocab_size": 4110, "learned_vocab_size": 3846, "compression_ratio": 1.1791268024406483, "example_words": [] }, { "step": 3847, "pair": [ "सी", "मित" ], "new_token": "सीमित", "frequency": 6, "vocab_size": 4111, "learned_vocab_size": 3847, "compression_ratio": 1.1791268024406483, "example_words": [] }, { "step": 3848, "pair": [ "ग", "ञ्ज" ], "new_token": "गञ्ज", "frequency": 6, "vocab_size": 4112, "learned_vocab_size": 3848, "compression_ratio": 1.1791268024406483, "example_words": [] }, { "step": 3849, "pair": [ "दे", "बी" ], "new_token": "देबी", "frequency": 6, "vocab_size": 4113, "learned_vocab_size": 3849, "compression_ratio": 1.179144009470875, "example_words": [] }, { "step": 3850, "pair": [ "चाँ", "दपुर" ], "new_token": "चाँदपुर", "frequency": 6, "vocab_size": 4114, "learned_vocab_size": 3850, "compression_ratio": 1.179156915073121, "example_words": [] }, { "step": 3851, "pair": [ "गू", "गल" ], "new_token": "गूगल", "frequency": 6, "vocab_size": 4115, "learned_vocab_size": 3851, "compression_ratio": 1.1791719719661289, "example_words": [] }, { "step": 3852, "pair": [ "सूची", "बद्ध" ], "new_token": "सूचीबद्ध", "frequency": 6, "vocab_size": 4116, "learned_vocab_size": 3852, "compression_ratio": 1.1792042380317378, "example_words": [] }, { "step": 3853, "pair": [ "शि", "रो" ], "new_token": "शिरो", "frequency": 6, "vocab_size": 4117, "learned_vocab_size": 3853, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 3854, "pair": [ "सी", "टें" ], "new_token": "सीटें", "frequency": 6, "vocab_size": 4118, "learned_vocab_size": 3854, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 3855, "pair": [ "निर्", "भर" ], "new_token": "निर्भर", "frequency": 6, "vocab_size": 4119, "learned_vocab_size": 3855, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 3856, "pair": [ "धी", "श" ], "new_token": "धीश", "frequency": 6, "vocab_size": 4120, "learned_vocab_size": 3856, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 3857, "pair": [ "तुर्", "क" ], "new_token": "तुर्क", "frequency": 6, "vocab_size": 4121, "learned_vocab_size": 3857, "compression_ratio": 1.1792494134902711, "example_words": [] }, { "step": 3858, "pair": [ "सु", "भाष" ], "new_token": "सुभाष", "frequency": 6, "vocab_size": 4122, "learned_vocab_size": 3858, "compression_ratio": 1.1792494134902711, "example_words": [] }, { "step": 3859, "pair": [ "सा", "हे" ], "new_token": "साहे", "frequency": 6, "vocab_size": 4123, "learned_vocab_size": 3859, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 3860, "pair": [ "मा", "स्टर" ], "new_token": "मास्टर", "frequency": 6, "vocab_size": 4124, "learned_vocab_size": 3860, "compression_ratio": 1.1792881380669171, "example_words": [] }, { "step": 3861, "pair": [ "दू", "लापुर" ], "new_token": "दूलापुर", "frequency": 6, "vocab_size": 4125, "learned_vocab_size": 3861, "compression_ratio": 1.1792881380669171, "example_words": [] }, { "step": 3862, "pair": [ "अ", "तरौरा" ], "new_token": "अतरौरा", "frequency": 6, "vocab_size": 4126, "learned_vocab_size": 3862, "compression_ratio": 1.1793010468243166, "example_words": [] }, { "step": 3863, "pair": [ "बस", "गित" ], "new_token": "बसगित", "frequency": 6, "vocab_size": 4127, "learned_vocab_size": 3863, "compression_ratio": 1.1793010468243166, "example_words": [] }, { "step": 3864, "pair": [ "कसौ", "धन" ], "new_token": "कसौधन", "frequency": 6, "vocab_size": 4128, "learned_vocab_size": 3864, "compression_ratio": 1.1793010468243166, "example_words": [] }, { "step": 3865, "pair": [ "क", "सि" ], "new_token": "कसि", "frequency": 6, "vocab_size": 4129, "learned_vocab_size": 3865, "compression_ratio": 1.1793139558643237, "example_words": [] }, { "step": 3866, "pair": [ "उ", "तरौन" ], "new_token": "उतरौन", "frequency": 6, "vocab_size": 4130, "learned_vocab_size": 3866, "compression_ratio": 1.1793591397300163, "example_words": [] }, { "step": 3867, "pair": [ "केश", "व" ], "new_token": "केशव", "frequency": 6, "vocab_size": 4131, "learned_vocab_size": 3867, "compression_ratio": 1.1793591397300163, "example_words": [] }, { "step": 3868, "pair": [ "ग", "हरपुर" ], "new_token": "गहरपुर", "frequency": 6, "vocab_size": 4132, "learned_vocab_size": 3868, "compression_ratio": 1.1793720500418718, "example_words": [] }, { "step": 3869, "pair": [ "गो", "ठ" ], "new_token": "गोठ", "frequency": 6, "vocab_size": 4133, "learned_vocab_size": 3869, "compression_ratio": 1.1793720500418718, "example_words": [] }, { "step": 3870, "pair": [ "रति", "पुर" ], "new_token": "रतिपुर", "frequency": 6, "vocab_size": 4134, "learned_vocab_size": 3870, "compression_ratio": 1.179384960636386, "example_words": [] }, { "step": 3871, "pair": [ "बि", "दा" ], "new_token": "बिदा", "frequency": 6, "vocab_size": 4135, "learned_vocab_size": 3871, "compression_ratio": 1.179384960636386, "example_words": [] }, { "step": 3872, "pair": [ "स", "थर" ], "new_token": "सथर", "frequency": 6, "vocab_size": 4136, "learned_vocab_size": 3872, "compression_ratio": 1.179397871513568, "example_words": [] }, { "step": 3873, "pair": [ "छ", "त" ], "new_token": "छत", "frequency": 6, "vocab_size": 4137, "learned_vocab_size": 3873, "compression_ratio": 1.1794107826734272, "example_words": [] }, { "step": 3874, "pair": [ "छत", "ौना" ], "new_token": "छतौना", "frequency": 6, "vocab_size": 4138, "learned_vocab_size": 3874, "compression_ratio": 1.179436605841214, "example_words": [] }, { "step": 3875, "pair": [ "छिया", "ली" ], "new_token": "छियाली", "frequency": 6, "vocab_size": 4139, "learned_vocab_size": 3875, "compression_ratio": 1.179436605841214, "example_words": [] }, { "step": 3876, "pair": [ "छियाली", "स" ], "new_token": "छियालीस", "frequency": 6, "vocab_size": 4140, "learned_vocab_size": 3876, "compression_ratio": 1.179436605841214, "example_words": [] }, { "step": 3877, "pair": [ "जनु", "वा" ], "new_token": "जनुवा", "frequency": 6, "vocab_size": 4141, "learned_vocab_size": 3877, "compression_ratio": 1.179436605841214, "example_words": [] }, { "step": 3878, "pair": [ "मर", "दापुर" ], "new_token": "मरदापुर", "frequency": 6, "vocab_size": 4142, "learned_vocab_size": 3878, "compression_ratio": 1.179436605841214, "example_words": [] }, { "step": 3879, "pair": [ "दुब", "की" ], "new_token": "दुबकी", "frequency": 6, "vocab_size": 4143, "learned_vocab_size": 3879, "compression_ratio": 1.1794495178491602, "example_words": [] }, { "step": 3880, "pair": [ "दु", "मा" ], "new_token": "दुमा", "frequency": 6, "vocab_size": 4144, "learned_vocab_size": 3880, "compression_ratio": 1.1794624301398207, "example_words": [] }, { "step": 3881, "pair": [ "धो", "वहा" ], "new_token": "धोवहा", "frequency": 6, "vocab_size": 4145, "learned_vocab_size": 3881, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3882, "pair": [ "व", "साना" ], "new_token": "वसाना", "frequency": 6, "vocab_size": 4146, "learned_vocab_size": 3882, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3883, "pair": [ "बरु", "ना" ], "new_token": "बरुना", "frequency": 6, "vocab_size": 4147, "learned_vocab_size": 3883, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3884, "pair": [ "उपा", "ध्याय" ], "new_token": "उपाध्याय", "frequency": 6, "vocab_size": 4148, "learned_vocab_size": 3884, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3885, "pair": [ "ठ", "कुराइन" ], "new_token": "ठकुराइन", "frequency": 6, "vocab_size": 4149, "learned_vocab_size": 3885, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3886, "pair": [ "बरि", "स्ता" ], "new_token": "बरिस्ता", "frequency": 6, "vocab_size": 4150, "learned_vocab_size": 3886, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3887, "pair": [ "मा", "फ़ी" ], "new_token": "माफ़ी", "frequency": 6, "vocab_size": 4151, "learned_vocab_size": 3887, "compression_ratio": 1.1794753427132048, "example_words": [] }, { "step": 3888, "pair": [ "ब", "गहा" ], "new_token": "बगहा", "frequency": 6, "vocab_size": 4152, "learned_vocab_size": 3888, "compression_ratio": 1.1794882555693216, "example_words": [] }, { "step": 3889, "pair": [ "बो", "झ" ], "new_token": "बोझ", "frequency": 6, "vocab_size": 4153, "learned_vocab_size": 3889, "compression_ratio": 1.1795011687081807, "example_words": [] }, { "step": 3890, "pair": [ "बि", "झ" ], "new_token": "बिझ", "frequency": 6, "vocab_size": 4154, "learned_vocab_size": 3890, "compression_ratio": 1.179514082129791, "example_words": [] }, { "step": 3891, "pair": [ "मल", "पाखी" ], "new_token": "मलपाखी", "frequency": 6, "vocab_size": 4155, "learned_vocab_size": 3891, "compression_ratio": 1.179526995834162, "example_words": [] }, { "step": 3892, "pair": [ "मो", "लवा" ], "new_token": "मोलवा", "frequency": 6, "vocab_size": 4156, "learned_vocab_size": 3892, "compression_ratio": 1.179539909821303, "example_words": [] }, { "step": 3893, "pair": [ "म", "पट्टी" ], "new_token": "मपट्टी", "frequency": 6, "vocab_size": 4157, "learned_vocab_size": 3893, "compression_ratio": 1.179539909821303, "example_words": [] }, { "step": 3894, "pair": [ "वली", "पुर" ], "new_token": "वलीपुर", "frequency": 6, "vocab_size": 4158, "learned_vocab_size": 3894, "compression_ratio": 1.179539909821303, "example_words": [] }, { "step": 3895, "pair": [ "शी", "की" ], "new_token": "शीकी", "frequency": 6, "vocab_size": 4159, "learned_vocab_size": 3895, "compression_ratio": 1.179539909821303, "example_words": [] }, { "step": 3896, "pair": [ "सदरे", "पुर" ], "new_token": "सदरेपुर", "frequency": 6, "vocab_size": 4160, "learned_vocab_size": 3896, "compression_ratio": 1.1795528240912234, "example_words": [] }, { "step": 3897, "pair": [ "हरि", "पुर" ], "new_token": "हरिपुर", "frequency": 6, "vocab_size": 4161, "learned_vocab_size": 3897, "compression_ratio": 1.1795528240912234, "example_words": [] }, { "step": 3898, "pair": [ "सारी", "पुर" ], "new_token": "सारीपुर", "frequency": 6, "vocab_size": 4162, "learned_vocab_size": 3898, "compression_ratio": 1.1795528240912234, "example_words": [] }, { "step": 3899, "pair": [ "सिंध", "ौरा" ], "new_token": "सिंधौरा", "frequency": 6, "vocab_size": 4163, "learned_vocab_size": 3899, "compression_ratio": 1.1795528240912234, "example_words": [] }, { "step": 3900, "pair": [ "हा", "किम" ], "new_token": "हाकिम", "frequency": 6, "vocab_size": 4164, "learned_vocab_size": 3900, "compression_ratio": 1.1795528240912234, "example_words": [] }, { "step": 3901, "pair": [ "है", "बतपुर" ], "new_token": "हैबतपुर", "frequency": 6, "vocab_size": 4165, "learned_vocab_size": 3901, "compression_ratio": 1.1795657386439324, "example_words": [ "हैबतपुर", "गड़ियाहैबतपुर" ] }, { "step": 3902, "pair": [ "में", "ढ" ], "new_token": "मेंढ", "frequency": 6, "vocab_size": 4166, "learned_vocab_size": 3902, "compression_ratio": 1.1795657386439324, "example_words": [] }, { "step": 3903, "pair": [ "जा", "वेद" ], "new_token": "जावेद", "frequency": 6, "vocab_size": 4167, "learned_vocab_size": 3903, "compression_ratio": 1.1795657386439324, "example_words": [] }, { "step": 3904, "pair": [ "एवर्", "टन" ], "new_token": "एवर्टन", "frequency": 6, "vocab_size": 4168, "learned_vocab_size": 3904, "compression_ratio": 1.1795808059795183, "example_words": [] }, { "step": 3905, "pair": [ "अज़ी", "ज़" ], "new_token": "अज़ीज़", "frequency": 6, "vocab_size": 4169, "learned_vocab_size": 3905, "compression_ratio": 1.1795808059795183, "example_words": [] }, { "step": 3906, "pair": [ "सिद्धार्", "थ" ], "new_token": "सिद्धार्थ", "frequency": 6, "vocab_size": 4170, "learned_vocab_size": 3906, "compression_ratio": 1.1795808059795183, "example_words": [] }, { "step": 3907, "pair": [ "आई", "॰" ], "new_token": "आई॰", "frequency": 6, "vocab_size": 4171, "learned_vocab_size": 3907, "compression_ratio": 1.1795808059795183, "example_words": [] }, { "step": 3908, "pair": [ "जि", "ंक" ], "new_token": "जिंक", "frequency": 6, "vocab_size": 4172, "learned_vocab_size": 3908, "compression_ratio": 1.1795958737000385, "example_words": [] }, { "step": 3909, "pair": [ "स्ट्रो", "मेयर" ], "new_token": "स्ट्रोमेयर", "frequency": 6, "vocab_size": 4173, "learned_vocab_size": 3909, "compression_ratio": 1.179608789195443, "example_words": [] }, { "step": 3910, "pair": [ "रवि", "शंकर" ], "new_token": "रविशंकर", "frequency": 6, "vocab_size": 4174, "learned_vocab_size": 3910, "compression_ratio": 1.179608789195443, "example_words": [] }, { "step": 3911, "pair": [ "स्नातको", "त्तर" ], "new_token": "स्नातकोत्तर", "frequency": 6, "vocab_size": 4175, "learned_vocab_size": 3911, "compression_ratio": 1.179608789195443, "example_words": [] }, { "step": 3912, "pair": [ "कर्ता", "ओं" ], "new_token": "कर्ताओं", "frequency": 6, "vocab_size": 4176, "learned_vocab_size": 3912, "compression_ratio": 1.179608789195443, "example_words": [] }, { "step": 3913, "pair": [ "एना", "लॉग" ], "new_token": "एनालॉग", "frequency": 6, "vocab_size": 4177, "learned_vocab_size": 3913, "compression_ratio": 1.179608789195443, "example_words": [] }, { "step": 3914, "pair": [ "अवय", "व" ], "new_token": "अवयव", "frequency": 6, "vocab_size": 4178, "learned_vocab_size": 3914, "compression_ratio": 1.179608789195443, "example_words": [] }, { "step": 3915, "pair": [ "सम", "मित" ], "new_token": "सममित", "frequency": 6, "vocab_size": 4179, "learned_vocab_size": 3915, "compression_ratio": 1.1796303156496302, "example_words": [] }, { "step": 3916, "pair": [ "के", "म्" ], "new_token": "केम्", "frequency": 6, "vocab_size": 4180, "learned_vocab_size": 3916, "compression_ratio": 1.1796303156496302, "example_words": [] }, { "step": 3917, "pair": [ "मीना", "क्षी" ], "new_token": "मीनाक्षी", "frequency": 6, "vocab_size": 4181, "learned_vocab_size": 3917, "compression_ratio": 1.1796539956566965, "example_words": [] }, { "step": 3918, "pair": [ "ग", "ंग" ], "new_token": "गंग", "frequency": 6, "vocab_size": 4182, "learned_vocab_size": 3918, "compression_ratio": 1.179669065247106, "example_words": [] }, { "step": 3919, "pair": [ "गढ़", "िया" ], "new_token": "गढ़िया", "frequency": 6, "vocab_size": 4183, "learned_vocab_size": 3919, "compression_ratio": 1.1800502385968243, "example_words": [] }, { "step": 3920, "pair": [ "राज", "पू" ], "new_token": "राजपू", "frequency": 6, "vocab_size": 4184, "learned_vocab_size": 3920, "compression_ratio": 1.1800502385968243, "example_words": [] }, { "step": 3921, "pair": [ "फोटोग्रा", "फर" ], "new_token": "फोटोग्राफर", "frequency": 6, "vocab_size": 4185, "learned_vocab_size": 3921, "compression_ratio": 1.1800631640439592, "example_words": [] }, { "step": 3922, "pair": [ "कि", "॰" ], "new_token": "कि॰", "frequency": 6, "vocab_size": 4186, "learned_vocab_size": 3922, "compression_ratio": 1.1800631640439592, "example_words": [] }, { "step": 3923, "pair": [ "कि॰", "मी॰" ], "new_token": "कि॰मी॰", "frequency": 6, "vocab_size": 4187, "learned_vocab_size": 3923, "compression_ratio": 1.1800847070850904, "example_words": [] }, { "step": 3924, "pair": [ "गि", "नी" ], "new_token": "गिनी", "frequency": 6, "vocab_size": 4188, "learned_vocab_size": 3924, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3925, "pair": [ "ओन्", "गी" ], "new_token": "ओन्गी", "frequency": 6, "vocab_size": 4189, "learned_vocab_size": 3925, "compression_ratio": 1.180112714214515, "example_words": [] }, { "step": 3926, "pair": [ "राय", "गढ़" ], "new_token": "रायगढ़", "frequency": 6, "vocab_size": 4190, "learned_vocab_size": 3926, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3927, "pair": [ "बा", "स्" ], "new_token": "बास्", "frequency": 6, "vocab_size": 4191, "learned_vocab_size": 3927, "compression_ratio": 1.1801277955271565, "example_words": [] }, { "step": 3928, "pair": [ "बास्", "केटबॉल" ], "new_token": "बास्केटबॉल", "frequency": 6, "vocab_size": 4192, "learned_vocab_size": 3928, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3929, "pair": [ "प्राय", "द्वीप" ], "new_token": "प्रायद्वीप", "frequency": 6, "vocab_size": 4193, "learned_vocab_size": 3929, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3930, "pair": [ "सु", "ए" ], "new_token": "सुए", "frequency": 6, "vocab_size": 4194, "learned_vocab_size": 3930, "compression_ratio": 1.1801407226733656, "example_words": [] }, { "step": 3931, "pair": [ "सुए", "ज़" ], "new_token": "सुएज़", "frequency": 6, "vocab_size": 4195, "learned_vocab_size": 3931, "compression_ratio": 1.1801536501027863, "example_words": [] }, { "step": 3932, "pair": [ "जे", "नेट" ], "new_token": "जेनेट", "frequency": 6, "vocab_size": 4196, "learned_vocab_size": 3932, "compression_ratio": 1.180166577815428, "example_words": [] }, { "step": 3933, "pair": [ "रज", "त" ], "new_token": "रजत", "frequency": 6, "vocab_size": 4197, "learned_vocab_size": 3933, "compression_ratio": 1.1801838152061987, "example_words": [] }, { "step": 3934, "pair": [ "आ", "य" ], "new_token": "आय", "frequency": 6, "vocab_size": 4198, "learned_vocab_size": 3934, "compression_ratio": 1.1801988983361846, "example_words": [] }, { "step": 3935, "pair": [ "फ्", "लिक्स" ], "new_token": "फ्लिक्स", "frequency": 6, "vocab_size": 4199, "learned_vocab_size": 3935, "compression_ratio": 1.1799511529081907, "example_words": [] }, { "step": 3936, "pair": [ "मि", "र" ], "new_token": "मिर", "frequency": 6, "vocab_size": 4200, "learned_vocab_size": 3936, "compression_ratio": 1.1799511529081907, "example_words": [] }, { "step": 3937, "pair": [ "एक्सप्रेस", "वे" ], "new_token": "एक्सप्रेसवे", "frequency": 6, "vocab_size": 4201, "learned_vocab_size": 3937, "compression_ratio": 1.179936076109952, "example_words": [] }, { "step": 3938, "pair": [ "४", "७" ], "new_token": "४७", "frequency": 6, "vocab_size": 4202, "learned_vocab_size": 3938, "compression_ratio": 1.179936076109952, "example_words": [] }, { "step": 3939, "pair": [ "किर", "दार" ], "new_token": "किरदार", "frequency": 6, "vocab_size": 4203, "learned_vocab_size": 3939, "compression_ratio": 1.1799597683944596, "example_words": [] }, { "step": 3940, "pair": [ "स", "वैया" ], "new_token": "सवैया", "frequency": 6, "vocab_size": 4204, "learned_vocab_size": 3940, "compression_ratio": 1.1799597683944596, "example_words": [] }, { "step": 3941, "pair": [ "जॉन", "सन" ], "new_token": "जॉनसन", "frequency": 6, "vocab_size": 4205, "learned_vocab_size": 3941, "compression_ratio": 1.1799726918597646, "example_words": [] }, { "step": 3942, "pair": [ "शे", "ड्स" ], "new_token": "शेड्स", "frequency": 6, "vocab_size": 4206, "learned_vocab_size": 3942, "compression_ratio": 1.1799877695937497, "example_words": [] }, { "step": 3943, "pair": [ "अकी", "ल" ], "new_token": "अकील", "frequency": 6, "vocab_size": 4207, "learned_vocab_size": 3943, "compression_ratio": 1.1800006936724297, "example_words": [] }, { "step": 3944, "pair": [ "हेरा", "ल्ड" ], "new_token": "हेराल्ड", "frequency": 6, "vocab_size": 4208, "learned_vocab_size": 3944, "compression_ratio": 1.1800006936724297, "example_words": [] }, { "step": 3945, "pair": [ "ड्र", "ल" ], "new_token": "ड्रल", "frequency": 6, "vocab_size": 4209, "learned_vocab_size": 3945, "compression_ratio": 1.1800006936724297, "example_words": [] }, { "step": 3946, "pair": [ "एर", "केल" ], "new_token": "एरकेल", "frequency": 6, "vocab_size": 4210, "learned_vocab_size": 3946, "compression_ratio": 1.1800222344327025, "example_words": [] }, { "step": 3947, "pair": [ "पार", "माण्" ], "new_token": "पारमाण्", "frequency": 6, "vocab_size": 4211, "learned_vocab_size": 3947, "compression_ratio": 1.1800351592663652, "example_words": [] }, { "step": 3948, "pair": [ "पारमाण्", "विक" ], "new_token": "पारमाण्विक", "frequency": 6, "vocab_size": 4212, "learned_vocab_size": 3948, "compression_ratio": 1.1800351592663652, "example_words": [] }, { "step": 3949, "pair": [ "भ", "दोरिया" ], "new_token": "भदोरिया", "frequency": 6, "vocab_size": 4213, "learned_vocab_size": 3949, "compression_ratio": 1.1800351592663652, "example_words": [] }, { "step": 3950, "pair": [ "अरु", "ंध" ], "new_token": "अरुंध", "frequency": 6, "vocab_size": 4214, "learned_vocab_size": 3950, "compression_ratio": 1.1800351592663652, "example_words": [] }, { "step": 3951, "pair": [ "गोपी", "नाथ" ], "new_token": "गोपीनाथ", "frequency": 5, "vocab_size": 4215, "learned_vocab_size": 3951, "compression_ratio": 1.1800351592663652, "example_words": [] }, { "step": 3952, "pair": [ "सम्", "पादन" ], "new_token": "सम्पादन", "frequency": 5, "vocab_size": 4216, "learned_vocab_size": 3952, "compression_ratio": 1.1800459301773678, "example_words": [] }, { "step": 3953, "pair": [ "धी", "न" ], "new_token": "धीन", "frequency": 5, "vocab_size": 4217, "learned_vocab_size": 3953, "compression_ratio": 1.1800459301773678, "example_words": [] }, { "step": 3954, "pair": [ "मनोर", "ंजन" ], "new_token": "मनोरंजन", "frequency": 5, "vocab_size": 4218, "learned_vocab_size": 3954, "compression_ratio": 1.1800567012849978, "example_words": [] }, { "step": 3955, "pair": [ "न्यू", "ज़" ], "new_token": "न्यूज़", "frequency": 5, "vocab_size": 4219, "learned_vocab_size": 3955, "compression_ratio": 1.1800567012849978, "example_words": [] }, { "step": 3956, "pair": [ "ए", "यर" ], "new_token": "एयर", "frequency": 5, "vocab_size": 4220, "learned_vocab_size": 3956, "compression_ratio": 1.1800567012849978, "example_words": [] }, { "step": 3957, "pair": [ "रिपब्", "लिक" ], "new_token": "रिपब्लिक", "frequency": 5, "vocab_size": 4221, "learned_vocab_size": 3957, "compression_ratio": 1.1800674725892606, "example_words": [] }, { "step": 3958, "pair": [ "सेवानि", "वृत्ति" ], "new_token": "सेवानिवृत्ति", "frequency": 5, "vocab_size": 4222, "learned_vocab_size": 3958, "compression_ratio": 1.1800674725892606, "example_words": [] }, { "step": 3959, "pair": [ "बेह", "द" ], "new_token": "बेहद", "frequency": 5, "vocab_size": 4223, "learned_vocab_size": 3959, "compression_ratio": 1.1800674725892606, "example_words": [] }, { "step": 3960, "pair": [ "उ", "ठा" ], "new_token": "उठा", "frequency": 5, "vocab_size": 4224, "learned_vocab_size": 3960, "compression_ratio": 1.1800782440901614, "example_words": [] }, { "step": 3961, "pair": [ "जे", "न" ], "new_token": "जेन", "frequency": 5, "vocab_size": 4225, "learned_vocab_size": 3961, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3962, "pair": [ "चुन", "ने" ], "new_token": "चुनने", "frequency": 5, "vocab_size": 4226, "learned_vocab_size": 3962, "compression_ratio": 1.1800739354662042, "example_words": [] }, { "step": 3963, "pair": [ "आम", "ंत्रित" ], "new_token": "आमंत्रित", "frequency": 5, "vocab_size": 4227, "learned_vocab_size": 3963, "compression_ratio": 1.1800847070850904, "example_words": [] }, { "step": 3964, "pair": [ "नामालू", "म" ], "new_token": "नामालूम", "frequency": 5, "vocab_size": 4228, "learned_vocab_size": 3964, "compression_ratio": 1.1800847070850904, "example_words": [] }, { "step": 3965, "pair": [ "न", "सबंदी" ], "new_token": "नसबंदी", "frequency": 5, "vocab_size": 4229, "learned_vocab_size": 3965, "compression_ratio": 1.1800847070850904, "example_words": [] }, { "step": 3966, "pair": [ "जो", "खि" ], "new_token": "जोखि", "frequency": 5, "vocab_size": 4230, "learned_vocab_size": 3966, "compression_ratio": 1.1800847070850904, "example_words": [] }, { "step": 3967, "pair": [ "सप्ता", "ह" ], "new_token": "सप्ताह", "frequency": 5, "vocab_size": 4231, "learned_vocab_size": 3967, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3968, "pair": [ "प्रति", "भागी" ], "new_token": "प्रतिभागी", "frequency": 5, "vocab_size": 4232, "learned_vocab_size": 3968, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3969, "pair": [ "अधि", "नियम" ], "new_token": "अधिनियम", "frequency": 5, "vocab_size": 4233, "learned_vocab_size": 3969, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3970, "pair": [ "मैनु", "अल" ], "new_token": "मैनुअल", "frequency": 5, "vocab_size": 4234, "learned_vocab_size": 3970, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3971, "pair": [ "सिन्", "हा" ], "new_token": "सिन्हा", "frequency": 5, "vocab_size": 4235, "learned_vocab_size": 3971, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3972, "pair": [ "उस", "से" ], "new_token": "उससे", "frequency": 5, "vocab_size": 4236, "learned_vocab_size": 3972, "compression_ratio": 1.180097633287328, "example_words": [] }, { "step": 3973, "pair": [ "चु", "की" ], "new_token": "चुकी", "frequency": 5, "vocab_size": 4237, "learned_vocab_size": 3973, "compression_ratio": 1.1801084053388442, "example_words": [] }, { "step": 3974, "pair": [ "शर", "द" ], "new_token": "शरद", "frequency": 5, "vocab_size": 4238, "learned_vocab_size": 3974, "compression_ratio": 1.180119177587019, "example_words": [] }, { "step": 3975, "pair": [ "पुनर्", "गठन" ], "new_token": "पुनर्गठन", "frequency": 5, "vocab_size": 4239, "learned_vocab_size": 3975, "compression_ratio": 1.1801342590648602, "example_words": [] }, { "step": 3976, "pair": [ "ह", "थ" ], "new_token": "हथ", "frequency": 5, "vocab_size": 4240, "learned_vocab_size": 3976, "compression_ratio": 1.1801342590648602, "example_words": [] }, { "step": 3977, "pair": [ "संगठ", "ित" ], "new_token": "संगठित", "frequency": 5, "vocab_size": 4241, "learned_vocab_size": 3977, "compression_ratio": 1.1801536501027863, "example_words": [] }, { "step": 3978, "pair": [ "पो", "षण" ], "new_token": "पोषण", "frequency": 5, "vocab_size": 4242, "learned_vocab_size": 3978, "compression_ratio": 1.1801536501027863, "example_words": [] }, { "step": 3979, "pair": [ "सैय", "्यद" ], "new_token": "सैय्यद", "frequency": 5, "vocab_size": 4243, "learned_vocab_size": 3979, "compression_ratio": 1.180166577815428, "example_words": [] }, { "step": 3980, "pair": [ "सैय", "द" ], "new_token": "सैयद", "frequency": 5, "vocab_size": 4244, "learned_vocab_size": 3980, "compression_ratio": 1.180177351125652, "example_words": [] }, { "step": 3981, "pair": [ "समा", "धि" ], "new_token": "समाधि", "frequency": 5, "vocab_size": 4245, "learned_vocab_size": 3981, "compression_ratio": 1.1801881246325692, "example_words": [] }, { "step": 3982, "pair": [ "दर", "गाह" ], "new_token": "दरगाह", "frequency": 5, "vocab_size": 4246, "learned_vocab_size": 3982, "compression_ratio": 1.1801881246325692, "example_words": [] }, { "step": 3983, "pair": [ "ज", "ंग" ], "new_token": "जंग", "frequency": 5, "vocab_size": 4247, "learned_vocab_size": 3983, "compression_ratio": 1.180201053100512, "example_words": [] }, { "step": 3984, "pair": [ "ग़", "ज़नवी" ], "new_token": "ग़ज़नवी", "frequency": 5, "vocab_size": 4248, "learned_vocab_size": 3984, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3985, "pair": [ "मुस", "लमान" ], "new_token": "मुसलमान", "frequency": 5, "vocab_size": 4249, "learned_vocab_size": 3985, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3986, "pair": [ "हिंदु", "ओं" ], "new_token": "हिंदुओं", "frequency": 5, "vocab_size": 4250, "learned_vocab_size": 3986, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3987, "pair": [ "श", "ृंखला" ], "new_token": "शृंखला", "frequency": 5, "vocab_size": 4251, "learned_vocab_size": 3987, "compression_ratio": 1.1802376852979466, "example_words": [] }, { "step": 3988, "pair": [ "व्य", "ंजन" ], "new_token": "व्यंजन", "frequency": 5, "vocab_size": 4252, "learned_vocab_size": 3988, "compression_ratio": 1.1802570797348866, "example_words": [] }, { "step": 3989, "pair": [ "मुगल", "ई" ], "new_token": "मुगलई", "frequency": 5, "vocab_size": 4253, "learned_vocab_size": 3989, "compression_ratio": 1.1802570797348866, "example_words": [] }, { "step": 3990, "pair": [ "उड़ी", "सा" ], "new_token": "उड़ीसा", "frequency": 5, "vocab_size": 4254, "learned_vocab_size": 3990, "compression_ratio": 1.1802678546974994, "example_words": [] }, { "step": 3991, "pair": [ "महाद्वीपी", "य" ], "new_token": "महाद्वीपीय", "frequency": 5, "vocab_size": 4255, "learned_vocab_size": 3991, "compression_ratio": 1.1802678546974994, "example_words": [] }, { "step": 3992, "pair": [ "पे", "य" ], "new_token": "पेय", "frequency": 5, "vocab_size": 4256, "learned_vocab_size": 3992, "compression_ratio": 1.1802678546974994, "example_words": [] }, { "step": 3993, "pair": [ "पदार्", "थ" ], "new_token": "पदार्थ", "frequency": 5, "vocab_size": 4257, "learned_vocab_size": 3993, "compression_ratio": 1.1802786298568506, "example_words": [] }, { "step": 3994, "pair": [ "क", "स" ], "new_token": "कस", "frequency": 5, "vocab_size": 4258, "learned_vocab_size": 3994, "compression_ratio": 1.1802786298568506, "example_words": [] }, { "step": 3995, "pair": [ "लो", "चन" ], "new_token": "लोचन", "frequency": 5, "vocab_size": 4259, "learned_vocab_size": 3995, "compression_ratio": 1.1802204463335324, "example_words": [] }, { "step": 3996, "pair": [ "वास्तु", "कला" ], "new_token": "वास्तुकला", "frequency": 5, "vocab_size": 4260, "learned_vocab_size": 3996, "compression_ratio": 1.1802333755096301, "example_words": [] }, { "step": 3997, "pair": [ "खु", "टिया" ], "new_token": "खुटिया", "frequency": 5, "vocab_size": 4261, "learned_vocab_size": 3997, "compression_ratio": 1.1802333755096301, "example_words": [] }, { "step": 3998, "pair": [ "तट", "स्थ" ], "new_token": "तटस्थ", "frequency": 5, "vocab_size": 4262, "learned_vocab_size": 3998, "compression_ratio": 1.1802333755096301, "example_words": [] }, { "step": 3999, "pair": [ "द", "गा" ], "new_token": "दगा", "frequency": 5, "vocab_size": 4263, "learned_vocab_size": 3999, "compression_ratio": 1.1802441500394378, "example_words": [] }, { "step": 4000, "pair": [ "दु", "ः" ], "new_token": "दुः", "frequency": 5, "vocab_size": 4264, "learned_vocab_size": 4000, "compression_ratio": 1.1802549247659722, "example_words": [] }, { "step": 4001, "pair": [ "नरे", "श" ], "new_token": "नरेश", "frequency": 5, "vocab_size": 4265, "learned_vocab_size": 4001, "compression_ratio": 1.180265699689238, "example_words": [ "नरेश" ] }, { "step": 4002, "pair": [ "बा", "की" ], "new_token": "बाकी", "frequency": 5, "vocab_size": 4266, "learned_vocab_size": 4002, "compression_ratio": 1.180265699689238, "example_words": [] }, { "step": 4003, "pair": [ "पा", "ए" ], "new_token": "पाए", "frequency": 5, "vocab_size": 4267, "learned_vocab_size": 4003, "compression_ratio": 1.1802764748092411, "example_words": [] }, { "step": 4004, "pair": [ "अत्य", "ंत" ], "new_token": "अत्यंत", "frequency": 5, "vocab_size": 4268, "learned_vocab_size": 4004, "compression_ratio": 1.180287250125987, "example_words": [] }, { "step": 4005, "pair": [ "क", "च" ], "new_token": "कच", "frequency": 5, "vocab_size": 4269, "learned_vocab_size": 4005, "compression_ratio": 1.180287250125987, "example_words": [] }, { "step": 4006, "pair": [ "चा", "ल" ], "new_token": "चाल", "frequency": 5, "vocab_size": 4270, "learned_vocab_size": 4006, "compression_ratio": 1.1801730417779595, "example_words": [] }, { "step": 4007, "pair": [ "छ", "ू" ], "new_token": "छू", "frequency": 5, "vocab_size": 4271, "learned_vocab_size": 4007, "compression_ratio": 1.1801881246325692, "example_words": [] }, { "step": 4008, "pair": [ "पहु", "ंच" ], "new_token": "पहुंच", "frequency": 5, "vocab_size": 4272, "learned_vocab_size": 4008, "compression_ratio": 1.1801988983361846, "example_words": [] }, { "step": 4009, "pair": [ "बी", "ना" ], "new_token": "बीना", "frequency": 5, "vocab_size": 4273, "learned_vocab_size": 4009, "compression_ratio": 1.1801988983361846, "example_words": [] }, { "step": 4010, "pair": [ "भु", "ज" ], "new_token": "भुज", "frequency": 5, "vocab_size": 4274, "learned_vocab_size": 4010, "compression_ratio": 1.1802118270401727, "example_words": [] }, { "step": 4011, "pair": [ "के", "प" ], "new_token": "केप", "frequency": 5, "vocab_size": 4275, "learned_vocab_size": 4011, "compression_ratio": 1.1802226011765435, "example_words": [] }, { "step": 4012, "pair": [ "कालि", "ंदी" ], "new_token": "कालिंदी", "frequency": 5, "vocab_size": 4276, "learned_vocab_size": 4012, "compression_ratio": 1.1802333755096301, "example_words": [] }, { "step": 4013, "pair": [ "हा", "पुर" ], "new_token": "हापुर", "frequency": 5, "vocab_size": 4277, "learned_vocab_size": 4013, "compression_ratio": 1.1802333755096301, "example_words": [] }, { "step": 4014, "pair": [ "विजय", "वाड़ा" ], "new_token": "विजयवाड़ा", "frequency": 5, "vocab_size": 4278, "learned_vocab_size": 4014, "compression_ratio": 1.180248459906444, "example_words": [] }, { "step": 4015, "pair": [ "पर्वती", "य" ], "new_token": "पर्वतीय", "frequency": 5, "vocab_size": 4279, "learned_vocab_size": 4015, "compression_ratio": 1.180248459906444, "example_words": [] }, { "step": 4016, "pair": [ "गल", "त" ], "new_token": "गलत", "frequency": 5, "vocab_size": 4280, "learned_vocab_size": 4016, "compression_ratio": 1.180248459906444, "example_words": [] }, { "step": 4017, "pair": [ "प्रति", "ज्ञप्ति" ], "new_token": "प्रतिज्ञप्ति", "frequency": 5, "vocab_size": 4281, "learned_vocab_size": 4017, "compression_ratio": 1.1802592347116703, "example_words": [] }, { "step": 4018, "pair": [ "जान", "ते" ], "new_token": "जानते", "frequency": 5, "vocab_size": 4282, "learned_vocab_size": 4018, "compression_ratio": 1.1802592347116703, "example_words": [] }, { "step": 4019, "pair": [ "टी", "सी" ], "new_token": "टीसी", "frequency": 5, "vocab_size": 4283, "learned_vocab_size": 4019, "compression_ratio": 1.1802592347116703, "example_words": [] }, { "step": 4020, "pair": [ "आ", "ग" ], "new_token": "आग", "frequency": 5, "vocab_size": 4284, "learned_vocab_size": 4020, "compression_ratio": 1.1805157331482732, "example_words": [] }, { "step": 4021, "pair": [ "आग", "ंतु" ], "new_token": "आगंतु", "frequency": 5, "vocab_size": 4285, "learned_vocab_size": 4021, "compression_ratio": 1.1807119542484734, "example_words": [] }, { "step": 4022, "pair": [ "पत्र", "कार" ], "new_token": "पत्रकार", "frequency": 5, "vocab_size": 4286, "learned_vocab_size": 4022, "compression_ratio": 1.1807119542484734, "example_words": [] }, { "step": 4023, "pair": [ "छ", "वि" ], "new_token": "छवि", "frequency": 5, "vocab_size": 4287, "learned_vocab_size": 4023, "compression_ratio": 1.1807119542484734, "example_words": [] }, { "step": 4024, "pair": [ "आस्", "क" ], "new_token": "आस्क", "frequency": 5, "vocab_size": 4288, "learned_vocab_size": 4024, "compression_ratio": 1.1807248941956956, "example_words": [] }, { "step": 4025, "pair": [ "इमा", "म" ], "new_token": "इमाम", "frequency": 5, "vocab_size": 4289, "learned_vocab_size": 4025, "compression_ratio": 1.1807248941956956, "example_words": [] }, { "step": 4026, "pair": [ "कस्", "बा" ], "new_token": "कस्बा", "frequency": 5, "vocab_size": 4290, "learned_vocab_size": 4026, "compression_ratio": 1.18073783442655, "example_words": [] }, { "step": 4027, "pair": [ "जन", "जातीय" ], "new_token": "जनजातीय", "frequency": 5, "vocab_size": 4291, "learned_vocab_size": 4027, "compression_ratio": 1.18073783442655, "example_words": [] }, { "step": 4028, "pair": [ "केंद्री", "य" ], "new_token": "केंद्रीय", "frequency": 5, "vocab_size": 4292, "learned_vocab_size": 4028, "compression_ratio": 1.1807486181689322, "example_words": [] }, { "step": 4029, "pair": [ "परि", "स्थिति" ], "new_token": "परिस्थिति", "frequency": 5, "vocab_size": 4293, "learned_vocab_size": 4029, "compression_ratio": 1.1807486181689322, "example_words": [] }, { "step": 4030, "pair": [ "तना", "व" ], "new_token": "तनाव", "frequency": 5, "vocab_size": 4294, "learned_vocab_size": 4030, "compression_ratio": 1.1807486181689322, "example_words": [] }, { "step": 4031, "pair": [ "का", "ंत" ], "new_token": "कांत", "frequency": 5, "vocab_size": 4295, "learned_vocab_size": 4031, "compression_ratio": 1.1807486181689322, "example_words": [] }, { "step": 4032, "pair": [ "मि", "श्र" ], "new_token": "मिश्र", "frequency": 5, "vocab_size": 4296, "learned_vocab_size": 4032, "compression_ratio": 1.1807809705779737, "example_words": [] }, { "step": 4033, "pair": [ "म", "म" ], "new_token": "मम", "frequency": 5, "vocab_size": 4297, "learned_vocab_size": 4033, "compression_ratio": 1.1807809705779737, "example_words": [] }, { "step": 4034, "pair": [ "सि", "द्" ], "new_token": "सिद्", "frequency": 5, "vocab_size": 4298, "learned_vocab_size": 4034, "compression_ratio": 1.1808003828744078, "example_words": [] }, { "step": 4035, "pair": [ "य", "दा" ], "new_token": "यदा", "frequency": 5, "vocab_size": 4299, "learned_vocab_size": 4035, "compression_ratio": 1.1808068537817276, "example_words": [] }, { "step": 4036, "pair": [ "अल्", "बर्ट" ], "new_token": "अल्बर्ट", "frequency": 5, "vocab_size": 4300, "learned_vocab_size": 4036, "compression_ratio": 1.1808219528412869, "example_words": [] }, { "step": 4037, "pair": [ "गु", "स्ता" ], "new_token": "गुस्ता", "frequency": 5, "vocab_size": 4301, "learned_vocab_size": 4037, "compression_ratio": 1.1808219528412869, "example_words": [] }, { "step": 4038, "pair": [ "फ्रै", "ंक" ], "new_token": "फ्रैंक", "frequency": 5, "vocab_size": 4302, "learned_vocab_size": 4038, "compression_ratio": 1.1808219528412869, "example_words": [] }, { "step": 4039, "pair": [ "कार्", "ल" ], "new_token": "कार्ल", "frequency": 5, "vocab_size": 4303, "learned_vocab_size": 4039, "compression_ratio": 1.1808219528412869, "example_words": [] }, { "step": 4040, "pair": [ "हॉ", "क्स" ], "new_token": "हॉक्स", "frequency": 5, "vocab_size": 4304, "learned_vocab_size": 4040, "compression_ratio": 1.1808219528412869, "example_words": [] }, { "step": 4041, "pair": [ "सु", "फ़" ], "new_token": "सुफ़", "frequency": 5, "vocab_size": 4305, "learned_vocab_size": 4041, "compression_ratio": 1.180832738120247, "example_words": [] }, { "step": 4042, "pair": [ "लक्ष्", "मण" ], "new_token": "लक्ष्मण", "frequency": 5, "vocab_size": 4306, "learned_vocab_size": 4042, "compression_ratio": 1.180843523596228, "example_words": [] }, { "step": 4043, "pair": [ "पु", "ंजक" ], "new_token": "पुंजक", "frequency": 5, "vocab_size": 4307, "learned_vocab_size": 4043, "compression_ratio": 1.180843523596228, "example_words": [] }, { "step": 4044, "pair": [ "म", "ं" ], "new_token": "मं", "frequency": 5, "vocab_size": 4308, "learned_vocab_size": 4044, "compression_ratio": 1.1808564664274805, "example_words": [] }, { "step": 4045, "pair": [ "मौ", "त" ], "new_token": "मौत", "frequency": 5, "vocab_size": 4309, "learned_vocab_size": 4045, "compression_ratio": 1.1808715667558753, "example_words": [] }, { "step": 4046, "pair": [ "हॉ", "की" ], "new_token": "हॉकी", "frequency": 5, "vocab_size": 4310, "learned_vocab_size": 4046, "compression_ratio": 1.1808996112475154, "example_words": [] }, { "step": 4047, "pair": [ "कु", "श" ], "new_token": "कुश", "frequency": 5, "vocab_size": 4311, "learned_vocab_size": 4047, "compression_ratio": 1.1809103979451467, "example_words": [] }, { "step": 4048, "pair": [ "अफ़", "ग़ानिस्तान" ], "new_token": "अफ़ग़ानिस्तान", "frequency": 5, "vocab_size": 4312, "learned_vocab_size": 4048, "compression_ratio": 1.1807917551083038, "example_words": [] }, { "step": 4049, "pair": [ "वि", "श" ], "new_token": "विश", "frequency": 5, "vocab_size": 4313, "learned_vocab_size": 4049, "compression_ratio": 1.1807917551083038, "example_words": [] }, { "step": 4050, "pair": [ "रख", "ते" ], "new_token": "रखते", "frequency": 5, "vocab_size": 4314, "learned_vocab_size": 4050, "compression_ratio": 1.1780995930328981, "example_words": [] }, { "step": 4051, "pair": [ "फ़", "ौ" ], "new_token": "फ़ौ", "frequency": 5, "vocab_size": 4316, "learned_vocab_size": 4051, "compression_ratio": 1.1781103286384977, "example_words": [] }, { "step": 4052, "pair": [ "उप", "महाद्वीप" ], "new_token": "उपमहाद्वीप", "frequency": 5, "vocab_size": 4317, "learned_vocab_size": 4052, "compression_ratio": 1.1781210644397584, "example_words": [] }, { "step": 4053, "pair": [ "क़", "ा" ], "new_token": "क़ा", "frequency": 5, "vocab_size": 4318, "learned_vocab_size": 4053, "compression_ratio": 1.1781210644397584, "example_words": [] }, { "step": 4054, "pair": [ "स्थाना", "ंतरित" ], "new_token": "स्थानांतरित", "frequency": 5, "vocab_size": 4319, "learned_vocab_size": 4054, "compression_ratio": 1.178133947659552, "example_words": [] }, { "step": 4055, "pair": [ "ब", "ंगलु" ], "new_token": "बंगलु", "frequency": 5, "vocab_size": 4320, "learned_vocab_size": 4055, "compression_ratio": 1.178133947659552, "example_words": [] }, { "step": 4056, "pair": [ "बंगलु", "रु" ], "new_token": "बंगलुरु", "frequency": 5, "vocab_size": 4321, "learned_vocab_size": 4056, "compression_ratio": 1.178133947659552, "example_words": [] }, { "step": 4057, "pair": [ "कॉ", "टन" ], "new_token": "कॉटन", "frequency": 5, "vocab_size": 4322, "learned_vocab_size": 4057, "compression_ratio": 1.178133947659552, "example_words": [] }, { "step": 4058, "pair": [ "अनु", "भाग" ], "new_token": "अनुभाग", "frequency": 5, "vocab_size": 4323, "learned_vocab_size": 4058, "compression_ratio": 1.1781446838912866, "example_words": [] }, { "step": 4059, "pair": [ "सिए", "शन" ], "new_token": "सिएशन", "frequency": 5, "vocab_size": 4324, "learned_vocab_size": 4059, "compression_ratio": 1.1781446838912866, "example_words": [] }, { "step": 4060, "pair": [ "दू", "त" ], "new_token": "दूत", "frequency": 5, "vocab_size": 4325, "learned_vocab_size": 4060, "compression_ratio": 1.1781554203186997, "example_words": [] }, { "step": 4061, "pair": [ "ए", "ण्ड" ], "new_token": "एण्ड", "frequency": 5, "vocab_size": 4326, "learned_vocab_size": 4061, "compression_ratio": 1.1781725990095853, "example_words": [] }, { "step": 4062, "pair": [ "प", "वन" ], "new_token": "पवन", "frequency": 5, "vocab_size": 4327, "learned_vocab_size": 4062, "compression_ratio": 1.1781725990095853, "example_words": [] }, { "step": 4063, "pair": [ "उप", "भाषा" ], "new_token": "उपभाषा", "frequency": 5, "vocab_size": 4328, "learned_vocab_size": 4063, "compression_ratio": 1.1781854833565113, "example_words": [] }, { "step": 4064, "pair": [ "म्", "परा" ], "new_token": "म्परा", "frequency": 5, "vocab_size": 4329, "learned_vocab_size": 4064, "compression_ratio": 1.1781854833565113, "example_words": [] }, { "step": 4065, "pair": [ "भारत", "जनसंख्या" ], "new_token": "भारतजनसंख्या", "frequency": 5, "vocab_size": 4330, "learned_vocab_size": 4065, "compression_ratio": 1.1781854833565113, "example_words": [] }, { "step": 4066, "pair": [ "बिष्णु", "पुर" ], "new_token": "बिष्णुपुर", "frequency": 5, "vocab_size": 4331, "learned_vocab_size": 4066, "compression_ratio": 1.1781854833565113, "example_words": [] }, { "step": 4067, "pair": [ "छाया", "कार" ], "new_token": "छायाकार", "frequency": 5, "vocab_size": 4332, "learned_vocab_size": 4067, "compression_ratio": 1.1781854833565113, "example_words": [] }, { "step": 4068, "pair": [ "मिनट", "देश" ], "new_token": "मिनटदेश", "frequency": 5, "vocab_size": 4333, "learned_vocab_size": 4068, "compression_ratio": 1.1781854833565113, "example_words": [] }, { "step": 4069, "pair": [ "कारो", "बार" ], "new_token": "कारोबार", "frequency": 5, "vocab_size": 4334, "learned_vocab_size": 4069, "compression_ratio": 1.1781962205275514, "example_words": [] }, { "step": 4070, "pair": [ "बे", "टा" ], "new_token": "बेटा", "frequency": 5, "vocab_size": 4335, "learned_vocab_size": 4070, "compression_ratio": 1.1781962205275514, "example_words": [] }, { "step": 4071, "pair": [ "सौ", "ं" ], "new_token": "सौं", "frequency": 5, "vocab_size": 4336, "learned_vocab_size": 4071, "compression_ratio": 1.1782155479286014, "example_words": [] }, { "step": 4072, "pair": [ "पुदु", "चेरी" ], "new_token": "पुदुचेरी", "frequency": 5, "vocab_size": 4337, "learned_vocab_size": 4072, "compression_ratio": 1.1782305807900377, "example_words": [] }, { "step": 4073, "pair": [ "श", "त्रु" ], "new_token": "शत्रु", "frequency": 5, "vocab_size": 4338, "learned_vocab_size": 4073, "compression_ratio": 1.1782305807900377, "example_words": [] }, { "step": 4074, "pair": [ "सा", "ग" ], "new_token": "साग", "frequency": 5, "vocab_size": 4339, "learned_vocab_size": 4074, "compression_ratio": 1.1782305807900377, "example_words": [] }, { "step": 4075, "pair": [ "ठी", "क" ], "new_token": "ठीक", "frequency": 5, "vocab_size": 4340, "learned_vocab_size": 4075, "compression_ratio": 1.1781210644397584, "example_words": [] }, { "step": 4076, "pair": [ "भूत", "पूर्व" ], "new_token": "भूतपूर्व", "frequency": 5, "vocab_size": 4341, "learned_vocab_size": 4076, "compression_ratio": 1.178131800436686, "example_words": [] }, { "step": 4077, "pair": [ "फ़ि", "लि" ], "new_token": "फ़िलि", "frequency": 5, "vocab_size": 4342, "learned_vocab_size": 4077, "compression_ratio": 1.1781425366292855, "example_words": [] }, { "step": 4078, "pair": [ "फ़िलि", "पी" ], "new_token": "फ़िलिपी", "frequency": 5, "vocab_size": 4343, "learned_vocab_size": 4078, "compression_ratio": 1.1781554203186997, "example_words": [] }, { "step": 4079, "pair": [ "न्", "ज़" ], "new_token": "न्ज़", "frequency": 5, "vocab_size": 4344, "learned_vocab_size": 4079, "compression_ratio": 1.1781683042898985, "example_words": [] }, { "step": 4080, "pair": [ "उत्तरा", "खंड" ], "new_token": "उत्तराखंड", "frequency": 5, "vocab_size": 4345, "learned_vocab_size": 4080, "compression_ratio": 1.1781811885428912, "example_words": [] }, { "step": 4081, "pair": [ "बेरी", "नाग" ], "new_token": "बेरीनाग", "frequency": 5, "vocab_size": 4346, "learned_vocab_size": 4081, "compression_ratio": 1.1781811885428912, "example_words": [] }, { "step": 4082, "pair": [ "कस्", "बे" ], "new_token": "कस्बे", "frequency": 5, "vocab_size": 4347, "learned_vocab_size": 4082, "compression_ratio": 1.1781811885428912, "example_words": [] }, { "step": 4083, "pair": [ "स्थि", "र" ], "new_token": "स्थिर", "frequency": 5, "vocab_size": 4348, "learned_vocab_size": 4083, "compression_ratio": 1.1781811885428912, "example_words": [] }, { "step": 4084, "pair": [ "ध्", "द" ], "new_token": "ध्द", "frequency": 5, "vocab_size": 4349, "learned_vocab_size": 4084, "compression_ratio": 1.1781811885428912, "example_words": [] }, { "step": 4085, "pair": [ "झु", "ं" ], "new_token": "झुं", "frequency": 5, "vocab_size": 4350, "learned_vocab_size": 4085, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 4086, "pair": [ "झुं", "झु" ], "new_token": "झुंझु", "frequency": 5, "vocab_size": 4351, "learned_vocab_size": 4086, "compression_ratio": 1.1782048104052902, "example_words": [] }, { "step": 4087, "pair": [ "झुंझु", "नू" ], "new_token": "झुंझुनू", "frequency": 5, "vocab_size": 4352, "learned_vocab_size": 4087, "compression_ratio": 1.1782155479286014, "example_words": [] }, { "step": 4088, "pair": [ "सिरो", "ही" ], "new_token": "सिरोही", "frequency": 5, "vocab_size": 4353, "learned_vocab_size": 4088, "compression_ratio": 1.1782262856476267, "example_words": [] }, { "step": 4089, "pair": [ "कि", "शन" ], "new_token": "किशन", "frequency": 5, "vocab_size": 4354, "learned_vocab_size": 4089, "compression_ratio": 1.1782262856476267, "example_words": [] }, { "step": 4090, "pair": [ "म", "ट" ], "new_token": "मट", "frequency": 5, "vocab_size": 4355, "learned_vocab_size": 4090, "compression_ratio": 1.1782885682777227, "example_words": [] }, { "step": 4091, "pair": [ "आ", "का" ], "new_token": "आका", "frequency": 5, "vocab_size": 4356, "learned_vocab_size": 4091, "compression_ratio": 1.178277829423452, "example_words": [] }, { "step": 4092, "pair": [ "धर", "मपुर" ], "new_token": "धरमपुर", "frequency": 5, "vocab_size": 4357, "learned_vocab_size": 4092, "compression_ratio": 1.1783078987087037, "example_words": [] }, { "step": 4093, "pair": [ "बा", "जिदपुर" ], "new_token": "बाजिदपुर", "frequency": 5, "vocab_size": 4358, "learned_vocab_size": 4093, "compression_ratio": 1.1783186381110882, "example_words": [] }, { "step": 4094, "pair": [ "बाली", "पुर" ], "new_token": "बालीपुर", "frequency": 5, "vocab_size": 4359, "learned_vocab_size": 4094, "compression_ratio": 1.1783186381110882, "example_words": [] }, { "step": 4095, "pair": [ "उड", "्ड" ], "new_token": "उड्ड", "frequency": 5, "vocab_size": 4360, "learned_vocab_size": 4095, "compression_ratio": 1.1783186381110882, "example_words": [] }, { "step": 4096, "pair": [ "उड्ड", "यन" ], "new_token": "उड्डयन", "frequency": 5, "vocab_size": 4361, "learned_vocab_size": 4096, "compression_ratio": 1.1783293777092378, "example_words": [] }, { "step": 4097, "pair": [ "ज", "ड़" ], "new_token": "जड़", "frequency": 5, "vocab_size": 4362, "learned_vocab_size": 4097, "compression_ratio": 1.1783401175031583, "example_words": [] }, { "step": 4098, "pair": [ "बी", "स" ], "new_token": "बीस", "frequency": 5, "vocab_size": 4363, "learned_vocab_size": 4098, "compression_ratio": 1.178353005514287, "example_words": [] }, { "step": 4099, "pair": [ "डिज़ा", "इन" ], "new_token": "डिज़ाइन", "frequency": 5, "vocab_size": 4364, "learned_vocab_size": 4099, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 4100, "pair": [ "प्रा", "णी" ], "new_token": "प्राणी", "frequency": 5, "vocab_size": 4365, "learned_vocab_size": 4100, "compression_ratio": 1.1783830786366511, "example_words": [] }, { "step": 4101, "pair": [ "खो", "कर" ], "new_token": "खोकर", "frequency": 5, "vocab_size": 4366, "learned_vocab_size": 4101, "compression_ratio": 1.1783830786366511, "example_words": [ "खोकर" ] }, { "step": 4102, "pair": [ "से", "ल" ], "new_token": "सेल", "frequency": 5, "vocab_size": 4367, "learned_vocab_size": 4102, "compression_ratio": 1.1783938194095043, "example_words": [] }, { "step": 4103, "pair": [ "गणित", "ज्ञ" ], "new_token": "गणितज्ञ", "frequency": 5, "vocab_size": 4368, "learned_vocab_size": 4103, "compression_ratio": 1.1783938194095043, "example_words": [] }, { "step": 4104, "pair": [ "गणिती", "य" ], "new_token": "गणितीय", "frequency": 5, "vocab_size": 4369, "learned_vocab_size": 4104, "compression_ratio": 1.1783938194095043, "example_words": [] }, { "step": 4105, "pair": [ "भ", "क्त" ], "new_token": "भक्त", "frequency": 5, "vocab_size": 4370, "learned_vocab_size": 4105, "compression_ratio": 1.1783938194095043, "example_words": [] }, { "step": 4106, "pair": [ "इ", "तनी" ], "new_token": "इतनी", "frequency": 5, "vocab_size": 4371, "learned_vocab_size": 4106, "compression_ratio": 1.1784346361321114, "example_words": [] }, { "step": 4107, "pair": [ "झ", "ो" ], "new_token": "झो", "frequency": 5, "vocab_size": 4372, "learned_vocab_size": 4107, "compression_ratio": 1.1784346361321114, "example_words": [] }, { "step": 4108, "pair": [ "ब", "जार" ], "new_token": "बजार", "frequency": 5, "vocab_size": 4373, "learned_vocab_size": 4108, "compression_ratio": 1.178447526210916, "example_words": [] }, { "step": 4109, "pair": [ "सो", "या" ], "new_token": "सोया", "frequency": 5, "vocab_size": 4374, "learned_vocab_size": 4109, "compression_ratio": 1.178447526210916, "example_words": [] }, { "step": 4110, "pair": [ "२००", "२" ], "new_token": "२००२", "frequency": 5, "vocab_size": 4375, "learned_vocab_size": 4110, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 4111, "pair": [ "नि", "देशक" ], "new_token": "निदेशक", "frequency": 5, "vocab_size": 4376, "learned_vocab_size": 4111, "compression_ratio": 1.178469010302249, "example_words": [] }, { "step": 4112, "pair": [ "भूमिका", "ओं" ], "new_token": "भूमिकाओं", "frequency": 5, "vocab_size": 4377, "learned_vocab_size": 4112, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 4113, "pair": [ "जिम्", "मे" ], "new_token": "जिम्मे", "frequency": 5, "vocab_size": 4378, "learned_vocab_size": 4113, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 4114, "pair": [ "देशा", "ंक" ], "new_token": "देशांक", "frequency": 5, "vocab_size": 4379, "learned_vocab_size": 4114, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 4115, "pair": [ "पिना", "क" ], "new_token": "पिनाक", "frequency": 5, "vocab_size": 4380, "learned_vocab_size": 4115, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 4116, "pair": [ "श्री", "राम" ], "new_token": "श्रीराम", "frequency": 5, "vocab_size": 4381, "learned_vocab_size": 4116, "compression_ratio": 1.1785098322339755, "example_words": [] }, { "step": 4117, "pair": [ "देख", "ते" ], "new_token": "देखते", "frequency": 5, "vocab_size": 4382, "learned_vocab_size": 4117, "compression_ratio": 1.1785098322339755, "example_words": [] }, { "step": 4118, "pair": [ "पुन", "ः" ], "new_token": "पुनः", "frequency": 5, "vocab_size": 4383, "learned_vocab_size": 4118, "compression_ratio": 1.1785205753176407, "example_words": [] }, { "step": 4119, "pair": [ "रामा", "य" ], "new_token": "रामाय", "frequency": 5, "vocab_size": 4384, "learned_vocab_size": 4119, "compression_ratio": 1.178531318597172, "example_words": [] }, { "step": 4120, "pair": [ "रामाय", "ण" ], "new_token": "रामायण", "frequency": 5, "vocab_size": 4385, "learned_vocab_size": 4120, "compression_ratio": 1.178531318597172, "example_words": [] }, { "step": 4121, "pair": [ "ला", "स" ], "new_token": "लास", "frequency": 5, "vocab_size": 4386, "learned_vocab_size": 4121, "compression_ratio": 1.178531318597172, "example_words": [] }, { "step": 4122, "pair": [ "अमरी", "की" ], "new_token": "अमरीकी", "frequency": 5, "vocab_size": 4387, "learned_vocab_size": 4122, "compression_ratio": 1.1785463595175802, "example_words": [] }, { "step": 4123, "pair": [ "प्रो", "फ़ेसर" ], "new_token": "प्रोफ़ेसर", "frequency": 5, "vocab_size": 4388, "learned_vocab_size": 4123, "compression_ratio": 1.1785463595175802, "example_words": [] }, { "step": 4124, "pair": [ "डब्", "लिन" ], "new_token": "डब्लिन", "frequency": 5, "vocab_size": 4389, "learned_vocab_size": 4124, "compression_ratio": 1.1785463595175802, "example_words": [] }, { "step": 4125, "pair": [ "एग्री", "कल्चरल" ], "new_token": "एग्रीकल्चरल", "frequency": 5, "vocab_size": 4390, "learned_vocab_size": 4125, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 4126, "pair": [ "ट्यू", "ट" ], "new_token": "ट्यूट", "frequency": 5, "vocab_size": 4391, "learned_vocab_size": 4126, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 4127, "pair": [ "२००", "४" ], "new_token": "२००४", "frequency": 5, "vocab_size": 4392, "learned_vocab_size": 4127, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 4128, "pair": [ "२००", "८" ], "new_token": "२००८", "frequency": 5, "vocab_size": 4393, "learned_vocab_size": 4128, "compression_ratio": 1.1785764425101783, "example_words": [] }, { "step": 4129, "pair": [ "श", "त" ], "new_token": "शत", "frequency": 5, "vocab_size": 4394, "learned_vocab_size": 4129, "compression_ratio": 1.1785914845823975, "example_words": [] }, { "step": 4130, "pair": [ "प्रेसि", "डेंट" ], "new_token": "प्रेसिडेंट", "frequency": 5, "vocab_size": 4395, "learned_vocab_size": 4130, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 4131, "pair": [ "मु", "द्रा" ], "new_token": "मुद्रा", "frequency": 5, "vocab_size": 4396, "learned_vocab_size": 4131, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 4132, "pair": [ "त्रु", "टि" ], "new_token": "त्रुटि", "frequency": 5, "vocab_size": 4397, "learned_vocab_size": 4132, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 4133, "pair": [ "औ", "पचारिक" ], "new_token": "औपचारिक", "frequency": 5, "vocab_size": 4398, "learned_vocab_size": 4133, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 4134, "pair": [ "लक्षण", "ों" ], "new_token": "लक्षणों", "frequency": 5, "vocab_size": 4399, "learned_vocab_size": 4134, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 4135, "pair": [ "ं", "व" ], "new_token": "ंव", "frequency": 5, "vocab_size": 4400, "learned_vocab_size": 4135, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 4136, "pair": [ "प्रतिनि", "धि" ], "new_token": "प्रतिनिधि", "frequency": 5, "vocab_size": 4401, "learned_vocab_size": 4136, "compression_ratio": 1.1784153015426235, "example_words": [] }, { "step": 4137, "pair": [ "बॉ", "क्स" ], "new_token": "बॉक्स", "frequency": 5, "vocab_size": 4402, "learned_vocab_size": 4137, "compression_ratio": 1.1784153015426235, "example_words": [] }, { "step": 4138, "pair": [ "दृष्टिको", "ण" ], "new_token": "दृष्टिकोण", "frequency": 5, "vocab_size": 4403, "learned_vocab_size": 4138, "compression_ratio": 1.178428191198454, "example_words": [] }, { "step": 4139, "pair": [ "भी", "ड़" ], "new_token": "भीड़", "frequency": 5, "vocab_size": 4404, "learned_vocab_size": 4139, "compression_ratio": 1.178428191198454, "example_words": [] }, { "step": 4140, "pair": [ "मूर्ति", "यों" ], "new_token": "मूर्तियों", "frequency": 5, "vocab_size": 4405, "learned_vocab_size": 4140, "compression_ratio": 1.178443229486649, "example_words": [] }, { "step": 4141, "pair": [ "न्यूज़ी", "लैंड" ], "new_token": "न्यूज़ीलैंड", "frequency": 5, "vocab_size": 4406, "learned_vocab_size": 4141, "compression_ratio": 1.178443229486649, "example_words": [] }, { "step": 4142, "pair": [ "द्", "द" ], "new_token": "द्द", "frequency": 5, "vocab_size": 4407, "learned_vocab_size": 4142, "compression_ratio": 1.178443229486649, "example_words": [] }, { "step": 4143, "pair": [ "ती", "सरा" ], "new_token": "तीसरा", "frequency": 5, "vocab_size": 4408, "learned_vocab_size": 4143, "compression_ratio": 1.1780180088239958, "example_words": [] }, { "step": 4144, "pair": [ "ठ", "े" ], "new_token": "ठे", "frequency": 5, "vocab_size": 4409, "learned_vocab_size": 4144, "compression_ratio": 1.1780180088239958, "example_words": [] }, { "step": 4145, "pair": [ "रा", "धन" ], "new_token": "राधन", "frequency": 5, "vocab_size": 4410, "learned_vocab_size": 4145, "compression_ratio": 1.1780308897899676, "example_words": [] }, { "step": 4146, "pair": [ "पि", "न" ], "new_token": "पिन", "frequency": 5, "vocab_size": 4411, "learned_vocab_size": 4146, "compression_ratio": 1.178043771037635, "example_words": [] }, { "step": 4147, "pair": [ "४", "२" ], "new_token": "४२", "frequency": 5, "vocab_size": 4412, "learned_vocab_size": 4147, "compression_ratio": 1.1780394772571126, "example_words": [] }, { "step": 4148, "pair": [ "गु", "र्" ], "new_token": "गुर्", "frequency": 5, "vocab_size": 4413, "learned_vocab_size": 4148, "compression_ratio": 1.1780523586925817, "example_words": [] }, { "step": 4149, "pair": [ "ष्", "क" ], "new_token": "ष्क", "frequency": 5, "vocab_size": 4414, "learned_vocab_size": 4149, "compression_ratio": 1.1780630934373348, "example_words": [] }, { "step": 4150, "pair": [ "नाथ", "पुर" ], "new_token": "नाथपुर", "frequency": 5, "vocab_size": 4415, "learned_vocab_size": 4150, "compression_ratio": 1.1780867105644444, "example_words": [] }, { "step": 4151, "pair": [ "रा", "हा" ], "new_token": "राहा", "frequency": 5, "vocab_size": 4416, "learned_vocab_size": 4151, "compression_ratio": 1.1780995930328981, "example_words": [] }, { "step": 4152, "pair": [ "ल", "स" ], "new_token": "लस", "frequency": 5, "vocab_size": 4417, "learned_vocab_size": 4152, "compression_ratio": 1.1781124757830967, "example_words": [] }, { "step": 4153, "pair": [ "बिशु", "नपुर" ], "new_token": "बिशुनपुर", "frequency": 5, "vocab_size": 4418, "learned_vocab_size": 4153, "compression_ratio": 1.1780545056258815, "example_words": [] }, { "step": 4154, "pair": [ "ग्रन्", "थ" ], "new_token": "ग्रन्थ", "frequency": 5, "vocab_size": 4419, "learned_vocab_size": 4154, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 4155, "pair": [ "वर्गी", "करण" ], "new_token": "वर्गीकरण", "frequency": 5, "vocab_size": 4420, "learned_vocab_size": 4155, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 4156, "pair": [ "अरु", "ण" ], "new_token": "अरुण", "frequency": 5, "vocab_size": 4421, "learned_vocab_size": 4156, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 4157, "pair": [ "वास्त", "विक" ], "new_token": "वास्तविक", "frequency": 5, "vocab_size": 4422, "learned_vocab_size": 4157, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 4158, "pair": [ "स्", "क" ], "new_token": "स्क", "frequency": 5, "vocab_size": 4423, "learned_vocab_size": 4158, "compression_ratio": 1.1780652404097618, "example_words": [] }, { "step": 4159, "pair": [ "मे", "ज़" ], "new_token": "मेज़", "frequency": 5, "vocab_size": 4424, "learned_vocab_size": 4159, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 4160, "pair": [ "से", "वन" ], "new_token": "सेवन", "frequency": 5, "vocab_size": 4425, "learned_vocab_size": 4160, "compression_ratio": 1.1770655983975964, "example_words": [] }, { "step": 4161, "pair": [ "ऐ", "ंड" ], "new_token": "ऐंड", "frequency": 5, "vocab_size": 4426, "learned_vocab_size": 4161, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 4162, "pair": [ "स", "स" ], "new_token": "सस", "frequency": 5, "vocab_size": 4427, "learned_vocab_size": 4162, "compression_ratio": 1.1770977492898245, "example_words": [] }, { "step": 4163, "pair": [ "शिंग", "टन" ], "new_token": "शिंगटन", "frequency": 5, "vocab_size": 4428, "learned_vocab_size": 4163, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 4164, "pair": [ "दिवसी", "य" ], "new_token": "दिवसीय", "frequency": 5, "vocab_size": 4429, "learned_vocab_size": 4164, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4165, "pair": [ "अकिनगा", "म" ], "new_token": "अकिनगाम", "frequency": 5, "vocab_size": 4430, "learned_vocab_size": 4165, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4166, "pair": [ "समा", "योजित" ], "new_token": "समायोजित", "frequency": 5, "vocab_size": 4431, "learned_vocab_size": 4166, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4167, "pair": [ "अभि", "व्यक्ति" ], "new_token": "अभिव्यक्ति", "frequency": 5, "vocab_size": 4432, "learned_vocab_size": 4167, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4168, "pair": [ "इ", "च्छा" ], "new_token": "इच्छा", "frequency": 5, "vocab_size": 4433, "learned_vocab_size": 4168, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4169, "pair": [ "अभ", "्या" ], "new_token": "अभ्या", "frequency": 5, "vocab_size": 4434, "learned_vocab_size": 4169, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4170, "pair": [ "अ", "ं" ], "new_token": "अं", "frequency": 5, "vocab_size": 4435, "learned_vocab_size": 4170, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 4171, "pair": [ "बि", "र" ], "new_token": "बिर", "frequency": 5, "vocab_size": 4436, "learned_vocab_size": 4171, "compression_ratio": 1.1767934578792723, "example_words": [] }, { "step": 4172, "pair": [ "बा", "जार" ], "new_token": "बाजार", "frequency": 5, "vocab_size": 4437, "learned_vocab_size": 4172, "compression_ratio": 1.1768213090012725, "example_words": [] }, { "step": 4173, "pair": [ "धनरू", "आ" ], "new_token": "धनरूआ", "frequency": 5, "vocab_size": 4438, "learned_vocab_size": 4173, "compression_ratio": 1.1768213090012725, "example_words": [] }, { "step": 4174, "pair": [ "ज", "वान" ], "new_token": "जवान", "frequency": 5, "vocab_size": 4439, "learned_vocab_size": 4174, "compression_ratio": 1.1768213090012725, "example_words": [] }, { "step": 4175, "pair": [ "श्व", "सन" ], "new_token": "श्वसन", "frequency": 5, "vocab_size": 4440, "learned_vocab_size": 4175, "compression_ratio": 1.1768213090012725, "example_words": [] }, { "step": 4176, "pair": [ "प्", "टर" ], "new_token": "प्टर", "frequency": 5, "vocab_size": 4441, "learned_vocab_size": 4176, "compression_ratio": 1.1768341638099122, "example_words": [] }, { "step": 4177, "pair": [ "इले", "क्ट्रॉन" ], "new_token": "इलेक्ट्रॉन", "frequency": 5, "vocab_size": 4442, "learned_vocab_size": 4177, "compression_ratio": 1.1768534465494453, "example_words": [] }, { "step": 4178, "pair": [ "टोर", "ंटो" ], "new_token": "टोरंटो", "frequency": 5, "vocab_size": 4443, "learned_vocab_size": 4178, "compression_ratio": 1.1768534465494453, "example_words": [] }, { "step": 4179, "pair": [ "अब्", "बा" ], "new_token": "अब्बा", "frequency": 5, "vocab_size": 4444, "learned_vocab_size": 4179, "compression_ratio": 1.1768534465494453, "example_words": [] }, { "step": 4180, "pair": [ "१९", "७" ], "new_token": "१९७", "frequency": 5, "vocab_size": 4445, "learned_vocab_size": 4180, "compression_ratio": 1.1768534465494453, "example_words": [] }, { "step": 4181, "pair": [ "फ़्रांसी", "सी" ], "new_token": "फ़्रांसीसी", "frequency": 5, "vocab_size": 4446, "learned_vocab_size": 4181, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 4182, "pair": [ "लू", "सी" ], "new_token": "लूसी", "frequency": 5, "vocab_size": 4447, "learned_vocab_size": 4182, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 4183, "pair": [ "डि", "फ़ार्" ], "new_token": "डिफ़ार्", "frequency": 5, "vocab_size": 4448, "learned_vocab_size": 4183, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4184, "pair": [ "डिफ़ार्", "गे" ], "new_token": "डिफ़ार्गे", "frequency": 5, "vocab_size": 4449, "learned_vocab_size": 4184, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4185, "pair": [ "शरा", "ब" ], "new_token": "शराब", "frequency": 5, "vocab_size": 4450, "learned_vocab_size": 4185, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4186, "pair": [ "दि", "ख" ], "new_token": "दिख", "frequency": 5, "vocab_size": 4451, "learned_vocab_size": 4186, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4187, "pair": [ "ब", "ग्" ], "new_token": "बग्", "frequency": 5, "vocab_size": 4452, "learned_vocab_size": 4187, "compression_ratio": 1.1767656080755122, "example_words": [] }, { "step": 4188, "pair": [ "गणे", "श" ], "new_token": "गणेश", "frequency": 5, "vocab_size": 4453, "learned_vocab_size": 4188, "compression_ratio": 1.176776319382498, "example_words": [] }, { "step": 4189, "pair": [ "नक्", "शा" ], "new_token": "नक्शा", "frequency": 5, "vocab_size": 4454, "learned_vocab_size": 4189, "compression_ratio": 1.176791315539875, "example_words": [] }, { "step": 4190, "pair": [ "सू", "चित" ], "new_token": "सूचित", "frequency": 5, "vocab_size": 4455, "learned_vocab_size": 4190, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4191, "pair": [ "ग्रे", "ट" ], "new_token": "ग्रेट", "frequency": 5, "vocab_size": 4456, "learned_vocab_size": 4191, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4192, "pair": [ "ब्रि", "टेन" ], "new_token": "ब्रिटेन", "frequency": 5, "vocab_size": 4457, "learned_vocab_size": 4192, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4193, "pair": [ "हि", "स्सों" ], "new_token": "हिस्सों", "frequency": 5, "vocab_size": 4458, "learned_vocab_size": 4193, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4194, "pair": [ "ड़ि", "यों" ], "new_token": "ड़ियों", "frequency": 5, "vocab_size": 4459, "learned_vocab_size": 4194, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4195, "pair": [ "इन्", "हीं" ], "new_token": "इन्हीं", "frequency": 5, "vocab_size": 4460, "learned_vocab_size": 4195, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4196, "pair": [ "ँ", "ग" ], "new_token": "ँग", "frequency": 5, "vocab_size": 4461, "learned_vocab_size": 4196, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4197, "pair": [ "हु", "ँ" ], "new_token": "हुँ", "frequency": 5, "vocab_size": 4462, "learned_vocab_size": 4197, "compression_ratio": 1.1768277363704882, "example_words": [] }, { "step": 4198, "pair": [ "ऑ", "टो" ], "new_token": "ऑटो", "frequency": 5, "vocab_size": 4463, "learned_vocab_size": 4198, "compression_ratio": 1.1768384488085333, "example_words": [] }, { "step": 4199, "pair": [ "आर्मी", "निया" ], "new_token": "आर्मीनिया", "frequency": 5, "vocab_size": 4464, "learned_vocab_size": 4199, "compression_ratio": 1.1768491614416068, "example_words": [] }, { "step": 4200, "pair": [ "अल्", "पसंख्यक" ], "new_token": "अल्पसंख्यक", "frequency": 5, "vocab_size": 4465, "learned_vocab_size": 4200, "compression_ratio": 1.1768491614416068, "example_words": [] }, { "step": 4201, "pair": [ "गि", "ना" ], "new_token": "गिना", "frequency": 5, "vocab_size": 4469, "learned_vocab_size": 4201, "compression_ratio": 1.1768491614416068, "example_words": [ "गिना", "मोग्गिना" ] }, { "step": 4202, "pair": [ "क्रि", "स्टो" ], "new_token": "क्रिस्टो", "frequency": 5, "vocab_size": 4470, "learned_vocab_size": 4202, "compression_ratio": 1.1768598742697138, "example_words": [] }, { "step": 4203, "pair": [ "ड", "्" ], "new_token": "ड्", "frequency": 5, "vocab_size": 4471, "learned_vocab_size": 4203, "compression_ratio": 1.1768598742697138, "example_words": [] }, { "step": 4204, "pair": [ "गो", "स्वा" ], "new_token": "गोस्वा", "frequency": 5, "vocab_size": 4472, "learned_vocab_size": 4204, "compression_ratio": 1.1768491614416068, "example_words": [] }, { "step": 4205, "pair": [ "गोस्वा", "मियों" ], "new_token": "गोस्वामियों", "frequency": 5, "vocab_size": 4473, "learned_vocab_size": 4205, "compression_ratio": 1.1768491614416068, "example_words": [] }, { "step": 4206, "pair": [ "०", "५" ], "new_token": "०५", "frequency": 5, "vocab_size": 4474, "learned_vocab_size": 4206, "compression_ratio": 1.1768491614416068, "example_words": [] }, { "step": 4207, "pair": [ "श्री", "कृष्ण" ], "new_token": "श्रीकृष्ण", "frequency": 5, "vocab_size": 4475, "learned_vocab_size": 4207, "compression_ratio": 1.1768684446726274, "example_words": [] }, { "step": 4208, "pair": [ "दी", "हा" ], "new_token": "दीहा", "frequency": 5, "vocab_size": 4476, "learned_vocab_size": 4208, "compression_ratio": 1.1768684446726274, "example_words": [] }, { "step": 4209, "pair": [ "एल्", "ब" ], "new_token": "एल्ब", "frequency": 5, "vocab_size": 4477, "learned_vocab_size": 4209, "compression_ratio": 1.1768791578518085, "example_words": [] }, { "step": 4210, "pair": [ "मा", "ध" ], "new_token": "माध", "frequency": 5, "vocab_size": 4478, "learned_vocab_size": 4210, "compression_ratio": 1.1768791578518085, "example_words": [] }, { "step": 4211, "pair": [ "रू", "ढ़" ], "new_token": "रूढ़", "frequency": 5, "vocab_size": 4479, "learned_vocab_size": 4211, "compression_ratio": 1.1768448763649737, "example_words": [] }, { "step": 4212, "pair": [ "रूढ़", "ि" ], "new_token": "रूढ़ि", "frequency": 5, "vocab_size": 4480, "learned_vocab_size": 4212, "compression_ratio": 1.1768598742697138, "example_words": [] }, { "step": 4213, "pair": [ "रूढ़ि", "वादी" ], "new_token": "रूढ़िवादी", "frequency": 5, "vocab_size": 4481, "learned_vocab_size": 4213, "compression_ratio": 1.1768727299208943, "example_words": [] }, { "step": 4214, "pair": [ "मुला", "कात" ], "new_token": "मुलाकात", "frequency": 5, "vocab_size": 4482, "learned_vocab_size": 4214, "compression_ratio": 1.1768727299208943, "example_words": [] }, { "step": 4215, "pair": [ "सा", "हा" ], "new_token": "साहा", "frequency": 5, "vocab_size": 4483, "learned_vocab_size": 4215, "compression_ratio": 1.1768727299208943, "example_words": [] }, { "step": 4216, "pair": [ "एस", "आई" ], "new_token": "एसआई", "frequency": 5, "vocab_size": 4484, "learned_vocab_size": 4216, "compression_ratio": 1.176887728535588, "example_words": [] }, { "step": 4217, "pair": [ "२००", "९" ], "new_token": "२००९", "frequency": 5, "vocab_size": 4485, "learned_vocab_size": 4217, "compression_ratio": 1.1768984420658604, "example_words": [] }, { "step": 4218, "pair": [ "खरा", "ब" ], "new_token": "खराब", "frequency": 5, "vocab_size": 4486, "learned_vocab_size": 4218, "compression_ratio": 1.1769134413359406, "example_words": [] }, { "step": 4219, "pair": [ "कानू", "नी" ], "new_token": "कानूनी", "frequency": 5, "vocab_size": 4487, "learned_vocab_size": 4219, "compression_ratio": 1.1769134413359406, "example_words": [] }, { "step": 4220, "pair": [ "वा", "णि" ], "new_token": "वाणि", "frequency": 5, "vocab_size": 4488, "learned_vocab_size": 4220, "compression_ratio": 1.1769134413359406, "example_words": [] }, { "step": 4221, "pair": [ "कॉ", "म्" ], "new_token": "कॉम्", "frequency": 5, "vocab_size": 4489, "learned_vocab_size": 4221, "compression_ratio": 1.1769284409883494, "example_words": [] }, { "step": 4222, "pair": [ "जो", "शी" ], "new_token": "जोशी", "frequency": 5, "vocab_size": 4490, "learned_vocab_size": 4222, "compression_ratio": 1.176939155259871, "example_words": [] }, { "step": 4223, "pair": [ "गौरा", "डीह" ], "new_token": "गौराडीह", "frequency": 5, "vocab_size": 4491, "learned_vocab_size": 4223, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4224, "pair": [ "पी", "र" ], "new_token": "पीर", "frequency": 5, "vocab_size": 4492, "learned_vocab_size": 4224, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4225, "pair": [ "पीर", "पै" ], "new_token": "पीरपै", "frequency": 5, "vocab_size": 4493, "learned_vocab_size": 4225, "compression_ratio": 1.1769712992449277, "example_words": [] }, { "step": 4226, "pair": [ "पीरपै", "ंती" ], "new_token": "पीरपैंती", "frequency": 5, "vocab_size": 4494, "learned_vocab_size": 4226, "compression_ratio": 1.176982014296795, "example_words": [] }, { "step": 4227, "pair": [ "बी", "हपुर" ], "new_token": "बीहपुर", "frequency": 5, "vocab_size": 4495, "learned_vocab_size": 4227, "compression_ratio": 1.176982014296795, "example_words": [] }, { "step": 4228, "pair": [ "रंगरा", "चौक" ], "new_token": "रंगराचौक", "frequency": 5, "vocab_size": 4496, "learned_vocab_size": 4228, "compression_ratio": 1.176992729543762, "example_words": [] }, { "step": 4229, "pair": [ "सह", "कुंड" ], "new_token": "सहकुंड", "frequency": 5, "vocab_size": 4497, "learned_vocab_size": 4229, "compression_ratio": 1.176992729543762, "example_words": [] }, { "step": 4230, "pair": [ "मो", "नो" ], "new_token": "मोनो", "frequency": 5, "vocab_size": 4498, "learned_vocab_size": 4230, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 4231, "pair": [ "चतुर्", "थ" ], "new_token": "चतुर्थ", "frequency": 5, "vocab_size": 4499, "learned_vocab_size": 4231, "compression_ratio": 1.1770270196451884, "example_words": [] }, { "step": 4232, "pair": [ "वहा", "ँ" ], "new_token": "वहाँ", "frequency": 5, "vocab_size": 4500, "learned_vocab_size": 4232, "compression_ratio": 1.1770270196451884, "example_words": [] }, { "step": 4233, "pair": [ "क", "ढ़ी" ], "new_token": "कढ़ी", "frequency": 5, "vocab_size": 4501, "learned_vocab_size": 4233, "compression_ratio": 1.1770270196451884, "example_words": [] }, { "step": 4234, "pair": [ "कोर", "मा" ], "new_token": "कोरमा", "frequency": 5, "vocab_size": 4502, "learned_vocab_size": 4234, "compression_ratio": 1.1770377357116324, "example_words": [] }, { "step": 4235, "pair": [ "वे", "ज" ], "new_token": "वेज", "frequency": 5, "vocab_size": 4503, "learned_vocab_size": 4235, "compression_ratio": 1.1770377357116324, "example_words": [] }, { "step": 4236, "pair": [ "खी", "र" ], "new_token": "खीर", "frequency": 5, "vocab_size": 4504, "learned_vocab_size": 4236, "compression_ratio": 1.1770463087052792, "example_words": [] }, { "step": 4237, "pair": [ "बादा", "म" ], "new_token": "बादाम", "frequency": 5, "vocab_size": 4505, "learned_vocab_size": 4237, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 4238, "pair": [ "गुला", "ब" ], "new_token": "गुलाब", "frequency": 5, "vocab_size": 4506, "learned_vocab_size": 4238, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 4239, "pair": [ "कार्", "बनिक" ], "new_token": "कार्बनिक", "frequency": 5, "vocab_size": 4507, "learned_vocab_size": 4239, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 4240, "pair": [ "गवर्", "नमेंट" ], "new_token": "गवर्नमेंट", "frequency": 5, "vocab_size": 4508, "learned_vocab_size": 4240, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 4241, "pair": [ "पढ़", "ने" ], "new_token": "पढ़ने", "frequency": 5, "vocab_size": 4509, "learned_vocab_size": 4241, "compression_ratio": 1.1770570251229562, "example_words": [] }, { "step": 4242, "pair": [ "आर", "एल" ], "new_token": "आरएल", "frequency": 5, "vocab_size": 4510, "learned_vocab_size": 4242, "compression_ratio": 1.1770677417357704, "example_words": [] }, { "step": 4243, "pair": [ "मुश्", "किल" ], "new_token": "मुश्किल", "frequency": 5, "vocab_size": 4511, "learned_vocab_size": 4243, "compression_ratio": 1.1770848887221714, "example_words": [] }, { "step": 4244, "pair": [ "एम", "एल" ], "new_token": "एमएल", "frequency": 5, "vocab_size": 4512, "learned_vocab_size": 4244, "compression_ratio": 1.1770956058423667, "example_words": [] }, { "step": 4245, "pair": [ "हो", "गी" ], "new_token": "होगी", "frequency": 5, "vocab_size": 4513, "learned_vocab_size": 4245, "compression_ratio": 1.1771127536406065, "example_words": [] }, { "step": 4246, "pair": [ "पा", "क" ], "new_token": "पाक", "frequency": 5, "vocab_size": 4514, "learned_vocab_size": 4246, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 4247, "pair": [ "ब्लॉक", "बस्टर" ], "new_token": "ब्लॉकबस्टर", "frequency": 5, "vocab_size": 4515, "learned_vocab_size": 4247, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4248, "pair": [ "उ", "जरा" ], "new_token": "उजरा", "frequency": 5, "vocab_size": 4516, "learned_vocab_size": 4248, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4249, "pair": [ "उजरा", "ई" ], "new_token": "उजराई", "frequency": 5, "vocab_size": 4517, "learned_vocab_size": 4249, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4250, "pair": [ "कु", "बेरपुर" ], "new_token": "कुबेरपुर", "frequency": 5, "vocab_size": 4518, "learned_vocab_size": 4250, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4251, "pair": [ "गु", "रहा" ], "new_token": "गुरहा", "frequency": 5, "vocab_size": 4519, "learned_vocab_size": 4251, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4252, "pair": [ "च", "मरौला" ], "new_token": "चमरौला", "frequency": 5, "vocab_size": 4520, "learned_vocab_size": 4252, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4253, "pair": [ "बु", "ढ़" ], "new_token": "बुढ़", "frequency": 5, "vocab_size": 4521, "learned_vocab_size": 4253, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 4254, "pair": [ "प", "चौरी" ], "new_token": "पचौरी", "frequency": 5, "vocab_size": 4522, "learned_vocab_size": 4254, "compression_ratio": 1.1769734422396936, "example_words": [] }, { "step": 4255, "pair": [ "बी", "ल" ], "new_token": "बील", "frequency": 5, "vocab_size": 4523, "learned_vocab_size": 4255, "compression_ratio": 1.1769734422396936, "example_words": [] }, { "step": 4256, "pair": [ "दा", "ऊ" ], "new_token": "दाऊ", "frequency": 5, "vocab_size": 4524, "learned_vocab_size": 4256, "compression_ratio": 1.176988443421563, "example_words": [] }, { "step": 4257, "pair": [ "परि", "हार" ], "new_token": "परिहार", "frequency": 5, "vocab_size": 4525, "learned_vocab_size": 4257, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 4258, "pair": [ "बा", "मन" ], "new_token": "बामन", "frequency": 5, "vocab_size": 4526, "learned_vocab_size": 4258, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 4259, "pair": [ "ओ", "ँ" ], "new_token": "ओँ", "frequency": 5, "vocab_size": 4527, "learned_vocab_size": 4259, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 4260, "pair": [ "बा", "हूर" ], "new_token": "बाहूर", "frequency": 5, "vocab_size": 4528, "learned_vocab_size": 4260, "compression_ratio": 1.1770248764553146, "example_words": [] }, { "step": 4261, "pair": [ "बो", "हमन" ], "new_token": "बोहमन", "frequency": 5, "vocab_size": 4529, "learned_vocab_size": 4261, "compression_ratio": 1.1770248764553146, "example_words": [] }, { "step": 4262, "pair": [ "शे", "ल" ], "new_token": "शेल", "frequency": 5, "vocab_size": 4530, "learned_vocab_size": 4262, "compression_ratio": 1.1770248764553146, "example_words": [] }, { "step": 4263, "pair": [ "ष", "क" ], "new_token": "षक", "frequency": 5, "vocab_size": 4531, "learned_vocab_size": 4263, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 4264, "pair": [ "ल", "लित" ], "new_token": "ललित", "frequency": 5, "vocab_size": 4532, "learned_vocab_size": 4264, "compression_ratio": 1.1770463087052792, "example_words": [] }, { "step": 4265, "pair": [ "शाह", "जहाँ" ], "new_token": "शाहजहाँ", "frequency": 5, "vocab_size": 4533, "learned_vocab_size": 4265, "compression_ratio": 1.1770463087052792, "example_words": [] }, { "step": 4266, "pair": [ "शाहजहाँ", "पुर" ], "new_token": "शाहजहाँपुर", "frequency": 5, "vocab_size": 4534, "learned_vocab_size": 4266, "compression_ratio": 1.177061311744665, "example_words": [] }, { "step": 4267, "pair": [ "अधिकारि", "यों" ], "new_token": "अधिकारियों", "frequency": 5, "vocab_size": 4535, "learned_vocab_size": 4267, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4268, "pair": [ "कड़", "गम" ], "new_token": "कड़गम", "frequency": 5, "vocab_size": 4536, "learned_vocab_size": 4268, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4269, "pair": [ "विचार", "धारा" ], "new_token": "विचारधारा", "frequency": 5, "vocab_size": 4537, "learned_vocab_size": 4269, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4270, "pair": [ "सी", "टों" ], "new_token": "सीटों", "frequency": 5, "vocab_size": 4538, "learned_vocab_size": 4270, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4271, "pair": [ "गृह", "स्वामी" ], "new_token": "गृहस्वामी", "frequency": 5, "vocab_size": 4539, "learned_vocab_size": 4271, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4272, "pair": [ "क", "वरे" ], "new_token": "कवरे", "frequency": 5, "vocab_size": 4540, "learned_vocab_size": 4272, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4273, "pair": [ "कवरे", "ज" ], "new_token": "कवरेज", "frequency": 5, "vocab_size": 4541, "learned_vocab_size": 4273, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4274, "pair": [ "प्रा", "धिकरण" ], "new_token": "प्राधिकरण", "frequency": 5, "vocab_size": 4542, "learned_vocab_size": 4274, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4275, "pair": [ "दि", "ग्" ], "new_token": "दिग्", "frequency": 5, "vocab_size": 4543, "learned_vocab_size": 4275, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 4276, "pair": [ "गो", "एक" ], "new_token": "गोएक", "frequency": 5, "vocab_size": 4544, "learned_vocab_size": 4276, "compression_ratio": 1.1770913189708703, "example_words": [] }, { "step": 4277, "pair": [ "आत्", "माराम" ], "new_token": "आत्माराम", "frequency": 5, "vocab_size": 4545, "learned_vocab_size": 4277, "compression_ratio": 1.1771063231577183, "example_words": [] }, { "step": 4278, "pair": [ "वा", "पुर" ], "new_token": "वापुर", "frequency": 5, "vocab_size": 4546, "learned_vocab_size": 4278, "compression_ratio": 1.1771063231577183, "example_words": [] }, { "step": 4279, "pair": [ "बरे", "ठी" ], "new_token": "बरेठी", "frequency": 5, "vocab_size": 4547, "learned_vocab_size": 4279, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 4280, "pair": [ "की", "म" ], "new_token": "कीम", "frequency": 5, "vocab_size": 4548, "learned_vocab_size": 4280, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 4281, "pair": [ "रानी", "पुर" ], "new_token": "रानीपुर", "frequency": 5, "vocab_size": 4549, "learned_vocab_size": 4281, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 4282, "pair": [ "बा", "जपुर" ], "new_token": "बाजपुर", "frequency": 5, "vocab_size": 4550, "learned_vocab_size": 4282, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 4283, "pair": [ "मेंढ", "क" ], "new_token": "मेंढक", "frequency": 5, "vocab_size": 4551, "learned_vocab_size": 4283, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 4284, "pair": [ "गिर", "फ्" ], "new_token": "गिरफ्", "frequency": 5, "vocab_size": 4552, "learned_vocab_size": 4284, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 4285, "pair": [ "गिरफ्", "तार" ], "new_token": "गिरफ्तार", "frequency": 5, "vocab_size": 4553, "learned_vocab_size": 4285, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 4286, "pair": [ "न्याया", "धीश" ], "new_token": "न्यायाधीश", "frequency": 5, "vocab_size": 4554, "learned_vocab_size": 4286, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 4287, "pair": [ "कोर्", "ट" ], "new_token": "कोर्ट", "frequency": 5, "vocab_size": 4555, "learned_vocab_size": 4287, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 4288, "pair": [ "हे", "ना" ], "new_token": "हेना", "frequency": 5, "vocab_size": 4556, "learned_vocab_size": 4288, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 4289, "pair": [ "हेना", "वी" ], "new_token": "हेनावी", "frequency": 5, "vocab_size": 4557, "learned_vocab_size": 4289, "compression_ratio": 1.1771620563436709, "example_words": [] }, { "step": 4290, "pair": [ "वि", "रु" ], "new_token": "विरु", "frequency": 5, "vocab_size": 4558, "learned_vocab_size": 4290, "compression_ratio": 1.177174918597621, "example_words": [] }, { "step": 4291, "pair": [ "विरु", "द्ध" ], "new_token": "विरुद्ध", "frequency": 5, "vocab_size": 4559, "learned_vocab_size": 4291, "compression_ratio": 1.1771856373572942, "example_words": [] }, { "step": 4292, "pair": [ "प्र", "बंध" ], "new_token": "प्रबंध", "frequency": 5, "vocab_size": 4560, "learned_vocab_size": 4292, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 4293, "pair": [ "मि", "यर" ], "new_token": "मियर", "frequency": 5, "vocab_size": 4561, "learned_vocab_size": 4293, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 4294, "pair": [ "स्व", "देशी" ], "new_token": "स्वदेशी", "frequency": 5, "vocab_size": 4562, "learned_vocab_size": 4294, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 4295, "pair": [ "कार्", "बो" ], "new_token": "कार्बो", "frequency": 5, "vocab_size": 4563, "learned_vocab_size": 4295, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 4296, "pair": [ "च", "यन" ], "new_token": "चयन", "frequency": 5, "vocab_size": 4564, "learned_vocab_size": 4296, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 4297, "pair": [ "वर्", "धन" ], "new_token": "वर्धन", "frequency": 5, "vocab_size": 4565, "learned_vocab_size": 4297, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 4298, "pair": [ "गेंदबा", "ज" ], "new_token": "गेंदबाज", "frequency": 5, "vocab_size": 4566, "learned_vocab_size": 4298, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4299, "pair": [ "श्री", "लंका" ], "new_token": "श्रीलंका", "frequency": 5, "vocab_size": 4567, "learned_vocab_size": 4299, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4300, "pair": [ "नि", "गरानी" ], "new_token": "निगरानी", "frequency": 5, "vocab_size": 4568, "learned_vocab_size": 4300, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4301, "pair": [ "से", "ट" ], "new_token": "सेट", "frequency": 5, "vocab_size": 4569, "learned_vocab_size": 4301, "compression_ratio": 1.1772199387000253, "example_words": [ "सेटिंग", "सबसेट", "सेट" ] }, { "step": 4302, "pair": [ "सा", "इ" ], "new_token": "साइ", "frequency": 5, "vocab_size": 4570, "learned_vocab_size": 4302, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 4303, "pair": [ "बा", "ह" ], "new_token": "बाह", "frequency": 5, "vocab_size": 4571, "learned_vocab_size": 4303, "compression_ratio": 1.176887728535588, "example_words": [] }, { "step": 4304, "pair": [ "रो", "मांटिक" ], "new_token": "रोमांटिक", "frequency": 5, "vocab_size": 4572, "learned_vocab_size": 4304, "compression_ratio": 1.176887728535588, "example_words": [] }, { "step": 4305, "pair": [ "सौ", "म्या" ], "new_token": "सौम्या", "frequency": 5, "vocab_size": 4573, "learned_vocab_size": 4305, "compression_ratio": 1.176887728535588, "example_words": [] }, { "step": 4306, "pair": [ "मौ", "सम" ], "new_token": "मौसम", "frequency": 5, "vocab_size": 4574, "learned_vocab_size": 4306, "compression_ratio": 1.176887728535588, "example_words": [] }, { "step": 4307, "pair": [ "मेट्रो", "पॉलि" ], "new_token": "मेट्रोपॉलि", "frequency": 5, "vocab_size": 4575, "learned_vocab_size": 4307, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4308, "pair": [ "मेट्रोपॉलि", "टन" ], "new_token": "मेट्रोपॉलिटन", "frequency": 5, "vocab_size": 4576, "learned_vocab_size": 4308, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4309, "pair": [ "फ्", "लाई" ], "new_token": "फ्लाई", "frequency": 5, "vocab_size": 4577, "learned_vocab_size": 4309, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4310, "pair": [ "दा", "दपुर" ], "new_token": "दादपुर", "frequency": 5, "vocab_size": 4578, "learned_vocab_size": 4310, "compression_ratio": 1.1769134413359406, "example_words": [] }, { "step": 4311, "pair": [ "खि", "रिया" ], "new_token": "खिरिया", "frequency": 5, "vocab_size": 4579, "learned_vocab_size": 4311, "compression_ratio": 1.1769241553343615, "example_words": [] }, { "step": 4312, "pair": [ "बस", "इया" ], "new_token": "बसइया", "frequency": 5, "vocab_size": 4580, "learned_vocab_size": 4312, "compression_ratio": 1.1769241553343615, "example_words": [] }, { "step": 4313, "pair": [ "राजपू", "त" ], "new_token": "राजपूत", "frequency": 5, "vocab_size": 4581, "learned_vocab_size": 4313, "compression_ratio": 1.1769348695278532, "example_words": [] }, { "step": 4314, "pair": [ "हि", "सा" ], "new_token": "हिसा", "frequency": 5, "vocab_size": 4582, "learned_vocab_size": 4314, "compression_ratio": 1.1769455839164213, "example_words": [] }, { "step": 4315, "pair": [ "ऊंचा", "ई" ], "new_token": "ऊंचाई", "frequency": 5, "vocab_size": 4583, "learned_vocab_size": 4315, "compression_ratio": 1.176956298500071, "example_words": [] }, { "step": 4316, "pair": [ "य", "ंस" ], "new_token": "यंस", "frequency": 5, "vocab_size": 4584, "learned_vocab_size": 4316, "compression_ratio": 1.176956298500071, "example_words": [] }, { "step": 4317, "pair": [ "टाइटै", "निक" ], "new_token": "टाइटैनिक", "frequency": 5, "vocab_size": 4585, "learned_vocab_size": 4317, "compression_ratio": 1.1769670132788077, "example_words": [] }, { "step": 4318, "pair": [ "मा", "व" ], "new_token": "माव", "frequency": 5, "vocab_size": 4586, "learned_vocab_size": 4318, "compression_ratio": 1.1769670132788077, "example_words": [] }, { "step": 4319, "pair": [ "ख", "बर" ], "new_token": "खबर", "frequency": 5, "vocab_size": 4587, "learned_vocab_size": 4319, "compression_ratio": 1.1770077312172935, "example_words": [] }, { "step": 4320, "pair": [ "दारा", "पुर" ], "new_token": "दारापुर", "frequency": 5, "vocab_size": 4588, "learned_vocab_size": 4320, "compression_ratio": 1.1770227332732455, "example_words": [] }, { "step": 4321, "pair": [ "मु", "कु" ], "new_token": "मुकु", "frequency": 5, "vocab_size": 4589, "learned_vocab_size": 4321, "compression_ratio": 1.1770227332732455, "example_words": [] }, { "step": 4322, "pair": [ "रु", "स्तमपुर" ], "new_token": "रुस्तमपुर", "frequency": 5, "vocab_size": 4590, "learned_vocab_size": 4322, "compression_ratio": 1.1770355924827336, "example_words": [] }, { "step": 4323, "pair": [ "पं", "थ" ], "new_token": "पंथ", "frequency": 5, "vocab_size": 4591, "learned_vocab_size": 4323, "compression_ratio": 1.1770355924827336, "example_words": [] }, { "step": 4324, "pair": [ "मू", "व" ], "new_token": "मूव", "frequency": 5, "vocab_size": 4592, "learned_vocab_size": 4324, "compression_ratio": 1.1770463087052792, "example_words": [] }, { "step": 4325, "pair": [ "मूव", "मेंट" ], "new_token": "मूवमेंट", "frequency": 5, "vocab_size": 4593, "learned_vocab_size": 4325, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 4326, "pair": [ "डा", "यबि" ], "new_token": "डायबि", "frequency": 5, "vocab_size": 4594, "learned_vocab_size": 4326, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 4327, "pair": [ "डायबि", "टी" ], "new_token": "डायबिटी", "frequency": 5, "vocab_size": 4595, "learned_vocab_size": 4327, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 4328, "pair": [ "डायबिटी", "ज" ], "new_token": "डायबिटीज", "frequency": 5, "vocab_size": 4596, "learned_vocab_size": 4328, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 4329, "pair": [ "आईआई", "आईटी" ], "new_token": "आईआईआईटी", "frequency": 5, "vocab_size": 4597, "learned_vocab_size": 4329, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 4330, "pair": [ "तिब्", "बती" ], "new_token": "तिब्बती", "frequency": 5, "vocab_size": 4598, "learned_vocab_size": 4330, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4331, "pair": [ "रसी", "दपुर" ], "new_token": "रसीदपुर", "frequency": 5, "vocab_size": 4599, "learned_vocab_size": 4331, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4332, "pair": [ "स्ट्री", "ट" ], "new_token": "स्ट्रीट", "frequency": 5, "vocab_size": 4600, "learned_vocab_size": 4332, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4333, "pair": [ "सै", "ं" ], "new_token": "सैं", "frequency": 5, "vocab_size": 4601, "learned_vocab_size": 4333, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4334, "pair": [ "दी", "र्घ" ], "new_token": "दीर्घ", "frequency": 5, "vocab_size": 4602, "learned_vocab_size": 4334, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 4335, "pair": [ "प्रा", "गै" ], "new_token": "प्रागै", "frequency": 5, "vocab_size": 4603, "learned_vocab_size": 4335, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 4336, "pair": [ "प्रागै", "तिहासिक" ], "new_token": "प्रागैतिहासिक", "frequency": 5, "vocab_size": 4604, "learned_vocab_size": 4336, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 4337, "pair": [ "समी", "प" ], "new_token": "समीप", "frequency": 5, "vocab_size": 4605, "learned_vocab_size": 4337, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 4338, "pair": [ "शि", "बू" ], "new_token": "शिबू", "frequency": 5, "vocab_size": 4606, "learned_vocab_size": 4338, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 4339, "pair": [ "मु", "ंडा" ], "new_token": "मुंडा", "frequency": 5, "vocab_size": 4607, "learned_vocab_size": 4339, "compression_ratio": 1.1770698850817503, "example_words": [] }, { "step": 4340, "pair": [ "ब", "ृ" ], "new_token": "बृ", "frequency": 5, "vocab_size": 4608, "learned_vocab_size": 4340, "compression_ratio": 1.1770698850817503, "example_words": [] }, { "step": 4341, "pair": [ "नेट", "फ्लिक्स" ], "new_token": "नेटफ्लिक्स", "frequency": 5, "vocab_size": 4609, "learned_vocab_size": 4341, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 4342, "pair": [ "फ्रांसी", "सी" ], "new_token": "फ्रांसीसी", "frequency": 5, "vocab_size": 4610, "learned_vocab_size": 4342, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 4343, "pair": [ "जसली", "न" ], "new_token": "जसलीन", "frequency": 5, "vocab_size": 4611, "learned_vocab_size": 4343, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 4344, "pair": [ "ब्", "लू" ], "new_token": "ब्लू", "frequency": 5, "vocab_size": 4612, "learned_vocab_size": 4344, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 4345, "pair": [ "क्वाली", "फाई" ], "new_token": "क्वालीफाई", "frequency": 5, "vocab_size": 4613, "learned_vocab_size": 4345, "compression_ratio": 1.1770977492898245, "example_words": [] }, { "step": 4346, "pair": [ "क", "ण" ], "new_token": "कण", "frequency": 5, "vocab_size": 4614, "learned_vocab_size": 4346, "compression_ratio": 1.1770977492898245, "example_words": [] }, { "step": 4347, "pair": [ "मि", "शि" ], "new_token": "मिशि", "frequency": 5, "vocab_size": 4615, "learned_vocab_size": 4347, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 4348, "pair": [ "मिशि", "गन" ], "new_token": "मिशिगन", "frequency": 5, "vocab_size": 4616, "learned_vocab_size": 4348, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 4349, "pair": [ "एंजि", "ल्स" ], "new_token": "एंजिल्स", "frequency": 5, "vocab_size": 4617, "learned_vocab_size": 4349, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 4350, "pair": [ "रि", "प्पन" ], "new_token": "रिप्पन", "frequency": 5, "vocab_size": 4618, "learned_vocab_size": 4350, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 4351, "pair": [ "रि", "डे" ], "new_token": "रिडे", "frequency": 5, "vocab_size": 4619, "learned_vocab_size": 4351, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 4352, "pair": [ "रिडे", "म्" ], "new_token": "रिडेम्", "frequency": 5, "vocab_size": 4620, "learned_vocab_size": 4352, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 4353, "pair": [ "रिडेम्", "प्" ], "new_token": "रिडेम्प्", "frequency": 5, "vocab_size": 4621, "learned_vocab_size": 4353, "compression_ratio": 1.1771727748691099, "example_words": [] }, { "step": 4354, "pair": [ "रिडेम्प्", "शन" ], "new_token": "रिडेम्प्शन", "frequency": 5, "vocab_size": 4622, "learned_vocab_size": 4354, "compression_ratio": 1.1771856373572942, "example_words": [] }, { "step": 4355, "pair": [ "उत्", "खनन" ], "new_token": "उत्खनन", "frequency": 5, "vocab_size": 4623, "learned_vocab_size": 4355, "compression_ratio": 1.1771985001265677, "example_words": [] }, { "step": 4356, "pair": [ "फी", "फा" ], "new_token": "फीफा", "frequency": 5, "vocab_size": 4624, "learned_vocab_size": 4356, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 4357, "pair": [ "अ", "ट" ], "new_token": "अट", "frequency": 5, "vocab_size": 4625, "learned_vocab_size": 4357, "compression_ratio": 1.1772220826003184, "example_words": [] }, { "step": 4358, "pair": [ "अट", "सेनी" ], "new_token": "अटसेनी", "frequency": 5, "vocab_size": 4626, "learned_vocab_size": 4358, "compression_ratio": 1.1772435220327377, "example_words": [] }, { "step": 4359, "pair": [ "कु", "ं" ], "new_token": "कुं", "frequency": 5, "vocab_size": 4627, "learned_vocab_size": 4359, "compression_ratio": 1.1772435220327377, "example_words": [] }, { "step": 4360, "pair": [ "हिल", "दा" ], "new_token": "हिलदा", "frequency": 5, "vocab_size": 4628, "learned_vocab_size": 4360, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 4361, "pair": [ "हिलदा", "मित" ], "new_token": "हिलदामित", "frequency": 5, "vocab_size": 4629, "learned_vocab_size": 4361, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 4362, "pair": [ "अरुंध", "ति" ], "new_token": "अरुंधति", "frequency": 5, "vocab_size": 4630, "learned_vocab_size": 4362, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 4363, "pair": [ "थो", "ड़ा" ], "new_token": "थोड़ा", "frequency": 4, "vocab_size": 4631, "learned_vocab_size": 4363, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 4364, "pair": [ "क्टि", "व" ], "new_token": "क्टिव", "frequency": 4, "vocab_size": 4632, "learned_vocab_size": 4364, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 4365, "pair": [ "डि", "जि" ], "new_token": "डिजि", "frequency": 4, "vocab_size": 4633, "learned_vocab_size": 4365, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 4366, "pair": [ "डिजि", "टल" ], "new_token": "डिजिटल", "frequency": 4, "vocab_size": 4634, "learned_vocab_size": 4366, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 4367, "pair": [ "न", "जर" ], "new_token": "नजर", "frequency": 4, "vocab_size": 4635, "learned_vocab_size": 4367, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 4368, "pair": [ "बहा", "दु" ], "new_token": "बहादु", "frequency": 4, "vocab_size": 4636, "learned_vocab_size": 4368, "compression_ratio": 1.17722851434805, "example_words": [] }, { "step": 4369, "pair": [ "अ", "दाल" ], "new_token": "अदाल", "frequency": 4, "vocab_size": 4637, "learned_vocab_size": 4369, "compression_ratio": 1.17722851434805, "example_words": [] }, { "step": 4370, "pair": [ "अदाल", "त" ], "new_token": "अदालत", "frequency": 4, "vocab_size": 4638, "learned_vocab_size": 4370, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 4371, "pair": [ "ना", "ंग" ], "new_token": "नांग", "frequency": 4, "vocab_size": 4639, "learned_vocab_size": 4371, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 4372, "pair": [ "छे", "द" ], "new_token": "छेद", "frequency": 4, "vocab_size": 4640, "learned_vocab_size": 4372, "compression_ratio": 1.1772542420417893, "example_words": [] }, { "step": 4373, "pair": [ "का", "टा" ], "new_token": "काटा", "frequency": 4, "vocab_size": 4641, "learned_vocab_size": 4373, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 4374, "pair": [ "थु", "न" ], "new_token": "थुन", "frequency": 4, "vocab_size": 4642, "learned_vocab_size": 4374, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 4375, "pair": [ "आर", "ंभ" ], "new_token": "आरंभ", "frequency": 4, "vocab_size": 4643, "learned_vocab_size": 4375, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 4376, "pair": [ "तत्", "काल" ], "new_token": "तत्काल", "frequency": 4, "vocab_size": 4644, "learned_vocab_size": 4376, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 4377, "pair": [ "अ", "तः" ], "new_token": "अतः", "frequency": 4, "vocab_size": 4645, "learned_vocab_size": 4377, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 4378, "pair": [ "शारी", "रिक" ], "new_token": "शारीरिक", "frequency": 4, "vocab_size": 4646, "learned_vocab_size": 4378, "compression_ratio": 1.1773292875720331, "example_words": [] }, { "step": 4379, "pair": [ "अभि", "नीत" ], "new_token": "अभिनीत", "frequency": 4, "vocab_size": 4647, "learned_vocab_size": 4379, "compression_ratio": 1.1773292875720331, "example_words": [] }, { "step": 4380, "pair": [ "रा", "णा" ], "new_token": "राणा", "frequency": 4, "vocab_size": 4648, "learned_vocab_size": 4380, "compression_ratio": 1.1773292875720331, "example_words": [] }, { "step": 4381, "pair": [ "सह", "देव" ], "new_token": "सहदेव", "frequency": 4, "vocab_size": 4649, "learned_vocab_size": 4381, "compression_ratio": 1.1773421534807649, "example_words": [] }, { "step": 4382, "pair": [ "देश", "भारतमूल" ], "new_token": "देशभारतमूल", "frequency": 4, "vocab_size": 4650, "learned_vocab_size": 4382, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 4383, "pair": [ "ल", "ता" ], "new_token": "लता", "frequency": 4, "vocab_size": 4651, "learned_vocab_size": 4383, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 4384, "pair": [ "त", "ृ" ], "new_token": "तृ", "frequency": 4, "vocab_size": 4652, "learned_vocab_size": 4384, "compression_ratio": 1.1773721750280495, "example_words": [] }, { "step": 4385, "pair": [ "वर्", "मा" ], "new_token": "वर्मा", "frequency": 4, "vocab_size": 4653, "learned_vocab_size": 4385, "compression_ratio": 1.177481552184866, "example_words": [] }, { "step": 4386, "pair": [ "शे", "ट्टी" ], "new_token": "शेट्टी", "frequency": 4, "vocab_size": 4654, "learned_vocab_size": 4386, "compression_ratio": 1.177481552184866, "example_words": [] }, { "step": 4387, "pair": [ "पंद्रह", "वीं" ], "new_token": "पंद्रहवीं", "frequency": 4, "vocab_size": 4655, "learned_vocab_size": 4387, "compression_ratio": 1.177481552184866, "example_words": [] }, { "step": 4388, "pair": [ "व", "यन" ], "new_token": "वयन", "frequency": 4, "vocab_size": 4656, "learned_vocab_size": 4388, "compression_ratio": 1.177481552184866, "example_words": [] }, { "step": 4389, "pair": [ "चौ", "दह" ], "new_token": "चौदह", "frequency": 4, "vocab_size": 4657, "learned_vocab_size": 4389, "compression_ratio": 1.1774901316448594, "example_words": [] }, { "step": 4390, "pair": [ "१९", "५" ], "new_token": "१९५", "frequency": 4, "vocab_size": 4658, "learned_vocab_size": 4390, "compression_ratio": 1.1775008561456686, "example_words": [] }, { "step": 4391, "pair": [ "सि", "फारि" ], "new_token": "सिफारि", "frequency": 4, "vocab_size": 4659, "learned_vocab_size": 4391, "compression_ratio": 1.1775201607394306, "example_words": [] }, { "step": 4392, "pair": [ "न", "ज" ], "new_token": "नज", "frequency": 4, "vocab_size": 4660, "learned_vocab_size": 4392, "compression_ratio": 1.1775201607394306, "example_words": [] }, { "step": 4393, "pair": [ "अंग्रे", "जों" ], "new_token": "अंग्रेजों", "frequency": 4, "vocab_size": 4661, "learned_vocab_size": 4393, "compression_ratio": 1.17748798676814, "example_words": [] }, { "step": 4394, "pair": [ "भाष", "ी" ], "new_token": "भाषी", "frequency": 4, "vocab_size": 4662, "learned_vocab_size": 4394, "compression_ratio": 1.17748798676814, "example_words": [] }, { "step": 4395, "pair": [ "भ", "ले" ], "new_token": "भले", "frequency": 4, "vocab_size": 4663, "learned_vocab_size": 4395, "compression_ratio": 1.1775030010692733, "example_words": [] }, { "step": 4396, "pair": [ "अध्यक्ष", "ता" ], "new_token": "अध्यक्षता", "frequency": 4, "vocab_size": 4664, "learned_vocab_size": 4396, "compression_ratio": 1.1775115808418357, "example_words": [] }, { "step": 4397, "pair": [ "गा", "ज़ी" ], "new_token": "गाज़ी", "frequency": 4, "vocab_size": 4665, "learned_vocab_size": 4397, "compression_ratio": 1.1775115808418357, "example_words": [] }, { "step": 4398, "pair": [ "ँ", "जा" ], "new_token": "ँजा", "frequency": 4, "vocab_size": 4666, "learned_vocab_size": 4398, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 4399, "pair": [ "श्र", "द्धा" ], "new_token": "श्रद्धा", "frequency": 4, "vocab_size": 4667, "learned_vocab_size": 4399, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 4400, "pair": [ "प्र", "भ" ], "new_token": "प्रभ", "frequency": 4, "vocab_size": 4668, "learned_vocab_size": 4400, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 4401, "pair": [ "टिप्", "पणी" ], "new_token": "टिप्पणी", "frequency": 4, "vocab_size": 4669, "learned_vocab_size": 4401, "compression_ratio": 1.177530885787255, "example_words": [ "टिप्पणी", "टिप्पणीकारों" ] }, { "step": 4402, "pair": [ "शा", "सकों" ], "new_token": "शासकों", "frequency": 4, "vocab_size": 4670, "learned_vocab_size": 4402, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 4403, "pair": [ "का", "टने" ], "new_token": "काटने", "frequency": 4, "vocab_size": 4671, "learned_vocab_size": 4403, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 4404, "pair": [ "म", "चा" ], "new_token": "मचा", "frequency": 4, "vocab_size": 4672, "learned_vocab_size": 4404, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 4405, "pair": [ "था", "ली" ], "new_token": "थाली", "frequency": 4, "vocab_size": 4673, "learned_vocab_size": 4405, "compression_ratio": 1.1775652072532252, "example_words": [] }, { "step": 4406, "pair": [ "ढ", "ू" ], "new_token": "ढू", "frequency": 4, "vocab_size": 4674, "learned_vocab_size": 4406, "compression_ratio": 1.1775737879323347, "example_words": [] }, { "step": 4407, "pair": [ "वरा", "ह" ], "new_token": "वराह", "frequency": 4, "vocab_size": 4675, "learned_vocab_size": 4407, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 4408, "pair": [ "रा", "स्ते" ], "new_token": "रास्ते", "frequency": 4, "vocab_size": 4676, "learned_vocab_size": 4408, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 4409, "pair": [ "वै", "ष्ण" ], "new_token": "वैष्ण", "frequency": 4, "vocab_size": 4677, "learned_vocab_size": 4409, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 4410, "pair": [ "हा", "स्य" ], "new_token": "हास्य", "frequency": 4, "vocab_size": 4678, "learned_vocab_size": 4410, "compression_ratio": 1.1777089501252562, "example_words": [] }, { "step": 4411, "pair": [ "नि", "भाने" ], "new_token": "निभाने", "frequency": 4, "vocab_size": 4679, "learned_vocab_size": 4411, "compression_ratio": 1.1777089501252562, "example_words": [] }, { "step": 4412, "pair": [ "ज़", "मी" ], "new_token": "ज़मी", "frequency": 4, "vocab_size": 4680, "learned_vocab_size": 4412, "compression_ratio": 1.1777089501252562, "example_words": [] }, { "step": 4413, "pair": [ "जम", "शे" ], "new_token": "जमशे", "frequency": 4, "vocab_size": 4681, "learned_vocab_size": 4413, "compression_ratio": 1.177721824333311, "example_words": [] }, { "step": 4414, "pair": [ "लो", "हर" ], "new_token": "लोहर", "frequency": 4, "vocab_size": 4682, "learned_vocab_size": 4414, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 4415, "pair": [ "लोहर", "दगा" ], "new_token": "लोहरदगा", "frequency": 4, "vocab_size": 4683, "learned_vocab_size": 4415, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 4416, "pair": [ "महा", "काव्य" ], "new_token": "महाकाव्य", "frequency": 4, "vocab_size": 4684, "learned_vocab_size": 4416, "compression_ratio": 1.1777497194163862, "example_words": [] }, { "step": 4417, "pair": [ "ये", "गा" ], "new_token": "येगा", "frequency": 4, "vocab_size": 4685, "learned_vocab_size": 4417, "compression_ratio": 1.1777497194163862, "example_words": [] }, { "step": 4418, "pair": [ "टु", "कड़े" ], "new_token": "टुकड़े", "frequency": 4, "vocab_size": 4686, "learned_vocab_size": 4418, "compression_ratio": 1.177760448646354, "example_words": [] }, { "step": 4419, "pair": [ "द्रो", "ण" ], "new_token": "द्रोण", "frequency": 4, "vocab_size": 4687, "learned_vocab_size": 4419, "compression_ratio": 1.177760448646354, "example_words": [] }, { "step": 4420, "pair": [ "नि", "भा" ], "new_token": "निभा", "frequency": 4, "vocab_size": 4688, "learned_vocab_size": 4420, "compression_ratio": 1.177760448646354, "example_words": [] }, { "step": 4421, "pair": [ "न", "ही" ], "new_token": "नही", "frequency": 4, "vocab_size": 4689, "learned_vocab_size": 4421, "compression_ratio": 1.1777561569309087, "example_words": [] }, { "step": 4422, "pair": [ "शि", "र" ], "new_token": "शिर", "frequency": 4, "vocab_size": 4690, "learned_vocab_size": 4422, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 4423, "pair": [ "गो", "द" ], "new_token": "गोद", "frequency": 4, "vocab_size": 4691, "learned_vocab_size": 4423, "compression_ratio": 1.1772027877787916, "example_words": [] }, { "step": 4424, "pair": [ "ह", "ण" ], "new_token": "हण", "frequency": 4, "vocab_size": 4692, "learned_vocab_size": 4424, "compression_ratio": 1.177108466644208, "example_words": [] }, { "step": 4425, "pair": [ "वृ", "ष" ], "new_token": "वृष", "frequency": 4, "vocab_size": 4693, "learned_vocab_size": 4425, "compression_ratio": 1.177119184193754, "example_words": [] }, { "step": 4426, "pair": [ "व्या", "स" ], "new_token": "व्यास", "frequency": 4, "vocab_size": 4694, "learned_vocab_size": 4426, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 4427, "pair": [ "पा", "यन" ], "new_token": "पायन", "frequency": 4, "vocab_size": 4695, "learned_vocab_size": 4427, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 4428, "pair": [ "सौ", "ती" ], "new_token": "सौती", "frequency": 4, "vocab_size": 4696, "learned_vocab_size": 4428, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 4429, "pair": [ "ह", "स्ति" ], "new_token": "हस्ति", "frequency": 4, "vocab_size": 4697, "learned_vocab_size": 4429, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 4430, "pair": [ "ना", "पुर" ], "new_token": "नापुर", "frequency": 4, "vocab_size": 4698, "learned_vocab_size": 4430, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 4431, "pair": [ "पहुंच", "ती" ], "new_token": "पहुंचती", "frequency": 4, "vocab_size": 4699, "learned_vocab_size": 4431, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 4432, "pair": [ "अहि", "ंसा" ], "new_token": "अहिंसा", "frequency": 4, "vocab_size": 4700, "learned_vocab_size": 4432, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 4433, "pair": [ "सू", "प" ], "new_token": "सूप", "frequency": 4, "vocab_size": 4701, "learned_vocab_size": 4433, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 4434, "pair": [ "छत्र", "पति" ], "new_token": "छत्रपति", "frequency": 4, "vocab_size": 4702, "learned_vocab_size": 4434, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 4435, "pair": [ "बा", "ड़" ], "new_token": "बाड़", "frequency": 4, "vocab_size": 4703, "learned_vocab_size": 4435, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 4436, "pair": [ "बाड़", "मेर" ], "new_token": "बाड़मेर", "frequency": 4, "vocab_size": 4704, "learned_vocab_size": 4436, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 4437, "pair": [ "खजु", "रा" ], "new_token": "खजुरा", "frequency": 4, "vocab_size": 4705, "learned_vocab_size": 4437, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 4438, "pair": [ "खजुरा", "हो" ], "new_token": "खजुराहो", "frequency": 4, "vocab_size": 4706, "learned_vocab_size": 4438, "compression_ratio": 1.1772928356909604, "example_words": [] }, { "step": 4439, "pair": [ "महु", "वा" ], "new_token": "महुवा", "frequency": 4, "vocab_size": 4707, "learned_vocab_size": 4439, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 4440, "pair": [ "मुज़", "फ़्" ], "new_token": "मुज़फ़्", "frequency": 4, "vocab_size": 4708, "learned_vocab_size": 4440, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 4441, "pair": [ "नीम", "च" ], "new_token": "नीमच", "frequency": 4, "vocab_size": 4709, "learned_vocab_size": 4441, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 4442, "pair": [ "को", "न" ], "new_token": "कोन", "frequency": 4, "vocab_size": 4710, "learned_vocab_size": 4442, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 4443, "pair": [ "रा", "ई" ], "new_token": "राई", "frequency": 4, "vocab_size": 4711, "learned_vocab_size": 4443, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 4444, "pair": [ "प्", "पल्ली" ], "new_token": "प्पल्ली", "frequency": 4, "vocab_size": 4712, "learned_vocab_size": 4444, "compression_ratio": 1.177350730909475, "example_words": [] }, { "step": 4445, "pair": [ "ला", "ड़" ], "new_token": "लाड़", "frequency": 4, "vocab_size": 4713, "learned_vocab_size": 4445, "compression_ratio": 1.177350730909475, "example_words": [] }, { "step": 4446, "pair": [ "भर्", "ती" ], "new_token": "भर्ती", "frequency": 4, "vocab_size": 4714, "learned_vocab_size": 4446, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 4447, "pair": [ "या", "ंत्रिक" ], "new_token": "यांत्रिक", "frequency": 4, "vocab_size": 4715, "learned_vocab_size": 4447, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 4448, "pair": [ "ब", "जट" ], "new_token": "बजट", "frequency": 4, "vocab_size": 4716, "learned_vocab_size": 4448, "compression_ratio": 1.1773593084631664, "example_words": [] }, { "step": 4449, "pair": [ "बा", "या" ], "new_token": "बाया", "frequency": 4, "vocab_size": 4717, "learned_vocab_size": 4449, "compression_ratio": 1.177367886141842, "example_words": [] }, { "step": 4450, "pair": [ "खेल", "ते" ], "new_token": "खेलते", "frequency": 4, "vocab_size": 4718, "learned_vocab_size": 4450, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 4451, "pair": [ "वास्त", "व" ], "new_token": "वास्तव", "frequency": 4, "vocab_size": 4719, "learned_vocab_size": 4451, "compression_ratio": 1.177387186375848, "example_words": [] }, { "step": 4452, "pair": [ "पंजी", "कृत" ], "new_token": "पंजीकृत", "frequency": 4, "vocab_size": 4720, "learned_vocab_size": 4452, "compression_ratio": 1.177387186375848, "example_words": [] }, { "step": 4453, "pair": [ "प्रति", "दिन" ], "new_token": "प्रतिदिन", "frequency": 4, "vocab_size": 4721, "learned_vocab_size": 4453, "compression_ratio": 1.177387186375848, "example_words": [] }, { "step": 4454, "pair": [ "वि", "ज्ञा" ], "new_token": "विज्ञा", "frequency": 4, "vocab_size": 4722, "learned_vocab_size": 4454, "compression_ratio": 1.177387186375848, "example_words": [] }, { "step": 4455, "pair": [ "शेखा", "वा" ], "new_token": "शेखावा", "frequency": 4, "vocab_size": 4723, "learned_vocab_size": 4455, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 4456, "pair": [ "शेखावा", "टी" ], "new_token": "शेखावाटी", "frequency": 4, "vocab_size": 4724, "learned_vocab_size": 4456, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 4457, "pair": [ "ओ", "बा" ], "new_token": "ओबा", "frequency": 4, "vocab_size": 4725, "learned_vocab_size": 4457, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 4458, "pair": [ "भू", "षण" ], "new_token": "भूषण", "frequency": 4, "vocab_size": 4726, "learned_vocab_size": 4458, "compression_ratio": 1.1776295653948174, "example_words": [] }, { "step": 4459, "pair": [ "पड़", "ो" ], "new_token": "पड़ो", "frequency": 4, "vocab_size": 4727, "learned_vocab_size": 4459, "compression_ratio": 1.177640292435695, "example_words": [] }, { "step": 4460, "pair": [ "चा", "म" ], "new_token": "चाम", "frequency": 4, "vocab_size": 4728, "learned_vocab_size": 4460, "compression_ratio": 1.1776488742091042, "example_words": [] }, { "step": 4461, "pair": [ "कम्", "पोंग" ], "new_token": "कम्पोंग", "frequency": 4, "vocab_size": 4729, "learned_vocab_size": 4461, "compression_ratio": 1.1776596016017549, "example_words": [] }, { "step": 4462, "pair": [ "प्रि", "य" ], "new_token": "प्रिय", "frequency": 4, "vocab_size": 4730, "learned_vocab_size": 4462, "compression_ratio": 1.1776596016017549, "example_words": [] }, { "step": 4463, "pair": [ "सी", "ट" ], "new_token": "सीट", "frequency": 4, "vocab_size": 4731, "learned_vocab_size": 4463, "compression_ratio": 1.1776596016017549, "example_words": [] }, { "step": 4464, "pair": [ "संक्षि", "प्त" ], "new_token": "संक्षिप्त", "frequency": 4, "vocab_size": 4732, "learned_vocab_size": 4464, "compression_ratio": 1.1776917849523487, "example_words": [] }, { "step": 4465, "pair": [ "प्रचलित", "तेलुगू" ], "new_token": "प्रचलिततेलुगू", "frequency": 4, "vocab_size": 4733, "learned_vocab_size": 4465, "compression_ratio": 1.1776917849523487, "example_words": [] }, { "step": 4466, "pair": [ "हैदराबाद", "विषय" ], "new_token": "हैदराबादविषय", "frequency": 4, "vocab_size": 4734, "learned_vocab_size": 4466, "compression_ratio": 1.1776917849523487, "example_words": [] }, { "step": 4467, "pair": [ "अदिला", "बाद" ], "new_token": "अदिलाबाद", "frequency": 4, "vocab_size": 4735, "learned_vocab_size": 4467, "compression_ratio": 1.1776917849523487, "example_words": [] }, { "step": 4468, "pair": [ "भद्रा", "द्री" ], "new_token": "भद्राद्री", "frequency": 4, "vocab_size": 4736, "learned_vocab_size": 4468, "compression_ratio": 1.1776917849523487, "example_words": [] }, { "step": 4469, "pair": [ "को", "ठा" ], "new_token": "कोठा", "frequency": 4, "vocab_size": 4737, "learned_vocab_size": 4469, "compression_ratio": 1.1776917849523487, "example_words": [] }, { "step": 4470, "pair": [ "कोठा", "गुड" ], "new_token": "कोठागुड", "frequency": 4, "vocab_size": 4738, "learned_vocab_size": 4470, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 4471, "pair": [ "कोठागुड", "म" ], "new_token": "कोठागुडम", "frequency": 4, "vocab_size": 4739, "learned_vocab_size": 4471, "compression_ratio": 1.1777089501252562, "example_words": [] }, { "step": 4472, "pair": [ "जगित्या", "ल" ], "new_token": "जगित्याल", "frequency": 4, "vocab_size": 4740, "learned_vocab_size": 4472, "compression_ratio": 1.1777175328993517, "example_words": [] }, { "step": 4473, "pair": [ "भू", "पल" ], "new_token": "भूपल", "frequency": 4, "vocab_size": 4741, "learned_vocab_size": 4473, "compression_ratio": 1.1777175328993517, "example_words": [] }, { "step": 4474, "pair": [ "भूपल", "पल्ली" ], "new_token": "भूपलपल्ली", "frequency": 4, "vocab_size": 4742, "learned_vocab_size": 4474, "compression_ratio": 1.177726115798545, "example_words": [] }, { "step": 4475, "pair": [ "ग", "द्" ], "new_token": "गद्", "frequency": 4, "vocab_size": 4743, "learned_vocab_size": 4475, "compression_ratio": 1.177726115798545, "example_words": [] }, { "step": 4476, "pair": [ "गद्", "वाल" ], "new_token": "गद्वाल", "frequency": 4, "vocab_size": 4744, "learned_vocab_size": 4476, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 4477, "pair": [ "ख", "म्" ], "new_token": "खम्", "frequency": 4, "vocab_size": 4745, "learned_vocab_size": 4477, "compression_ratio": 1.1777561569309087, "example_words": [] }, { "step": 4478, "pair": [ "खम्", "मम" ], "new_token": "खम्मम", "frequency": 4, "vocab_size": 4746, "learned_vocab_size": 4478, "compression_ratio": 1.177766886278168, "example_words": [] }, { "step": 4479, "pair": [ "को", "माराम" ], "new_token": "कोमाराम", "frequency": 4, "vocab_size": 4747, "learned_vocab_size": 4479, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 4480, "pair": [ "आसि", "फ़ा" ], "new_token": "आसिफ़ा", "frequency": 4, "vocab_size": 4748, "learned_vocab_size": 4480, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 4481, "pair": [ "आसिफ़ा", "बाद" ], "new_token": "आसिफ़ाबाद", "frequency": 4, "vocab_size": 4749, "learned_vocab_size": 4481, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 4482, "pair": [ "महबू", "बा" ], "new_token": "महबूबा", "frequency": 4, "vocab_size": 4750, "learned_vocab_size": 4482, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 4483, "pair": [ "महबूबा", "बाद" ], "new_token": "महबूबाबाद", "frequency": 4, "vocab_size": 4751, "learned_vocab_size": 4483, "compression_ratio": 1.1777840536404052, "example_words": [] }, { "step": 4484, "pair": [ "मंचेरि", "यल" ], "new_token": "मंचेरियल", "frequency": 4, "vocab_size": 4752, "learned_vocab_size": 4484, "compression_ratio": 1.1777926375092014, "example_words": [] }, { "step": 4485, "pair": [ "मे", "डक" ], "new_token": "मेडक", "frequency": 4, "vocab_size": 4753, "learned_vocab_size": 4485, "compression_ratio": 1.1777926375092014, "example_words": [] }, { "step": 4486, "pair": [ "नगर", "करनू" ], "new_token": "नगरकरनू", "frequency": 4, "vocab_size": 4754, "learned_vocab_size": 4486, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4487, "pair": [ "नगरकरनू", "ल" ], "new_token": "नगरकरनूल", "frequency": 4, "vocab_size": 4755, "learned_vocab_size": 4487, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4488, "pair": [ "पे", "द्दा" ], "new_token": "पेद्दा", "frequency": 4, "vocab_size": 4756, "learned_vocab_size": 4488, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4489, "pair": [ "पेद्दा", "पल्ली" ], "new_token": "पेद्दापल्ली", "frequency": 4, "vocab_size": 4757, "learned_vocab_size": 4489, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4490, "pair": [ "सिद्दि", "पेट" ], "new_token": "सिद्दिपेट", "frequency": 4, "vocab_size": 4758, "learned_vocab_size": 4490, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4491, "pair": [ "विकारा", "बाद" ], "new_token": "विकाराबाद", "frequency": 4, "vocab_size": 4759, "learned_vocab_size": 4491, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4492, "pair": [ "वान", "पर्" ], "new_token": "वानपर्", "frequency": 4, "vocab_size": 4760, "learned_vocab_size": 4492, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4493, "pair": [ "वानपर्", "ति" ], "new_token": "वानपर्ति", "frequency": 4, "vocab_size": 4761, "learned_vocab_size": 4493, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4494, "pair": [ "हनु", "मकोंडा" ], "new_token": "हनुमकोंडा", "frequency": 4, "vocab_size": 4762, "learned_vocab_size": 4494, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4495, "pair": [ "यदा", "द्री" ], "new_token": "यदाद्री", "frequency": 4, "vocab_size": 4763, "learned_vocab_size": 4495, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4496, "pair": [ "भु", "वनगरी" ], "new_token": "भुवनगरी", "frequency": 4, "vocab_size": 4764, "learned_vocab_size": 4496, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4497, "pair": [ "रो", "बेर्" ], "new_token": "रोबेर्", "frequency": 4, "vocab_size": 4765, "learned_vocab_size": 4497, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4498, "pair": [ "सरली", "फ" ], "new_token": "सरलीफ", "frequency": 4, "vocab_size": 4766, "learned_vocab_size": 4498, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4499, "pair": [ "ं", "झा" ], "new_token": "ंझा", "frequency": 4, "vocab_size": 4767, "learned_vocab_size": 4499, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 4500, "pair": [ "थि", "यो" ], "new_token": "थियो", "frequency": 4, "vocab_size": 4768, "learned_vocab_size": 4500, "compression_ratio": 1.1778098056221622, "example_words": [] }, { "step": 4501, "pair": [ "क्रि", "श्" ], "new_token": "क्रिश्", "frequency": 4, "vocab_size": 4769, "learned_vocab_size": 4501, "compression_ratio": 1.1778291203475098, "example_words": [ "क्रिश्चियन" ] }, { "step": 4502, "pair": [ "क्रिश्", "चियन" ], "new_token": "क्रिश्चियन", "frequency": 4, "vocab_size": 4770, "learned_vocab_size": 4502, "compression_ratio": 1.1778291203475098, "example_words": [] }, { "step": 4503, "pair": [ "ब्", "लो" ], "new_token": "ब्लो", "frequency": 4, "vocab_size": 4771, "learned_vocab_size": 4503, "compression_ratio": 1.1778291203475098, "example_words": [] }, { "step": 4504, "pair": [ "डे", "ल" ], "new_token": "डेल", "frequency": 4, "vocab_size": 4772, "learned_vocab_size": 4504, "compression_ratio": 1.1778398510242085, "example_words": [] }, { "step": 4505, "pair": [ "बॉ", "य" ], "new_token": "बॉय", "frequency": 4, "vocab_size": 4773, "learned_vocab_size": 4505, "compression_ratio": 1.177558771825957, "example_words": [] }, { "step": 4506, "pair": [ "ल्", "फ" ], "new_token": "ल्फ", "frequency": 4, "vocab_size": 4774, "learned_vocab_size": 4506, "compression_ratio": 1.1775694975771487, "example_words": [] }, { "step": 4507, "pair": [ "मार्श", "ल" ], "new_token": "मार्शल", "frequency": 4, "vocab_size": 4775, "learned_vocab_size": 4507, "compression_ratio": 1.1775802235237323, "example_words": [] }, { "step": 4508, "pair": [ "फिलि", "प" ], "new_token": "फिलिप", "frequency": 4, "vocab_size": 4776, "learned_vocab_size": 4508, "compression_ratio": 1.1775802235237323, "example_words": [] }, { "step": 4509, "pair": [ "रोकथा", "म" ], "new_token": "रोकथाम", "frequency": 4, "vocab_size": 4777, "learned_vocab_size": 4509, "compression_ratio": 1.1775845139570766, "example_words": [] }, { "step": 4510, "pair": [ "ग", "वा" ], "new_token": "गवा", "frequency": 4, "vocab_size": 4778, "learned_vocab_size": 4510, "compression_ratio": 1.1775845139570766, "example_words": [] }, { "step": 4511, "pair": [ "ब्", "ला" ], "new_token": "ब्ला", "frequency": 4, "vocab_size": 4779, "learned_vocab_size": 4511, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 4512, "pair": [ "शिया", "ई" ], "new_token": "शियाई", "frequency": 4, "vocab_size": 4780, "learned_vocab_size": 4512, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 4513, "pair": [ "मु", "क" ], "new_token": "मुक", "frequency": 4, "vocab_size": 4781, "learned_vocab_size": 4513, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 4514, "pair": [ "मे", "मोरि" ], "new_token": "मेमोरि", "frequency": 4, "vocab_size": 4782, "learned_vocab_size": 4514, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 4515, "pair": [ "मेमोरि", "यल" ], "new_token": "मेमोरियल", "frequency": 4, "vocab_size": 4783, "learned_vocab_size": 4515, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 4516, "pair": [ "भे", "द" ], "new_token": "भेद", "frequency": 4, "vocab_size": 4784, "learned_vocab_size": 4516, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 4517, "pair": [ "पी", "ला" ], "new_token": "पीला", "frequency": 4, "vocab_size": 4785, "learned_vocab_size": 4517, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4518, "pair": [ "दा", "वा" ], "new_token": "दावा", "frequency": 4, "vocab_size": 4786, "learned_vocab_size": 4518, "compression_ratio": 1.1773550196706979, "example_words": [] }, { "step": 4519, "pair": [ "वर्ष", "ी" ], "new_token": "वर्षी", "frequency": 4, "vocab_size": 4787, "learned_vocab_size": 4519, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 4520, "pair": [ "वर्षी", "य" ], "new_token": "वर्षीय", "frequency": 4, "vocab_size": 4788, "learned_vocab_size": 4520, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 4521, "pair": [ "च", "ढ़" ], "new_token": "चढ़", "frequency": 4, "vocab_size": 4789, "learned_vocab_size": 4521, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 4522, "pair": [ "स", "वी" ], "new_token": "सवी", "frequency": 4, "vocab_size": 4790, "learned_vocab_size": 4522, "compression_ratio": 1.1773721750280495, "example_words": [] }, { "step": 4523, "pair": [ "अधिक", "तर" ], "new_token": "अधिकतर", "frequency": 4, "vocab_size": 4791, "learned_vocab_size": 4523, "compression_ratio": 1.1773807528942057, "example_words": [] }, { "step": 4524, "pair": [ "स्काउ", "ट्स" ], "new_token": "स्काउट्स", "frequency": 4, "vocab_size": 4792, "learned_vocab_size": 4524, "compression_ratio": 1.177389330885353, "example_words": [] }, { "step": 4525, "pair": [ "पे", "क्ष" ], "new_token": "पेक्ष", "frequency": 4, "vocab_size": 4793, "learned_vocab_size": 4525, "compression_ratio": 1.177389330885353, "example_words": [] }, { "step": 4526, "pair": [ "मि", "शन" ], "new_token": "मिशन", "frequency": 4, "vocab_size": 4794, "learned_vocab_size": 4526, "compression_ratio": 1.1774064872426304, "example_words": [] }, { "step": 4527, "pair": [ "लौ", "ट" ], "new_token": "लौट", "frequency": 4, "vocab_size": 4795, "learned_vocab_size": 4527, "compression_ratio": 1.1774214994654004, "example_words": [] }, { "step": 4528, "pair": [ "सम्", "पूर्ण" ], "new_token": "सम्पूर्ण", "frequency": 4, "vocab_size": 4796, "learned_vocab_size": 4528, "compression_ratio": 1.1774365120709942, "example_words": [] }, { "step": 4529, "pair": [ "पर", "म्परा" ], "new_token": "परम्परा", "frequency": 4, "vocab_size": 4797, "learned_vocab_size": 4529, "compression_ratio": 1.1774365120709942, "example_words": [] }, { "step": 4530, "pair": [ "प्राय", "ः" ], "new_token": "प्रायः", "frequency": 4, "vocab_size": 4798, "learned_vocab_size": 4530, "compression_ratio": 1.1774365120709942, "example_words": [] }, { "step": 4531, "pair": [ "मे", "गा" ], "new_token": "मेगा", "frequency": 4, "vocab_size": 4799, "learned_vocab_size": 4531, "compression_ratio": 1.1774365120709942, "example_words": [] }, { "step": 4532, "pair": [ "ध", "मा" ], "new_token": "धमा", "frequency": 4, "vocab_size": 4800, "learned_vocab_size": 4532, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 4533, "pair": [ "कार्", "तिक" ], "new_token": "कार्तिक", "frequency": 4, "vocab_size": 4801, "learned_vocab_size": 4533, "compression_ratio": 1.1774643936399454, "example_words": [] }, { "step": 4534, "pair": [ "आर्", "ट्स" ], "new_token": "आर्ट्स", "frequency": 4, "vocab_size": 4802, "learned_vocab_size": 4534, "compression_ratio": 1.1774643936399454, "example_words": [] }, { "step": 4535, "pair": [ "कॉ", "मे" ], "new_token": "कॉमे", "frequency": 4, "vocab_size": 4803, "learned_vocab_size": 4535, "compression_ratio": 1.1774643936399454, "example_words": [] }, { "step": 4536, "pair": [ "कॉमे", "डी" ], "new_token": "कॉमेडी", "frequency": 4, "vocab_size": 4804, "learned_vocab_size": 4536, "compression_ratio": 1.1774794073394028, "example_words": [] }, { "step": 4537, "pair": [ "स्पे", "न" ], "new_token": "स्पेन", "frequency": 4, "vocab_size": 4805, "learned_vocab_size": 4537, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 4538, "pair": [ "वि", "वे" ], "new_token": "विवे", "frequency": 4, "vocab_size": 4806, "learned_vocab_size": 4538, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 4539, "pair": [ "उ", "ल" ], "new_token": "उल", "frequency": 4, "vocab_size": 4807, "learned_vocab_size": 4539, "compression_ratio": 1.1775030010692733, "example_words": [] }, { "step": 4540, "pair": [ "मा", "स" ], "new_token": "मास", "frequency": 4, "vocab_size": 4808, "learned_vocab_size": 4540, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 4541, "pair": [ "का", "बु" ], "new_token": "काबु", "frequency": 4, "vocab_size": 4809, "learned_vocab_size": 4541, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 4542, "pair": [ "बे", "गम" ], "new_token": "बेगम", "frequency": 4, "vocab_size": 4810, "learned_vocab_size": 4542, "compression_ratio": 1.1772413780543551, "example_words": [] }, { "step": 4543, "pair": [ "बा", "बा" ], "new_token": "बाबा", "frequency": 4, "vocab_size": 4811, "learned_vocab_size": 4543, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 4544, "pair": [ "जु", "म्" ], "new_token": "जुम्", "frequency": 4, "vocab_size": 4812, "learned_vocab_size": 4544, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 4545, "pair": [ "सा", "ह" ], "new_token": "साह", "frequency": 4, "vocab_size": 4813, "learned_vocab_size": 4545, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 4546, "pair": [ "इ", "ब्" ], "new_token": "इब्", "frequency": 4, "vocab_size": 4814, "learned_vocab_size": 4546, "compression_ratio": 1.1770806019287359, "example_words": [] }, { "step": 4547, "pair": [ "इब्", "न" ], "new_token": "इब्न", "frequency": 4, "vocab_size": 4815, "learned_vocab_size": 4547, "compression_ratio": 1.177108466644208, "example_words": [] }, { "step": 4548, "pair": [ "ह", "यात" ], "new_token": "हयात", "frequency": 4, "vocab_size": 4816, "learned_vocab_size": 4548, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 4549, "pair": [ "बख्", "शी" ], "new_token": "बख्शी", "frequency": 4, "vocab_size": 4817, "learned_vocab_size": 4549, "compression_ratio": 1.177129901938468, "example_words": [] }, { "step": 4550, "pair": [ "कुतु", "ब" ], "new_token": "कुतुब", "frequency": 4, "vocab_size": 4818, "learned_vocab_size": 4550, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 4551, "pair": [ "हा", "जी" ], "new_token": "हाजी", "frequency": 4, "vocab_size": 4820, "learned_vocab_size": 4551, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 4552, "pair": [ "चौ", "खुटिया" ], "new_token": "चौखुटिया", "frequency": 4, "vocab_size": 4821, "learned_vocab_size": 4552, "compression_ratio": 1.1771341890910019, "example_words": [] }, { "step": 4553, "pair": [ "मा", "हू" ], "new_token": "माहू", "frequency": 4, "vocab_size": 4822, "learned_vocab_size": 4553, "compression_ratio": 1.1771341890910019, "example_words": [] }, { "step": 4554, "pair": [ "दर्श", "क" ], "new_token": "दर्शक", "frequency": 4, "vocab_size": 4823, "learned_vocab_size": 4554, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 4555, "pair": [ "अ", "त" ], "new_token": "अत", "frequency": 4, "vocab_size": 4824, "learned_vocab_size": 4555, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 4556, "pair": [ "ए", "व" ], "new_token": "एव", "frequency": 4, "vocab_size": 4825, "learned_vocab_size": 4556, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 4557, "pair": [ "फॉ", "क्स" ], "new_token": "फॉक्स", "frequency": 4, "vocab_size": 4826, "learned_vocab_size": 4557, "compression_ratio": 1.1766992023242182, "example_words": [] }, { "step": 4558, "pair": [ "दाहि", "ना" ], "new_token": "दाहिना", "frequency": 4, "vocab_size": 4827, "learned_vocab_size": 4558, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 4559, "pair": [ "फ़िलिपी", "न्ज़" ], "new_token": "फ़िलिपीन्ज़", "frequency": 4, "vocab_size": 4828, "learned_vocab_size": 4559, "compression_ratio": 1.1767163385747936, "example_words": [] }, { "step": 4560, "pair": [ "सि", "बु" ], "new_token": "सिबु", "frequency": 4, "vocab_size": 4829, "learned_vocab_size": 4560, "compression_ratio": 1.176724906887249, "example_words": [] }, { "step": 4561, "pair": [ "अव", "साद" ], "new_token": "अवसाद", "frequency": 4, "vocab_size": 4830, "learned_vocab_size": 4561, "compression_ratio": 1.176737759589899, "example_words": [] }, { "step": 4562, "pair": [ "ग", "हरी" ], "new_token": "गहरी", "frequency": 4, "vocab_size": 4831, "learned_vocab_size": 4562, "compression_ratio": 1.1767463282143142, "example_words": [] }, { "step": 4563, "pair": [ "बाव", "जू" ], "new_token": "बावजू", "frequency": 4, "vocab_size": 4832, "learned_vocab_size": 4563, "compression_ratio": 1.1767463282143142, "example_words": [] }, { "step": 4564, "pair": [ "बावजू", "द" ], "new_token": "बावजूद", "frequency": 4, "vocab_size": 4833, "learned_vocab_size": 4564, "compression_ratio": 1.1767698925749073, "example_words": [] }, { "step": 4565, "pair": [ "ताप", "मान" ], "new_token": "तापमान", "frequency": 4, "vocab_size": 4834, "learned_vocab_size": 4565, "compression_ratio": 1.1767934578792723, "example_words": [] }, { "step": 4566, "pair": [ "आगंतु", "क" ], "new_token": "आगंतुक", "frequency": 4, "vocab_size": 4835, "learned_vocab_size": 4566, "compression_ratio": 1.1767934578792723, "example_words": [] }, { "step": 4567, "pair": [ "सिद्धा", "ंत" ], "new_token": "सिद्धांत", "frequency": 4, "vocab_size": 4836, "learned_vocab_size": 4567, "compression_ratio": 1.1767934578792723, "example_words": [] }, { "step": 4568, "pair": [ "बा", "ंस" ], "new_token": "बांस", "frequency": 4, "vocab_size": 4837, "learned_vocab_size": 4568, "compression_ratio": 1.1767934578792723, "example_words": [] }, { "step": 4569, "pair": [ "बांस", "वाड़ा" ], "new_token": "बांसवाड़ा", "frequency": 4, "vocab_size": 4838, "learned_vocab_size": 4569, "compression_ratio": 1.1768020273148636, "example_words": [] }, { "step": 4570, "pair": [ "ौ", "ड़" ], "new_token": "ौड़", "frequency": 4, "vocab_size": 4839, "learned_vocab_size": 4570, "compression_ratio": 1.1768020273148636, "example_words": [] }, { "step": 4571, "pair": [ "नर", "बारी" ], "new_token": "नरबारी", "frequency": 4, "vocab_size": 4840, "learned_vocab_size": 4571, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4572, "pair": [ "चाँ", "द" ], "new_token": "चाँद", "frequency": 4, "vocab_size": 4841, "learned_vocab_size": 4572, "compression_ratio": 1.1768105968752618, "example_words": [] }, { "step": 4573, "pair": [ "बि", "छ" ], "new_token": "बिछ", "frequency": 4, "vocab_size": 4842, "learned_vocab_size": 4573, "compression_ratio": 1.1768084544734614, "example_words": [] }, { "step": 4574, "pair": [ "की", "पुर" ], "new_token": "कीपुर", "frequency": 4, "vocab_size": 4843, "learned_vocab_size": 4574, "compression_ratio": 1.176817024127466, "example_words": [] }, { "step": 4575, "pair": [ "स", "लपुर" ], "new_token": "सलपुर", "frequency": 4, "vocab_size": 4844, "learned_vocab_size": 4575, "compression_ratio": 1.1768298788424953, "example_words": [] }, { "step": 4576, "pair": [ "है", "वतपुर" ], "new_token": "हैवतपुर", "frequency": 4, "vocab_size": 4845, "learned_vocab_size": 4576, "compression_ratio": 1.1768384488085333, "example_words": [] }, { "step": 4577, "pair": [ "जनर", "ल" ], "new_token": "जनरल", "frequency": 4, "vocab_size": 4846, "learned_vocab_size": 4577, "compression_ratio": 1.1768384488085333, "example_words": [] }, { "step": 4578, "pair": [ "पाद", "प" ], "new_token": "पादप", "frequency": 4, "vocab_size": 4847, "learned_vocab_size": 4578, "compression_ratio": 1.1768384488085333, "example_words": [] }, { "step": 4579, "pair": [ "पारि", "स्थितिकी" ], "new_token": "पारिस्थितिकी", "frequency": 4, "vocab_size": 4848, "learned_vocab_size": 4579, "compression_ratio": 1.176842733838359, "example_words": [] }, { "step": 4580, "pair": [ "अनु", "वांशिकी" ], "new_token": "अनुवांशिकी", "frequency": 4, "vocab_size": 4849, "learned_vocab_size": 4580, "compression_ratio": 1.176842733838359, "example_words": [] }, { "step": 4581, "pair": [ "नो", "लॉजी" ], "new_token": "नोलॉजी", "frequency": 4, "vocab_size": 4850, "learned_vocab_size": 4581, "compression_ratio": 1.176842733838359, "example_words": [] }, { "step": 4582, "pair": [ "टेलीवि", "ज़न" ], "new_token": "टेलीविज़न", "frequency": 4, "vocab_size": 4851, "learned_vocab_size": 4582, "compression_ratio": 1.1768555891150667, "example_words": [] }, { "step": 4583, "pair": [ "गा", "यिका" ], "new_token": "गायिका", "frequency": 4, "vocab_size": 4852, "learned_vocab_size": 4583, "compression_ratio": 1.1768641594555673, "example_words": [] }, { "step": 4584, "pair": [ "बच", "पन" ], "new_token": "बचपन", "frequency": 4, "vocab_size": 4853, "learned_vocab_size": 4584, "compression_ratio": 1.1768641594555673, "example_words": [] }, { "step": 4585, "pair": [ "पूर्ण", "तः" ], "new_token": "पूर्णतः", "frequency": 4, "vocab_size": 4854, "learned_vocab_size": 4585, "compression_ratio": 1.1768748725567304, "example_words": [] }, { "step": 4586, "pair": [ "त", "प्पा" ], "new_token": "तप्पा", "frequency": 4, "vocab_size": 4855, "learned_vocab_size": 4586, "compression_ratio": 1.1768834431780941, "example_words": [] }, { "step": 4587, "pair": [ "मझु", "वा" ], "new_token": "मझुवा", "frequency": 4, "vocab_size": 4856, "learned_vocab_size": 4587, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4588, "pair": [ "डा", "ँ" ], "new_token": "डाँ", "frequency": 4, "vocab_size": 4857, "learned_vocab_size": 4588, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4589, "pair": [ "सा", "ँ" ], "new_token": "साँ", "frequency": 4, "vocab_size": 4858, "learned_vocab_size": 4589, "compression_ratio": 1.1769005847953216, "example_words": [] }, { "step": 4590, "pair": [ "का", "ग" ], "new_token": "काग", "frequency": 4, "vocab_size": 4859, "learned_vocab_size": 4590, "compression_ratio": 1.1769541555677343, "example_words": [] }, { "step": 4591, "pair": [ "प्रॉ", "सेस" ], "new_token": "प्रॉसेस", "frequency": 4, "vocab_size": 4860, "learned_vocab_size": 4591, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4592, "pair": [ "श्वे", "त" ], "new_token": "श्वेत", "frequency": 4, "vocab_size": 4861, "learned_vocab_size": 4592, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4593, "pair": [ "संतो", "ष" ], "new_token": "संतोष", "frequency": 4, "vocab_size": 4862, "learned_vocab_size": 4593, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4594, "pair": [ "नुक़", "्" ], "new_token": "नुक़्", "frequency": 4, "vocab_size": 4863, "learned_vocab_size": 4594, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4595, "pair": [ "गु", "र" ], "new_token": "गुर", "frequency": 4, "vocab_size": 4864, "learned_vocab_size": 4595, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 4596, "pair": [ "उन", "को" ], "new_token": "उनको", "frequency": 4, "vocab_size": 4865, "learned_vocab_size": 4596, "compression_ratio": 1.1767484703899163, "example_words": [] }, { "step": 4597, "pair": [ "ध्वनिया", "ं" ], "new_token": "ध्वनियां", "frequency": 4, "vocab_size": 4866, "learned_vocab_size": 4597, "compression_ratio": 1.1767570391703182, "example_words": [] }, { "step": 4598, "pair": [ "फे", "यर" ], "new_token": "फेयर", "frequency": 4, "vocab_size": 4867, "learned_vocab_size": 4598, "compression_ratio": 1.1767570391703182, "example_words": [] }, { "step": 4599, "pair": [ "जि", "ल" ], "new_token": "जिल", "frequency": 4, "vocab_size": 4868, "learned_vocab_size": 4599, "compression_ratio": 1.1767656080755122, "example_words": [] }, { "step": 4600, "pair": [ "दिली", "प" ], "new_token": "दिलीप", "frequency": 4, "vocab_size": 4869, "learned_vocab_size": 4600, "compression_ratio": 1.1752978630947943, "example_words": [] }, { "step": 4601, "pair": [ "इंड", "स्ट्री" ], "new_token": "इंडस्ट्री", "frequency": 4, "vocab_size": 4870, "learned_vocab_size": 4601, "compression_ratio": 1.1752978630947943, "example_words": [ "इंडस्ट्रीज", "इंडस्ट्री", "इंडस्ट्रीज़" ] }, { "step": 4602, "pair": [ "बा", "ज़" ], "new_token": "बाज़", "frequency": 4, "vocab_size": 4871, "learned_vocab_size": 4602, "compression_ratio": 1.1752978630947943, "example_words": [] }, { "step": 4603, "pair": [ "बन", "ती" ], "new_token": "बनती", "frequency": 4, "vocab_size": 4872, "learned_vocab_size": 4603, "compression_ratio": 1.1753384656225112, "example_words": [] }, { "step": 4604, "pair": [ "अव", "स्था" ], "new_token": "अवस्था", "frequency": 4, "vocab_size": 4873, "learned_vocab_size": 4604, "compression_ratio": 1.1753491509644949, "example_words": [] }, { "step": 4605, "pair": [ "व्या", "पारी" ], "new_token": "व्यापारी", "frequency": 4, "vocab_size": 4874, "learned_vocab_size": 4605, "compression_ratio": 1.1753491509644949, "example_words": [] }, { "step": 4606, "pair": [ "सा", "ध" ], "new_token": "साध", "frequency": 4, "vocab_size": 4875, "learned_vocab_size": 4606, "compression_ratio": 1.1753491509644949, "example_words": [] }, { "step": 4607, "pair": [ "तो", "ड़" ], "new_token": "तोड़", "frequency": 4, "vocab_size": 4876, "learned_vocab_size": 4607, "compression_ratio": 1.1753769337629372, "example_words": [] }, { "step": 4608, "pair": [ "वि", "ष्णु" ], "new_token": "विष्णु", "frequency": 4, "vocab_size": 4877, "learned_vocab_size": 4608, "compression_ratio": 1.1753876198043853, "example_words": [] }, { "step": 4609, "pair": [ "रामे", "श्वर" ], "new_token": "रामेश्वर", "frequency": 4, "vocab_size": 4878, "learned_vocab_size": 4609, "compression_ratio": 1.1753876198043853, "example_words": [] }, { "step": 4610, "pair": [ "भि", "षेक" ], "new_token": "भिषेक", "frequency": 4, "vocab_size": 4879, "learned_vocab_size": 4610, "compression_ratio": 1.1753876198043853, "example_words": [] }, { "step": 4611, "pair": [ "क", "द" ], "new_token": "कद", "frequency": 4, "vocab_size": 4880, "learned_vocab_size": 4611, "compression_ratio": 1.1753961687774455, "example_words": [] }, { "step": 4612, "pair": [ "प्रतिद्", "वंदी" ], "new_token": "प्रतिद्वंदी", "frequency": 4, "vocab_size": 4881, "learned_vocab_size": 4612, "compression_ratio": 1.1754068551686516, "example_words": [] }, { "step": 4613, "pair": [ "वि", "च" ], "new_token": "विच", "frequency": 4, "vocab_size": 4882, "learned_vocab_size": 4613, "compression_ratio": 1.1754068551686516, "example_words": [] }, { "step": 4614, "pair": [ "सम्", "मिलित" ], "new_token": "सम्मिलित", "frequency": 4, "vocab_size": 4883, "learned_vocab_size": 4614, "compression_ratio": 1.1754923532941755, "example_words": [] }, { "step": 4615, "pair": [ "के", "॰" ], "new_token": "के॰", "frequency": 4, "vocab_size": 4884, "learned_vocab_size": 4615, "compression_ratio": 1.1754923532941755, "example_words": [] }, { "step": 4616, "pair": [ "प्रति", "शत" ], "new_token": "प्रतिशत", "frequency": 4, "vocab_size": 4885, "learned_vocab_size": 4616, "compression_ratio": 1.1755009037908297, "example_words": [] }, { "step": 4617, "pair": [ "टे", "क्" ], "new_token": "टेक्", "frequency": 4, "vocab_size": 4886, "learned_vocab_size": 4617, "compression_ratio": 1.1755009037908297, "example_words": [] }, { "step": 4618, "pair": [ "क्", "वालि" ], "new_token": "क्वालि", "frequency": 4, "vocab_size": 4887, "learned_vocab_size": 4618, "compression_ratio": 1.1755244182980387, "example_words": [] }, { "step": 4619, "pair": [ "चे", "क" ], "new_token": "चेक", "frequency": 4, "vocab_size": 4888, "learned_vocab_size": 4619, "compression_ratio": 1.1755244182980387, "example_words": [] }, { "step": 4620, "pair": [ "इ", "ज" ], "new_token": "इज", "frequency": 4, "vocab_size": 4889, "learned_vocab_size": 4620, "compression_ratio": 1.175532969261181, "example_words": [] }, { "step": 4621, "pair": [ "१९९", "९" ], "new_token": "१९९९", "frequency": 4, "vocab_size": 4890, "learned_vocab_size": 4621, "compression_ratio": 1.1755500715606775, "example_words": [] }, { "step": 4622, "pair": [ "कॉ", "मन्स" ], "new_token": "कॉमन्स", "frequency": 4, "vocab_size": 4891, "learned_vocab_size": 4622, "compression_ratio": 1.175565036480952, "example_words": [] }, { "step": 4623, "pair": [ "प्रक्रिया", "ओं" ], "new_token": "प्रक्रियाओं", "frequency": 4, "vocab_size": 4892, "learned_vocab_size": 4623, "compression_ratio": 1.175565036480952, "example_words": [] }, { "step": 4624, "pair": [ "तार", "क" ], "new_token": "तारक", "frequency": 4, "vocab_size": 4893, "learned_vocab_size": 4624, "compression_ratio": 1.175565036480952, "example_words": [] }, { "step": 4625, "pair": [ "आ", "श" ], "new_token": "आश", "frequency": 4, "vocab_size": 4894, "learned_vocab_size": 4625, "compression_ratio": 1.175565036480952, "example_words": [] }, { "step": 4626, "pair": [ "मनो", "विज्ञान" ], "new_token": "मनोविज्ञान", "frequency": 4, "vocab_size": 4895, "learned_vocab_size": 4626, "compression_ratio": 1.175554347213306, "example_words": [] }, { "step": 4627, "pair": [ "झ", "ू" ], "new_token": "झू", "frequency": 4, "vocab_size": 4896, "learned_vocab_size": 4627, "compression_ratio": 1.175554347213306, "example_words": [] }, { "step": 4628, "pair": [ "त्या", "ग" ], "new_token": "त्याग", "frequency": 4, "vocab_size": 4897, "learned_vocab_size": 4628, "compression_ratio": 1.1755628986118714, "example_words": [] }, { "step": 4629, "pair": [ "आत्", "मा" ], "new_token": "आत्मा", "frequency": 4, "vocab_size": 4898, "learned_vocab_size": 4629, "compression_ratio": 1.1755628986118714, "example_words": [] }, { "step": 4630, "pair": [ "बढ़ा", "वा" ], "new_token": "बढ़ावा", "frequency": 4, "vocab_size": 4899, "learned_vocab_size": 4630, "compression_ratio": 1.1755628986118714, "example_words": [] }, { "step": 4631, "pair": [ "का", "व" ], "new_token": "काव", "frequency": 4, "vocab_size": 4900, "learned_vocab_size": 4631, "compression_ratio": 1.1755628986118714, "example_words": [] }, { "step": 4632, "pair": [ "ज", "दूर" ], "new_token": "जदूर", "frequency": 4, "vocab_size": 4901, "learned_vocab_size": 4632, "compression_ratio": 1.1756184857352265, "example_words": [] }, { "step": 4633, "pair": [ "ौ", "टा" ], "new_token": "ौटा", "frequency": 4, "vocab_size": 4902, "learned_vocab_size": 4633, "compression_ratio": 1.1756184857352265, "example_words": [] }, { "step": 4634, "pair": [ "गो", "पाल" ], "new_token": "गोपाल", "frequency": 4, "vocab_size": 4903, "learned_vocab_size": 4634, "compression_ratio": 1.1756270380669531, "example_words": [] }, { "step": 4635, "pair": [ "मा", "उ" ], "new_token": "माउ", "frequency": 4, "vocab_size": 4904, "learned_vocab_size": 4635, "compression_ratio": 1.1757232603737346, "example_words": [] }, { "step": 4636, "pair": [ "ह", "द" ], "new_token": "हद", "frequency": 4, "vocab_size": 4905, "learned_vocab_size": 4636, "compression_ratio": 1.1757382297037986, "example_words": [] }, { "step": 4637, "pair": [ "ची", "जों" ], "new_token": "चीजों", "frequency": 4, "vocab_size": 4906, "learned_vocab_size": 4637, "compression_ratio": 1.1757489223157933, "example_words": [] }, { "step": 4638, "pair": [ "ऐ", "नी" ], "new_token": "ऐनी", "frequency": 4, "vocab_size": 4907, "learned_vocab_size": 4638, "compression_ratio": 1.1757489223157933, "example_words": [] }, { "step": 4639, "pair": [ "द", "ंड" ], "new_token": "दंड", "frequency": 4, "vocab_size": 4908, "learned_vocab_size": 4639, "compression_ratio": 1.1757574765454195, "example_words": [] }, { "step": 4640, "pair": [ "व्या", "ख्या" ], "new_token": "व्याख्या", "frequency": 4, "vocab_size": 4909, "learned_vocab_size": 4640, "compression_ratio": 1.1757724467467836, "example_words": [] }, { "step": 4641, "pair": [ "ले", "बल" ], "new_token": "लेबल", "frequency": 4, "vocab_size": 4910, "learned_vocab_size": 4641, "compression_ratio": 1.1757724467467836, "example_words": [] }, { "step": 4642, "pair": [ "र", "द्द" ], "new_token": "रद्द", "frequency": 4, "vocab_size": 4911, "learned_vocab_size": 4642, "compression_ratio": 1.1757831399811558, "example_words": [] }, { "step": 4643, "pair": [ "भ", "य" ], "new_token": "भय", "frequency": 4, "vocab_size": 4912, "learned_vocab_size": 4643, "compression_ratio": 1.1757916947086964, "example_words": [] }, { "step": 4644, "pair": [ "निकल", "ती" ], "new_token": "निकलती", "frequency": 4, "vocab_size": 4913, "learned_vocab_size": 4644, "compression_ratio": 1.1758088045372361, "example_words": [] }, { "step": 4645, "pair": [ "क", "ब्" ], "new_token": "कब्", "frequency": 4, "vocab_size": 4914, "learned_vocab_size": 4645, "compression_ratio": 1.1758088045372361, "example_words": [] }, { "step": 4646, "pair": [ "ग", "हन" ], "new_token": "गहन", "frequency": 4, "vocab_size": 4915, "learned_vocab_size": 4646, "compression_ratio": 1.175823776045693, "example_words": [] }, { "step": 4647, "pair": [ "स्कै", "न" ], "new_token": "स्कैन", "frequency": 4, "vocab_size": 4916, "learned_vocab_size": 4647, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4648, "pair": [ "कै", "ंसर" ], "new_token": "कैंसर", "frequency": 4, "vocab_size": 4917, "learned_vocab_size": 4648, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4649, "pair": [ "मस्ति", "ष्क" ], "new_token": "मस्तिष्क", "frequency": 4, "vocab_size": 4918, "learned_vocab_size": 4649, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4650, "pair": [ "चन्द्र", "मुखी" ], "new_token": "चन्द्रमुखी", "frequency": 4, "vocab_size": 4919, "learned_vocab_size": 4650, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4651, "pair": [ "य", "ंत्र" ], "new_token": "यंत्र", "frequency": 4, "vocab_size": 4921, "learned_vocab_size": 4651, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4652, "pair": [ "डु", "मरी" ], "new_token": "डुमरी", "frequency": 4, "vocab_size": 4922, "learned_vocab_size": 4652, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4653, "pair": [ "ना", "सिर" ], "new_token": "नासिर", "frequency": 4, "vocab_size": 4923, "learned_vocab_size": 4653, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 4654, "pair": [ "महादेव", "पुर" ], "new_token": "महादेवपुर", "frequency": 4, "vocab_size": 4924, "learned_vocab_size": 4654, "compression_ratio": 1.1758451645763035, "example_words": [] }, { "step": 4655, "pair": [ "नेस्", "ले" ], "new_token": "नेस्ले", "frequency": 4, "vocab_size": 4925, "learned_vocab_size": 4655, "compression_ratio": 1.1758451645763035, "example_words": [] }, { "step": 4656, "pair": [ "खरी", "द" ], "new_token": "खरीद", "frequency": 4, "vocab_size": 4926, "learned_vocab_size": 4656, "compression_ratio": 1.1758451645763035, "example_words": [] }, { "step": 4657, "pair": [ "स", "फे" ], "new_token": "सफे", "frequency": 4, "vocab_size": 4927, "learned_vocab_size": 4657, "compression_ratio": 1.1758451645763035, "example_words": [] }, { "step": 4658, "pair": [ "सफे", "द" ], "new_token": "सफेद", "frequency": 4, "vocab_size": 4928, "learned_vocab_size": 4658, "compression_ratio": 1.1758579980681743, "example_words": [] }, { "step": 4659, "pair": [ "नि", "न" ], "new_token": "निन", "frequency": 4, "vocab_size": 4929, "learned_vocab_size": 4659, "compression_ratio": 1.1758708318401843, "example_words": [] }, { "step": 4660, "pair": [ "सेस", "ल" ], "new_token": "सेसल", "frequency": 4, "vocab_size": 4930, "learned_vocab_size": 4660, "compression_ratio": 1.1758858049282734, "example_words": [] }, { "step": 4661, "pair": [ "वृ", "क्ष" ], "new_token": "वृक्ष", "frequency": 4, "vocab_size": 4931, "learned_vocab_size": 4661, "compression_ratio": 1.1758858049282734, "example_words": [] }, { "step": 4662, "pair": [ "मु", "ल्ला" ], "new_token": "मुल्ला", "frequency": 4, "vocab_size": 4932, "learned_vocab_size": 4662, "compression_ratio": 1.1758986393072837, "example_words": [] }, { "step": 4663, "pair": [ "रा", "ठ" ], "new_token": "राठ", "frequency": 4, "vocab_size": 4933, "learned_vocab_size": 4663, "compression_ratio": 1.175907195715606, "example_words": [] }, { "step": 4664, "pair": [ "सैन", "फिलिपो" ], "new_token": "सैनफिलिपो", "frequency": 4, "vocab_size": 4934, "learned_vocab_size": 4664, "compression_ratio": 1.1759178914011181, "example_words": [] }, { "step": 4665, "pair": [ "प्र", "माण" ], "new_token": "प्रमाण", "frequency": 4, "vocab_size": 4935, "learned_vocab_size": 4665, "compression_ratio": 1.1759178914011181, "example_words": [] }, { "step": 4666, "pair": [ "टाइ", "प" ], "new_token": "टाइप", "frequency": 4, "vocab_size": 4936, "learned_vocab_size": 4666, "compression_ratio": 1.1759178914011181, "example_words": [] }, { "step": 4667, "pair": [ "हमे", "शा" ], "new_token": "हमेशा", "frequency": 4, "vocab_size": 4937, "learned_vocab_size": 4667, "compression_ratio": 1.1759350049026474, "example_words": [] }, { "step": 4668, "pair": [ "आर", "डी" ], "new_token": "आरडी", "frequency": 4, "vocab_size": 4938, "learned_vocab_size": 4668, "compression_ratio": 1.1759350049026474, "example_words": [] }, { "step": 4669, "pair": [ "डु", "प्" ], "new_token": "डुप्", "frequency": 4, "vocab_size": 4939, "learned_vocab_size": 4669, "compression_ratio": 1.175947840355687, "example_words": [] }, { "step": 4670, "pair": [ "डुप्", "लिकेट" ], "new_token": "डुप्लिकेट", "frequency": 4, "vocab_size": 4940, "learned_vocab_size": 4670, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 4671, "pair": [ "रेडब्रि", "ज" ], "new_token": "रेडब्रिज", "frequency": 4, "vocab_size": 4941, "learned_vocab_size": 4671, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 4672, "pair": [ "वुड", "फ़र्ड" ], "new_token": "वुडफ़र्ड", "frequency": 4, "vocab_size": 4942, "learned_vocab_size": 4672, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 4673, "pair": [ "का", "ं" ], "new_token": "कां", "frequency": 4, "vocab_size": 4943, "learned_vocab_size": 4673, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 4674, "pair": [ "पो", "लिस" ], "new_token": "पोलिस", "frequency": 4, "vocab_size": 4944, "learned_vocab_size": 4674, "compression_ratio": 1.1756484194406707, "example_words": [] }, { "step": 4675, "pair": [ "पि", "परौर" ], "new_token": "पिपरौर", "frequency": 4, "vocab_size": 4945, "learned_vocab_size": 4675, "compression_ratio": 1.1756591104191827, "example_words": [] }, { "step": 4676, "pair": [ "थ", "ौली" ], "new_token": "थौली", "frequency": 4, "vocab_size": 4946, "learned_vocab_size": 4676, "compression_ratio": 1.1756591104191827, "example_words": [] }, { "step": 4677, "pair": [ "मलही", "पुर" ], "new_token": "मलहीपुर", "frequency": 4, "vocab_size": 4947, "learned_vocab_size": 4677, "compression_ratio": 1.1756591104191827, "example_words": [] }, { "step": 4678, "pair": [ "दा", "हा" ], "new_token": "दाहा", "frequency": 4, "vocab_size": 4948, "learned_vocab_size": 4678, "compression_ratio": 1.1756591104191827, "example_words": [] }, { "step": 4679, "pair": [ "टे", "घरा" ], "new_token": "टेघरा", "frequency": 4, "vocab_size": 4949, "learned_vocab_size": 4679, "compression_ratio": 1.1756719398500617, "example_words": [] }, { "step": 4680, "pair": [ "इ", "मे" ], "new_token": "इमे", "frequency": 4, "vocab_size": 4950, "learned_vocab_size": 4680, "compression_ratio": 1.1756719398500617, "example_words": [] }, { "step": 4681, "pair": [ "हे", "न" ], "new_token": "हेन", "frequency": 4, "vocab_size": 4951, "learned_vocab_size": 4681, "compression_ratio": 1.1756804929595397, "example_words": [] }, { "step": 4682, "pair": [ "सं", "प्रदाय" ], "new_token": "संप्रदाय", "frequency": 4, "vocab_size": 4952, "learned_vocab_size": 4682, "compression_ratio": 1.1756804929595397, "example_words": [] }, { "step": 4683, "pair": [ "सम्बद्ध", "ता" ], "new_token": "सम्बद्धता", "frequency": 4, "vocab_size": 4953, "learned_vocab_size": 4683, "compression_ratio": 1.1756804929595397, "example_words": [] }, { "step": 4684, "pair": [ "अभ्या", "स" ], "new_token": "अभ्यास", "frequency": 4, "vocab_size": 4954, "learned_vocab_size": 4684, "compression_ratio": 1.1756804929595397, "example_words": [] }, { "step": 4685, "pair": [ "झ", "रना" ], "new_token": "झरना", "frequency": 4, "vocab_size": 4955, "learned_vocab_size": 4685, "compression_ratio": 1.1756804929595397, "example_words": [] }, { "step": 4686, "pair": [ "मो", "न" ], "new_token": "मोन", "frequency": 4, "vocab_size": 4956, "learned_vocab_size": 4686, "compression_ratio": 1.1756804929595397, "example_words": [] }, { "step": 4687, "pair": [ "पुन", "पुन" ], "new_token": "पुनपुन", "frequency": 4, "vocab_size": 4957, "learned_vocab_size": 4687, "compression_ratio": 1.1756569722079249, "example_words": [] }, { "step": 4688, "pair": [ "वॉ", "र" ], "new_token": "वॉर", "frequency": 4, "vocab_size": 4958, "learned_vocab_size": 4688, "compression_ratio": 1.175665525099622, "example_words": [] }, { "step": 4689, "pair": [ "आखि", "र" ], "new_token": "आखिर", "frequency": 4, "vocab_size": 4959, "learned_vocab_size": 4689, "compression_ratio": 1.1756740781157642, "example_words": [] }, { "step": 4690, "pair": [ "कोरो", "ना" ], "new_token": "कोरोना", "frequency": 4, "vocab_size": 4960, "learned_vocab_size": 4690, "compression_ratio": 1.1756826312563544, "example_words": [] }, { "step": 4691, "pair": [ "प्र", "कोप" ], "new_token": "प्रकोप", "frequency": 4, "vocab_size": 4961, "learned_vocab_size": 4691, "compression_ratio": 1.1756826312563544, "example_words": [] }, { "step": 4692, "pair": [ "का", "स" ], "new_token": "कास", "frequency": 4, "vocab_size": 4962, "learned_vocab_size": 4692, "compression_ratio": 1.1756826312563544, "example_words": [] }, { "step": 4693, "pair": [ "वायर", "ल" ], "new_token": "वायरल", "frequency": 4, "vocab_size": 4963, "learned_vocab_size": 4693, "compression_ratio": 1.1757852786513707, "example_words": [] }, { "step": 4694, "pair": [ "रोगि", "यों" ], "new_token": "रोगियों", "frequency": 4, "vocab_size": 4964, "learned_vocab_size": 4694, "compression_ratio": 1.1757938334100322, "example_words": [] }, { "step": 4695, "pair": [ "ंकू", "वर" ], "new_token": "ंकूवर", "frequency": 4, "vocab_size": 4965, "learned_vocab_size": 4695, "compression_ratio": 1.1757938334100322, "example_words": [] }, { "step": 4696, "pair": [ "जु", "ड़ा" ], "new_token": "जुड़ा", "frequency": 4, "vocab_size": 4966, "learned_vocab_size": 4696, "compression_ratio": 1.1757938334100322, "example_words": [] }, { "step": 4697, "pair": [ "हि", "न्द" ], "new_token": "हिन्द", "frequency": 4, "vocab_size": 4967, "learned_vocab_size": 4697, "compression_ratio": 1.1758045270334179, "example_words": [] }, { "step": 4698, "pair": [ "ब", "जा" ], "new_token": "बजा", "frequency": 4, "vocab_size": 4968, "learned_vocab_size": 4698, "compression_ratio": 1.1762581157015168, "example_words": [] }, { "step": 4699, "pair": [ "जब्", "त" ], "new_token": "जब्त", "frequency": 4, "vocab_size": 4969, "learned_vocab_size": 4699, "compression_ratio": 1.1762838009971976, "example_words": [] }, { "step": 4700, "pair": [ "जब्त", "शुदा" ], "new_token": "जब्तशुदा", "frequency": 4, "vocab_size": 4970, "learned_vocab_size": 4700, "compression_ratio": 1.1762838009971976, "example_words": [] }, { "step": 4701, "pair": [ "नज्", "में" ], "new_token": "नज्में", "frequency": 4, "vocab_size": 4972, "learned_vocab_size": 4701, "compression_ratio": 1.1762838009971976, "example_words": [ "नज्में" ] }, { "step": 4702, "pair": [ "वि", "ष" ], "new_token": "विष", "frequency": 4, "vocab_size": 4973, "learned_vocab_size": 4702, "compression_ratio": 1.1762838009971976, "example_words": [] }, { "step": 4703, "pair": [ "क्रो", "ध" ], "new_token": "क्रोध", "frequency": 4, "vocab_size": 4974, "learned_vocab_size": 4703, "compression_ratio": 1.175984208994324, "example_words": [] }, { "step": 4704, "pair": [ "अंत", "तः" ], "new_token": "अंततः", "frequency": 4, "vocab_size": 4975, "learned_vocab_size": 4704, "compression_ratio": 1.175984208994324, "example_words": [] }, { "step": 4705, "pair": [ "चला", "या" ], "new_token": "चलाया", "frequency": 4, "vocab_size": 4976, "learned_vocab_size": 4705, "compression_ratio": 1.175984208994324, "example_words": [] }, { "step": 4706, "pair": [ "सं", "योग" ], "new_token": "संयोग", "frequency": 4, "vocab_size": 4977, "learned_vocab_size": 4706, "compression_ratio": 1.175984208994324, "example_words": [] }, { "step": 4707, "pair": [ "मार", "किस" ], "new_token": "मारकिस", "frequency": 4, "vocab_size": 4978, "learned_vocab_size": 4707, "compression_ratio": 1.175992766647989, "example_words": [] }, { "step": 4708, "pair": [ "पूर्", "ति" ], "new_token": "पूर्ति", "frequency": 4, "vocab_size": 4979, "learned_vocab_size": 4708, "compression_ratio": 1.175992766647989, "example_words": [] }, { "step": 4709, "pair": [ "उ", "छा" ], "new_token": "उछा", "frequency": 4, "vocab_size": 4980, "learned_vocab_size": 4709, "compression_ratio": 1.1760013244262033, "example_words": [] }, { "step": 4710, "pair": [ "बुला", "या" ], "new_token": "बुलाया", "frequency": 4, "vocab_size": 4981, "learned_vocab_size": 4710, "compression_ratio": 1.1760098823289695, "example_words": [] }, { "step": 4711, "pair": [ "ता", "ंडव" ], "new_token": "तांडव", "frequency": 4, "vocab_size": 4982, "learned_vocab_size": 4711, "compression_ratio": 1.1760184403562903, "example_words": [] }, { "step": 4712, "pair": [ "परि", "भाषित" ], "new_token": "परिभाषित", "frequency": 4, "vocab_size": 4983, "learned_vocab_size": 4712, "compression_ratio": 1.1760312776308177, "example_words": [] }, { "step": 4713, "pair": [ "मु", "द्दों" ], "new_token": "मुद्दों", "frequency": 4, "vocab_size": 4984, "learned_vocab_size": 4713, "compression_ratio": 1.1760312776308177, "example_words": [] }, { "step": 4714, "pair": [ "नगरी", "य" ], "new_token": "नगरीय", "frequency": 4, "vocab_size": 4985, "learned_vocab_size": 4714, "compression_ratio": 1.1760312776308177, "example_words": [] }, { "step": 4715, "pair": [ "औ", "द्योगिक" ], "new_token": "औद्योगिक", "frequency": 4, "vocab_size": 4986, "learned_vocab_size": 4715, "compression_ratio": 1.1760312776308177, "example_words": [] }, { "step": 4716, "pair": [ "६", "६" ], "new_token": "६६", "frequency": 4, "vocab_size": 4987, "learned_vocab_size": 4716, "compression_ratio": 1.1760312776308177, "example_words": [] }, { "step": 4717, "pair": [ "ओ", "ख" ], "new_token": "ओख", "frequency": 4, "vocab_size": 4988, "learned_vocab_size": 4717, "compression_ratio": 1.1760441151856083, "example_words": [] }, { "step": 4718, "pair": [ "तन", "हुँ" ], "new_token": "तनहुँ", "frequency": 4, "vocab_size": 4989, "learned_vocab_size": 4718, "compression_ratio": 1.1760141613270605, "example_words": [] }, { "step": 4719, "pair": [ "चैं", "पियन" ], "new_token": "चैंपियन", "frequency": 4, "vocab_size": 4990, "learned_vocab_size": 4719, "compression_ratio": 1.1760248589585216, "example_words": [] }, { "step": 4720, "pair": [ "उ", "मर" ], "new_token": "उमर", "frequency": 4, "vocab_size": 4991, "learned_vocab_size": 4720, "compression_ratio": 1.176035556784607, "example_words": [] }, { "step": 4721, "pair": [ "मै", "थ्यू" ], "new_token": "मैथ्यू", "frequency": 4, "vocab_size": 4992, "learned_vocab_size": 4721, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 4722, "pair": [ "आर्मीनिया", "ई" ], "new_token": "आर्मीनियाई", "frequency": 4, "vocab_size": 4993, "learned_vocab_size": 4722, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 4723, "pair": [ "प्र", "चार" ], "new_token": "प्रचार", "frequency": 4, "vocab_size": 4994, "learned_vocab_size": 4723, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 4724, "pair": [ "महा", "प्रभु" ], "new_token": "महाप्रभु", "frequency": 4, "vocab_size": 4995, "learned_vocab_size": 4724, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 4725, "pair": [ "पर", "म" ], "new_token": "परम", "frequency": 4, "vocab_size": 4996, "learned_vocab_size": 4725, "compression_ratio": 1.1760612323613102, "example_words": [] }, { "step": 4726, "pair": [ "८", "६" ], "new_token": "८६", "frequency": 4, "vocab_size": 4997, "learned_vocab_size": 4726, "compression_ratio": 1.176082629531652, "example_words": [] }, { "step": 4727, "pair": [ "८", "८" ], "new_token": "८८", "frequency": 4, "vocab_size": 4998, "learned_vocab_size": 4727, "compression_ratio": 1.1760933284087993, "example_words": [] }, { "step": 4728, "pair": [ "अ", "दृश्य" ], "new_token": "अदृश्य", "frequency": 4, "vocab_size": 4999, "learned_vocab_size": 4728, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4729, "pair": [ "भ", "ट" ], "new_token": "भट", "frequency": 4, "vocab_size": 5000, "learned_vocab_size": 4729, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4730, "pair": [ "अद्", "भु" ], "new_token": "अद्भु", "frequency": 4, "vocab_size": 5001, "learned_vocab_size": 4730, "compression_ratio": 1.176084769291509, "example_words": [] }, { "step": 4731, "pair": [ "अद्भु", "त" ], "new_token": "अद्भुत", "frequency": 4, "vocab_size": 5002, "learned_vocab_size": 4731, "compression_ratio": 1.1760933284087993, "example_words": [] }, { "step": 4732, "pair": [ "उ", "भरते" ], "new_token": "उभरते", "frequency": 4, "vocab_size": 5003, "learned_vocab_size": 4732, "compression_ratio": 1.1761018876506708, "example_words": [] }, { "step": 4733, "pair": [ "शाहो", "पुर" ], "new_token": "शाहोपुर", "frequency": 4, "vocab_size": 5004, "learned_vocab_size": 4733, "compression_ratio": 1.1761018876506708, "example_words": [] }, { "step": 4734, "pair": [ "शर", "फ" ], "new_token": "शरफ", "frequency": 4, "vocab_size": 5005, "learned_vocab_size": 4734, "compression_ratio": 1.1761018876506708, "example_words": [] }, { "step": 4735, "pair": [ "भावना", "ओं" ], "new_token": "भावनाओं", "frequency": 4, "vocab_size": 5006, "learned_vocab_size": 4735, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4736, "pair": [ "एल्ब", "म" ], "new_token": "एल्बम", "frequency": 4, "vocab_size": 5007, "learned_vocab_size": 4736, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4737, "pair": [ "फ़र्", "नान्डि" ], "new_token": "फ़र्नान्डि", "frequency": 4, "vocab_size": 5008, "learned_vocab_size": 4737, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4738, "pair": [ "फ़र्नान्डि", "स" ], "new_token": "फ़र्नान्डिस", "frequency": 4, "vocab_size": 5009, "learned_vocab_size": 4738, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4739, "pair": [ "सदा", "शिव" ], "new_token": "सदाशिव", "frequency": 4, "vocab_size": 5010, "learned_vocab_size": 4739, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4740, "pair": [ "ऐ", "ं" ], "new_token": "ऐं", "frequency": 4, "vocab_size": 5011, "learned_vocab_size": 4740, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4741, "pair": [ "२०", "२०" ], "new_token": "२०२०", "frequency": 4, "vocab_size": 5012, "learned_vocab_size": 4741, "compression_ratio": 1.1761104470171264, "example_words": [] }, { "step": 4742, "pair": [ "ग्री", "क" ], "new_token": "ग्रीक", "frequency": 4, "vocab_size": 5013, "learned_vocab_size": 4742, "compression_ratio": 1.176121146400396, "example_words": [] }, { "step": 4743, "pair": [ "थी", "म" ], "new_token": "थीम", "frequency": 4, "vocab_size": 5014, "learned_vocab_size": 4743, "compression_ratio": 1.176121146400396, "example_words": [] }, { "step": 4744, "pair": [ "क्रि", "ए" ], "new_token": "क्रिए", "frequency": 4, "vocab_size": 5015, "learned_vocab_size": 4744, "compression_ratio": 1.1761297060471751, "example_words": [] }, { "step": 4745, "pair": [ "टि", "व" ], "new_token": "टिव", "frequency": 4, "vocab_size": 5016, "learned_vocab_size": 4745, "compression_ratio": 1.1761297060471751, "example_words": [] }, { "step": 4746, "pair": [ "श", "गुन" ], "new_token": "शगुन", "frequency": 4, "vocab_size": 5017, "learned_vocab_size": 4746, "compression_ratio": 1.1761318459783374, "example_words": [] }, { "step": 4747, "pair": [ "स", "गाई" ], "new_token": "सगाई", "frequency": 4, "vocab_size": 5018, "learned_vocab_size": 4747, "compression_ratio": 1.176140405780858, "example_words": [] }, { "step": 4748, "pair": [ "ब", "बली" ], "new_token": "बबली", "frequency": 4, "vocab_size": 5019, "learned_vocab_size": 4748, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 4749, "pair": [ "चटर्", "जी" ], "new_token": "चटर्जी", "frequency": 4, "vocab_size": 5020, "learned_vocab_size": 4749, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 4750, "pair": [ "जिम्ना", "स्ट" ], "new_token": "जिम्नास्ट", "frequency": 4, "vocab_size": 5021, "learned_vocab_size": 4750, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 4751, "pair": [ "कानू", "न" ], "new_token": "कानून", "frequency": 4, "vocab_size": 5023, "learned_vocab_size": 4751, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 4752, "pair": [ "दे", "ना" ], "new_token": "देना", "frequency": 4, "vocab_size": 5024, "learned_vocab_size": 4752, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 4753, "pair": [ "गई", "ं" ], "new_token": "गईं", "frequency": 4, "vocab_size": 5025, "learned_vocab_size": 4753, "compression_ratio": 1.1761575257596903, "example_words": [] }, { "step": 4754, "pair": [ "वार्", "षिक" ], "new_token": "वार्षिक", "frequency": 4, "vocab_size": 5026, "learned_vocab_size": 4754, "compression_ratio": 1.1761703660708924, "example_words": [] }, { "step": 4755, "pair": [ "अ", "ण्" ], "new_token": "अण्", "frequency": 4, "vocab_size": 5027, "learned_vocab_size": 4755, "compression_ratio": 1.1761703660708924, "example_words": [] }, { "step": 4756, "pair": [ "माइक्रो", "सॉफ्ट" ], "new_token": "माइक्रोसॉफ्ट", "frequency": 4, "vocab_size": 5028, "learned_vocab_size": 4756, "compression_ratio": 1.1762516945528656, "example_words": [] }, { "step": 4757, "pair": [ "वाता", "वरण" ], "new_token": "वातावरण", "frequency": 4, "vocab_size": 5029, "learned_vocab_size": 4757, "compression_ratio": 1.1762516945528656, "example_words": [] }, { "step": 4758, "pair": [ "पै", "क्ट" ], "new_token": "पैक्ट", "frequency": 4, "vocab_size": 5030, "learned_vocab_size": 4758, "compression_ratio": 1.1762516945528656, "example_words": [] }, { "step": 4759, "pair": [ "पॉ", "केट" ], "new_token": "पॉकेट", "frequency": 4, "vocab_size": 5031, "learned_vocab_size": 4759, "compression_ratio": 1.1762602560999798, "example_words": [] }, { "step": 4760, "pair": [ "ए", "एसआई" ], "new_token": "एएसआई", "frequency": 4, "vocab_size": 5032, "learned_vocab_size": 4760, "compression_ratio": 1.1762688177717284, "example_words": [] }, { "step": 4761, "pair": [ "सू", "स" ], "new_token": "सूस", "frequency": 4, "vocab_size": 5033, "learned_vocab_size": 4761, "compression_ratio": 1.1762773795681138, "example_words": [] }, { "step": 4762, "pair": [ "भीड़", "चक" ], "new_token": "भीड़चक", "frequency": 4, "vocab_size": 5034, "learned_vocab_size": 4762, "compression_ratio": 1.1762880819888706, "example_words": [] }, { "step": 4763, "pair": [ "कल्याण", "पुर" ], "new_token": "कल्याणपुर", "frequency": 4, "vocab_size": 5035, "learned_vocab_size": 4763, "compression_ratio": 1.1762966440656992, "example_words": [] }, { "step": 4764, "pair": [ "च", "तुर" ], "new_token": "चतुर", "frequency": 4, "vocab_size": 5036, "learned_vocab_size": 4764, "compression_ratio": 1.1762966440656992, "example_words": [] }, { "step": 4765, "pair": [ "आयु", "र्" ], "new_token": "आयुर्", "frequency": 4, "vocab_size": 5037, "learned_vocab_size": 4765, "compression_ratio": 1.1763308936194992, "example_words": [] }, { "step": 4766, "pair": [ "मौ", "खिक" ], "new_token": "मौखिक", "frequency": 4, "vocab_size": 5038, "learned_vocab_size": 4766, "compression_ratio": 1.1763308936194992, "example_words": [] }, { "step": 4767, "pair": [ "व्या", "पी" ], "new_token": "व्यापी", "frequency": 4, "vocab_size": 5039, "learned_vocab_size": 4767, "compression_ratio": 1.1763308936194992, "example_words": [] }, { "step": 4768, "pair": [ "चना", "ब" ], "new_token": "चनाब", "frequency": 4, "vocab_size": 5040, "learned_vocab_size": 4768, "compression_ratio": 1.1763308936194992, "example_words": [] }, { "step": 4769, "pair": [ "न", "दियों" ], "new_token": "नदियों", "frequency": 4, "vocab_size": 5041, "learned_vocab_size": 4769, "compression_ratio": 1.1763308936194992, "example_words": [] }, { "step": 4770, "pair": [ "बा", "ंध" ], "new_token": "बांध", "frequency": 4, "vocab_size": 5042, "learned_vocab_size": 4770, "compression_ratio": 1.1763308936194992, "example_words": [] }, { "step": 4771, "pair": [ "वॉर्ट", "हॉ" ], "new_token": "वॉर्टहॉ", "frequency": 4, "vocab_size": 5043, "learned_vocab_size": 4771, "compression_ratio": 1.176343737716374, "example_words": [] }, { "step": 4772, "pair": [ "वॉर्टहॉ", "ग" ], "new_token": "वॉर्टहॉग", "frequency": 4, "vocab_size": 5044, "learned_vocab_size": 4772, "compression_ratio": 1.176343737716374, "example_words": [] }, { "step": 4773, "pair": [ "उद्", "भव" ], "new_token": "उद्भव", "frequency": 4, "vocab_size": 5045, "learned_vocab_size": 4773, "compression_ratio": 1.176343737716374, "example_words": [] }, { "step": 4774, "pair": [ "उ", "ट" ], "new_token": "उट", "frequency": 4, "vocab_size": 5046, "learned_vocab_size": 4774, "compression_ratio": 1.176343737716374, "example_words": [] }, { "step": 4775, "pair": [ "जले", "बी" ], "new_token": "जलेबी", "frequency": 4, "vocab_size": 5047, "learned_vocab_size": 4775, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4776, "pair": [ "माल", "पु" ], "new_token": "मालपु", "frequency": 4, "vocab_size": 5048, "learned_vocab_size": 4776, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4777, "pair": [ "पो", "ली" ], "new_token": "पोली", "frequency": 4, "vocab_size": 5049, "learned_vocab_size": 4777, "compression_ratio": 1.1763651451678065, "example_words": [] }, { "step": 4778, "pair": [ "सब्", "जी" ], "new_token": "सब्जी", "frequency": 4, "vocab_size": 5050, "learned_vocab_size": 4778, "compression_ratio": 1.1763737083665455, "example_words": [] }, { "step": 4779, "pair": [ "हलु", "आ" ], "new_token": "हलुआ", "frequency": 4, "vocab_size": 5051, "learned_vocab_size": 4779, "compression_ratio": 1.1763737083665455, "example_words": [] }, { "step": 4780, "pair": [ "झ", "िया" ], "new_token": "झिया", "frequency": 4, "vocab_size": 5052, "learned_vocab_size": 4780, "compression_ratio": 1.1763737083665455, "example_words": [] }, { "step": 4781, "pair": [ "स्टे", "ट" ], "new_token": "स्टेट", "frequency": 4, "vocab_size": 5053, "learned_vocab_size": 4781, "compression_ratio": 1.1763822716899548, "example_words": [] }, { "step": 4782, "pair": [ "गा", "व" ], "new_token": "गाव", "frequency": 4, "vocab_size": 5054, "learned_vocab_size": 4782, "compression_ratio": 1.1763822716899548, "example_words": [] }, { "step": 4783, "pair": [ "अन", "ंतराम" ], "new_token": "अनंतराम", "frequency": 4, "vocab_size": 5055, "learned_vocab_size": 4783, "compression_ratio": 1.176350159869993, "example_words": [] }, { "step": 4784, "pair": [ "श", "म्भू" ], "new_token": "शम्भू", "frequency": 4, "vocab_size": 5056, "learned_vocab_size": 4784, "compression_ratio": 1.176350159869993, "example_words": [] }, { "step": 4785, "pair": [ "गु", "गल" ], "new_token": "गुगल", "frequency": 4, "vocab_size": 5057, "learned_vocab_size": 4785, "compression_ratio": 1.176350159869993, "example_words": [] }, { "step": 4786, "pair": [ "फ़ौ", "ंट" ], "new_token": "फ़ौंट", "frequency": 4, "vocab_size": 5058, "learned_vocab_size": 4786, "compression_ratio": 1.1763587228505654, "example_words": [] }, { "step": 4787, "pair": [ "एचटी", "एमएल" ], "new_token": "एचटीएमएल", "frequency": 4, "vocab_size": 5059, "learned_vocab_size": 4787, "compression_ratio": 1.1763672859558036, "example_words": [] }, { "step": 4788, "pair": [ "प्", "लै" ], "new_token": "प्लै", "frequency": 4, "vocab_size": 5060, "learned_vocab_size": 4788, "compression_ratio": 1.1763672859558036, "example_words": [] }, { "step": 4789, "pair": [ "बा", "सु" ], "new_token": "बासु", "frequency": 4, "vocab_size": 5061, "learned_vocab_size": 4789, "compression_ratio": 1.1763801308474144, "example_words": [] }, { "step": 4790, "pair": [ "घ", "े" ], "new_token": "घे", "frequency": 4, "vocab_size": 5062, "learned_vocab_size": 4790, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 4791, "pair": [ "ग", "ट्टे" ], "new_token": "गट्टे", "frequency": 4, "vocab_size": 5063, "learned_vocab_size": 4791, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4792, "pair": [ "ज़", "ु" ], "new_token": "ज़ु", "frequency": 4, "vocab_size": 5064, "learned_vocab_size": 4792, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4793, "pair": [ "फि", "श" ], "new_token": "फिश", "frequency": 4, "vocab_size": 5065, "learned_vocab_size": 4793, "compression_ratio": 1.1764357952859943, "example_words": [] }, { "step": 4794, "pair": [ "प्रणा", "लियों" ], "new_token": "प्रणालियों", "frequency": 4, "vocab_size": 5066, "learned_vocab_size": 4794, "compression_ratio": 1.1764443595133447, "example_words": [] }, { "step": 4795, "pair": [ "का", "जी" ], "new_token": "काजी", "frequency": 4, "vocab_size": 5067, "learned_vocab_size": 4795, "compression_ratio": 1.1764443595133447, "example_words": [] }, { "step": 4796, "pair": [ "ब", "ंग" ], "new_token": "बंग", "frequency": 4, "vocab_size": 5068, "learned_vocab_size": 4796, "compression_ratio": 1.176431513219078, "example_words": [] }, { "step": 4797, "pair": [ "एतमा", "दपुर" ], "new_token": "एतमादपुर", "frequency": 4, "vocab_size": 5069, "learned_vocab_size": 4797, "compression_ratio": 1.1763009251508556, "example_words": [] }, { "step": 4798, "pair": [ "अग", "वरखास" ], "new_token": "अगवरखास", "frequency": 4, "vocab_size": 5070, "learned_vocab_size": 4798, "compression_ratio": 1.1763009251508556, "example_words": [] }, { "step": 4799, "pair": [ "अमन", "बाद" ], "new_token": "अमनबाद", "frequency": 4, "vocab_size": 5071, "learned_vocab_size": 4799, "compression_ratio": 1.1763009251508556, "example_words": [] }, { "step": 4800, "pair": [ "कुर", "गावाँ" ], "new_token": "कुरगावाँ", "frequency": 4, "vocab_size": 5072, "learned_vocab_size": 4800, "compression_ratio": 1.1763009251508556, "example_words": [] }, { "step": 4801, "pair": [ "खे", "ड़िया" ], "new_token": "खेड़िया", "frequency": 4, "vocab_size": 5073, "learned_vocab_size": 4801, "compression_ratio": 1.1763009251508556, "example_words": [ "खेड़िया" ] }, { "step": 4802, "pair": [ "खे", "ड़ी" ], "new_token": "खेड़ी", "frequency": 4, "vocab_size": 5074, "learned_vocab_size": 4802, "compression_ratio": 1.1763009251508556, "example_words": [] }, { "step": 4803, "pair": [ "पि", "र्" ], "new_token": "पिर्", "frequency": 4, "vocab_size": 5075, "learned_vocab_size": 4803, "compression_ratio": 1.176309487414654, "example_words": [] }, { "step": 4804, "pair": [ "पिर्", "थी" ], "new_token": "पिर्थी", "frequency": 4, "vocab_size": 5076, "learned_vocab_size": 4804, "compression_ratio": 1.1763180498031023, "example_words": [] }, { "step": 4805, "pair": [ "ग", "दु" ], "new_token": "गदु", "frequency": 4, "vocab_size": 5077, "learned_vocab_size": 4805, "compression_ratio": 1.1763266123162033, "example_words": [] }, { "step": 4806, "pair": [ "गदु", "पुरा" ], "new_token": "गदुपुरा", "frequency": 4, "vocab_size": 5078, "learned_vocab_size": 4806, "compression_ratio": 1.1763373156328762, "example_words": [] }, { "step": 4807, "pair": [ "गि", "जौली" ], "new_token": "गिजौली", "frequency": 4, "vocab_size": 5079, "learned_vocab_size": 4807, "compression_ratio": 1.1763373156328762, "example_words": [] }, { "step": 4808, "pair": [ "चा", "ओ" ], "new_token": "चाओ", "frequency": 4, "vocab_size": 5080, "learned_vocab_size": 4808, "compression_ratio": 1.1763373156328762, "example_words": [] }, { "step": 4809, "pair": [ "चाओ", "ली" ], "new_token": "चाओली", "frequency": 4, "vocab_size": 5081, "learned_vocab_size": 4809, "compression_ratio": 1.1763458784264555, "example_words": [] }, { "step": 4810, "pair": [ "चि", "रहौली" ], "new_token": "चिरहौली", "frequency": 4, "vocab_size": 5082, "learned_vocab_size": 4810, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4811, "pair": [ "चौ", "गान" ], "new_token": "चौगान", "frequency": 4, "vocab_size": 5083, "learned_vocab_size": 4811, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4812, "pair": [ "छु", "हारपुर" ], "new_token": "छुहारपुर", "frequency": 4, "vocab_size": 5084, "learned_vocab_size": 4812, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4813, "pair": [ "जमनी", "पुर" ], "new_token": "जमनीपुर", "frequency": 4, "vocab_size": 5085, "learned_vocab_size": 4813, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4814, "pair": [ "भ", "ई" ], "new_token": "भई", "frequency": 4, "vocab_size": 5086, "learned_vocab_size": 4814, "compression_ratio": 1.1763544413446962, "example_words": [] }, { "step": 4815, "pair": [ "भई", "ंस" ], "new_token": "भईंस", "frequency": 4, "vocab_size": 5087, "learned_vocab_size": 4815, "compression_ratio": 1.1763630043876012, "example_words": [] }, { "step": 4816, "pair": [ "जा", "मपुर" ], "new_token": "जामपुर", "frequency": 4, "vocab_size": 5088, "learned_vocab_size": 4816, "compression_ratio": 1.176371567555173, "example_words": [] }, { "step": 4817, "pair": [ "तमंच", "गढ़" ], "new_token": "तमंचगढ़", "frequency": 4, "vocab_size": 5089, "learned_vocab_size": 4817, "compression_ratio": 1.1763801308474144, "example_words": [] }, { "step": 4818, "pair": [ "तला", "ब" ], "new_token": "तलाब", "frequency": 4, "vocab_size": 5090, "learned_vocab_size": 4818, "compression_ratio": 1.1763801308474144, "example_words": [] }, { "step": 4819, "pair": [ "बुढ़", "िया" ], "new_token": "बुढ़िया", "frequency": 4, "vocab_size": 5091, "learned_vocab_size": 4819, "compression_ratio": 1.1763801308474144, "example_words": [] }, { "step": 4820, "pair": [ "ध", "ंगरौली" ], "new_token": "धंगरौली", "frequency": 4, "vocab_size": 5092, "learned_vocab_size": 4820, "compression_ratio": 1.1763886942643282, "example_words": [] }, { "step": 4821, "pair": [ "ध", "उर्रा" ], "new_token": "धउर्रा", "frequency": 4, "vocab_size": 5093, "learned_vocab_size": 4821, "compression_ratio": 1.1763886942643282, "example_words": [] }, { "step": 4822, "pair": [ "धोरा", "उ" ], "new_token": "धोराउ", "frequency": 4, "vocab_size": 5094, "learned_vocab_size": 4822, "compression_ratio": 1.1763886942643282, "example_words": [] }, { "step": 4823, "pair": [ "शु", "माली" ], "new_token": "शुमाली", "frequency": 4, "vocab_size": 5095, "learned_vocab_size": 4823, "compression_ratio": 1.1763886942643282, "example_words": [] }, { "step": 4824, "pair": [ "निश", "ंख" ], "new_token": "निशंख", "frequency": 4, "vocab_size": 5096, "learned_vocab_size": 4824, "compression_ratio": 1.1763886942643282, "example_words": [] }, { "step": 4825, "pair": [ "बरि", "आमदन" ], "new_token": "बरिआमदन", "frequency": 4, "vocab_size": 5097, "learned_vocab_size": 4825, "compression_ratio": 1.1763972578059172, "example_words": [] }, { "step": 4826, "pair": [ "महा", "सिंह" ], "new_token": "महासिंह", "frequency": 4, "vocab_size": 5098, "learned_vocab_size": 4826, "compression_ratio": 1.1763972578059172, "example_words": [] }, { "step": 4827, "pair": [ "न", "दाऊ" ], "new_token": "नदाऊ", "frequency": 4, "vocab_size": 5099, "learned_vocab_size": 4827, "compression_ratio": 1.1763972578059172, "example_words": [] }, { "step": 4828, "pair": [ "ने", "कपुर" ], "new_token": "नेकपुर", "frequency": 4, "vocab_size": 5100, "learned_vocab_size": 4828, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 4829, "pair": [ "पर", "बतपुर" ], "new_token": "परबतपुर", "frequency": 4, "vocab_size": 5101, "learned_vocab_size": 4829, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 4830, "pair": [ "पेसा", "ई" ], "new_token": "पेसाई", "frequency": 4, "vocab_size": 5102, "learned_vocab_size": 4830, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 4831, "pair": [ "पो", "इया" ], "new_token": "पोइया", "frequency": 4, "vocab_size": 5103, "learned_vocab_size": 4831, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 4832, "pair": [ "बिरु", "नी" ], "new_token": "बिरुनी", "frequency": 4, "vocab_size": 5104, "learned_vocab_size": 4832, "compression_ratio": 1.176414385263131, "example_words": [] }, { "step": 4833, "pair": [ "बे", "नई" ], "new_token": "बेनई", "frequency": 4, "vocab_size": 5105, "learned_vocab_size": 4833, "compression_ratio": 1.176414385263131, "example_words": [] }, { "step": 4834, "pair": [ "बैलो", "थ" ], "new_token": "बैलोथ", "frequency": 4, "vocab_size": 5106, "learned_vocab_size": 4834, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4835, "pair": [ "भगु", "पुर" ], "new_token": "भगुपुर", "frequency": 4, "vocab_size": 5107, "learned_vocab_size": 4835, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4836, "pair": [ "भी", "खनपुर" ], "new_token": "भीखनपुर", "frequency": 4, "vocab_size": 5108, "learned_vocab_size": 4836, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4837, "pair": [ "ब", "करपुर" ], "new_token": "बकरपुर", "frequency": 4, "vocab_size": 5109, "learned_vocab_size": 4837, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4838, "pair": [ "मलु", "पुर" ], "new_token": "मलुपुर", "frequency": 4, "vocab_size": 5110, "learned_vocab_size": 4838, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4839, "pair": [ "मह", "बतपुर" ], "new_token": "महबतपुर", "frequency": 4, "vocab_size": 5111, "learned_vocab_size": 4839, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4840, "pair": [ "मित", "ौली" ], "new_token": "मितौली", "frequency": 4, "vocab_size": 5112, "learned_vocab_size": 4840, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4841, "pair": [ "मुख", "वर" ], "new_token": "मुखवर", "frequency": 4, "vocab_size": 5113, "learned_vocab_size": 4841, "compression_ratio": 1.1764229491787614, "example_words": [] }, { "step": 4842, "pair": [ "नि", "धौली" ], "new_token": "निधौली", "frequency": 4, "vocab_size": 5114, "learned_vocab_size": 4842, "compression_ratio": 1.176431513219078, "example_words": [] }, { "step": 4843, "pair": [ "मुरली", "धरपुर" ], "new_token": "मुरलीधरपुर", "frequency": 4, "vocab_size": 5115, "learned_vocab_size": 4843, "compression_ratio": 1.176431513219078, "example_words": [] }, { "step": 4844, "pair": [ "मोहि", "सिना" ], "new_token": "मोहिसिना", "frequency": 4, "vocab_size": 5116, "learned_vocab_size": 4844, "compression_ratio": 1.176431513219078, "example_words": [] }, { "step": 4845, "pair": [ "मोहिसिना", "बाद" ], "new_token": "मोहिसिनाबाद", "frequency": 4, "vocab_size": 5117, "learned_vocab_size": 4845, "compression_ratio": 1.176431513219078, "example_words": [] }, { "step": 4846, "pair": [ "यू", "सुफ़" ], "new_token": "यूसुफ़", "frequency": 4, "vocab_size": 5118, "learned_vocab_size": 4846, "compression_ratio": 1.176431513219078, "example_words": [] }, { "step": 4847, "pair": [ "यूसुफ़", "पुर" ], "new_token": "यूसुफ़पुर", "frequency": 4, "vocab_size": 5119, "learned_vocab_size": 4847, "compression_ratio": 1.176440077384083, "example_words": [] }, { "step": 4848, "pair": [ "र", "मनगढ़" ], "new_token": "रमनगढ़", "frequency": 4, "vocab_size": 5120, "learned_vocab_size": 4848, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4849, "pair": [ "रूप", "धनु" ], "new_token": "रूपधनु", "frequency": 4, "vocab_size": 5121, "learned_vocab_size": 4849, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4850, "pair": [ "जनू", "बी" ], "new_token": "जनूबी", "frequency": 4, "vocab_size": 5122, "learned_vocab_size": 4850, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4851, "pair": [ "सि", "योरा" ], "new_token": "सियोरा", "frequency": 4, "vocab_size": 5123, "learned_vocab_size": 4851, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4852, "pair": [ "सि", "होर" ], "new_token": "सिहोर", "frequency": 4, "vocab_size": 5124, "learned_vocab_size": 4852, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4853, "pair": [ "सिहोर", "गढ़" ], "new_token": "सिहोरगढ़", "frequency": 4, "vocab_size": 5125, "learned_vocab_size": 4853, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4854, "pair": [ "सुरे", "हरा" ], "new_token": "सुरेहरा", "frequency": 4, "vocab_size": 5126, "learned_vocab_size": 4854, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4855, "pair": [ "से", "मरा" ], "new_token": "सेमरा", "frequency": 4, "vocab_size": 5127, "learned_vocab_size": 4855, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4856, "pair": [ "सै", "फ़ु" ], "new_token": "सैफ़ु", "frequency": 4, "vocab_size": 5128, "learned_vocab_size": 4856, "compression_ratio": 1.1764486416737796, "example_words": [] }, { "step": 4857, "pair": [ "सैफ़ु", "द्दीनपुर" ], "new_token": "सैफ़ुद्दीनपुर", "frequency": 4, "vocab_size": 5129, "learned_vocab_size": 4857, "compression_ratio": 1.1764572060881704, "example_words": [] }, { "step": 4858, "pair": [ "हसना", "बाद" ], "new_token": "हसनाबाद", "frequency": 4, "vocab_size": 5130, "learned_vocab_size": 4858, "compression_ratio": 1.1764572060881704, "example_words": [] }, { "step": 4859, "pair": [ "को", "सा" ], "new_token": "कोसा", "frequency": 4, "vocab_size": 5131, "learned_vocab_size": 4859, "compression_ratio": 1.1764572060881704, "example_words": [] }, { "step": 4860, "pair": [ "तालु", "का" ], "new_token": "तालुका", "frequency": 4, "vocab_size": 5132, "learned_vocab_size": 4860, "compression_ratio": 1.1764657706272579, "example_words": [] }, { "step": 4861, "pair": [ "बो", "हमैन" ], "new_token": "बोहमैन", "frequency": 4, "vocab_size": 5133, "learned_vocab_size": 4861, "compression_ratio": 1.1764657706272579, "example_words": [] }, { "step": 4862, "pair": [ "रु", "चि" ], "new_token": "रुचि", "frequency": 4, "vocab_size": 5134, "learned_vocab_size": 4862, "compression_ratio": 1.1764657706272579, "example_words": [] }, { "step": 4863, "pair": [ "व", "ू" ], "new_token": "वू", "frequency": 4, "vocab_size": 5135, "learned_vocab_size": 4863, "compression_ratio": 1.1764786176697017, "example_words": [] }, { "step": 4864, "pair": [ "जोड़", "ती" ], "new_token": "जोड़ती", "frequency": 4, "vocab_size": 5136, "learned_vocab_size": 4864, "compression_ratio": 1.1764893237527392, "example_words": [] }, { "step": 4865, "pair": [ "प्रश", "ंसा" ], "new_token": "प्रशंसा", "frequency": 4, "vocab_size": 5137, "learned_vocab_size": 4865, "compression_ratio": 1.1764978887594641, "example_words": [] }, { "step": 4866, "pair": [ "ढा", "का" ], "new_token": "ढाका", "frequency": 4, "vocab_size": 5138, "learned_vocab_size": 4866, "compression_ratio": 1.1764978887594641, "example_words": [] }, { "step": 4867, "pair": [ "समझ", "ने" ], "new_token": "समझने", "frequency": 4, "vocab_size": 5139, "learned_vocab_size": 4867, "compression_ratio": 1.1765064538908991, "example_words": [] }, { "step": 4868, "pair": [ "जन", "सांख्यिकी" ], "new_token": "जनसांख्यिकी", "frequency": 4, "vocab_size": 5140, "learned_vocab_size": 4868, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 4869, "pair": [ "उप", "ज़िलों" ], "new_token": "उपज़िलों", "frequency": 4, "vocab_size": 5141, "learned_vocab_size": 4869, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 4870, "pair": [ "देबी", "द्" ], "new_token": "देबीद्", "frequency": 4, "vocab_size": 5142, "learned_vocab_size": 4870, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 4871, "pair": [ "देबीद्", "बार" ], "new_token": "देबीद्बार", "frequency": 4, "vocab_size": 5143, "learned_vocab_size": 4871, "compression_ratio": 1.176523584527909, "example_words": [] }, { "step": 4872, "pair": [ "कु", "मिल्ला" ], "new_token": "कुमिल्ला", "frequency": 4, "vocab_size": 5144, "learned_vocab_size": 4872, "compression_ratio": 1.176523584527909, "example_words": [] }, { "step": 4873, "pair": [ "सिरी", "चंदपुर" ], "new_token": "सिरीचंदपुर", "frequency": 4, "vocab_size": 5145, "learned_vocab_size": 4873, "compression_ratio": 1.176523584527909, "example_words": [] }, { "step": 4874, "pair": [ "मू", "सी" ], "new_token": "मूसी", "frequency": 4, "vocab_size": 5146, "learned_vocab_size": 4874, "compression_ratio": 1.176523584527909, "example_words": [] }, { "step": 4875, "pair": [ "सु", "चंद्र" ], "new_token": "सुचंद्र", "frequency": 4, "vocab_size": 5147, "learned_vocab_size": 4875, "compression_ratio": 1.1765321500334895, "example_words": [] }, { "step": 4876, "pair": [ "पटे", "ल" ], "new_token": "पटेल", "frequency": 4, "vocab_size": 5148, "learned_vocab_size": 4876, "compression_ratio": 1.1765321500334895, "example_words": [] }, { "step": 4877, "pair": [ "ए", "॰" ], "new_token": "ए॰", "frequency": 4, "vocab_size": 5149, "learned_vocab_size": 4877, "compression_ratio": 1.1765321500334895, "example_words": [] }, { "step": 4878, "pair": [ "मोर्", "चा" ], "new_token": "मोर्चा", "frequency": 4, "vocab_size": 5150, "learned_vocab_size": 4878, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 4879, "pair": [ "कै", "थ" ], "new_token": "कैथ", "frequency": 4, "vocab_size": 5151, "learned_vocab_size": 4879, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 4880, "pair": [ "एम", "॰" ], "new_token": "एम॰", "frequency": 4, "vocab_size": 5152, "learned_vocab_size": 4880, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 4881, "pair": [ "विभा", "जित" ], "new_token": "विभाजित", "frequency": 4, "vocab_size": 5153, "learned_vocab_size": 4881, "compression_ratio": 1.17653643283305, "example_words": [] }, { "step": 4882, "pair": [ "क", "वर" ], "new_token": "कवर", "frequency": 4, "vocab_size": 5154, "learned_vocab_size": 4882, "compression_ratio": 1.17653643283305, "example_words": [] }, { "step": 4883, "pair": [ "गोएक", "तुर्क" ], "new_token": "गोएकतुर्क", "frequency": 4, "vocab_size": 5155, "learned_vocab_size": 4883, "compression_ratio": 1.176559988787993, "example_words": [] }, { "step": 4884, "pair": [ "परि", "संघ" ], "new_token": "परिसंघ", "frequency": 4, "vocab_size": 5156, "learned_vocab_size": 4884, "compression_ratio": 1.176559988787993, "example_words": [] }, { "step": 4885, "pair": [ "इंडो", "ने" ], "new_token": "इंडोने", "frequency": 4, "vocab_size": 5157, "learned_vocab_size": 4885, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 4886, "pair": [ "शास्त्रार्", "थ" ], "new_token": "शास्त्रार्थ", "frequency": 4, "vocab_size": 5158, "learned_vocab_size": 4886, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 4887, "pair": [ "ह", "ंडिया" ], "new_token": "हंडिया", "frequency": 4, "vocab_size": 5159, "learned_vocab_size": 4887, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 4888, "pair": [ "मु", "गरा" ], "new_token": "मुगरा", "frequency": 4, "vocab_size": 5160, "learned_vocab_size": 4888, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 4889, "pair": [ "कट", "हरा" ], "new_token": "कटहरा", "frequency": 4, "vocab_size": 5161, "learned_vocab_size": 4889, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 4890, "pair": [ "कि", "शु" ], "new_token": "किशु", "frequency": 4, "vocab_size": 5162, "learned_vocab_size": 4890, "compression_ratio": 1.1765685548236553, "example_words": [] }, { "step": 4891, "pair": [ "रु", "द्दीनपुर" ], "new_token": "रुद्दीनपुर", "frequency": 4, "vocab_size": 5163, "learned_vocab_size": 4891, "compression_ratio": 1.176587828859952, "example_words": [] }, { "step": 4892, "pair": [ "गुड़", "गाँव" ], "new_token": "गुड़गाँव", "frequency": 4, "vocab_size": 5164, "learned_vocab_size": 4892, "compression_ratio": 1.176587828859952, "example_words": [] }, { "step": 4893, "pair": [ "छा", "पा" ], "new_token": "छापा", "frequency": 4, "vocab_size": 5165, "learned_vocab_size": 4893, "compression_ratio": 1.176587828859952, "example_words": [] }, { "step": 4894, "pair": [ "घि", "री" ], "new_token": "घिरी", "frequency": 4, "vocab_size": 5166, "learned_vocab_size": 4894, "compression_ratio": 1.176598536930758, "example_words": [] }, { "step": 4895, "pair": [ "चं", "पा" ], "new_token": "चंपा", "frequency": 4, "vocab_size": 5167, "learned_vocab_size": 4895, "compression_ratio": 1.1766071035277372, "example_words": [] }, { "step": 4896, "pair": [ "बा", "ढ़" ], "new_token": "बाढ़", "frequency": 4, "vocab_size": 5168, "learned_vocab_size": 4896, "compression_ratio": 1.176705628359695, "example_words": [] }, { "step": 4897, "pair": [ "सी", "पुर" ], "new_token": "सीपुर", "frequency": 4, "vocab_size": 5169, "learned_vocab_size": 4897, "compression_ratio": 1.1767141965161767, "example_words": [] }, { "step": 4898, "pair": [ "गै", "या" ], "new_token": "गैया", "frequency": 4, "vocab_size": 5170, "learned_vocab_size": 4898, "compression_ratio": 1.176722764797437, "example_words": [] }, { "step": 4899, "pair": [ "सा", "बाद" ], "new_token": "साबाद", "frequency": 4, "vocab_size": 5171, "learned_vocab_size": 4899, "compression_ratio": 1.1767313332034783, "example_words": [] }, { "step": 4900, "pair": [ "भगौ", "तीपुर" ], "new_token": "भगौतीपुर", "frequency": 4, "vocab_size": 5172, "learned_vocab_size": 4900, "compression_ratio": 1.1767399017343039, "example_words": [] }, { "step": 4901, "pair": [ "भागी", "पुर" ], "new_token": "भागीपुर", "frequency": 4, "vocab_size": 5173, "learned_vocab_size": 4901, "compression_ratio": 1.1767399017343039, "example_words": [ "भागीपुर" ] }, { "step": 4902, "pair": [ "मनी", "पुर" ], "new_token": "मनीपुर", "frequency": 4, "vocab_size": 5174, "learned_vocab_size": 4902, "compression_ratio": 1.1767399017343039, "example_words": [] }, { "step": 4903, "pair": [ "रि", "थ" ], "new_token": "रिथ", "frequency": 4, "vocab_size": 5175, "learned_vocab_size": 4903, "compression_ratio": 1.1767399017343039, "example_words": [] }, { "step": 4904, "pair": [ "सा", "ओ" ], "new_token": "साओ", "frequency": 4, "vocab_size": 5176, "learned_vocab_size": 4904, "compression_ratio": 1.1767463282143142, "example_words": [] }, { "step": 4905, "pair": [ "शाही", "पुर" ], "new_token": "शाहीपुर", "frequency": 4, "vocab_size": 5177, "learned_vocab_size": 4905, "compression_ratio": 1.1767548969635184, "example_words": [] }, { "step": 4906, "pair": [ "धी", "पुर" ], "new_token": "धीपुर", "frequency": 4, "vocab_size": 5178, "learned_vocab_size": 4906, "compression_ratio": 1.1767548969635184, "example_words": [] }, { "step": 4907, "pair": [ "इस्", "माइल" ], "new_token": "इस्माइल", "frequency": 4, "vocab_size": 5179, "learned_vocab_size": 4907, "compression_ratio": 1.1767634658375143, "example_words": [] }, { "step": 4908, "pair": [ "सले", "हपुर" ], "new_token": "सलेहपुर", "frequency": 4, "vocab_size": 5180, "learned_vocab_size": 4908, "compression_ratio": 1.1767634658375143, "example_words": [] }, { "step": 4909, "pair": [ "हर", "चंदपुर" ], "new_token": "हरचंदपुर", "frequency": 4, "vocab_size": 5181, "learned_vocab_size": 4909, "compression_ratio": 1.1767720348363042, "example_words": [] }, { "step": 4910, "pair": [ "हर", "दासपुर" ], "new_token": "हरदासपुर", "frequency": 4, "vocab_size": 5182, "learned_vocab_size": 4910, "compression_ratio": 1.1767720348363042, "example_words": [] }, { "step": 4911, "pair": [ "बा", "इडे" ], "new_token": "बाइडे", "frequency": 4, "vocab_size": 5183, "learned_vocab_size": 4911, "compression_ratio": 1.1767720348363042, "example_words": [] }, { "step": 4912, "pair": [ "बाइडे", "न" ], "new_token": "बाइडेन", "frequency": 4, "vocab_size": 5184, "learned_vocab_size": 4912, "compression_ratio": 1.1767720348363042, "example_words": [] }, { "step": 4913, "pair": [ "दुर्", "लभ" ], "new_token": "दुर्लभ", "frequency": 4, "vocab_size": 5185, "learned_vocab_size": 4913, "compression_ratio": 1.1767720348363042, "example_words": [] }, { "step": 4914, "pair": [ "केशो", "पुर" ], "new_token": "केशोपुर", "frequency": 4, "vocab_size": 5186, "learned_vocab_size": 4914, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 4915, "pair": [ "र", "म" ], "new_token": "रम", "frequency": 4, "vocab_size": 5187, "learned_vocab_size": 4915, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 4916, "pair": [ "अना", "स्ता" ], "new_token": "अनास्ता", "frequency": 4, "vocab_size": 5188, "learned_vocab_size": 4916, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4917, "pair": [ "अनास्ता", "सिया" ], "new_token": "अनास्तासिया", "frequency": 4, "vocab_size": 5189, "learned_vocab_size": 4917, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4918, "pair": [ "वी", "डियो" ], "new_token": "वीडियो", "frequency": 4, "vocab_size": 5190, "learned_vocab_size": 4918, "compression_ratio": 1.1768920139242902, "example_words": [] }, { "step": 4919, "pair": [ "शिया", "ओं" ], "new_token": "शियाओं", "frequency": 4, "vocab_size": 5191, "learned_vocab_size": 4919, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4920, "pair": [ "मध्य", "युगी" ], "new_token": "मध्ययुगी", "frequency": 4, "vocab_size": 5192, "learned_vocab_size": 4920, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4921, "pair": [ "मध्ययुगी", "न" ], "new_token": "मध्ययुगीन", "frequency": 4, "vocab_size": 5193, "learned_vocab_size": 4921, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4922, "pair": [ "मिर्", "जा" ], "new_token": "मिर्जा", "frequency": 4, "vocab_size": 5194, "learned_vocab_size": 4922, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4923, "pair": [ "दे", "ल" ], "new_token": "देल", "frequency": 4, "vocab_size": 5195, "learned_vocab_size": 4923, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 4924, "pair": [ "वै", "त" ], "new_token": "वैत", "frequency": 4, "vocab_size": 5196, "learned_vocab_size": 4924, "compression_ratio": 1.1769198697115848, "example_words": [] }, { "step": 4925, "pair": [ "पार्", "वती" ], "new_token": "पार्वती", "frequency": 4, "vocab_size": 5197, "learned_vocab_size": 4925, "compression_ratio": 1.1769284409883494, "example_words": [] }, { "step": 4926, "pair": [ "गो", "नन्द" ], "new_token": "गोनन्द", "frequency": 4, "vocab_size": 5198, "learned_vocab_size": 4926, "compression_ratio": 1.1769284409883494, "example_words": [] }, { "step": 4927, "pair": [ "गै", "स" ], "new_token": "गैस", "frequency": 4, "vocab_size": 5199, "learned_vocab_size": 4927, "compression_ratio": 1.1769412981375846, "example_words": [] }, { "step": 4928, "pair": [ "को", "यला" ], "new_token": "कोयला", "frequency": 4, "vocab_size": 5200, "learned_vocab_size": 4928, "compression_ratio": 1.176952012643201, "example_words": [] }, { "step": 4929, "pair": [ "प्री", "मियर" ], "new_token": "प्रीमियर", "frequency": 4, "vocab_size": 5201, "learned_vocab_size": 4929, "compression_ratio": 1.176952012643201, "example_words": [] }, { "step": 4930, "pair": [ "थाई", "लैंड" ], "new_token": "थाईलैंड", "frequency": 4, "vocab_size": 5202, "learned_vocab_size": 4930, "compression_ratio": 1.176952012643201, "example_words": [] }, { "step": 4931, "pair": [ "मा", "जरा" ], "new_token": "माजरा", "frequency": 4, "vocab_size": 5203, "learned_vocab_size": 4931, "compression_ratio": 1.176960584388155, "example_words": [] }, { "step": 4932, "pair": [ "ए", "जेंसी" ], "new_token": "एजेंसी", "frequency": 4, "vocab_size": 5204, "learned_vocab_size": 4932, "compression_ratio": 1.176960584388155, "example_words": [] }, { "step": 4933, "pair": [ "सेवा", "एं" ], "new_token": "सेवाएं", "frequency": 4, "vocab_size": 5205, "learned_vocab_size": 4933, "compression_ratio": 1.176960584388155, "example_words": [] }, { "step": 4934, "pair": [ "भागी", "दारी" ], "new_token": "भागीदारी", "frequency": 4, "vocab_size": 5206, "learned_vocab_size": 4934, "compression_ratio": 1.1769691562579658, "example_words": [] }, { "step": 4935, "pair": [ "वेश्या", "वृत्ति" ], "new_token": "वेश्यावृत्ति", "frequency": 4, "vocab_size": 5207, "learned_vocab_size": 4935, "compression_ratio": 1.1769691562579658, "example_words": [] }, { "step": 4936, "pair": [ "को", "सो" ], "new_token": "कोसो", "frequency": 4, "vocab_size": 5208, "learned_vocab_size": 4936, "compression_ratio": 1.1769691562579658, "example_words": [] }, { "step": 4937, "pair": [ "कोसो", "वो" ], "new_token": "कोसोवो", "frequency": 4, "vocab_size": 5209, "learned_vocab_size": 4937, "compression_ratio": 1.1769777282526366, "example_words": [] }, { "step": 4938, "pair": [ "ऑ", "क्सी" ], "new_token": "ऑक्सी", "frequency": 4, "vocab_size": 5210, "learned_vocab_size": 4938, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 4939, "pair": [ "कार्बो", "नेट" ], "new_token": "कार्बोनेट", "frequency": 4, "vocab_size": 5211, "learned_vocab_size": 4939, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 4940, "pair": [ "पक्षि", "यों" ], "new_token": "पक्षियों", "frequency": 4, "vocab_size": 5212, "learned_vocab_size": 4940, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 4941, "pair": [ "१९६", "४" ], "new_token": "१९६४", "frequency": 4, "vocab_size": 5213, "learned_vocab_size": 4941, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 4942, "pair": [ "पं", "॰" ], "new_token": "पं॰", "frequency": 4, "vocab_size": 5214, "learned_vocab_size": 4942, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 4943, "pair": [ "श्री", "मती" ], "new_token": "श्रीमती", "frequency": 4, "vocab_size": 5215, "learned_vocab_size": 4943, "compression_ratio": 1.1770077312172935, "example_words": [] }, { "step": 4944, "pair": [ "वै", "भव" ], "new_token": "वैभव", "frequency": 4, "vocab_size": 5216, "learned_vocab_size": 4944, "compression_ratio": 1.1770077312172935, "example_words": [] }, { "step": 4945, "pair": [ "ट्रॉ", "फी" ], "new_token": "ट्रॉफी", "frequency": 4, "vocab_size": 5217, "learned_vocab_size": 4945, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4946, "pair": [ "लर्", "निंग" ], "new_token": "लर्निंग", "frequency": 4, "vocab_size": 5218, "learned_vocab_size": 4946, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4947, "pair": [ "डी", "प" ], "new_token": "डीप", "frequency": 4, "vocab_size": 5219, "learned_vocab_size": 4947, "compression_ratio": 1.1770163037738666, "example_words": [] }, { "step": 4948, "pair": [ "पै", "सि" ], "new_token": "पैसि", "frequency": 4, "vocab_size": 5220, "learned_vocab_size": 4948, "compression_ratio": 1.1770227332732455, "example_words": [] }, { "step": 4949, "pair": [ "पैसि", "व" ], "new_token": "पैसिव", "frequency": 4, "vocab_size": 5221, "learned_vocab_size": 4949, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 4950, "pair": [ "व्या", "करण" ], "new_token": "व्याकरण", "frequency": 4, "vocab_size": 5222, "learned_vocab_size": 4950, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4951, "pair": [ "ग", "ंडक" ], "new_token": "गंडक", "frequency": 4, "vocab_size": 5223, "learned_vocab_size": 4951, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4952, "pair": [ "घा", "घरा" ], "new_token": "घाघरा", "frequency": 4, "vocab_size": 5224, "learned_vocab_size": 4952, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4953, "pair": [ "यू", "क्रे" ], "new_token": "यूक्रे", "frequency": 4, "vocab_size": 5225, "learned_vocab_size": 4953, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4954, "pair": [ "कन्दु", "कोंदै" ], "new_token": "कन्दुकोंदै", "frequency": 4, "vocab_size": 5226, "learned_vocab_size": 4954, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4955, "pair": [ "कन्दुकोंदै", "न" ], "new_token": "कन्दुकोंदैन", "frequency": 4, "vocab_size": 5227, "learned_vocab_size": 4955, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4956, "pair": [ "डि", "पो" ], "new_token": "डिपो", "frequency": 4, "vocab_size": 5228, "learned_vocab_size": 4956, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 4957, "pair": [ "रे", "न" ], "new_token": "रेन", "frequency": 4, "vocab_size": 5229, "learned_vocab_size": 4957, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 4958, "pair": [ "इमा", "दपुर" ], "new_token": "इमादपुर", "frequency": 4, "vocab_size": 5230, "learned_vocab_size": 4958, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 4959, "pair": [ "उपयोग", "कर्ताओं" ], "new_token": "उपयोगकर्ताओं", "frequency": 4, "vocab_size": 5231, "learned_vocab_size": 4959, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 4960, "pair": [ "ब्र", "दर" ], "new_token": "ब्रदर", "frequency": 4, "vocab_size": 5232, "learned_vocab_size": 4960, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 4961, "pair": [ "रू", "चि" ], "new_token": "रूचि", "frequency": 4, "vocab_size": 5233, "learned_vocab_size": 4961, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 4962, "pair": [ "शति", "मान" ], "new_token": "शतिमान", "frequency": 4, "vocab_size": 5234, "learned_vocab_size": 4962, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 4963, "pair": [ "रि", "यल" ], "new_token": "रियल", "frequency": 4, "vocab_size": 5235, "learned_vocab_size": 4963, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 4964, "pair": [ "शा", "सक" ], "new_token": "शासक", "frequency": 4, "vocab_size": 5236, "learned_vocab_size": 4964, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 4965, "pair": [ "लख", "मार" ], "new_token": "लखमार", "frequency": 4, "vocab_size": 5237, "learned_vocab_size": 4965, "compression_ratio": 1.17721136317694, "example_words": [] }, { "step": 4966, "pair": [ "गोसा", "ई" ], "new_token": "गोसाई", "frequency": 4, "vocab_size": 5238, "learned_vocab_size": 4966, "compression_ratio": 1.17721136317694, "example_words": [] }, { "step": 4967, "pair": [ "जम्", "हूरी" ], "new_token": "जम्हूरी", "frequency": 4, "vocab_size": 5239, "learned_vocab_size": 4967, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4968, "pair": [ "कम्यु", "निस्ट" ], "new_token": "कम्युनिस्ट", "frequency": 4, "vocab_size": 5240, "learned_vocab_size": 4968, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4969, "pair": [ "शि", "ष्य" ], "new_token": "शिष्य", "frequency": 4, "vocab_size": 5241, "learned_vocab_size": 4969, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4970, "pair": [ "प्ले", "ऑफ" ], "new_token": "प्लेऑफ", "frequency": 4, "vocab_size": 5242, "learned_vocab_size": 4970, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 4971, "pair": [ "ऋ", "चा" ], "new_token": "ऋचा", "frequency": 4, "vocab_size": 5243, "learned_vocab_size": 4971, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 4972, "pair": [ "आयर", "लैंड" ], "new_token": "आयरलैंड", "frequency": 4, "vocab_size": 5244, "learned_vocab_size": 4972, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 4973, "pair": [ "ब्", "लड" ], "new_token": "ब्लड", "frequency": 4, "vocab_size": 5245, "learned_vocab_size": 4973, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 4974, "pair": [ "शु", "गर" ], "new_token": "शुगर", "frequency": 4, "vocab_size": 5246, "learned_vocab_size": 4974, "compression_ratio": 1.1772542420417893, "example_words": [] }, { "step": 4975, "pair": [ "पार्", "श्व" ], "new_token": "पार्श्व", "frequency": 4, "vocab_size": 5247, "learned_vocab_size": 4975, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 4976, "pair": [ "मेज़", "बान" ], "new_token": "मेज़बान", "frequency": 4, "vocab_size": 5248, "learned_vocab_size": 4976, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 4977, "pair": [ "बुद्ध", "देव" ], "new_token": "बुद्धदेव", "frequency": 4, "vocab_size": 5249, "learned_vocab_size": 4977, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 4978, "pair": [ "समर्", "पणानन्द" ], "new_token": "समर्पणानन्द", "frequency": 4, "vocab_size": 5250, "learned_vocab_size": 4978, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 4979, "pair": [ "आण", "विक" ], "new_token": "आणविक", "frequency": 4, "vocab_size": 5251, "learned_vocab_size": 4979, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 4980, "pair": [ "खगोल", "शास्त्र" ], "new_token": "खगोलशास्त्र", "frequency": 4, "vocab_size": 5252, "learned_vocab_size": 4980, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 4981, "pair": [ "दीर्घ", "चोंच" ], "new_token": "दीर्घचोंच", "frequency": 4, "vocab_size": 5253, "learned_vocab_size": 4981, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 4982, "pair": [ "मोनो", "ट्री" ], "new_token": "मोनोट्री", "frequency": 4, "vocab_size": 5254, "learned_vocab_size": 4982, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 4983, "pair": [ "टै", "की" ], "new_token": "टैकी", "frequency": 4, "vocab_size": 5255, "learned_vocab_size": 4983, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 4984, "pair": [ "टैकी", "ग्लो" ], "new_token": "टैकीग्लो", "frequency": 4, "vocab_size": 5256, "learned_vocab_size": 4984, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 4985, "pair": [ "सी", "॰" ], "new_token": "सी॰", "frequency": 4, "vocab_size": 5257, "learned_vocab_size": 4985, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 4986, "pair": [ "मो", "क्ष" ], "new_token": "मोक्ष", "frequency": 4, "vocab_size": 5258, "learned_vocab_size": 4986, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 4987, "pair": [ "मल्", "लिका" ], "new_token": "मल्लिका", "frequency": 4, "vocab_size": 5259, "learned_vocab_size": 4987, "compression_ratio": 1.1773121334644665, "example_words": [] }, { "step": 4988, "pair": [ "सारा", "भाई" ], "new_token": "साराभाई", "frequency": 4, "vocab_size": 5260, "learned_vocab_size": 4988, "compression_ratio": 1.1773121334644665, "example_words": [] }, { "step": 4989, "pair": [ "ब", "प्पी" ], "new_token": "बप्पी", "frequency": 4, "vocab_size": 5261, "learned_vocab_size": 4989, "compression_ratio": 1.1773121334644665, "example_words": [] }, { "step": 4990, "pair": [ "मनी", "षा" ], "new_token": "मनीषा", "frequency": 4, "vocab_size": 5262, "learned_vocab_size": 4990, "compression_ratio": 1.1773228547231152, "example_words": [] }, { "step": 4991, "pair": [ "फि", "फ्टी" ], "new_token": "फिफ्टी", "frequency": 4, "vocab_size": 5263, "learned_vocab_size": 4991, "compression_ratio": 1.1773228547231152, "example_words": [] }, { "step": 4992, "pair": [ "चै", "प्टर" ], "new_token": "चैप्टर", "frequency": 4, "vocab_size": 5264, "learned_vocab_size": 4992, "compression_ratio": 1.1773228547231152, "example_words": [] }, { "step": 4993, "pair": [ "हावर्", "थ" ], "new_token": "हावर्थ", "frequency": 4, "vocab_size": 5265, "learned_vocab_size": 4993, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4994, "pair": [ "ऑस्ट्रो", "ने" ], "new_token": "ऑस्ट्रोने", "frequency": 4, "vocab_size": 5266, "learned_vocab_size": 4994, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4995, "pair": [ "ऑस्ट्रोने", "शियन" ], "new_token": "ऑस्ट्रोनेशियन", "frequency": 4, "vocab_size": 5267, "learned_vocab_size": 4995, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4996, "pair": [ "भूगोलवे", "त्ता" ], "new_token": "भूगोलवेत्ता", "frequency": 4, "vocab_size": 5268, "learned_vocab_size": 4996, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4997, "pair": [ "घि", "रनी" ], "new_token": "घिरनी", "frequency": 4, "vocab_size": 5269, "learned_vocab_size": 4997, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4998, "pair": [ "बै", "ठ" ], "new_token": "बैठ", "frequency": 4, "vocab_size": 5270, "learned_vocab_size": 4998, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 4999, "pair": [ "मा", "हिया" ], "new_token": "माहिया", "frequency": 4, "vocab_size": 5271, "learned_vocab_size": 4999, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 5000, "pair": [ "पि", "च" ], "new_token": "पिच", "frequency": 4, "vocab_size": 5272, "learned_vocab_size": 5000, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 5001, "pair": [ "पि", "ंक" ], "new_token": "पिंक", "frequency": 4, "vocab_size": 5273, "learned_vocab_size": 5001, "compression_ratio": 1.1773593084631664, "example_words": [ "पिंक" ] }, { "step": 5002, "pair": [ "रि", "ंग" ], "new_token": "रिंग", "frequency": 4, "vocab_size": 5274, "learned_vocab_size": 5002, "compression_ratio": 1.1773721750280495, "example_words": [] }, { "step": 5003, "pair": [ "एक्स", "टेंशन" ], "new_token": "एक्सटेंशन", "frequency": 4, "vocab_size": 5275, "learned_vocab_size": 5003, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5004, "pair": [ "कड़कड़", "डू" ], "new_token": "कड़कड़डू", "frequency": 4, "vocab_size": 5276, "learned_vocab_size": 5004, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5005, "pair": [ "कड़कड़डू", "मा" ], "new_token": "कड़कड़डूमा", "frequency": 4, "vocab_size": 5277, "learned_vocab_size": 5005, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5006, "pair": [ "उपलब्धि", "यों" ], "new_token": "उपलब्धियों", "frequency": 4, "vocab_size": 5278, "learned_vocab_size": 5006, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5007, "pair": [ "दूता", "वास" ], "new_token": "दूतावास", "frequency": 4, "vocab_size": 5279, "learned_vocab_size": 5007, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5008, "pair": [ "अफ्री", "की" ], "new_token": "अफ्रीकी", "frequency": 4, "vocab_size": 5280, "learned_vocab_size": 5008, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5009, "pair": [ "ट्रू", "मैन" ], "new_token": "ट्रूमैन", "frequency": 4, "vocab_size": 5281, "learned_vocab_size": 5009, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5010, "pair": [ "रि", "श्ते" ], "new_token": "रिश्ते", "frequency": 4, "vocab_size": 5282, "learned_vocab_size": 5010, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5011, "pair": [ "एडि", "नबर्ग" ], "new_token": "एडिनबर्ग", "frequency": 4, "vocab_size": 5283, "learned_vocab_size": 5011, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5012, "pair": [ "बो", "सॉन" ], "new_token": "बोसॉन", "frequency": 4, "vocab_size": 5284, "learned_vocab_size": 5012, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5013, "pair": [ "से", "वर्त्" ], "new_token": "सेवर्त्", "frequency": 4, "vocab_size": 5285, "learned_vocab_size": 5013, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5014, "pair": [ "सेवर्त्", "ज़ो" ], "new_token": "सेवर्त्ज़ो", "frequency": 4, "vocab_size": 5286, "learned_vocab_size": 5014, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5015, "pair": [ "गॉ", "ड" ], "new_token": "गॉड", "frequency": 4, "vocab_size": 5287, "learned_vocab_size": 5015, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5016, "pair": [ "सर्व", "प्रथम" ], "new_token": "सर्वप्रथम", "frequency": 4, "vocab_size": 5288, "learned_vocab_size": 5016, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 5017, "pair": [ "एलि", "ज़ा" ], "new_token": "एलिज़ा", "frequency": 4, "vocab_size": 5289, "learned_vocab_size": 5017, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 5018, "pair": [ "एलिज़ा", "बेथ" ], "new_token": "एलिज़ाबेथ", "frequency": 4, "vocab_size": 5290, "learned_vocab_size": 5018, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 5019, "pair": [ "शो", "ले" ], "new_token": "शोले", "frequency": 4, "vocab_size": 5291, "learned_vocab_size": 5019, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 5020, "pair": [ "ग्लो", "बल" ], "new_token": "ग्लोबल", "frequency": 4, "vocab_size": 5292, "learned_vocab_size": 5020, "compression_ratio": 1.1774172102198317, "example_words": [] }, { "step": 5021, "pair": [ "क्रे", "ग" ], "new_token": "क्रेग", "frequency": 4, "vocab_size": 5293, "learned_vocab_size": 5021, "compression_ratio": 1.1774300780502909, "example_words": [] }, { "step": 5022, "pair": [ "लीग", "चैम्पियनशिप" ], "new_token": "लीगचैम्पियनशिप", "frequency": 4, "vocab_size": 5294, "learned_vocab_size": 5022, "compression_ratio": 1.1774300780502909, "example_words": [] }, { "step": 5023, "pair": [ "वा", "इसी" ], "new_token": "वाइसी", "frequency": 4, "vocab_size": 5295, "learned_vocab_size": 5023, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5024, "pair": [ "वाइसी", "रॉय" ], "new_token": "वाइसीरॉय", "frequency": 4, "vocab_size": 5296, "learned_vocab_size": 5024, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5025, "pair": [ "पू", "ंजी" ], "new_token": "पूंजी", "frequency": 4, "vocab_size": 5297, "learned_vocab_size": 5025, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5026, "pair": [ "बा", "य" ], "new_token": "बाय", "frequency": 4, "vocab_size": 5298, "learned_vocab_size": 5026, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5027, "pair": [ "हा", "ंदे" ], "new_token": "हांदे", "frequency": 4, "vocab_size": 5299, "learned_vocab_size": 5027, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5028, "pair": [ "कपि", "मी" ], "new_token": "कपिमी", "frequency": 4, "vocab_size": 5300, "learned_vocab_size": 5028, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5029, "pair": [ "दा", "ह" ], "new_token": "दाह", "frequency": 4, "vocab_size": 5301, "learned_vocab_size": 5029, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5030, "pair": [ "ऐ", "वन" ], "new_token": "ऐवन", "frequency": 4, "vocab_size": 5302, "learned_vocab_size": 5030, "compression_ratio": 1.1773571640630265, "example_words": [] }, { "step": 5031, "pair": [ "मरा", "ंडी" ], "new_token": "मरांडी", "frequency": 4, "vocab_size": 5303, "learned_vocab_size": 5031, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 5032, "pair": [ "गुस्ता", "विया" ], "new_token": "गुस्ताविया", "frequency": 4, "vocab_size": 5304, "learned_vocab_size": 5032, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 5033, "pair": [ "मुस्त", "फ़ा" ], "new_token": "मुस्तफ़ा", "frequency": 4, "vocab_size": 5305, "learned_vocab_size": 5033, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 5034, "pair": [ "गण", "धर" ], "new_token": "गणधर", "frequency": 4, "vocab_size": 5306, "learned_vocab_size": 5034, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 5035, "pair": [ "ह", "वा" ], "new_token": "हवा", "frequency": 4, "vocab_size": 5307, "learned_vocab_size": 5035, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 5036, "pair": [ "ज़", "म्बो" ], "new_token": "ज़म्बो", "frequency": 4, "vocab_size": 5308, "learned_vocab_size": 5036, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5037, "pair": [ "ज़म्बो", "आ" ], "new_token": "ज़म्बोआ", "frequency": 4, "vocab_size": 5309, "learned_vocab_size": 5037, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5038, "pair": [ "ज़म्बोआ", "ंगा" ], "new_token": "ज़म्बोआंगा", "frequency": 4, "vocab_size": 5310, "learned_vocab_size": 5038, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5039, "pair": [ "बली", "पुर" ], "new_token": "बलीपुर", "frequency": 4, "vocab_size": 5311, "learned_vocab_size": 5039, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5040, "pair": [ "ग्रं", "थों" ], "new_token": "ग्रंथों", "frequency": 3, "vocab_size": 5312, "learned_vocab_size": 5040, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5041, "pair": [ "संस्था", "ओं" ], "new_token": "संस्थाओं", "frequency": 3, "vocab_size": 5313, "learned_vocab_size": 5041, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5042, "pair": [ "डा", "यरे" ], "new_token": "डायरे", "frequency": 3, "vocab_size": 5314, "learned_vocab_size": 5042, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5043, "pair": [ "कॉलो", "नी" ], "new_token": "कॉलोनी", "frequency": 3, "vocab_size": 5315, "learned_vocab_size": 5043, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5044, "pair": [ "स्वा", "धीन" ], "new_token": "स्वाधीन", "frequency": 3, "vocab_size": 5316, "learned_vocab_size": 5044, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5045, "pair": [ "मंत्री", "मंडल" ], "new_token": "मंत्रीमंडल", "frequency": 3, "vocab_size": 5317, "learned_vocab_size": 5045, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5046, "pair": [ "कह", "कर" ], "new_token": "कहकर", "frequency": 3, "vocab_size": 5318, "learned_vocab_size": 5046, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5047, "pair": [ "डी", "डी" ], "new_token": "डीडी", "frequency": 3, "vocab_size": 5319, "learned_vocab_size": 5047, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5048, "pair": [ "जै", "मिनी" ], "new_token": "जैमिनी", "frequency": 3, "vocab_size": 5320, "learned_vocab_size": 5048, "compression_ratio": 1.1772671063103621, "example_words": [] }, { "step": 5049, "pair": [ "सा", "क्षी" ], "new_token": "साक्षी", "frequency": 3, "vocab_size": 5321, "learned_vocab_size": 5049, "compression_ratio": 1.1772671063103621, "example_words": [] }, { "step": 5050, "pair": [ "फ्", "ले" ], "new_token": "फ्ले", "frequency": 3, "vocab_size": 5322, "learned_vocab_size": 5050, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 5051, "pair": [ "टे", "ल" ], "new_token": "टेल", "frequency": 3, "vocab_size": 5323, "learned_vocab_size": 5051, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 5052, "pair": [ "फ़ॉ", "र" ], "new_token": "फ़ॉर", "frequency": 3, "vocab_size": 5324, "learned_vocab_size": 5052, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 5053, "pair": [ "दर", "बार" ], "new_token": "दरबार", "frequency": 3, "vocab_size": 5325, "learned_vocab_size": 5053, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5054, "pair": [ "गुआ", "ंग्" ], "new_token": "गुआंग्", "frequency": 3, "vocab_size": 5326, "learned_vocab_size": 5054, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5055, "pair": [ "गुआंग्", "शु" ], "new_token": "गुआंग्शु", "frequency": 3, "vocab_size": 5327, "learned_vocab_size": 5055, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5056, "pair": [ "बुद्धि", "मान" ], "new_token": "बुद्धिमान", "frequency": 3, "vocab_size": 5328, "learned_vocab_size": 5056, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5057, "pair": [ "प्रो", "त्साहित" ], "new_token": "प्रोत्साहित", "frequency": 3, "vocab_size": 5329, "learned_vocab_size": 5057, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5058, "pair": [ "क्", "वार्" ], "new_token": "क्वार्", "frequency": 3, "vocab_size": 5330, "learned_vocab_size": 5058, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5059, "pair": [ "निरो", "ध" ], "new_token": "निरोध", "frequency": 3, "vocab_size": 5331, "learned_vocab_size": 5059, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5060, "pair": [ "प्र", "यो" ], "new_token": "प्रयो", "frequency": 3, "vocab_size": 5332, "learned_vocab_size": 5060, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5061, "pair": [ "फा", "य" ], "new_token": "फाय", "frequency": 3, "vocab_size": 5333, "learned_vocab_size": 5061, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 5062, "pair": [ "फाय", "दे" ], "new_token": "फायदे", "frequency": 3, "vocab_size": 5334, "learned_vocab_size": 5062, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 5063, "pair": [ "जोखि", "म" ], "new_token": "जोखिम", "frequency": 3, "vocab_size": 5335, "learned_vocab_size": 5063, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 5064, "pair": [ "जन", "नांग" ], "new_token": "जननांग", "frequency": 3, "vocab_size": 5336, "learned_vocab_size": 5064, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 5065, "pair": [ "कि", "ंतु" ], "new_token": "किंतु", "frequency": 3, "vocab_size": 5337, "learned_vocab_size": 5065, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 5066, "pair": [ "मै", "थुन" ], "new_token": "मैथुन", "frequency": 3, "vocab_size": 5338, "learned_vocab_size": 5066, "compression_ratio": 1.177159912662006, "example_words": [] }, { "step": 5067, "pair": [ "नियो", "जन" ], "new_token": "नियोजन", "frequency": 3, "vocab_size": 5339, "learned_vocab_size": 5067, "compression_ratio": 1.1771684874355113, "example_words": [] }, { "step": 5068, "pair": [ "क्", "शन" ], "new_token": "क्शन", "frequency": 3, "vocab_size": 5340, "learned_vocab_size": 5068, "compression_ratio": 1.1771684874355113, "example_words": [] }, { "step": 5069, "pair": [ "गति", "विधियों" ], "new_token": "गतिविधियों", "frequency": 3, "vocab_size": 5341, "learned_vocab_size": 5069, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 5070, "pair": [ "ं", "ह" ], "new_token": "ंह", "frequency": 3, "vocab_size": 5342, "learned_vocab_size": 5070, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 5071, "pair": [ "यू", "ष" ], "new_token": "यूष", "frequency": 3, "vocab_size": 5343, "learned_vocab_size": 5071, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 5072, "pair": [ "शिव", "पुरी" ], "new_token": "शिवपुरी", "frequency": 3, "vocab_size": 5344, "learned_vocab_size": 5072, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 5073, "pair": [ "का", "कुल" ], "new_token": "काकुल", "frequency": 3, "vocab_size": 5345, "learned_vocab_size": 5073, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 5074, "pair": [ "ऋष", "भ" ], "new_token": "ऋषभ", "frequency": 3, "vocab_size": 5346, "learned_vocab_size": 5074, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 5075, "pair": [ "आ", "हू" ], "new_token": "आहू", "frequency": 3, "vocab_size": 5347, "learned_vocab_size": 5075, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5076, "pair": [ "आहू", "जा" ], "new_token": "आहूजा", "frequency": 3, "vocab_size": 5348, "learned_vocab_size": 5076, "compression_ratio": 1.177316421944494, "example_words": [] }, { "step": 5077, "pair": [ "दो", "स्त" ], "new_token": "दोस्त", "frequency": 3, "vocab_size": 5349, "learned_vocab_size": 5077, "compression_ratio": 1.1773228547231152, "example_words": [] }, { "step": 5078, "pair": [ "ओ", "म" ], "new_token": "ओम", "frequency": 3, "vocab_size": 5350, "learned_vocab_size": 5078, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5079, "pair": [ "ने", "हा" ], "new_token": "नेहा", "frequency": 3, "vocab_size": 5351, "learned_vocab_size": 5079, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 5080, "pair": [ "रे", "श" ], "new_token": "रेश", "frequency": 3, "vocab_size": 5352, "learned_vocab_size": 5080, "compression_ratio": 1.1773550196706979, "example_words": [] }, { "step": 5081, "pair": [ "क्रियान्", "वयन" ], "new_token": "क्रियान्वयन", "frequency": 3, "vocab_size": 5353, "learned_vocab_size": 5081, "compression_ratio": 1.177361452871118, "example_words": [] }, { "step": 5082, "pair": [ "प्रगति", "शील" ], "new_token": "प्रगतिशील", "frequency": 3, "vocab_size": 5354, "learned_vocab_size": 5082, "compression_ratio": 1.177361452871118, "example_words": [] }, { "step": 5083, "pair": [ "यो", "ल" ], "new_token": "योल", "frequency": 3, "vocab_size": 5355, "learned_vocab_size": 5083, "compression_ratio": 1.177361452871118, "example_words": [] }, { "step": 5084, "pair": [ "ज", "ॉ" ], "new_token": "जॉ", "frequency": 3, "vocab_size": 5356, "learned_vocab_size": 5084, "compression_ratio": 1.1773700305810397, "example_words": [] }, { "step": 5085, "pair": [ "जॉ", "य" ], "new_token": "जॉय", "frequency": 3, "vocab_size": 5357, "learned_vocab_size": 5085, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 5086, "pair": [ "स्वा", "यत्त" ], "new_token": "स्वायत्त", "frequency": 3, "vocab_size": 5358, "learned_vocab_size": 5086, "compression_ratio": 1.1772220826003184, "example_words": [] }, { "step": 5087, "pair": [ "गठ", "ित" ], "new_token": "गठित", "frequency": 3, "vocab_size": 5359, "learned_vocab_size": 5087, "compression_ratio": 1.1772220826003184, "example_words": [] }, { "step": 5088, "pair": [ "सिफारि", "श" ], "new_token": "सिफारिश", "frequency": 3, "vocab_size": 5360, "learned_vocab_size": 5088, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 5089, "pair": [ "ब", "ंट" ], "new_token": "बंट", "frequency": 3, "vocab_size": 5361, "learned_vocab_size": 5089, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 5090, "pair": [ "नज", "दी" ], "new_token": "नजदी", "frequency": 3, "vocab_size": 5362, "learned_vocab_size": 5090, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5091, "pair": [ "नवी", "न" ], "new_token": "नवीन", "frequency": 3, "vocab_size": 5363, "learned_vocab_size": 5091, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5092, "pair": [ "ब", "ँ" ], "new_token": "बँ", "frequency": 3, "vocab_size": 5364, "learned_vocab_size": 5092, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5093, "pair": [ "ख़", "ु" ], "new_token": "ख़ु", "frequency": 3, "vocab_size": 5365, "learned_vocab_size": 5093, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 5094, "pair": [ "उन्", "होने" ], "new_token": "उन्होने", "frequency": 3, "vocab_size": 5366, "learned_vocab_size": 5094, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 5095, "pair": [ "आ", "क्रमण" ], "new_token": "आक्रमण", "frequency": 3, "vocab_size": 5367, "learned_vocab_size": 5095, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 5096, "pair": [ "फ", "ौ" ], "new_token": "फौ", "frequency": 3, "vocab_size": 5368, "learned_vocab_size": 5096, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 5097, "pair": [ "मिठा", "इयां" ], "new_token": "मिठाइयां", "frequency": 3, "vocab_size": 5369, "learned_vocab_size": 5097, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 5098, "pair": [ "डे", "जर्" ], "new_token": "डेजर्", "frequency": 3, "vocab_size": 5370, "learned_vocab_size": 5098, "compression_ratio": 1.1772821149790373, "example_words": [] }, { "step": 5099, "pair": [ "डेजर्", "ट" ], "new_token": "डेजर्ट", "frequency": 3, "vocab_size": 5371, "learned_vocab_size": 5099, "compression_ratio": 1.1772821149790373, "example_words": [] }, { "step": 5100, "pair": [ "होने", "वाले" ], "new_token": "होनेवाले", "frequency": 3, "vocab_size": 5372, "learned_vocab_size": 5100, "compression_ratio": 1.1772821149790373, "example_words": [] }, { "step": 5101, "pair": [ "पै", "री" ], "new_token": "पैरी", "frequency": 3, "vocab_size": 5374, "learned_vocab_size": 5101, "compression_ratio": 1.1772821149790373, "example_words": [ "पैरी", "पैरीज़" ] }, { "step": 5102, "pair": [ "प", "वित्र" ], "new_token": "पवित्र", "frequency": 3, "vocab_size": 5375, "learned_vocab_size": 5102, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 5103, "pair": [ "तेली", "न" ], "new_token": "तेलीन", "frequency": 3, "vocab_size": 5376, "learned_vocab_size": 5103, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 5104, "pair": [ "दे", "कर" ], "new_token": "देकर", "frequency": 3, "vocab_size": 5377, "learned_vocab_size": 5104, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 5105, "pair": [ "पु", "ल" ], "new_token": "पुल", "frequency": 3, "vocab_size": 5378, "learned_vocab_size": 5105, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5106, "pair": [ "वैष्ण", "व" ], "new_token": "वैष्णव", "frequency": 3, "vocab_size": 5379, "learned_vocab_size": 5106, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 5107, "pair": [ "सम्", "प्रदाय" ], "new_token": "सम्प्रदाय", "frequency": 3, "vocab_size": 5380, "learned_vocab_size": 5107, "compression_ratio": 1.1770848887221714, "example_words": [] }, { "step": 5108, "pair": [ "पाल", "घर" ], "new_token": "पालघर", "frequency": 3, "vocab_size": 5381, "learned_vocab_size": 5108, "compression_ratio": 1.1770848887221714, "example_words": [] }, { "step": 5109, "pair": [ "अडा", "णी" ], "new_token": "अडाणी", "frequency": 3, "vocab_size": 5382, "learned_vocab_size": 5109, "compression_ratio": 1.1770913189708703, "example_words": [] }, { "step": 5110, "pair": [ "न", "कारात्मक" ], "new_token": "नकारात्मक", "frequency": 3, "vocab_size": 5383, "learned_vocab_size": 5110, "compression_ratio": 1.1770913189708703, "example_words": [] }, { "step": 5111, "pair": [ "एं", "थो" ], "new_token": "एंथो", "frequency": 3, "vocab_size": 5384, "learned_vocab_size": 5111, "compression_ratio": 1.1770913189708703, "example_words": [] }, { "step": 5112, "pair": [ "एंथो", "नी" ], "new_token": "एंथोनी", "frequency": 3, "vocab_size": 5385, "learned_vocab_size": 5112, "compression_ratio": 1.1770977492898245, "example_words": [] }, { "step": 5113, "pair": [ "आँ", "ख" ], "new_token": "आँख", "frequency": 3, "vocab_size": 5386, "learned_vocab_size": 5113, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 5114, "pair": [ "दु", "मका" ], "new_token": "दुमका", "frequency": 3, "vocab_size": 5387, "learned_vocab_size": 5114, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 5115, "pair": [ "जमशे", "दपुर" ], "new_token": "जमशेदपुर", "frequency": 3, "vocab_size": 5388, "learned_vocab_size": 5115, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 5116, "pair": [ "श", "ला" ], "new_token": "शला", "frequency": 3, "vocab_size": 5389, "learned_vocab_size": 5116, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 5117, "pair": [ "क्ष", "त्र" ], "new_token": "क्षत्र", "frequency": 3, "vocab_size": 5390, "learned_vocab_size": 5117, "compression_ratio": 1.177129901938468, "example_words": [] }, { "step": 5118, "pair": [ "विरा", "ट" ], "new_token": "विराट", "frequency": 3, "vocab_size": 5391, "learned_vocab_size": 5118, "compression_ratio": 1.177129901938468, "example_words": [] }, { "step": 5119, "pair": [ "भी", "ष्" ], "new_token": "भीष्", "frequency": 3, "vocab_size": 5392, "learned_vocab_size": 5119, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 5120, "pair": [ "भीष्", "म" ], "new_token": "भीष्म", "frequency": 3, "vocab_size": 5393, "learned_vocab_size": 5120, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 5121, "pair": [ "उ", "ग्र" ], "new_token": "उग्र", "frequency": 3, "vocab_size": 5394, "learned_vocab_size": 5121, "compression_ratio": 1.177151338013421, "example_words": [] }, { "step": 5122, "pair": [ "कुरु", "क्षेत्र" ], "new_token": "कुरुक्षेत्र", "frequency": 3, "vocab_size": 5395, "learned_vocab_size": 5122, "compression_ratio": 1.177151338013421, "example_words": [] }, { "step": 5123, "pair": [ "छू", "ट" ], "new_token": "छूट", "frequency": 3, "vocab_size": 5396, "learned_vocab_size": 5123, "compression_ratio": 1.177151338013421, "example_words": [] }, { "step": 5124, "pair": [ "छूट", "ती" ], "new_token": "छूटती", "frequency": 3, "vocab_size": 5397, "learned_vocab_size": 5124, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 5125, "pair": [ "रेलगाड़ियाँ", "अगरतला" ], "new_token": "रेलगाड़ियाँअगरतला", "frequency": 3, "vocab_size": 5398, "learned_vocab_size": 5125, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 5126, "pair": [ "अल्", "ले" ], "new_token": "अल्ले", "frequency": 3, "vocab_size": 5399, "learned_vocab_size": 5126, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 5127, "pair": [ "अल्ले", "प्पी" ], "new_token": "अल्लेप्पी", "frequency": 3, "vocab_size": 5400, "learned_vocab_size": 5127, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 5128, "pair": [ "हाव", "डा" ], "new_token": "हावडा", "frequency": 3, "vocab_size": 5401, "learned_vocab_size": 5128, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 5129, "pair": [ "अग्नि", "बीना" ], "new_token": "अग्निबीना", "frequency": 3, "vocab_size": 5402, "learned_vocab_size": 5129, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 5130, "pair": [ "बल्", "हार" ], "new_token": "बल्हार", "frequency": 3, "vocab_size": 5403, "learned_vocab_size": 5130, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 5131, "pair": [ "बल्हार", "शाह" ], "new_token": "बल्हारशाह", "frequency": 3, "vocab_size": 5404, "learned_vocab_size": 5131, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 5132, "pair": [ "बल्", "लिया" ], "new_token": "बल्लिया", "frequency": 3, "vocab_size": 5405, "learned_vocab_size": 5132, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 5133, "pair": [ "बा", "पू" ], "new_token": "बापू", "frequency": 3, "vocab_size": 5406, "learned_vocab_size": 5133, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 5134, "pair": [ "बापू", "धाम" ], "new_token": "बापूधाम", "frequency": 3, "vocab_size": 5407, "learned_vocab_size": 5134, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 5135, "pair": [ "बारी", "पदा" ], "new_token": "बारीपदा", "frequency": 3, "vocab_size": 5408, "learned_vocab_size": 5135, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 5136, "pair": [ "भाग", "यनागर" ], "new_token": "भागयनागर", "frequency": 3, "vocab_size": 5409, "learned_vocab_size": 5136, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 5137, "pair": [ "कन्न", "नोरे" ], "new_token": "कन्ननोरे", "frequency": 3, "vocab_size": 5410, "learned_vocab_size": 5137, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 5138, "pair": [ "वि", "ज़" ], "new_token": "विज़", "frequency": 3, "vocab_size": 5411, "learned_vocab_size": 5138, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 5139, "pair": [ "विज़", "ग" ], "new_token": "विज़ग", "frequency": 3, "vocab_size": 5412, "learned_vocab_size": 5139, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 5140, "pair": [ "डा", "यो" ], "new_token": "डायो", "frequency": 3, "vocab_size": 5413, "learned_vocab_size": 5140, "compression_ratio": 1.1771985001265677, "example_words": [] }, { "step": 5141, "pair": [ "डायो", "डा" ], "new_token": "डायोडा", "frequency": 3, "vocab_size": 5414, "learned_vocab_size": 5141, "compression_ratio": 1.177204931616616, "example_words": [] }, { "step": 5142, "pair": [ "डायोडा", "या" ], "new_token": "डायोडाया", "frequency": 3, "vocab_size": 5415, "learned_vocab_size": 5142, "compression_ratio": 1.17721136317694, "example_words": [] }, { "step": 5143, "pair": [ "रो", "हिल्ला" ], "new_token": "रोहिल्ला", "frequency": 3, "vocab_size": 5416, "learned_vocab_size": 5143, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 5144, "pair": [ "देव", "गिरी" ], "new_token": "देवगिरी", "frequency": 3, "vocab_size": 5417, "learned_vocab_size": 5144, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 5145, "pair": [ "धु", "ले" ], "new_token": "धुले", "frequency": 3, "vocab_size": 5418, "learned_vocab_size": 5145, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 5146, "pair": [ "दी", "मापुर" ], "new_token": "दीमापुर", "frequency": 3, "vocab_size": 5419, "learned_vocab_size": 5146, "compression_ratio": 1.17722422650842, "example_words": [] }, { "step": 5147, "pair": [ "डू", "न" ], "new_token": "डून", "frequency": 3, "vocab_size": 5420, "learned_vocab_size": 5147, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 5148, "pair": [ "गुरीवा", "यूर" ], "new_token": "गुरीवायूर", "frequency": 3, "vocab_size": 5421, "learned_vocab_size": 5148, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 5149, "pair": [ "झा", "झा" ], "new_token": "झाझा", "frequency": 3, "vocab_size": 5422, "learned_vocab_size": 5149, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 5150, "pair": [ "हरि", "प्रिया" ], "new_token": "हरिप्रिया", "frequency": 3, "vocab_size": 5423, "learned_vocab_size": 5150, "compression_ratio": 1.1772435220327377, "example_words": [] }, { "step": 5151, "pair": [ "हीरा", "कु" ], "new_token": "हीराकु", "frequency": 3, "vocab_size": 5424, "learned_vocab_size": 5151, "compression_ratio": 1.1772435220327377, "example_words": [] }, { "step": 5152, "pair": [ "हीराकु", "ड" ], "new_token": "हीराकुड", "frequency": 3, "vocab_size": 5425, "learned_vocab_size": 5152, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5153, "pair": [ "हीरा", "खंड" ], "new_token": "हीराखंड", "frequency": 3, "vocab_size": 5426, "learned_vocab_size": 5153, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5154, "pair": [ "कोरा", "पुट" ], "new_token": "कोरापुट", "frequency": 3, "vocab_size": 5427, "learned_vocab_size": 5154, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 5155, "pair": [ "ओ", "स्" ], "new_token": "ओस्", "frequency": 3, "vocab_size": 5428, "learned_vocab_size": 5155, "compression_ratio": 1.1772628181895997, "example_words": [] }, { "step": 5156, "pair": [ "ओस्", "माना" ], "new_token": "ओस्माना", "frequency": 3, "vocab_size": 5429, "learned_vocab_size": 5156, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 5157, "pair": [ "ओस्माना", "बाद" ], "new_token": "ओस्मानाबाद", "frequency": 3, "vocab_size": 5430, "learned_vocab_size": 5157, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 5158, "pair": [ "इ", "बाद" ], "new_token": "इबाद", "frequency": 3, "vocab_size": 5431, "learned_vocab_size": 5158, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 5159, "pair": [ "इबाद", "त" ], "new_token": "इबादत", "frequency": 3, "vocab_size": 5432, "learned_vocab_size": 5159, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 5160, "pair": [ "भो", "नगीर" ], "new_token": "भोनगीर", "frequency": 3, "vocab_size": 5433, "learned_vocab_size": 5160, "compression_ratio": 1.1772864032403765, "example_words": [] }, { "step": 5161, "pair": [ "ग्", "वेलियार" ], "new_token": "ग्वेलियार", "frequency": 3, "vocab_size": 5434, "learned_vocab_size": 5161, "compression_ratio": 1.1772864032403765, "example_words": [] }, { "step": 5162, "pair": [ "जा", "मनगर" ], "new_token": "जामनगर", "frequency": 3, "vocab_size": 5435, "learned_vocab_size": 5162, "compression_ratio": 1.1772864032403765, "example_words": [] }, { "step": 5163, "pair": [ "ज्ञ", "म्" ], "new_token": "ज्ञम्", "frequency": 3, "vocab_size": 5436, "learned_vocab_size": 5163, "compression_ratio": 1.1772864032403765, "example_words": [] }, { "step": 5164, "pair": [ "ज्ञम्", "नगर्" ], "new_token": "ज्ञम्नगर्", "frequency": 3, "vocab_size": 5437, "learned_vocab_size": 5164, "compression_ratio": 1.1772928356909604, "example_words": [] }, { "step": 5165, "pair": [ "ज्ञम्नगर्", "श्रु" ], "new_token": "ज्ञम्नगर्श्रु", "frequency": 3, "vocab_size": 5438, "learned_vocab_size": 5165, "compression_ratio": 1.1772928356909604, "example_words": [] }, { "step": 5166, "pair": [ "ज्ञम्नगर्श्रु", "रत" ], "new_token": "ज्ञम्नगर्श्रुरत", "frequency": 3, "vocab_size": 5439, "learned_vocab_size": 5166, "compression_ratio": 1.1772928356909604, "example_words": [] }, { "step": 5167, "pair": [ "गाँधी", "धाम" ], "new_token": "गाँधीधाम", "frequency": 3, "vocab_size": 5440, "learned_vocab_size": 5167, "compression_ratio": 1.1772928356909604, "example_words": [] }, { "step": 5168, "pair": [ "खुर्", "जा" ], "new_token": "खुर्जा", "frequency": 3, "vocab_size": 5441, "learned_vocab_size": 5168, "compression_ratio": 1.1772992682118362, "example_words": [] }, { "step": 5169, "pair": [ "अल्", "लहा" ], "new_token": "अल्लहा", "frequency": 3, "vocab_size": 5442, "learned_vocab_size": 5169, "compression_ratio": 1.1773057008030043, "example_words": [] }, { "step": 5170, "pair": [ "अल्लहा", "बाद" ], "new_token": "अल्लहाबाद", "frequency": 3, "vocab_size": 5443, "learned_vocab_size": 5170, "compression_ratio": 1.1773057008030043, "example_words": [] }, { "step": 5171, "pair": [ "क", "क्" ], "new_token": "कक्", "frequency": 3, "vocab_size": 5444, "learned_vocab_size": 5171, "compression_ratio": 1.1773057008030043, "example_words": [] }, { "step": 5172, "pair": [ "कक्", "वल" ], "new_token": "कक्वल", "frequency": 3, "vocab_size": 5445, "learned_vocab_size": 5172, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 5173, "pair": [ "ब्", "व्" ], "new_token": "ब्व्", "frequency": 3, "vocab_size": 5446, "learned_vocab_size": 5173, "compression_ratio": 1.1772435220327377, "example_words": [] }, { "step": 5174, "pair": [ "ब्व्", "क" ], "new_token": "ब्व्क", "frequency": 3, "vocab_size": 5447, "learned_vocab_size": 5174, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 5175, "pair": [ "एक्", "शप्रेस" ], "new_token": "एक्शप्रेस", "frequency": 3, "vocab_size": 5448, "learned_vocab_size": 5175, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5176, "pair": [ "कोल्", "हापुर" ], "new_token": "कोल्हापुर", "frequency": 3, "vocab_size": 5449, "learned_vocab_size": 5176, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5177, "pair": [ "म", "च्" ], "new_token": "मच्", "frequency": 3, "vocab_size": 5450, "learned_vocab_size": 5177, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 5178, "pair": [ "मच्", "लि" ], "new_token": "मच्लि", "frequency": 3, "vocab_size": 5451, "learned_vocab_size": 5178, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 5179, "pair": [ "मच्लि", "पत्नाम" ], "new_token": "मच्लिपत्नाम", "frequency": 3, "vocab_size": 5452, "learned_vocab_size": 5179, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 5180, "pair": [ "म", "चिलि" ], "new_token": "मचिलि", "frequency": 3, "vocab_size": 5453, "learned_vocab_size": 5180, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 5181, "pair": [ "मचिलि", "पत्नाम" ], "new_token": "मचिलिपत्नाम", "frequency": 3, "vocab_size": 5454, "learned_vocab_size": 5181, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5182, "pair": [ "मदु", "र" ], "new_token": "मदुर", "frequency": 3, "vocab_size": 5455, "learned_vocab_size": 5182, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5183, "pair": [ "मदुर", "ई" ], "new_token": "मदुरई", "frequency": 3, "vocab_size": 5456, "learned_vocab_size": 5183, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5184, "pair": [ "मै", "त्री" ], "new_token": "मैत्री", "frequency": 3, "vocab_size": 5457, "learned_vocab_size": 5184, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5185, "pair": [ "मंडु", "आ" ], "new_token": "मंडुआ", "frequency": 3, "vocab_size": 5458, "learned_vocab_size": 5185, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5186, "pair": [ "मंडुआ", "डीह" ], "new_token": "मंडुआडीह", "frequency": 3, "vocab_size": 5459, "learned_vocab_size": 5186, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5187, "pair": [ "मराठ", "वाडा" ], "new_token": "मराठवाडा", "frequency": 3, "vocab_size": 5460, "learned_vocab_size": 5187, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5188, "pair": [ "म", "यिला" ], "new_token": "मयिला", "frequency": 3, "vocab_size": 5461, "learned_vocab_size": 5188, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5189, "pair": [ "मयिला", "डु" ], "new_token": "मयिलाडु", "frequency": 3, "vocab_size": 5462, "learned_vocab_size": 5189, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5190, "pair": [ "मयिलाडु", "तुर" ], "new_token": "मयिलाडुतुर", "frequency": 3, "vocab_size": 5463, "learned_vocab_size": 5190, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5191, "pair": [ "मयिलाडुतुर", "ई" ], "new_token": "मयिलाडुतुरई", "frequency": 3, "vocab_size": 5464, "learned_vocab_size": 5191, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5192, "pair": [ "मुज़फ़्", "फ़रपुर" ], "new_token": "मुज़फ़्फ़रपुर", "frequency": 3, "vocab_size": 5465, "learned_vocab_size": 5192, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5193, "pair": [ "माइज़", "ॉ" ], "new_token": "माइज़ॉ", "frequency": 3, "vocab_size": 5466, "learned_vocab_size": 5193, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5194, "pair": [ "माइज़ॉ", "यर" ], "new_token": "माइज़ॉयर", "frequency": 3, "vocab_size": 5467, "learned_vocab_size": 5194, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5195, "pair": [ "नाग", "वली" ], "new_token": "नागवली", "frequency": 3, "vocab_size": 5468, "learned_vocab_size": 5195, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5196, "pair": [ "ना", "सिक" ], "new_token": "नासिक", "frequency": 3, "vocab_size": 5469, "learned_vocab_size": 5196, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5197, "pair": [ "कु", "च्" ], "new_token": "कुच्", "frequency": 3, "vocab_size": 5470, "learned_vocab_size": 5197, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 5198, "pair": [ "कुच्", "बेहर" ], "new_token": "कुच्बेहर", "frequency": 3, "vocab_size": 5471, "learned_vocab_size": 5198, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5199, "pair": [ "पलामो", "ऊ" ], "new_token": "पलामोऊ", "frequency": 3, "vocab_size": 5472, "learned_vocab_size": 5199, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5200, "pair": [ "पुरु", "लिया" ], "new_token": "पुरुलिया", "frequency": 3, "vocab_size": 5473, "learned_vocab_size": 5200, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5201, "pair": [ "राय", "गडा" ], "new_token": "रायगडा", "frequency": 3, "vocab_size": 5474, "learned_vocab_size": 5201, "compression_ratio": 1.177284259105802, "example_words": [ "रायगडा" ] }, { "step": 5202, "pair": [ "रे", "वारी" ], "new_token": "रेवारी", "frequency": 3, "vocab_size": 5475, "learned_vocab_size": 5202, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5203, "pair": [ "सीमान", "चल" ], "new_token": "सीमानचल", "frequency": 3, "vocab_size": 5476, "learned_vocab_size": 5203, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5204, "pair": [ "शेषा", "द्री" ], "new_token": "शेषाद्री", "frequency": 3, "vocab_size": 5477, "learned_vocab_size": 5204, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5205, "pair": [ "सि", "उरी" ], "new_token": "सिउरी", "frequency": 3, "vocab_size": 5478, "learned_vocab_size": 5205, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5206, "pair": [ "त", "ँजा" ], "new_token": "तँजा", "frequency": 3, "vocab_size": 5479, "learned_vocab_size": 5206, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 5207, "pair": [ "तँजा", "उर" ], "new_token": "तँजाउर", "frequency": 3, "vocab_size": 5480, "learned_vocab_size": 5207, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 5208, "pair": [ "कुंब", "कोन" ], "new_token": "कुंबकोन", "frequency": 3, "vocab_size": 5481, "learned_vocab_size": 5208, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5209, "pair": [ "कुंबकोन", "ं" ], "new_token": "कुंबकोनं", "frequency": 3, "vocab_size": 5482, "learned_vocab_size": 5209, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5210, "pair": [ "माइल", "दु" ], "new_token": "माइलदु", "frequency": 3, "vocab_size": 5483, "learned_vocab_size": 5210, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5211, "pair": [ "माइलदु", "टु" ], "new_token": "माइलदुटु", "frequency": 3, "vocab_size": 5484, "learned_vocab_size": 5211, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5212, "pair": [ "माइलदुटु", "राई" ], "new_token": "माइलदुटुराई", "frequency": 3, "vocab_size": 5485, "learned_vocab_size": 5212, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5213, "pair": [ "तिरु", "च्चि" ], "new_token": "तिरुच्चि", "frequency": 3, "vocab_size": 5486, "learned_vocab_size": 5213, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5214, "pair": [ "तिरुच्चि", "रा" ], "new_token": "तिरुच्चिरा", "frequency": 3, "vocab_size": 5487, "learned_vocab_size": 5214, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5215, "pair": [ "तिरुच्चिरा", "प्पल्ली" ], "new_token": "तिरुच्चिराप्पल्ली", "frequency": 3, "vocab_size": 5488, "learned_vocab_size": 5215, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5216, "pair": [ "तू", "तिकोरि" ], "new_token": "तूतिकोरि", "frequency": 3, "vocab_size": 5489, "learned_vocab_size": 5216, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5217, "pair": [ "तूतिकोरि", "न" ], "new_token": "तूतिकोरिन", "frequency": 3, "vocab_size": 5490, "learned_vocab_size": 5217, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5218, "pair": [ "टू", "टी" ], "new_token": "टूटी", "frequency": 3, "vocab_size": 5491, "learned_vocab_size": 5218, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 5219, "pair": [ "टूटी", "कोरि" ], "new_token": "टूटीकोरि", "frequency": 3, "vocab_size": 5492, "learned_vocab_size": 5219, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 5220, "pair": [ "टूटीकोरि", "न" ], "new_token": "टूटीकोरिन", "frequency": 3, "vocab_size": 5493, "learned_vocab_size": 5220, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 5221, "pair": [ "उ", "अभा" ], "new_token": "उअभा", "frequency": 3, "vocab_size": 5494, "learned_vocab_size": 5221, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 5222, "pair": [ "भी", "लाड़" ], "new_token": "भीलाड़", "frequency": 3, "vocab_size": 5495, "learned_vocab_size": 5222, "compression_ratio": 1.177303556598138, "example_words": [] }, { "step": 5223, "pair": [ "रेल", "देवासंभारतीय" ], "new_token": "रेलदेवासंभारतीय", "frequency": 3, "vocab_size": 5496, "learned_vocab_size": 5223, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5224, "pair": [ "रेल", "प्राधिकारी" ], "new_token": "रेलप्राधिकारी", "frequency": 3, "vocab_size": 5497, "learned_vocab_size": 5224, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5225, "pair": [ "रेलप्राधिकारी", "रेल" ], "new_token": "रेलप्राधिकारीरेल", "frequency": 3, "vocab_size": 5498, "learned_vocab_size": 5225, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5226, "pair": [ "भवन", "संबंधित" ], "new_token": "भवनसंबंधित", "frequency": 3, "vocab_size": 5499, "learned_vocab_size": 5226, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5227, "pair": [ "विद्युती", "करण" ], "new_token": "विद्युतीकरण", "frequency": 3, "vocab_size": 5500, "learned_vocab_size": 5227, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5228, "pair": [ "ज़ो", "नमध्य" ], "new_token": "ज़ोनमध्य", "frequency": 3, "vocab_size": 5501, "learned_vocab_size": 5228, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5229, "pair": [ "पूर्व", "मध्य" ], "new_token": "पूर्वमध्य", "frequency": 3, "vocab_size": 5502, "learned_vocab_size": 5229, "compression_ratio": 1.1773099892361687, "example_words": [] }, { "step": 5230, "pair": [ "रेले", "वे" ], "new_token": "रेलेवे", "frequency": 3, "vocab_size": 5503, "learned_vocab_size": 5230, "compression_ratio": 1.177316421944494, "example_words": [] }, { "step": 5231, "pair": [ "रेलवे", "उत्पादन" ], "new_token": "रेलवेउत्पादन", "frequency": 3, "vocab_size": 5504, "learned_vocab_size": 5231, "compression_ratio": 1.177316421944494, "example_words": [] }, { "step": 5232, "pair": [ "इकाई", "याँ" ], "new_token": "इकाईयाँ", "frequency": 3, "vocab_size": 5505, "learned_vocab_size": 5232, "compression_ratio": 1.1773228547231152, "example_words": [] }, { "step": 5233, "pair": [ "इकाईयाँ", "बनारस" ], "new_token": "इकाईयाँबनारस", "frequency": 3, "vocab_size": 5506, "learned_vocab_size": 5233, "compression_ratio": 1.1773292875720331, "example_words": [] }, { "step": 5234, "pair": [ "डि", "ब्" ], "new_token": "डिब्", "frequency": 3, "vocab_size": 5507, "learned_vocab_size": 5234, "compression_ratio": 1.1773292875720331, "example_words": [] }, { "step": 5235, "pair": [ "डिब्", "बा" ], "new_token": "डिब्बा", "frequency": 3, "vocab_size": 5508, "learned_vocab_size": 5235, "compression_ratio": 1.177350730909475, "example_words": [] }, { "step": 5236, "pair": [ "गाड़िया", "एक्सप्रेस" ], "new_token": "गाड़ियाएक्सप्रेस", "frequency": 3, "vocab_size": 5509, "learned_vocab_size": 5236, "compression_ratio": 1.1773571640630265, "example_words": [] }, { "step": 5237, "pair": [ "जन", "शताब्दी" ], "new_token": "जनशताब्दी", "frequency": 3, "vocab_size": 5510, "learned_vocab_size": 5237, "compression_ratio": 1.1773571640630265, "example_words": [] }, { "step": 5238, "pair": [ "गाड़िया", "पैलेस" ], "new_token": "गाड़ियापैलेस", "frequency": 3, "vocab_size": 5511, "learned_vocab_size": 5238, "compression_ratio": 1.1773571640630265, "example_words": [] }, { "step": 5239, "pair": [ "दक्", "खन" ], "new_token": "दक्खन", "frequency": 3, "vocab_size": 5512, "learned_vocab_size": 5239, "compression_ratio": 1.1773571640630265, "example_words": [] }, { "step": 5240, "pair": [ "संस्थान", "भारतीय" ], "new_token": "संस्थानभारतीय", "frequency": 3, "vocab_size": 5513, "learned_vocab_size": 5240, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 5241, "pair": [ "संस्थान", "संबंधित" ], "new_token": "संस्थानसंबंधित", "frequency": 3, "vocab_size": 5514, "learned_vocab_size": 5241, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 5242, "pair": [ "लेख", "तत्काल" ], "new_token": "लेखतत्काल", "frequency": 3, "vocab_size": 5515, "learned_vocab_size": 5242, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 5243, "pair": [ "अथर्", "व" ], "new_token": "अथर्व", "frequency": 3, "vocab_size": 5516, "learned_vocab_size": 5243, "compression_ratio": 1.1773700305810397, "example_words": [] }, { "step": 5244, "pair": [ "हर", "फ" ], "new_token": "हरफ", "frequency": 3, "vocab_size": 5517, "learned_vocab_size": 5244, "compression_ratio": 1.1773700305810397, "example_words": [] }, { "step": 5245, "pair": [ "वा", "क्य" ], "new_token": "वाक्य", "frequency": 3, "vocab_size": 5518, "learned_vocab_size": 5245, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 5246, "pair": [ "ब्राह्मण", "ों" ], "new_token": "ब्राह्मणों", "frequency": 3, "vocab_size": 5519, "learned_vocab_size": 5246, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 5247, "pair": [ "चित्र", "कला" ], "new_token": "चित्रकला", "frequency": 3, "vocab_size": 5520, "learned_vocab_size": 5247, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 5248, "pair": [ "हा", "ओबा" ], "new_token": "हाओबा", "frequency": 3, "vocab_size": 5521, "learned_vocab_size": 5248, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 5249, "pair": [ "हाओबा", "म" ], "new_token": "हाओबाम", "frequency": 3, "vocab_size": 5522, "learned_vocab_size": 5249, "compression_ratio": 1.1773828973802745, "example_words": [] }, { "step": 5250, "pair": [ "रा", "स" ], "new_token": "रास", "frequency": 3, "vocab_size": 5523, "learned_vocab_size": 5250, "compression_ratio": 1.177389330885353, "example_words": [] }, { "step": 5251, "pair": [ "विशेषज्ञ", "ता" ], "new_token": "विशेषज्ञता", "frequency": 3, "vocab_size": 5524, "learned_vocab_size": 5251, "compression_ratio": 1.1774064872426304, "example_words": [] }, { "step": 5252, "pair": [ "मोन्दू", "लकिरी" ], "new_token": "मोन्दूलकिरी", "frequency": 3, "vocab_size": 5525, "learned_vocab_size": 5252, "compression_ratio": 1.1774064872426304, "example_words": [] }, { "step": 5253, "pair": [ "सीमा", "एँ" ], "new_token": "सीमाएँ", "frequency": 3, "vocab_size": 5526, "learned_vocab_size": 5253, "compression_ratio": 1.1774064872426304, "example_words": [] }, { "step": 5254, "pair": [ "पड़ो", "सी" ], "new_token": "पड़ोसी", "frequency": 3, "vocab_size": 5527, "learned_vocab_size": 5254, "compression_ratio": 1.1774129210055135, "example_words": [] }, { "step": 5255, "pair": [ "बहु", "संख्यक" ], "new_token": "बहुसंख्यक", "frequency": 3, "vocab_size": 5528, "learned_vocab_size": 5255, "compression_ratio": 1.1774193548387097, "example_words": [] }, { "step": 5256, "pair": [ "जीवन", "चरित" ], "new_token": "जीवनचरित", "frequency": 3, "vocab_size": 5529, "learned_vocab_size": 5256, "compression_ratio": 1.1774193548387097, "example_words": [] }, { "step": 5257, "pair": [ "लू", "णी" ], "new_token": "लूणी", "frequency": 3, "vocab_size": 5530, "learned_vocab_size": 5257, "compression_ratio": 1.1774193548387097, "example_words": [] }, { "step": 5258, "pair": [ "वि", "रह" ], "new_token": "विरह", "frequency": 3, "vocab_size": 5531, "learned_vocab_size": 5258, "compression_ratio": 1.1774257887422201, "example_words": [] }, { "step": 5259, "pair": [ "भारतप्रान्त", "तमिल" ], "new_token": "भारतप्रान्ततमिल", "frequency": 3, "vocab_size": 5532, "learned_vocab_size": 5259, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5260, "pair": [ "लिमा", "ह" ], "new_token": "लिमाह", "frequency": 3, "vocab_size": 5533, "learned_vocab_size": 5260, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5261, "pair": [ "रोबेर्", "ता" ], "new_token": "रोबेर्ता", "frequency": 3, "vocab_size": 5534, "learned_vocab_size": 5261, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5262, "pair": [ "ग", "बो" ], "new_token": "गबो", "frequency": 3, "vocab_size": 5535, "learned_vocab_size": 5262, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5263, "pair": [ "गबो", "वी" ], "new_token": "गबोवी", "frequency": 3, "vocab_size": 5536, "learned_vocab_size": 5263, "compression_ratio": 1.1774429461620148, "example_words": [] }, { "step": 5264, "pair": [ "लाइ", "बेरिया" ], "new_token": "लाइबेरिया", "frequency": 3, "vocab_size": 5537, "learned_vocab_size": 5264, "compression_ratio": 1.177449380323354, "example_words": [] }, { "step": 5265, "pair": [ "लियो", "न" ], "new_token": "लियोन", "frequency": 3, "vocab_size": 5538, "learned_vocab_size": 5265, "compression_ratio": 1.177449380323354, "example_words": [] }, { "step": 5266, "pair": [ "आर्", "थर" ], "new_token": "आर्थर", "frequency": 3, "vocab_size": 5539, "learned_vocab_size": 5266, "compression_ratio": 1.177460104081852, "example_words": [] }, { "step": 5267, "pair": [ "शरणार्", "थियों" ], "new_token": "शरणार्थियों", "frequency": 3, "vocab_size": 5540, "learned_vocab_size": 5267, "compression_ratio": 1.177460104081852, "example_words": [] }, { "step": 5268, "pair": [ "गि", "न" ], "new_token": "गिन", "frequency": 3, "vocab_size": 5541, "learned_vocab_size": 5268, "compression_ratio": 1.177460104081852, "example_words": [] }, { "step": 5269, "pair": [ "जो", "से" ], "new_token": "जोसे", "frequency": 3, "vocab_size": 5542, "learned_vocab_size": 5269, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 5270, "pair": [ "जोसे", "फ" ], "new_token": "जोसेफ", "frequency": 3, "vocab_size": 5543, "learned_vocab_size": 5270, "compression_ratio": 1.1774472355950942, "example_words": [] }, { "step": 5271, "pair": [ "जो", "डी" ], "new_token": "जोडी", "frequency": 3, "vocab_size": 5544, "learned_vocab_size": 5271, "compression_ratio": 1.177453669803313, "example_words": [] }, { "step": 5272, "pair": [ "दे", "ई" ], "new_token": "देई", "frequency": 3, "vocab_size": 5545, "learned_vocab_size": 5272, "compression_ratio": 1.177460104081852, "example_words": [] }, { "step": 5273, "pair": [ "यु", "नु" ], "new_token": "युनु", "frequency": 3, "vocab_size": 5546, "learned_vocab_size": 5273, "compression_ratio": 1.1774665384307126, "example_words": [] }, { "step": 5274, "pair": [ "युनु", "स" ], "new_token": "युनुस", "frequency": 3, "vocab_size": 5547, "learned_vocab_size": 5274, "compression_ratio": 1.1774729728498958, "example_words": [] }, { "step": 5275, "pair": [ "यूरोपी", "य" ], "new_token": "यूरोपीय", "frequency": 3, "vocab_size": 5548, "learned_vocab_size": 5275, "compression_ratio": 1.1774794073394028, "example_words": [] }, { "step": 5276, "pair": [ "षे", "ध" ], "new_token": "षेध", "frequency": 3, "vocab_size": 5549, "learned_vocab_size": 5276, "compression_ratio": 1.1774794073394028, "example_words": [] }, { "step": 5277, "pair": [ "कैला", "श" ], "new_token": "कैलाश", "frequency": 3, "vocab_size": 5550, "learned_vocab_size": 5277, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5278, "pair": [ "पशु", "गमन" ], "new_token": "पशुगमन", "frequency": 3, "vocab_size": 5551, "learned_vocab_size": 5278, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5279, "pair": [ "आकर्", "षण" ], "new_token": "आकर्षण", "frequency": 3, "vocab_size": 5552, "learned_vocab_size": 5279, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5280, "pair": [ "य", "द्य" ], "new_token": "यद्य", "frequency": 3, "vocab_size": 5553, "learned_vocab_size": 5280, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5281, "pair": [ "यद्य", "पि" ], "new_token": "यद्यपि", "frequency": 3, "vocab_size": 5554, "learned_vocab_size": 5281, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5282, "pair": [ "अपरा", "ध" ], "new_token": "अपराध", "frequency": 3, "vocab_size": 5555, "learned_vocab_size": 5282, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5283, "pair": [ "मुज़", "ता" ], "new_token": "मुज़ता", "frequency": 3, "vocab_size": 5556, "learned_vocab_size": 5283, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5284, "pair": [ "मुज़ता", "ग़" ], "new_token": "मुज़ताग़", "frequency": 3, "vocab_size": 5557, "learned_vocab_size": 5284, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5285, "pair": [ "उद", "ग्रता" ], "new_token": "उदग्रता", "frequency": 3, "vocab_size": 5558, "learned_vocab_size": 5285, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5286, "pair": [ "जगदी", "श" ], "new_token": "जगदीश", "frequency": 3, "vocab_size": 5559, "learned_vocab_size": 5286, "compression_ratio": 1.1774944214217404, "example_words": [] }, { "step": 5287, "pair": [ "रो", "चक" ], "new_token": "रोचक", "frequency": 3, "vocab_size": 5560, "learned_vocab_size": 5287, "compression_ratio": 1.1775437561025373, "example_words": [] }, { "step": 5288, "pair": [ "बौ", "क्स" ], "new_token": "बौक्स", "frequency": 3, "vocab_size": 5561, "learned_vocab_size": 5288, "compression_ratio": 1.1775501913656825, "example_words": [] }, { "step": 5289, "pair": [ "जा", "वा" ], "new_token": "जावा", "frequency": 3, "vocab_size": 5562, "learned_vocab_size": 5289, "compression_ratio": 1.1775566266991653, "example_words": [] }, { "step": 5290, "pair": [ "पै", "ट्रिक" ], "new_token": "पैट्रिक", "frequency": 3, "vocab_size": 5563, "learned_vocab_size": 5290, "compression_ratio": 1.1775630621029871, "example_words": [] }, { "step": 5291, "pair": [ "हुई", "ं" ], "new_token": "हुईं", "frequency": 3, "vocab_size": 5564, "learned_vocab_size": 5291, "compression_ratio": 1.1775630621029871, "example_words": [] }, { "step": 5292, "pair": [ "बर्", "ष" ], "new_token": "बर्ष", "frequency": 3, "vocab_size": 5565, "learned_vocab_size": 5292, "compression_ratio": 1.1775694975771487, "example_words": [] }, { "step": 5293, "pair": [ "शा", "यर" ], "new_token": "शायर", "frequency": 3, "vocab_size": 5566, "learned_vocab_size": 5293, "compression_ratio": 1.1775694975771487, "example_words": [] }, { "step": 5294, "pair": [ "बोल", "ते" ], "new_token": "बोलते", "frequency": 3, "vocab_size": 5567, "learned_vocab_size": 5294, "compression_ratio": 1.1775759331216515, "example_words": [] }, { "step": 5295, "pair": [ "नूरि", "स्तानी" ], "new_token": "नूरिस्तानी", "frequency": 3, "vocab_size": 5568, "learned_vocab_size": 5295, "compression_ratio": 1.1775845139570766, "example_words": [] }, { "step": 5296, "pair": [ "अनुया", "यी" ], "new_token": "अनुयायी", "frequency": 3, "vocab_size": 5569, "learned_vocab_size": 5296, "compression_ratio": 1.1775845139570766, "example_words": [] }, { "step": 5297, "pair": [ "अनु", "मान" ], "new_token": "अनुमान", "frequency": 3, "vocab_size": 5570, "learned_vocab_size": 5297, "compression_ratio": 1.1775845139570766, "example_words": [] }, { "step": 5298, "pair": [ "क़", "्" ], "new_token": "क़्", "frequency": 3, "vocab_size": 5571, "learned_vocab_size": 5298, "compression_ratio": 1.1775845139570766, "example_words": [] }, { "step": 5299, "pair": [ "रो", "मानिया" ], "new_token": "रोमानिया", "frequency": 3, "vocab_size": 5572, "learned_vocab_size": 5299, "compression_ratio": 1.1775930949175577, "example_words": [] }, { "step": 5300, "pair": [ "ट्रि", "ब्यू" ], "new_token": "ट्रिब्यू", "frequency": 3, "vocab_size": 5573, "learned_vocab_size": 5300, "compression_ratio": 1.1775930949175577, "example_words": [] }, { "step": 5301, "pair": [ "ट्रिब्यू", "न" ], "new_token": "ट्रिब्यून", "frequency": 3, "vocab_size": 5574, "learned_vocab_size": 5301, "compression_ratio": 1.1775930949175577, "example_words": [ "ट्रिब्यून" ] }, { "step": 5302, "pair": [ "मि", "स" ], "new_token": "मिस", "frequency": 3, "vocab_size": 5575, "learned_vocab_size": 5302, "compression_ratio": 1.1775930949175577, "example_words": [] }, { "step": 5303, "pair": [ "गुप्त", "चरी" ], "new_token": "गुप्तचरी", "frequency": 3, "vocab_size": 5576, "learned_vocab_size": 5303, "compression_ratio": 1.1776574561075899, "example_words": [] }, { "step": 5304, "pair": [ "कलक", "त्ता" ], "new_token": "कलकत्ता", "frequency": 3, "vocab_size": 5577, "learned_vocab_size": 5304, "compression_ratio": 1.1776574561075899, "example_words": [] }, { "step": 5305, "pair": [ "स्वे", "च्छा" ], "new_token": "स्वेच्छा", "frequency": 3, "vocab_size": 5578, "learned_vocab_size": 5305, "compression_ratio": 1.1776574561075899, "example_words": [] }, { "step": 5306, "pair": [ "ओ", "ल्ड" ], "new_token": "ओल्ड", "frequency": 3, "vocab_size": 5579, "learned_vocab_size": 5306, "compression_ratio": 1.1776574561075899, "example_words": [] }, { "step": 5307, "pair": [ "एसो", "सिएशन" ], "new_token": "एसोसिएशन", "frequency": 3, "vocab_size": 5580, "learned_vocab_size": 5307, "compression_ratio": 1.1776574561075899, "example_words": [] }, { "step": 5308, "pair": [ "राज", "दूत" ], "new_token": "राजदूत", "frequency": 3, "vocab_size": 5581, "learned_vocab_size": 5308, "compression_ratio": 1.1776574561075899, "example_words": [] }, { "step": 5309, "pair": [ "वर्", "ल्ड" ], "new_token": "वर्ल्ड", "frequency": 3, "vocab_size": 5582, "learned_vocab_size": 5309, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5310, "pair": [ "सा", "क्षात्" ], "new_token": "साक्षात्", "frequency": 3, "vocab_size": 5583, "learned_vocab_size": 5310, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5311, "pair": [ "साक्षात्", "कार" ], "new_token": "साक्षात्कार", "frequency": 3, "vocab_size": 5584, "learned_vocab_size": 5311, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5312, "pair": [ "उ", "क" ], "new_token": "उक", "frequency": 3, "vocab_size": 5585, "learned_vocab_size": 5312, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5313, "pair": [ "पक", "वान" ], "new_token": "पकवान", "frequency": 3, "vocab_size": 5586, "learned_vocab_size": 5313, "compression_ratio": 1.1776767658365064, "example_words": [] }, { "step": 5314, "pair": [ "गु", "ज़रता" ], "new_token": "गुज़रता", "frequency": 3, "vocab_size": 5587, "learned_vocab_size": 5314, "compression_ratio": 1.1776767658365064, "example_words": [] }, { "step": 5315, "pair": [ "धमा", "का" ], "new_token": "धमाका", "frequency": 3, "vocab_size": 5588, "learned_vocab_size": 5315, "compression_ratio": 1.1776767658365064, "example_words": [] }, { "step": 5316, "pair": [ "अभिनेता", "ओं" ], "new_token": "अभिनेताओं", "frequency": 3, "vocab_size": 5589, "learned_vocab_size": 5316, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5317, "pair": [ "बै", "क" ], "new_token": "बैक", "frequency": 3, "vocab_size": 5590, "learned_vocab_size": 5317, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5318, "pair": [ "आलो", "चकों" ], "new_token": "आलोचकों", "frequency": 3, "vocab_size": 5591, "learned_vocab_size": 5318, "compression_ratio": 1.1776960761986661, "example_words": [] }, { "step": 5319, "pair": [ "दो", "हरी" ], "new_token": "दोहरी", "frequency": 3, "vocab_size": 5592, "learned_vocab_size": 5319, "compression_ratio": 1.1776960761986661, "example_words": [] }, { "step": 5320, "pair": [ "आ", "दमी" ], "new_token": "आदमी", "frequency": 3, "vocab_size": 5593, "learned_vocab_size": 5320, "compression_ratio": 1.1776960761986661, "example_words": [] }, { "step": 5321, "pair": [ "काबु", "ली" ], "new_token": "काबुली", "frequency": 3, "vocab_size": 5594, "learned_vocab_size": 5321, "compression_ratio": 1.1776960761986661, "example_words": [] }, { "step": 5322, "pair": [ "इब्रा", "हिम" ], "new_token": "इब्राहिम", "frequency": 3, "vocab_size": 5595, "learned_vocab_size": 5322, "compression_ratio": 1.1777025131267786, "example_words": [] }, { "step": 5323, "pair": [ "मि", "श" ], "new_token": "मिश", "frequency": 3, "vocab_size": 5596, "learned_vocab_size": 5323, "compression_ratio": 1.1777025131267786, "example_words": [] }, { "step": 5324, "pair": [ "जुम्", "मा" ], "new_token": "जुम्मा", "frequency": 3, "vocab_size": 5597, "learned_vocab_size": 5324, "compression_ratio": 1.1777089501252562, "example_words": [] }, { "step": 5325, "pair": [ "कासि", "म" ], "new_token": "कासिम", "frequency": 3, "vocab_size": 5598, "learned_vocab_size": 5325, "compression_ratio": 1.1777153871941, "example_words": [] }, { "step": 5326, "pair": [ "कि", "द" ], "new_token": "किद", "frequency": 3, "vocab_size": 5599, "learned_vocab_size": 5326, "compression_ratio": 1.1777153871941, "example_words": [] }, { "step": 5327, "pair": [ "का", "ज़ि" ], "new_token": "काज़ि", "frequency": 3, "vocab_size": 5600, "learned_vocab_size": 5327, "compression_ratio": 1.177721824333311, "example_words": [] }, { "step": 5328, "pair": [ "मे", "ट" ], "new_token": "मेट", "frequency": 3, "vocab_size": 5601, "learned_vocab_size": 5328, "compression_ratio": 1.1777282615428903, "example_words": [] }, { "step": 5329, "pair": [ "ज़", "ल" ], "new_token": "ज़ल", "frequency": 3, "vocab_size": 5602, "learned_vocab_size": 5329, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5330, "pair": [ "रा", "बाद" ], "new_token": "राबाद", "frequency": 3, "vocab_size": 5603, "learned_vocab_size": 5330, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 5331, "pair": [ "खि", "ल" ], "new_token": "खिल", "frequency": 3, "vocab_size": 5604, "learned_vocab_size": 5331, "compression_ratio": 1.177766886278168, "example_words": [] }, { "step": 5332, "pair": [ "ब", "द" ], "new_token": "बद", "frequency": 3, "vocab_size": 5605, "learned_vocab_size": 5332, "compression_ratio": 1.1776360015958929, "example_words": [] }, { "step": 5333, "pair": [ "हु", "गली" ], "new_token": "हुगली", "frequency": 3, "vocab_size": 5606, "learned_vocab_size": 5333, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 5334, "pair": [ "धर्म", "शाला" ], "new_token": "धर्मशाला", "frequency": 3, "vocab_size": 5607, "learned_vocab_size": 5334, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 5335, "pair": [ "की", "ट" ], "new_token": "कीट", "frequency": 3, "vocab_size": 5608, "learned_vocab_size": 5335, "compression_ratio": 1.1774408014571949, "example_words": [] }, { "step": 5336, "pair": [ "पौ", "धों" ], "new_token": "पौधों", "frequency": 3, "vocab_size": 5609, "learned_vocab_size": 5336, "compression_ratio": 1.177453669803313, "example_words": [] }, { "step": 5337, "pair": [ "मि", "मी" ], "new_token": "मिमी", "frequency": 3, "vocab_size": 5610, "learned_vocab_size": 5337, "compression_ratio": 1.177453669803313, "example_words": [] }, { "step": 5338, "pair": [ "ँ", "ड़" ], "new_token": "ँड़", "frequency": 3, "vocab_size": 5611, "learned_vocab_size": 5338, "compression_ratio": 1.177460104081852, "example_words": [] }, { "step": 5339, "pair": [ "फ", "स" ], "new_token": "फस", "frequency": 3, "vocab_size": 5612, "learned_vocab_size": 5339, "compression_ratio": 1.1774665384307126, "example_words": [] }, { "step": 5340, "pair": [ "इन", "से" ], "new_token": "इनसे", "frequency": 3, "vocab_size": 5613, "learned_vocab_size": 5340, "compression_ratio": 1.1774708280356876, "example_words": [] }, { "step": 5341, "pair": [ "मा", "दा" ], "new_token": "मादा", "frequency": 3, "vocab_size": 5614, "learned_vocab_size": 5341, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5342, "pair": [ "डि", "ज़नी" ], "new_token": "डिज़नी", "frequency": 3, "vocab_size": 5615, "learned_vocab_size": 5342, "compression_ratio": 1.17748798676814, "example_words": [] }, { "step": 5343, "pair": [ "स्वा", "मित्व" ], "new_token": "स्वामित्व", "frequency": 3, "vocab_size": 5616, "learned_vocab_size": 5343, "compression_ratio": 1.17748798676814, "example_words": [] }, { "step": 5344, "pair": [ "एनएसबु", "गा" ], "new_token": "एनएसबुगा", "frequency": 3, "vocab_size": 5617, "learned_vocab_size": 5344, "compression_ratio": 1.17748798676814, "example_words": [] }, { "step": 5345, "pair": [ "बा", "ज" ], "new_token": "बाज", "frequency": 3, "vocab_size": 5618, "learned_vocab_size": 5345, "compression_ratio": 1.17748798676814, "example_words": [] }, { "step": 5346, "pair": [ "ले", "यते" ], "new_token": "लेयते", "frequency": 3, "vocab_size": 5619, "learned_vocab_size": 5346, "compression_ratio": 1.17739576446074, "example_words": [] }, { "step": 5347, "pair": [ "राज", "भाषा" ], "new_token": "राजभाषा", "frequency": 3, "vocab_size": 5620, "learned_vocab_size": 5347, "compression_ratio": 1.17739576446074, "example_words": [] }, { "step": 5348, "pair": [ "कोड", "आइ" ], "new_token": "कोडआइ", "frequency": 3, "vocab_size": 5621, "learned_vocab_size": 5348, "compression_ratio": 1.17739576446074, "example_words": [] }, { "step": 5349, "pair": [ "कोडआइ", "एस" ], "new_token": "कोडआइएस", "frequency": 3, "vocab_size": 5622, "learned_vocab_size": 5349, "compression_ratio": 1.1774021981064373, "example_words": [] }, { "step": 5350, "pair": [ "कोडआइएस", "ओ" ], "new_token": "कोडआइएसओ", "frequency": 3, "vocab_size": 5623, "learned_vocab_size": 5350, "compression_ratio": 1.1774086318224457, "example_words": [] }, { "step": 5351, "pair": [ "त", "गा" ], "new_token": "तगा", "frequency": 3, "vocab_size": 5627, "learned_vocab_size": 5351, "compression_ratio": 1.1774150656087663, "example_words": [] }, { "step": 5352, "pair": [ "गंगोली", "हाट" ], "new_token": "गंगोलीहाट", "frequency": 3, "vocab_size": 5628, "learned_vocab_size": 5352, "compression_ratio": 1.1774257887422201, "example_words": [] }, { "step": 5353, "pair": [ "बोल", "चाल" ], "new_token": "बोलचाल", "frequency": 3, "vocab_size": 5629, "learned_vocab_size": 5353, "compression_ratio": 1.1774257887422201, "example_words": [] }, { "step": 5354, "pair": [ "एनी", "वा" ], "new_token": "एनीवा", "frequency": 3, "vocab_size": 5630, "learned_vocab_size": 5354, "compression_ratio": 1.1774322227160459, "example_words": [] }, { "step": 5355, "pair": [ "चि", "टो" ], "new_token": "चिटो", "frequency": 3, "vocab_size": 5631, "learned_vocab_size": 5355, "compression_ratio": 1.1774322227160459, "example_words": [] }, { "step": 5356, "pair": [ "अनु", "पात" ], "new_token": "अनुपात", "frequency": 3, "vocab_size": 5632, "learned_vocab_size": 5356, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5357, "pair": [ "पर्य", "टकों" ], "new_token": "पर्यटकों", "frequency": 3, "vocab_size": 5633, "learned_vocab_size": 5357, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5358, "pair": [ "मी", "मांसा" ], "new_token": "मीमांसा", "frequency": 3, "vocab_size": 5634, "learned_vocab_size": 5358, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5359, "pair": [ "स", "वाई" ], "new_token": "सवाई", "frequency": 3, "vocab_size": 5635, "learned_vocab_size": 5359, "compression_ratio": 1.177438656760188, "example_words": [] }, { "step": 5360, "pair": [ "जै", "स" ], "new_token": "जैस", "frequency": 3, "vocab_size": 5636, "learned_vocab_size": 5360, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 5361, "pair": [ "जैस", "लमेर" ], "new_token": "जैसलमेर", "frequency": 3, "vocab_size": 5637, "learned_vocab_size": 5361, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 5362, "pair": [ "खै", "र" ], "new_token": "खैर", "frequency": 3, "vocab_size": 5638, "learned_vocab_size": 5362, "compression_ratio": 1.1773014124010819, "example_words": [] }, { "step": 5363, "pair": [ "आ", "दमपुर" ], "new_token": "आदमपुर", "frequency": 3, "vocab_size": 5639, "learned_vocab_size": 5363, "compression_ratio": 1.177314277700575, "example_words": [] }, { "step": 5364, "pair": [ "उन्त", "सनी" ], "new_token": "उन्तसनी", "frequency": 3, "vocab_size": 5640, "learned_vocab_size": 5364, "compression_ratio": 1.177314277700575, "example_words": [] }, { "step": 5365, "pair": [ "बरा", "ह" ], "new_token": "बराह", "frequency": 3, "vocab_size": 5641, "learned_vocab_size": 5365, "compression_ratio": 1.177314277700575, "example_words": [] }, { "step": 5366, "pair": [ "हबी", "बपुर" ], "new_token": "हबीबपुर", "frequency": 3, "vocab_size": 5642, "learned_vocab_size": 5366, "compression_ratio": 1.177314277700575, "example_words": [] }, { "step": 5367, "pair": [ "वर्ष", "गांठ" ], "new_token": "वर्षगांठ", "frequency": 3, "vocab_size": 5643, "learned_vocab_size": 5367, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 5368, "pair": [ "उप", "भो" ], "new_token": "उपभो", "frequency": 3, "vocab_size": 5644, "learned_vocab_size": 5368, "compression_ratio": 1.1773207104557641, "example_words": [] }, { "step": 5369, "pair": [ "उपभो", "क्ता" ], "new_token": "उपभोक्ता", "frequency": 3, "vocab_size": 5645, "learned_vocab_size": 5369, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 5370, "pair": [ "उपकरण", "ों" ], "new_token": "उपकरणों", "frequency": 3, "vocab_size": 5646, "learned_vocab_size": 5370, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 5371, "pair": [ "पर्य", "वे" ], "new_token": "पर्यवे", "frequency": 3, "vocab_size": 5647, "learned_vocab_size": 5371, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 5372, "pair": [ "उप", "पा" ], "new_token": "उपपा", "frequency": 3, "vocab_size": 5648, "learned_vocab_size": 5372, "compression_ratio": 1.1773271432812498, "example_words": [] }, { "step": 5373, "pair": [ "उपपा", "च" ], "new_token": "उपपाच", "frequency": 3, "vocab_size": 5649, "learned_vocab_size": 5373, "compression_ratio": 1.1773335761770332, "example_words": [] }, { "step": 5374, "pair": [ "उद्", "गम" ], "new_token": "उद्गम", "frequency": 3, "vocab_size": 5650, "learned_vocab_size": 5374, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5375, "pair": [ "सूरी", "नाम" ], "new_token": "सूरीनाम", "frequency": 3, "vocab_size": 5651, "learned_vocab_size": 5375, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5376, "pair": [ "बारि", "श" ], "new_token": "बारिश", "frequency": 3, "vocab_size": 5652, "learned_vocab_size": 5376, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5377, "pair": [ "वाज", "पेयी" ], "new_token": "वाजपेयी", "frequency": 3, "vocab_size": 5653, "learned_vocab_size": 5377, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5378, "pair": [ "बहु", "मत" ], "new_token": "बहुमत", "frequency": 3, "vocab_size": 5654, "learned_vocab_size": 5378, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5379, "pair": [ "१९", "३१" ], "new_token": "१९३१", "frequency": 3, "vocab_size": 5655, "learned_vocab_size": 5379, "compression_ratio": 1.1773400091431152, "example_words": [] }, { "step": 5380, "pair": [ "वर", "ः" ], "new_token": "वरः", "frequency": 3, "vocab_size": 5656, "learned_vocab_size": 5380, "compression_ratio": 1.1773485865405806, "example_words": [] }, { "step": 5381, "pair": [ "वरः", "मिहिर" ], "new_token": "वरःमिहिर", "frequency": 3, "vocab_size": 5657, "learned_vocab_size": 5381, "compression_ratio": 1.1773571640630265, "example_words": [] }, { "step": 5382, "pair": [ "झ", "लक" ], "new_token": "झलक", "frequency": 3, "vocab_size": 5658, "learned_vocab_size": 5382, "compression_ratio": 1.1773657417104557, "example_words": [] }, { "step": 5383, "pair": [ "ऋ", "ग्" ], "new_token": "ऋग्", "frequency": 3, "vocab_size": 5659, "learned_vocab_size": 5383, "compression_ratio": 1.1773743194828707, "example_words": [] }, { "step": 5384, "pair": [ "ऋग्", "वेद" ], "new_token": "ऋग्वेद", "frequency": 3, "vocab_size": 5660, "learned_vocab_size": 5384, "compression_ratio": 1.1773807528942057, "example_words": [] }, { "step": 5385, "pair": [ "उन्", "हीं" ], "new_token": "उन्हीं", "frequency": 3, "vocab_size": 5661, "learned_vocab_size": 5385, "compression_ratio": 1.177387186375848, "example_words": [] }, { "step": 5386, "pair": [ "बाँ", "झो" ], "new_token": "बाँझो", "frequency": 3, "vocab_size": 5662, "learned_vocab_size": 5386, "compression_ratio": 1.177387186375848, "example_words": [] }, { "step": 5387, "pair": [ "जिला", "के" ], "new_token": "जिलाके", "frequency": 3, "vocab_size": 5663, "learned_vocab_size": 5387, "compression_ratio": 1.1773936199277988, "example_words": [] }, { "step": 5388, "pair": [ "चो", "क" ], "new_token": "चोक", "frequency": 3, "vocab_size": 5664, "learned_vocab_size": 5388, "compression_ratio": 1.1773936199277988, "example_words": [] }, { "step": 5389, "pair": [ "सा", "पानी" ], "new_token": "सापानी", "frequency": 3, "vocab_size": 5665, "learned_vocab_size": 5389, "compression_ratio": 1.1774043426706278, "example_words": [] }, { "step": 5390, "pair": [ "चु", "ला" ], "new_token": "चुला", "frequency": 3, "vocab_size": 5666, "learned_vocab_size": 5390, "compression_ratio": 1.1774043426706278, "example_words": [] }, { "step": 5391, "pair": [ "पशु", "पति" ], "new_token": "पशुपति", "frequency": 3, "vocab_size": 5667, "learned_vocab_size": 5391, "compression_ratio": 1.1774107764100734, "example_words": [] }, { "step": 5392, "pair": [ "पु", "वा" ], "new_token": "पुवा", "frequency": 3, "vocab_size": 5668, "learned_vocab_size": 5392, "compression_ratio": 1.1774107764100734, "example_words": [] }, { "step": 5393, "pair": [ "बो", "टे" ], "new_token": "बोटे", "frequency": 3, "vocab_size": 5669, "learned_vocab_size": 5393, "compression_ratio": 1.1774172102198317, "example_words": [] }, { "step": 5394, "pair": [ "माइ", "पोखरी" ], "new_token": "माइपोखरी", "frequency": 3, "vocab_size": 5670, "learned_vocab_size": 5394, "compression_ratio": 1.1774236440999037, "example_words": [] }, { "step": 5395, "pair": [ "सा", "क" ], "new_token": "साक", "frequency": 3, "vocab_size": 5671, "learned_vocab_size": 5395, "compression_ratio": 1.1774236440999037, "example_words": [] }, { "step": 5396, "pair": [ "आ", "ंशिक" ], "new_token": "आंशिक", "frequency": 3, "vocab_size": 5672, "learned_vocab_size": 5396, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 5397, "pair": [ "लिपि", "यों" ], "new_token": "लिपियों", "frequency": 3, "vocab_size": 5673, "learned_vocab_size": 5397, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 5398, "pair": [ "जी", "म" ], "new_token": "जीम", "frequency": 3, "vocab_size": 5674, "learned_vocab_size": 5398, "compression_ratio": 1.1773528752861808, "example_words": [] }, { "step": 5399, "pair": [ "मान", "ना" ], "new_token": "मानना", "frequency": 3, "vocab_size": 5675, "learned_vocab_size": 5399, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 5400, "pair": [ "कॉर्", "नेल" ], "new_token": "कॉर्नेल", "frequency": 3, "vocab_size": 5676, "learned_vocab_size": 5400, "compression_ratio": 1.177363597286881, "example_words": [] }, { "step": 5401, "pair": [ "१९९", "५" ], "new_token": "१९९५", "frequency": 3, "vocab_size": 5677, "learned_vocab_size": 5401, "compression_ratio": 1.177363597286881, "example_words": [ "१९९५" ] }, { "step": 5402, "pair": [ "स्टी", "व" ], "new_token": "स्टीव", "frequency": 3, "vocab_size": 5678, "learned_vocab_size": 5402, "compression_ratio": 1.1773700305810397, "example_words": [] }, { "step": 5403, "pair": [ "फ़े", "यर" ], "new_token": "फ़ेयर", "frequency": 3, "vocab_size": 5679, "learned_vocab_size": 5403, "compression_ratio": 1.1773700305810397, "example_words": [] }, { "step": 5404, "pair": [ "७", "०" ], "new_token": "७०", "frequency": 3, "vocab_size": 5680, "learned_vocab_size": 5404, "compression_ratio": 1.177376463945504, "example_words": [] }, { "step": 5405, "pair": [ "कैलि", "फोर्" ], "new_token": "कैलिफोर्", "frequency": 3, "vocab_size": 5681, "learned_vocab_size": 5405, "compression_ratio": 1.1773828973802745, "example_words": [] }, { "step": 5406, "pair": [ "कैलिफोर्", "निया" ], "new_token": "कैलिफोर्निया", "frequency": 3, "vocab_size": 5682, "learned_vocab_size": 5406, "compression_ratio": 1.1773828973802745, "example_words": [] }, { "step": 5407, "pair": [ "दिल्", "लगी" ], "new_token": "दिल्लगी", "frequency": 3, "vocab_size": 5683, "learned_vocab_size": 5407, "compression_ratio": 1.1773828973802745, "example_words": [] }, { "step": 5408, "pair": [ "का", "जो" ], "new_token": "काजो", "frequency": 3, "vocab_size": 5684, "learned_vocab_size": 5408, "compression_ratio": 1.1773828973802745, "example_words": [] }, { "step": 5409, "pair": [ "काजो", "ल" ], "new_token": "काजोल", "frequency": 3, "vocab_size": 5685, "learned_vocab_size": 5409, "compression_ratio": 1.1773914754026698, "example_words": [] }, { "step": 5410, "pair": [ "समृ", "द्ध" ], "new_token": "समृद्ध", "frequency": 3, "vocab_size": 5686, "learned_vocab_size": 5410, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5411, "pair": [ "चो", "ट" ], "new_token": "चोट", "frequency": 3, "vocab_size": 5687, "learned_vocab_size": 5411, "compression_ratio": 1.1774000535500593, "example_words": [] }, { "step": 5412, "pair": [ "बॉ", "म्बे" ], "new_token": "बॉम्बे", "frequency": 3, "vocab_size": 5688, "learned_vocab_size": 5412, "compression_ratio": 1.1774064872426304, "example_words": [] }, { "step": 5413, "pair": [ "स्व", "भाव" ], "new_token": "स्वभाव", "frequency": 3, "vocab_size": 5689, "learned_vocab_size": 5413, "compression_ratio": 1.1774064872426304, "example_words": [] }, { "step": 5414, "pair": [ "ले", "ता" ], "new_token": "लेता", "frequency": 3, "vocab_size": 5690, "learned_vocab_size": 5414, "compression_ratio": 1.1774129210055135, "example_words": [] }, { "step": 5415, "pair": [ "ची", "ज" ], "new_token": "चीज", "frequency": 3, "vocab_size": 5691, "learned_vocab_size": 5415, "compression_ratio": 1.1774193548387097, "example_words": [] }, { "step": 5416, "pair": [ "तीर्थ", "यात्री" ], "new_token": "तीर्थयात्री", "frequency": 3, "vocab_size": 5692, "learned_vocab_size": 5416, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5417, "pair": [ "बता", "ई" ], "new_token": "बताई", "frequency": 3, "vocab_size": 5693, "learned_vocab_size": 5417, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5418, "pair": [ "आध्यात्", "मिक" ], "new_token": "आध्यात्मिक", "frequency": 3, "vocab_size": 5694, "learned_vocab_size": 5418, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5419, "pair": [ "कॉ", "मंस" ], "new_token": "कॉमंस", "frequency": 3, "vocab_size": 5695, "learned_vocab_size": 5419, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5420, "pair": [ "घ", "्" ], "new_token": "घ्", "frequency": 3, "vocab_size": 5696, "learned_vocab_size": 5420, "compression_ratio": 1.1774343673896135, "example_words": [] }, { "step": 5421, "pair": [ "मे", "घना" ], "new_token": "मेघना", "frequency": 3, "vocab_size": 5697, "learned_vocab_size": 5421, "compression_ratio": 1.1774429461620148, "example_words": [] }, { "step": 5422, "pair": [ "राज्या", "भिषेक" ], "new_token": "राज्याभिषेक", "frequency": 3, "vocab_size": 5698, "learned_vocab_size": 5422, "compression_ratio": 1.1774429461620148, "example_words": [] }, { "step": 5423, "pair": [ "स्", "लै" ], "new_token": "स्लै", "frequency": 3, "vocab_size": 5699, "learned_vocab_size": 5423, "compression_ratio": 1.1774429461620148, "example_words": [] }, { "step": 5424, "pair": [ "स्लै", "म" ], "new_token": "स्लैम", "frequency": 3, "vocab_size": 5700, "learned_vocab_size": 5424, "compression_ratio": 1.177449380323354, "example_words": [] }, { "step": 5425, "pair": [ "रो", "म" ], "new_token": "रोम", "frequency": 3, "vocab_size": 5701, "learned_vocab_size": 5425, "compression_ratio": 1.1774558145550125, "example_words": [] }, { "step": 5426, "pair": [ "छे", "त्र" ], "new_token": "छेत्र", "frequency": 3, "vocab_size": 5702, "learned_vocab_size": 5426, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 5427, "pair": [ "कम्प्यू", "टरी" ], "new_token": "कम्प्यूटरी", "frequency": 3, "vocab_size": 5703, "learned_vocab_size": 5427, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 5428, "pair": [ "कम्प्यूटरी", "कृत" ], "new_token": "कम्प्यूटरीकृत", "frequency": 3, "vocab_size": 5704, "learned_vocab_size": 5428, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 5429, "pair": [ "अन्तर", "राष्ट्रीय" ], "new_token": "अन्तरराष्ट्रीय", "frequency": 3, "vocab_size": 5705, "learned_vocab_size": 5429, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 5430, "pair": [ "२००", "६" ], "new_token": "२००६", "frequency": 3, "vocab_size": 5706, "learned_vocab_size": 5430, "compression_ratio": 1.177445090874648, "example_words": [] }, { "step": 5431, "pair": [ "मेरि", "ट" ], "new_token": "मेरिट", "frequency": 3, "vocab_size": 5707, "learned_vocab_size": 5431, "compression_ratio": 1.177453669803313, "example_words": [] }, { "step": 5432, "pair": [ "यू", "॰" ], "new_token": "यू॰", "frequency": 3, "vocab_size": 5708, "learned_vocab_size": 5432, "compression_ratio": 1.177453669803313, "example_words": [] }, { "step": 5433, "pair": [ "इंस्टि", "ट्यूट" ], "new_token": "इंस्टिट्यूट", "frequency": 3, "vocab_size": 5709, "learned_vocab_size": 5433, "compression_ratio": 1.1774708280356876, "example_words": [] }, { "step": 5434, "pair": [ "फे", "लो" ], "new_token": "फेलो", "frequency": 3, "vocab_size": 5710, "learned_vocab_size": 5434, "compression_ratio": 1.1774708280356876, "example_words": [] }, { "step": 5435, "pair": [ "श्र", "ंखला" ], "new_token": "श्रंखला", "frequency": 3, "vocab_size": 5711, "learned_vocab_size": 5435, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5436, "pair": [ "ग्रं", "थ" ], "new_token": "ग्रंथ", "frequency": 3, "vocab_size": 5712, "learned_vocab_size": 5436, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5437, "pair": [ "मान", "सिक" ], "new_token": "मानसिक", "frequency": 3, "vocab_size": 5713, "learned_vocab_size": 5437, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5438, "pair": [ "दाहि", "नी" ], "new_token": "दाहिनी", "frequency": 3, "vocab_size": 5714, "learned_vocab_size": 5438, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5439, "pair": [ "जीव", "विज्ञान" ], "new_token": "जीवविज्ञान", "frequency": 3, "vocab_size": 5715, "learned_vocab_size": 5439, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5440, "pair": [ "आश", "य" ], "new_token": "आशय", "frequency": 3, "vocab_size": 5716, "learned_vocab_size": 5440, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5441, "pair": [ "का", "य" ], "new_token": "काय", "frequency": 3, "vocab_size": 5717, "learned_vocab_size": 5441, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5442, "pair": [ "त्रुटि", "यों" ], "new_token": "त्रुटियों", "frequency": 3, "vocab_size": 5718, "learned_vocab_size": 5442, "compression_ratio": 1.1775416110304524, "example_words": [] }, { "step": 5443, "pair": [ "कल्", "पना" ], "new_token": "कल्पना", "frequency": 3, "vocab_size": 5719, "learned_vocab_size": 5443, "compression_ratio": 1.1775416110304524, "example_words": [] }, { "step": 5444, "pair": [ "कठ", "ोर" ], "new_token": "कठोर", "frequency": 3, "vocab_size": 5720, "learned_vocab_size": 5444, "compression_ratio": 1.1775416110304524, "example_words": [] }, { "step": 5445, "pair": [ "ख", "तरा" ], "new_token": "खतरा", "frequency": 3, "vocab_size": 5721, "learned_vocab_size": 5445, "compression_ratio": 1.1775480462701522, "example_words": [] }, { "step": 5446, "pair": [ "दार्", "शनिक" ], "new_token": "दार्शनिक", "frequency": 3, "vocab_size": 5722, "learned_vocab_size": 5446, "compression_ratio": 1.1775480462701522, "example_words": [] }, { "step": 5447, "pair": [ "जि", "ंद" ], "new_token": "जिंद", "frequency": 3, "vocab_size": 5723, "learned_vocab_size": 5447, "compression_ratio": 1.1775480462701522, "example_words": [] }, { "step": 5448, "pair": [ "जिंद", "गी" ], "new_token": "जिंदगी", "frequency": 3, "vocab_size": 5724, "learned_vocab_size": 5448, "compression_ratio": 1.1775566266991653, "example_words": [] }, { "step": 5449, "pair": [ "स्थिति", "यों" ], "new_token": "स्थितियों", "frequency": 3, "vocab_size": 5725, "learned_vocab_size": 5449, "compression_ratio": 1.1775630621029871, "example_words": [] }, { "step": 5450, "pair": [ "डा", "ला" ], "new_token": "डाला", "frequency": 3, "vocab_size": 5726, "learned_vocab_size": 5450, "compression_ratio": 1.1775630621029871, "example_words": [] }, { "step": 5451, "pair": [ "कार्य", "वाही" ], "new_token": "कार्यवाही", "frequency": 3, "vocab_size": 5728, "learned_vocab_size": 5451, "compression_ratio": 1.1775737879323347, "example_words": [] }, { "step": 5452, "pair": [ "बा", "इ" ], "new_token": "बाइ", "frequency": 3, "vocab_size": 5729, "learned_vocab_size": 5452, "compression_ratio": 1.1775737879323347, "example_words": [] }, { "step": 5453, "pair": [ "घू", "मर" ], "new_token": "घूमर", "frequency": 3, "vocab_size": 5730, "learned_vocab_size": 5453, "compression_ratio": 1.1775930949175577, "example_words": [] }, { "step": 5454, "pair": [ "ब", "ई" ], "new_token": "बई", "frequency": 3, "vocab_size": 5731, "learned_vocab_size": 5454, "compression_ratio": 1.177601676003097, "example_words": [] }, { "step": 5455, "pair": [ "माउ", "ंट" ], "new_token": "माउंट", "frequency": 3, "vocab_size": 5732, "learned_vocab_size": 5455, "compression_ratio": 1.1776081118993227, "example_words": [] }, { "step": 5456, "pair": [ "प्रथा", "ओं" ], "new_token": "प्रथाओं", "frequency": 3, "vocab_size": 5733, "learned_vocab_size": 5456, "compression_ratio": 1.1776231292640937, "example_words": [] }, { "step": 5457, "pair": [ "डी", "एनए" ], "new_token": "डीएनए", "frequency": 3, "vocab_size": 5734, "learned_vocab_size": 5457, "compression_ratio": 1.1776231292640937, "example_words": [] }, { "step": 5458, "pair": [ "वि", "यत" ], "new_token": "वियत", "frequency": 3, "vocab_size": 5735, "learned_vocab_size": 5458, "compression_ratio": 1.1776231292640937, "example_words": [] }, { "step": 5459, "pair": [ "से", "ब" ], "new_token": "सेब", "frequency": 3, "vocab_size": 5736, "learned_vocab_size": 5459, "compression_ratio": 1.1776896393409173, "example_words": [] }, { "step": 5460, "pair": [ "लि", "वर" ], "new_token": "लिवर", "frequency": 3, "vocab_size": 5737, "learned_vocab_size": 5460, "compression_ratio": 1.1776982218335519, "example_words": [] }, { "step": 5461, "pair": [ "लिवर", "पू" ], "new_token": "लिवरपू", "frequency": 3, "vocab_size": 5738, "learned_vocab_size": 5461, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5462, "pair": [ "लिवरपू", "ल" ], "new_token": "लिवरपूल", "frequency": 3, "vocab_size": 5739, "learned_vocab_size": 5462, "compression_ratio": 1.1777153871941, "example_words": [] }, { "step": 5463, "pair": [ "अव", "स्थित" ], "new_token": "अवस्थित", "frequency": 3, "vocab_size": 5740, "learned_vocab_size": 5463, "compression_ratio": 1.1777239700620186, "example_words": [] }, { "step": 5464, "pair": [ "नि", "ः" ], "new_token": "निः", "frequency": 3, "vocab_size": 5741, "learned_vocab_size": 5464, "compression_ratio": 1.1777239700620186, "example_words": [] }, { "step": 5465, "pair": [ "दाहि", "ने" ], "new_token": "दाहिने", "frequency": 3, "vocab_size": 5742, "learned_vocab_size": 5465, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 5466, "pair": [ "दूर", "भाष" ], "new_token": "दूरभाष", "frequency": 3, "vocab_size": 5743, "learned_vocab_size": 5466, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 5467, "pair": [ "बिल्", "हौर" ], "new_token": "बिल्हौर", "frequency": 3, "vocab_size": 5744, "learned_vocab_size": 5467, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 5468, "pair": [ "जा", "ँच" ], "new_token": "जाँच", "frequency": 3, "vocab_size": 5745, "learned_vocab_size": 5468, "compression_ratio": 1.1777304072950543, "example_words": [] }, { "step": 5469, "pair": [ "देखरे", "ख" ], "new_token": "देखरेख", "frequency": 3, "vocab_size": 5746, "learned_vocab_size": 5469, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5470, "pair": [ "था", "यराइड" ], "new_token": "थायराइड", "frequency": 3, "vocab_size": 5747, "learned_vocab_size": 5470, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5471, "pair": [ "मांस", "पेशि" ], "new_token": "मांसपेशि", "frequency": 3, "vocab_size": 5748, "learned_vocab_size": 5471, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5472, "pair": [ "मांसपेशि", "यों" ], "new_token": "मांसपेशियों", "frequency": 3, "vocab_size": 5749, "learned_vocab_size": 5472, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5473, "pair": [ "इला", "ज" ], "new_token": "इलाज", "frequency": 3, "vocab_size": 5750, "learned_vocab_size": 5473, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5474, "pair": [ "गम्भी", "र" ], "new_token": "गम्भीर", "frequency": 3, "vocab_size": 5751, "learned_vocab_size": 5474, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5475, "pair": [ "बीमारि", "यों" ], "new_token": "बीमारियों", "frequency": 3, "vocab_size": 5752, "learned_vocab_size": 5475, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5476, "pair": [ "श्", "त" ], "new_token": "श्त", "frequency": 3, "vocab_size": 5753, "learned_vocab_size": 5476, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5477, "pair": [ "सिरी", "यल" ], "new_token": "सिरीयल", "frequency": 3, "vocab_size": 5754, "learned_vocab_size": 5477, "compression_ratio": 1.1777346988228392, "example_words": [] }, { "step": 5478, "pair": [ "प", "च" ], "new_token": "पच", "frequency": 3, "vocab_size": 5755, "learned_vocab_size": 5478, "compression_ratio": 1.1777346988228392, "example_words": [] }, { "step": 5479, "pair": [ "य", "पुरा" ], "new_token": "यपुरा", "frequency": 3, "vocab_size": 5756, "learned_vocab_size": 5479, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5480, "pair": [ "ब", "थानी" ], "new_token": "बथानी", "frequency": 3, "vocab_size": 5757, "learned_vocab_size": 5480, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5481, "pair": [ "कि", "ट" ], "new_token": "किट", "frequency": 3, "vocab_size": 5758, "learned_vocab_size": 5481, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5482, "pair": [ "कै", "ट" ], "new_token": "कैट", "frequency": 3, "vocab_size": 5759, "learned_vocab_size": 5482, "compression_ratio": 1.1777046587851194, "example_words": [] }, { "step": 5483, "pair": [ "आरो", "प" ], "new_token": "आरोप", "frequency": 3, "vocab_size": 5760, "learned_vocab_size": 5483, "compression_ratio": 1.1777325530550373, "example_words": [] }, { "step": 5484, "pair": [ "पो", "लैंड" ], "new_token": "पोलैंड", "frequency": 3, "vocab_size": 5761, "learned_vocab_size": 5484, "compression_ratio": 1.1777325530550373, "example_words": [] }, { "step": 5485, "pair": [ "सेसल", "पिनिया" ], "new_token": "सेसलपिनिया", "frequency": 3, "vocab_size": 5762, "learned_vocab_size": 5485, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 5486, "pair": [ "पे", "ड़" ], "new_token": "पेड़", "frequency": 3, "vocab_size": 5763, "learned_vocab_size": 5486, "compression_ratio": 1.1777389903819, "example_words": [] }, { "step": 5487, "pair": [ "न", "न्" ], "new_token": "नन्", "frequency": 3, "vocab_size": 5764, "learned_vocab_size": 5487, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 5488, "pair": [ "फू", "ल" ], "new_token": "फूल", "frequency": 3, "vocab_size": 5765, "learned_vocab_size": 5488, "compression_ratio": 1.1775180157533098, "example_words": [] }, { "step": 5489, "pair": [ "पी", "ले" ], "new_token": "पीले", "frequency": 3, "vocab_size": 5766, "learned_vocab_size": 5489, "compression_ratio": 1.177586659185473, "example_words": [] }, { "step": 5490, "pair": [ "ब", "ंश" ], "new_token": "बंश", "frequency": 3, "vocab_size": 5767, "learned_vocab_size": 5490, "compression_ratio": 1.177595240177218, "example_words": [] }, { "step": 5491, "pair": [ "वि", "र्" ], "new_token": "विर्", "frequency": 3, "vocab_size": 5768, "learned_vocab_size": 5491, "compression_ratio": 1.177601676003097, "example_words": [] }, { "step": 5492, "pair": [ "पा", "णि" ], "new_token": "पाणि", "frequency": 3, "vocab_size": 5769, "learned_vocab_size": 5492, "compression_ratio": 1.1776102572136975, "example_words": [] }, { "step": 5493, "pair": [ "र", "ंजीत" ], "new_token": "रंजीत", "frequency": 3, "vocab_size": 5770, "learned_vocab_size": 5493, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 5494, "pair": [ "अनु", "ज" ], "new_token": "अनुज", "frequency": 3, "vocab_size": 5771, "learned_vocab_size": 5494, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 5495, "pair": [ "जस", "वंत" ], "new_token": "जसवंत", "frequency": 3, "vocab_size": 5772, "learned_vocab_size": 5495, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 5496, "pair": [ "वा", "टोर" ], "new_token": "वाटोर", "frequency": 3, "vocab_size": 5773, "learned_vocab_size": 5496, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 5497, "pair": [ "ऑपरे", "टिंग" ], "new_token": "ऑपरेटिंग", "frequency": 3, "vocab_size": 5774, "learned_vocab_size": 5497, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 5498, "pair": [ "फै", "सला" ], "new_token": "फैसला", "frequency": 3, "vocab_size": 5775, "learned_vocab_size": 5498, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 5499, "pair": [ "बी", "एम" ], "new_token": "बीएम", "frequency": 3, "vocab_size": 5776, "learned_vocab_size": 5499, "compression_ratio": 1.1776231292640937, "example_words": [] }, { "step": 5500, "pair": [ "आ", "देश" ], "new_token": "आदेश", "frequency": 3, "vocab_size": 5777, "learned_vocab_size": 5500, "compression_ratio": 1.1776295653948174, "example_words": [] }, { "step": 5501, "pair": [ "ता", "ओं" ], "new_token": "ताओं", "frequency": 3, "vocab_size": 5778, "learned_vocab_size": 5501, "compression_ratio": 1.1776360015958929, "example_words": [ "नेताओं", "अस्मिताओं", "मान्यताओं" ] }, { "step": 5502, "pair": [ "डि", "स्क" ], "new_token": "डिस्क", "frequency": 3, "vocab_size": 5779, "learned_vocab_size": 5502, "compression_ratio": 1.1776767658365064, "example_words": [] }, { "step": 5503, "pair": [ "प्र", "कृति" ], "new_token": "प्रकृति", "frequency": 3, "vocab_size": 5780, "learned_vocab_size": 5503, "compression_ratio": 1.1776853481415084, "example_words": [] }, { "step": 5504, "pair": [ "हा", "उ" ], "new_token": "हाउ", "frequency": 3, "vocab_size": 5781, "learned_vocab_size": 5504, "compression_ratio": 1.1776853481415084, "example_words": [] }, { "step": 5505, "pair": [ "टा", "वर" ], "new_token": "टावर", "frequency": 3, "vocab_size": 5782, "learned_vocab_size": 5505, "compression_ratio": 1.1776724747309124, "example_words": [] }, { "step": 5506, "pair": [ "कां", "फ्रेंस" ], "new_token": "कांफ्रेंस", "frequency": 3, "vocab_size": 5783, "learned_vocab_size": 5506, "compression_ratio": 1.1776810569733716, "example_words": [] }, { "step": 5507, "pair": [ "मै", "दान" ], "new_token": "मैदान", "frequency": 3, "vocab_size": 5784, "learned_vocab_size": 5507, "compression_ratio": 1.1776810569733716, "example_words": [] }, { "step": 5508, "pair": [ "फा", "ल्" ], "new_token": "फाल्", "frequency": 3, "vocab_size": 5785, "learned_vocab_size": 5508, "compression_ratio": 1.1776810569733716, "example_words": [] }, { "step": 5509, "pair": [ "लुई", "स" ], "new_token": "लुईस", "frequency": 3, "vocab_size": 5786, "learned_vocab_size": 5509, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5510, "pair": [ "य", "ज्ञ" ], "new_token": "यज्ञ", "frequency": 3, "vocab_size": 5787, "learned_vocab_size": 5510, "compression_ratio": 1.1776939305715983, "example_words": [] }, { "step": 5511, "pair": [ "े", "श्वर" ], "new_token": "ेश्वर", "frequency": 3, "vocab_size": 5788, "learned_vocab_size": 5511, "compression_ratio": 1.1777025131267786, "example_words": [] }, { "step": 5512, "pair": [ "बा", "ढ" ], "new_token": "बाढ", "frequency": 3, "vocab_size": 5789, "learned_vocab_size": 5512, "compression_ratio": 1.1777025131267786, "example_words": [] }, { "step": 5513, "pair": [ "भा", "स्करा" ], "new_token": "भास्करा", "frequency": 3, "vocab_size": 5790, "learned_vocab_size": 5513, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5514, "pair": [ "सि", "स" ], "new_token": "सिस", "frequency": 3, "vocab_size": 5791, "learned_vocab_size": 5514, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5515, "pair": [ "से", "मरिया" ], "new_token": "सेमरिया", "frequency": 3, "vocab_size": 5792, "learned_vocab_size": 5515, "compression_ratio": 1.1775115808418357, "example_words": [] }, { "step": 5516, "pair": [ "ह", "ँ" ], "new_token": "हँ", "frequency": 3, "vocab_size": 5793, "learned_vocab_size": 5516, "compression_ratio": 1.1775115808418357, "example_words": [] }, { "step": 5517, "pair": [ "खुदा", "बंदपुर" ], "new_token": "खुदाबंदपुर", "frequency": 3, "vocab_size": 5794, "learned_vocab_size": 5517, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5518, "pair": [ "गढ", "पुरा" ], "new_token": "गढपुरा", "frequency": 3, "vocab_size": 5795, "learned_vocab_size": 5518, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5519, "pair": [ "छ", "ौरा" ], "new_token": "छौरा", "frequency": 3, "vocab_size": 5796, "learned_vocab_size": 5519, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5520, "pair": [ "छौरा", "ही" ], "new_token": "छौराही", "frequency": 3, "vocab_size": 5797, "learned_vocab_size": 5520, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5521, "pair": [ "दन", "डारी" ], "new_token": "दनडारी", "frequency": 3, "vocab_size": 5798, "learned_vocab_size": 5521, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5522, "pair": [ "नवको", "थी" ], "new_token": "नवकोथी", "frequency": 3, "vocab_size": 5799, "learned_vocab_size": 5522, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5523, "pair": [ "ब", "खरी" ], "new_token": "बखरी", "frequency": 3, "vocab_size": 5800, "learned_vocab_size": 5523, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5524, "pair": [ "बछ", "वारा" ], "new_token": "बछवारा", "frequency": 3, "vocab_size": 5801, "learned_vocab_size": 5524, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5525, "pair": [ "मन", "सूर" ], "new_token": "मनसूर", "frequency": 3, "vocab_size": 5802, "learned_vocab_size": 5525, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5526, "pair": [ "मनसूर", "चक" ], "new_token": "मनसूरचक", "frequency": 3, "vocab_size": 5803, "learned_vocab_size": 5526, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5527, "pair": [ "अन", "ंतनाग" ], "new_token": "अनंतनाग", "frequency": 3, "vocab_size": 5804, "learned_vocab_size": 5527, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5528, "pair": [ "क्यो", "टो" ], "new_token": "क्योटो", "frequency": 3, "vocab_size": 5805, "learned_vocab_size": 5528, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5529, "pair": [ "यू", "नेस्को" ], "new_token": "यूनेस्को", "frequency": 3, "vocab_size": 5806, "learned_vocab_size": 5529, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5530, "pair": [ "जो", "कि" ], "new_token": "जोकि", "frequency": 3, "vocab_size": 5807, "learned_vocab_size": 5530, "compression_ratio": 1.177522305733366, "example_words": [] }, { "step": 5531, "pair": [ "जाए", "गी" ], "new_token": "जाएगी", "frequency": 3, "vocab_size": 5808, "learned_vocab_size": 5531, "compression_ratio": 1.177530885787255, "example_words": [] }, { "step": 5532, "pair": [ "ओ", "टो" ], "new_token": "ओटो", "frequency": 3, "vocab_size": 5809, "learned_vocab_size": 5532, "compression_ratio": 1.1775373209097284, "example_words": [] }, { "step": 5533, "pair": [ "सा", "मू" ], "new_token": "सामू", "frequency": 3, "vocab_size": 5810, "learned_vocab_size": 5533, "compression_ratio": 1.1775437561025373, "example_words": [] }, { "step": 5534, "pair": [ "व", "जी" ], "new_token": "वजी", "frequency": 3, "vocab_size": 5811, "learned_vocab_size": 5534, "compression_ratio": 1.1775501913656825, "example_words": [] }, { "step": 5535, "pair": [ "स", "श" ], "new_token": "सश", "frequency": 3, "vocab_size": 5812, "learned_vocab_size": 5535, "compression_ratio": 1.1775566266991653, "example_words": [] }, { "step": 5536, "pair": [ "सश", "स्त्र" ], "new_token": "सशस्त्र", "frequency": 3, "vocab_size": 5813, "learned_vocab_size": 5536, "compression_ratio": 1.1775652072532252, "example_words": [] }, { "step": 5537, "pair": [ "जमी", "न" ], "new_token": "जमीन", "frequency": 3, "vocab_size": 5814, "learned_vocab_size": 5537, "compression_ratio": 1.1775652072532252, "example_words": [] }, { "step": 5538, "pair": [ "नी", "ंव" ], "new_token": "नींव", "frequency": 3, "vocab_size": 5815, "learned_vocab_size": 5538, "compression_ratio": 1.1775652072532252, "example_words": [] }, { "step": 5539, "pair": [ "योगे", "श" ], "new_token": "योगेश", "frequency": 3, "vocab_size": 5816, "learned_vocab_size": 5539, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5540, "pair": [ "समन्", "व" ], "new_token": "समन्व", "frequency": 3, "vocab_size": 5817, "learned_vocab_size": 5540, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5541, "pair": [ "स्क्रि", "प्" ], "new_token": "स्क्रिप्", "frequency": 3, "vocab_size": 5818, "learned_vocab_size": 5541, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5542, "pair": [ "स्क्रिप्", "ट" ], "new_token": "स्क्रिप्ट", "frequency": 3, "vocab_size": 5819, "learned_vocab_size": 5542, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5543, "pair": [ "सं", "लक्षण" ], "new_token": "संलक्षण", "frequency": 3, "vocab_size": 5820, "learned_vocab_size": 5543, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5544, "pair": [ "कोरोना", "वायरस" ], "new_token": "कोरोनावायरस", "frequency": 3, "vocab_size": 5821, "learned_vocab_size": 5544, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5545, "pair": [ "कोरो", "नोवायरस" ], "new_token": "कोरोनोवायरस", "frequency": 3, "vocab_size": 5822, "learned_vocab_size": 5545, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5546, "pair": [ "प्रेर", "क" ], "new_token": "प्रेरक", "frequency": 3, "vocab_size": 5823, "learned_vocab_size": 5546, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5547, "pair": [ "समानता", "एं" ], "new_token": "समानताएं", "frequency": 3, "vocab_size": 5824, "learned_vocab_size": 5547, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5548, "pair": [ "वै", "ंकूवर" ], "new_token": "वैंकूवर", "frequency": 3, "vocab_size": 5825, "learned_vocab_size": 5548, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5549, "pair": [ "लड़", "ने" ], "new_token": "लड़ने", "frequency": 3, "vocab_size": 5826, "learned_vocab_size": 5549, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5550, "pair": [ "डो", "नाल्ड" ], "new_token": "डोनाल्ड", "frequency": 3, "vocab_size": 5827, "learned_vocab_size": 5550, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5551, "pair": [ "उत्", "पत्ति" ], "new_token": "उत्पत्ति", "frequency": 3, "vocab_size": 5828, "learned_vocab_size": 5551, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5552, "pair": [ "त", "ड़" ], "new_token": "तड़", "frequency": 3, "vocab_size": 5829, "learned_vocab_size": 5552, "compression_ratio": 1.1775716427508338, "example_words": [] }, { "step": 5553, "pair": [ "क", "ब" ], "new_token": "कब", "frequency": 3, "vocab_size": 5830, "learned_vocab_size": 5553, "compression_ratio": 1.1775802235237323, "example_words": [] }, { "step": 5554, "pair": [ "जि", "र" ], "new_token": "जिर", "frequency": 3, "vocab_size": 5831, "learned_vocab_size": 5554, "compression_ratio": 1.1774579593145256, "example_words": [] }, { "step": 5555, "pair": [ "उ", "ठ" ], "new_token": "उठ", "frequency": 3, "vocab_size": 5832, "learned_vocab_size": 5555, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5556, "pair": [ "३", "२" ], "new_token": "३२", "frequency": 3, "vocab_size": 5833, "learned_vocab_size": 5556, "compression_ratio": 1.1774643936399454, "example_words": [] }, { "step": 5557, "pair": [ "डिके", "न्स" ], "new_token": "डिकेन्स", "frequency": 3, "vocab_size": 5834, "learned_vocab_size": 5557, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5558, "pair": [ "अभि", "जात्य" ], "new_token": "अभिजात्य", "frequency": 3, "vocab_size": 5835, "learned_vocab_size": 5558, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5559, "pair": [ "क्रांतिकारि", "यों" ], "new_token": "क्रांतिकारियों", "frequency": 3, "vocab_size": 5836, "learned_vocab_size": 5559, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5560, "pair": [ "स", "वार" ], "new_token": "सवार", "frequency": 3, "vocab_size": 5837, "learned_vocab_size": 5560, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5561, "pair": [ "कै", "द" ], "new_token": "कैद", "frequency": 3, "vocab_size": 5838, "learned_vocab_size": 5561, "compression_ratio": 1.1774772625017533, "example_words": [] }, { "step": 5562, "pair": [ "धा", "गा" ], "new_token": "धागा", "frequency": 3, "vocab_size": 5839, "learned_vocab_size": 5562, "compression_ratio": 1.1774858418992347, "example_words": [] }, { "step": 5563, "pair": [ "गौरी", "पुर" ], "new_token": "गौरीपुर", "frequency": 3, "vocab_size": 5840, "learned_vocab_size": 5563, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5564, "pair": [ "जानी", "पुर" ], "new_token": "जानीपुर", "frequency": 3, "vocab_size": 5841, "learned_vocab_size": 5564, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5565, "pair": [ "देवासं", "मुंगेर" ], "new_token": "देवासंमुंगेर", "frequency": 3, "vocab_size": 5842, "learned_vocab_size": 5565, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5566, "pair": [ "असर", "गंज" ], "new_token": "असरगंज", "frequency": 3, "vocab_size": 5843, "learned_vocab_size": 5566, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5567, "pair": [ "फे", "डरेशन" ], "new_token": "फेडरेशन", "frequency": 3, "vocab_size": 5844, "learned_vocab_size": 5567, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5568, "pair": [ "ऋष", "ि" ], "new_token": "ऋषि", "frequency": 3, "vocab_size": 5845, "learned_vocab_size": 5568, "compression_ratio": 1.177492276529393, "example_words": [] }, { "step": 5569, "pair": [ "स्तो", "त्र" ], "new_token": "स्तोत्र", "frequency": 3, "vocab_size": 5846, "learned_vocab_size": 5569, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 5570, "pair": [ "भै", "रव" ], "new_token": "भैरव", "frequency": 3, "vocab_size": 5847, "learned_vocab_size": 5570, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 5571, "pair": [ "पंच", "म" ], "new_token": "पंचम", "frequency": 3, "vocab_size": 5848, "learned_vocab_size": 5571, "compression_ratio": 1.177631710787359, "example_words": [] }, { "step": 5572, "pair": [ "मृ", "दा" ], "new_token": "मृदा", "frequency": 3, "vocab_size": 5849, "learned_vocab_size": 5572, "compression_ratio": 1.177631710787359, "example_words": [] }, { "step": 5573, "pair": [ "ब", "ंजर" ], "new_token": "बंजर", "frequency": 3, "vocab_size": 5850, "learned_vocab_size": 5573, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 5574, "pair": [ "तिब्", "बत" ], "new_token": "तिब्बत", "frequency": 3, "vocab_size": 5851, "learned_vocab_size": 5574, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 5575, "pair": [ "रामे", "छा" ], "new_token": "रामेछा", "frequency": 3, "vocab_size": 5852, "learned_vocab_size": 5575, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5576, "pair": [ "रामेछा", "प" ], "new_token": "रामेछाप", "frequency": 3, "vocab_size": 5853, "learned_vocab_size": 5576, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5577, "pair": [ "ढ", "ु" ], "new_token": "ढु", "frequency": 3, "vocab_size": 5854, "learned_vocab_size": 5577, "compression_ratio": 1.1776660381311543, "example_words": [] }, { "step": 5578, "pair": [ "जर", "कोट" ], "new_token": "जरकोट", "frequency": 3, "vocab_size": 5855, "learned_vocab_size": 5578, "compression_ratio": 1.1776810569733716, "example_words": [] }, { "step": 5579, "pair": [ "फा", "इटिंग" ], "new_token": "फाइटिंग", "frequency": 3, "vocab_size": 5856, "learned_vocab_size": 5579, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5580, "pair": [ "प्रति", "स्पर्धा" ], "new_token": "प्रतिस्पर्धा", "frequency": 3, "vocab_size": 5857, "learned_vocab_size": 5580, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5581, "pair": [ "किंगड", "म" ], "new_token": "किंगडम", "frequency": 3, "vocab_size": 5858, "learned_vocab_size": 5581, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5582, "pair": [ "टे", "ट" ], "new_token": "टेट", "frequency": 3, "vocab_size": 5859, "learned_vocab_size": 5582, "compression_ratio": 1.1776874937373039, "example_words": [] }, { "step": 5583, "pair": [ "ऑटो", "मान" ], "new_token": "ऑटोमान", "frequency": 3, "vocab_size": 5860, "learned_vocab_size": 5583, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5584, "pair": [ "जन", "संहार" ], "new_token": "जनसंहार", "frequency": 3, "vocab_size": 5861, "learned_vocab_size": 5584, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5585, "pair": [ "रे", "गि" ], "new_token": "रेगि", "frequency": 3, "vocab_size": 5862, "learned_vocab_size": 5585, "compression_ratio": 1.177700367476256, "example_words": [] }, { "step": 5586, "pair": [ "क्रिस्टो", "फर" ], "new_token": "क्रिस्टोफर", "frequency": 3, "vocab_size": 5863, "learned_vocab_size": 5586, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5587, "pair": [ "वृ", "ंदा" ], "new_token": "वृंदा", "frequency": 3, "vocab_size": 5864, "learned_vocab_size": 5587, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5588, "pair": [ "वृंदा", "वन" ], "new_token": "वृंदावन", "frequency": 3, "vocab_size": 5865, "learned_vocab_size": 5588, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5589, "pair": [ "चे", "तना" ], "new_token": "चेतना", "frequency": 3, "vocab_size": 5866, "learned_vocab_size": 5589, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5590, "pair": [ "प", "धारे" ], "new_token": "पधारे", "frequency": 3, "vocab_size": 5867, "learned_vocab_size": 5590, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5591, "pair": [ "अनुया", "ई" ], "new_token": "अनुयाई", "frequency": 3, "vocab_size": 5868, "learned_vocab_size": 5591, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5592, "pair": [ "भे", "जा" ], "new_token": "भेजा", "frequency": 3, "vocab_size": 5869, "learned_vocab_size": 5592, "compression_ratio": 1.1777068044512786, "example_words": [] }, { "step": 5593, "pair": [ "८", "९" ], "new_token": "८९", "frequency": 3, "vocab_size": 5870, "learned_vocab_size": 5593, "compression_ratio": 1.177713241496667, "example_words": [] }, { "step": 5594, "pair": [ "१५", "५" ], "new_token": "१५५", "frequency": 3, "vocab_size": 5871, "learned_vocab_size": 5594, "compression_ratio": 1.177719678612422, "example_words": [] }, { "step": 5595, "pair": [ "६", "४" ], "new_token": "६४", "frequency": 3, "vocab_size": 5872, "learned_vocab_size": 5595, "compression_ratio": 1.177726115798545, "example_words": [] }, { "step": 5596, "pair": [ "पा", "ट्टु" ], "new_token": "पाट्टु", "frequency": 3, "vocab_size": 5873, "learned_vocab_size": 5596, "compression_ratio": 1.1777346988228392, "example_words": [] }, { "step": 5597, "pair": [ "ना", "यर" ], "new_token": "नायर", "frequency": 3, "vocab_size": 5874, "learned_vocab_size": 5597, "compression_ratio": 1.1777346988228392, "example_words": [] }, { "step": 5598, "pair": [ "भारत", "आवास" ], "new_token": "भारतआवास", "frequency": 3, "vocab_size": 5875, "learned_vocab_size": 5598, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5599, "pair": [ "भारतीय", "पेशा" ], "new_token": "भारतीयपेशा", "frequency": 3, "vocab_size": 5876, "learned_vocab_size": 5599, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5600, "pair": [ "भारतप्रान्त", "पश्चिम" ], "new_token": "भारतप्रान्तपश्चिम", "frequency": 3, "vocab_size": 5877, "learned_vocab_size": 5600, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5601, "pair": [ "बंगाल", "ज़िला" ], "new_token": "बंगालज़िला", "frequency": 3, "vocab_size": 5878, "learned_vocab_size": 5601, "compression_ratio": 1.177741136173159, "example_words": [ "बंगालज़िलापूर्व", "बंगालज़िलाउत्तर" ] }, { "step": 5602, "pair": [ "मे", "दिनी" ], "new_token": "मेदिनी", "frequency": 3, "vocab_size": 5879, "learned_vocab_size": 5602, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5603, "pair": [ "मेदिनी", "पुर" ], "new_token": "मेदिनीपुर", "frequency": 3, "vocab_size": 5880, "learned_vocab_size": 5603, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5604, "pair": [ "प्रचलितबंगाली", "समय" ], "new_token": "प्रचलितबंगालीसमय", "frequency": 3, "vocab_size": 5881, "learned_vocab_size": 5604, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5605, "pair": [ "कॉ", "फ़ी" ], "new_token": "कॉफ़ी", "frequency": 3, "vocab_size": 5882, "learned_vocab_size": 5605, "compression_ratio": 1.177741136173159, "example_words": [] }, { "step": 5606, "pair": [ "१९", "२६" ], "new_token": "१९२६", "frequency": 3, "vocab_size": 5883, "learned_vocab_size": 5606, "compression_ratio": 1.1777475735938505, "example_words": [] }, { "step": 5607, "pair": [ "४", "०" ], "new_token": "४०", "frequency": 3, "vocab_size": 5884, "learned_vocab_size": 5607, "compression_ratio": 1.1777583027847216, "example_words": [] }, { "step": 5608, "pair": [ "अ", "शरफ" ], "new_token": "अशरफ", "frequency": 3, "vocab_size": 5885, "learned_vocab_size": 5608, "compression_ratio": 1.1777711780718088, "example_words": [] }, { "step": 5609, "pair": [ "भ", "खरी" ], "new_token": "भखरी", "frequency": 3, "vocab_size": 5886, "learned_vocab_size": 5609, "compression_ratio": 1.177777615820918, "example_words": [] }, { "step": 5610, "pair": [ "शा", "ंत" ], "new_token": "शांत", "frequency": 3, "vocab_size": 5887, "learned_vocab_size": 5610, "compression_ratio": 1.177777615820918, "example_words": [] }, { "step": 5611, "pair": [ "मुला", "यम" ], "new_token": "मुलायम", "frequency": 3, "vocab_size": 5888, "learned_vocab_size": 5611, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5612, "pair": [ "निशा", "द" ], "new_token": "निशाद", "frequency": 3, "vocab_size": 5889, "learned_vocab_size": 5612, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 5613, "pair": [ "कि", "शोर" ], "new_token": "किशोर", "frequency": 3, "vocab_size": 5890, "learned_vocab_size": 5613, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 5614, "pair": [ "नि", "धन" ], "new_token": "निधन", "frequency": 3, "vocab_size": 5891, "learned_vocab_size": 5614, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 5615, "pair": [ "है", "ँ" ], "new_token": "हैँ", "frequency": 3, "vocab_size": 5892, "learned_vocab_size": 5615, "compression_ratio": 1.1778956536950516, "example_words": [] }, { "step": 5616, "pair": [ "ट्रा", "ंस" ], "new_token": "ट्रांस", "frequency": 3, "vocab_size": 5893, "learned_vocab_size": 5616, "compression_ratio": 1.1779020928050148, "example_words": [] }, { "step": 5617, "pair": [ "ट्रांस", "पोर्ट" ], "new_token": "ट्रांसपोर्ट", "frequency": 3, "vocab_size": 5894, "learned_vocab_size": 5617, "compression_ratio": 1.1779020928050148, "example_words": [] }, { "step": 5618, "pair": [ "लो", "हिया" ], "new_token": "लोहिया", "frequency": 3, "vocab_size": 5895, "learned_vocab_size": 5618, "compression_ratio": 1.1779020928050148, "example_words": [] }, { "step": 5619, "pair": [ "वृ", "क" ], "new_token": "वृक", "frequency": 3, "vocab_size": 5896, "learned_vocab_size": 5619, "compression_ratio": 1.1779020928050148, "example_words": [] }, { "step": 5620, "pair": [ "कांति", "मान" ], "new_token": "कांतिमान", "frequency": 3, "vocab_size": 5897, "learned_vocab_size": 5620, "compression_ratio": 1.177882775686323, "example_words": [] }, { "step": 5621, "pair": [ "लू", "पाई" ], "new_token": "लूपाई", "frequency": 3, "vocab_size": 5898, "learned_vocab_size": 5621, "compression_ratio": 1.177882775686323, "example_words": [] }, { "step": 5622, "pair": [ "बि", "थि" ], "new_token": "बिथि", "frequency": 3, "vocab_size": 5899, "learned_vocab_size": 5622, "compression_ratio": 1.1778913609941872, "example_words": [] }, { "step": 5623, "pair": [ "बिथि", "निया" ], "new_token": "बिथिनिया", "frequency": 3, "vocab_size": 5900, "learned_vocab_size": 5623, "compression_ratio": 1.1778978000572171, "example_words": [] }, { "step": 5624, "pair": [ "ए", "ट" ], "new_token": "एट", "frequency": 3, "vocab_size": 5901, "learned_vocab_size": 5624, "compression_ratio": 1.1778978000572171, "example_words": [] }, { "step": 5625, "pair": [ "कॉन्स्टेंटि", "यस" ], "new_token": "कॉन्स्टेंटियस", "frequency": 3, "vocab_size": 5902, "learned_vocab_size": 5625, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5626, "pair": [ "फ्", "लाविया" ], "new_token": "फ्लाविया", "frequency": 3, "vocab_size": 5903, "learned_vocab_size": 5626, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5627, "pair": [ "जू", "लिया" ], "new_token": "जूलिया", "frequency": 3, "vocab_size": 5904, "learned_vocab_size": 5627, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5628, "pair": [ "लू", "थरन" ], "new_token": "लूथरन", "frequency": 3, "vocab_size": 5905, "learned_vocab_size": 5628, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5629, "pair": [ "कॉन्स", "टेंटाइन" ], "new_token": "कॉन्सटेंटाइन", "frequency": 3, "vocab_size": 5906, "learned_vocab_size": 5629, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5630, "pair": [ "हेलेनो", "पोलिस" ], "new_token": "हेलेनोपोलिस", "frequency": 3, "vocab_size": 5907, "learned_vocab_size": 5630, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5631, "pair": [ "शा", "य" ], "new_token": "शाय", "frequency": 3, "vocab_size": 5908, "learned_vocab_size": 5631, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5632, "pair": [ "शाय", "द" ], "new_token": "शायद", "frequency": 3, "vocab_size": 5909, "learned_vocab_size": 5632, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5633, "pair": [ "चौ", "थी" ], "new_token": "चौथी", "frequency": 3, "vocab_size": 5910, "learned_vocab_size": 5633, "compression_ratio": 1.1778698979591837, "example_words": [] }, { "step": 5634, "pair": [ "प्र", "चु" ], "new_token": "प्रचु", "frequency": 3, "vocab_size": 5911, "learned_vocab_size": 5634, "compression_ratio": 1.1778763367875553, "example_words": [] }, { "step": 5635, "pair": [ "कीर्", "ति" ], "new_token": "कीर्ति", "frequency": 3, "vocab_size": 5912, "learned_vocab_size": 5635, "compression_ratio": 1.1778763367875553, "example_words": [] }, { "step": 5636, "pair": [ "व", "चन" ], "new_token": "वचन", "frequency": 3, "vocab_size": 5913, "learned_vocab_size": 5636, "compression_ratio": 1.1778849220015561, "example_words": [] }, { "step": 5637, "pair": [ "गंगो", "पा" ], "new_token": "गंगोपा", "frequency": 3, "vocab_size": 5914, "learned_vocab_size": 5637, "compression_ratio": 1.1778978000572171, "example_words": [] }, { "step": 5638, "pair": [ "बे", "दी" ], "new_token": "बेदी", "frequency": 3, "vocab_size": 5915, "learned_vocab_size": 5638, "compression_ratio": 1.1778978000572171, "example_words": [] }, { "step": 5639, "pair": [ "दे", "बत्तमा" ], "new_token": "देबत्तमा", "frequency": 3, "vocab_size": 5916, "learned_vocab_size": 5639, "compression_ratio": 1.177904239190647, "example_words": [] }, { "step": 5640, "pair": [ "करण", "वीर" ], "new_token": "करणवीर", "frequency": 3, "vocab_size": 5917, "learned_vocab_size": 5640, "compression_ratio": 1.177904239190647, "example_words": [] }, { "step": 5641, "pair": [ "प्", "लस" ], "new_token": "प्लस", "frequency": 3, "vocab_size": 5918, "learned_vocab_size": 5641, "compression_ratio": 1.177910678394478, "example_words": [] }, { "step": 5642, "pair": [ "कै", "म्ब्रि" ], "new_token": "कैम्ब्रि", "frequency": 3, "vocab_size": 5919, "learned_vocab_size": 5642, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5643, "pair": [ "कैम्ब्रि", "ज" ], "new_token": "कैम्ब्रिज", "frequency": 3, "vocab_size": 5920, "learned_vocab_size": 5643, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5644, "pair": [ "अही", "र" ], "new_token": "अहीर", "frequency": 3, "vocab_size": 5921, "learned_vocab_size": 5644, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5645, "pair": [ "अपर्", "णा" ], "new_token": "अपर्णा", "frequency": 3, "vocab_size": 5922, "learned_vocab_size": 5645, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5646, "pair": [ "अम्", "मा" ], "new_token": "अम्मा", "frequency": 3, "vocab_size": 5923, "learned_vocab_size": 5646, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5647, "pair": [ "नौ", "सेना" ], "new_token": "नौसेना", "frequency": 3, "vocab_size": 5924, "learned_vocab_size": 5647, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5648, "pair": [ "ये", "लेना" ], "new_token": "येलेना", "frequency": 3, "vocab_size": 5925, "learned_vocab_size": 5648, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5649, "pair": [ "फा", "दवा" ], "new_token": "फादवा", "frequency": 3, "vocab_size": 5926, "learned_vocab_size": 5649, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5650, "pair": [ "को", "वा" ], "new_token": "कोवा", "frequency": 3, "vocab_size": 5927, "learned_vocab_size": 5650, "compression_ratio": 1.1779257034772055, "example_words": [] }, { "step": 5651, "pair": [ "प्रति", "बंधित" ], "new_token": "प्रतिबंधित", "frequency": 3, "vocab_size": 5928, "learned_vocab_size": 5651, "compression_ratio": 1.1779321429157152, "example_words": [] }, { "step": 5652, "pair": [ "धि", "म्मी" ], "new_token": "धिम्मी", "frequency": 3, "vocab_size": 5929, "learned_vocab_size": 5652, "compression_ratio": 1.1779321429157152, "example_words": [] }, { "step": 5653, "pair": [ "बी", "जो" ], "new_token": "बीजो", "frequency": 3, "vocab_size": 5930, "learned_vocab_size": 5653, "compression_ratio": 1.1779385824246311, "example_words": [] }, { "step": 5654, "pair": [ "इसी", "लिए" ], "new_token": "इसीलिए", "frequency": 3, "vocab_size": 5931, "learned_vocab_size": 5654, "compression_ratio": 1.1779471685460416, "example_words": [] }, { "step": 5655, "pair": [ "विलु", "प्त" ], "new_token": "विलुप्त", "frequency": 3, "vocab_size": 5932, "learned_vocab_size": 5655, "compression_ratio": 1.1779471685460416, "example_words": [] }, { "step": 5656, "pair": [ "अण्", "टी" ], "new_token": "अण्टी", "frequency": 3, "vocab_size": 5933, "learned_vocab_size": 5656, "compression_ratio": 1.1779471685460416, "example_words": [] }, { "step": 5657, "pair": [ "अण्टी", "गुआ" ], "new_token": "अण्टीगुआ", "frequency": 3, "vocab_size": 5934, "learned_vocab_size": 5657, "compression_ratio": 1.177953608219243, "example_words": [] }, { "step": 5658, "pair": [ "बार", "बू" ], "new_token": "बारबू", "frequency": 3, "vocab_size": 5935, "learned_vocab_size": 5658, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5659, "pair": [ "बारबू", "डा" ], "new_token": "बारबूडा", "frequency": 3, "vocab_size": 5936, "learned_vocab_size": 5659, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5660, "pair": [ "लोकेश्वर", "ं" ], "new_token": "लोकेश्वरं", "frequency": 3, "vocab_size": 5937, "learned_vocab_size": 5660, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5661, "pair": [ "पदो", "न्न" ], "new_token": "पदोन्न", "frequency": 3, "vocab_size": 5938, "learned_vocab_size": 5661, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5662, "pair": [ "स्वा", "गत" ], "new_token": "स्वागत", "frequency": 3, "vocab_size": 5939, "learned_vocab_size": 5662, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5663, "pair": [ "हो", "म" ], "new_token": "होम", "frequency": 3, "vocab_size": 5940, "learned_vocab_size": 5663, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5664, "pair": [ "वि", "फलता" ], "new_token": "विफलता", "frequency": 3, "vocab_size": 5941, "learned_vocab_size": 5664, "compression_ratio": 1.177968634397198, "example_words": [] }, { "step": 5665, "pair": [ "जिम्मे", "दारी" ], "new_token": "जिम्मेदारी", "frequency": 3, "vocab_size": 5942, "learned_vocab_size": 5665, "compression_ratio": 1.177968634397198, "example_words": [] }, { "step": 5666, "pair": [ "मह", "सूस" ], "new_token": "महसूस", "frequency": 3, "vocab_size": 5943, "learned_vocab_size": 5666, "compression_ratio": 1.177968634397198, "example_words": [] }, { "step": 5667, "pair": [ "बजा", "य" ], "new_token": "बजाय", "frequency": 3, "vocab_size": 5944, "learned_vocab_size": 5667, "compression_ratio": 1.1779750743051038, "example_words": [] }, { "step": 5668, "pair": [ "अ", "फ" ], "new_token": "अफ", "frequency": 3, "vocab_size": 5945, "learned_vocab_size": 5668, "compression_ratio": 1.1779815142834233, "example_words": [] }, { "step": 5669, "pair": [ "बेल्", "लं" ], "new_token": "बेल्लं", "frequency": 3, "vocab_size": 5946, "learned_vocab_size": 5669, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5670, "pair": [ "बेल्लं", "पल्लि" ], "new_token": "बेल्लंपल्लि", "frequency": 3, "vocab_size": 5947, "learned_vocab_size": 5670, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5671, "pair": [ "भ", "त्तु" ], "new_token": "भत्तु", "frequency": 3, "vocab_size": 5948, "learned_vocab_size": 5671, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5672, "pair": [ "भत्तु", "वानि" ], "new_token": "भत्तुवानि", "frequency": 3, "vocab_size": 5949, "learned_vocab_size": 5672, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5673, "pair": [ "भत्तुवानि", "पल्लि" ], "new_token": "भत्तुवानिपल्लि", "frequency": 3, "vocab_size": 5950, "learned_vocab_size": 5673, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5674, "pair": [ "पशु", "ओं" ], "new_token": "पशुओं", "frequency": 3, "vocab_size": 5951, "learned_vocab_size": 5674, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5675, "pair": [ "उत्तर", "दायी" ], "new_token": "उत्तरदायी", "frequency": 3, "vocab_size": 5952, "learned_vocab_size": 5675, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 5676, "pair": [ "आयुर्", "विज्ञान" ], "new_token": "आयुर्विज्ञान", "frequency": 3, "vocab_size": 5953, "learned_vocab_size": 5676, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 5677, "pair": [ "तपो", "सिरि" ], "new_token": "तपोसिरि", "frequency": 3, "vocab_size": 5954, "learned_vocab_size": 5677, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 5678, "pair": [ "तपोसिरि", "स" ], "new_token": "तपोसिरिस", "frequency": 3, "vocab_size": 5955, "learned_vocab_size": 5678, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 5679, "pair": [ "मा", "ग्" ], "new_token": "माग्", "frequency": 3, "vocab_size": 5956, "learned_vocab_size": 5679, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 5680, "pair": [ "माग्", "ना" ], "new_token": "माग्ना", "frequency": 3, "vocab_size": 5957, "learned_vocab_size": 5680, "compression_ratio": 1.1779729276613116, "example_words": [] }, { "step": 5681, "pair": [ "तो", "ले" ], "new_token": "तोले", "frequency": 3, "vocab_size": 5958, "learned_vocab_size": 5681, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 5682, "pair": [ "लि", "यन" ], "new_token": "लियन", "frequency": 3, "vocab_size": 5959, "learned_vocab_size": 5682, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5683, "pair": [ "ल्", "क" ], "new_token": "ल्क", "frequency": 3, "vocab_size": 5960, "learned_vocab_size": 5683, "compression_ratio": 1.1779965411733404, "example_words": [] }, { "step": 5684, "pair": [ "विश्व", "व्यापी" ], "new_token": "विश्वव्यापी", "frequency": 3, "vocab_size": 5961, "learned_vocab_size": 5684, "compression_ratio": 1.178002981386381, "example_words": [] }, { "step": 5685, "pair": [ "टॉ", "म" ], "new_token": "टॉम", "frequency": 3, "vocab_size": 5962, "learned_vocab_size": 5685, "compression_ratio": 1.178002981386381, "example_words": [] }, { "step": 5686, "pair": [ "सिया", "ल" ], "new_token": "सियाल", "frequency": 3, "vocab_size": 5963, "learned_vocab_size": 5686, "compression_ratio": 1.1780094216698407, "example_words": [] }, { "step": 5687, "pair": [ "क्", "कर" ], "new_token": "क्कर", "frequency": 3, "vocab_size": 5964, "learned_vocab_size": 5687, "compression_ratio": 1.1780094216698407, "example_words": [] }, { "step": 5688, "pair": [ "हार्ड", "वेयर" ], "new_token": "हार्डवेयर", "frequency": 3, "vocab_size": 5965, "learned_vocab_size": 5688, "compression_ratio": 1.1780158620237202, "example_words": [] }, { "step": 5689, "pair": [ "व", "ट" ], "new_token": "वट", "frequency": 3, "vocab_size": 5966, "learned_vocab_size": 5689, "compression_ratio": 1.1780158620237202, "example_words": [] }, { "step": 5690, "pair": [ "धा", "गों" ], "new_token": "धागों", "frequency": 3, "vocab_size": 5967, "learned_vocab_size": 5690, "compression_ratio": 1.178013715231269, "example_words": [] }, { "step": 5691, "pair": [ "अमरी", "का" ], "new_token": "अमरीका", "frequency": 3, "vocab_size": 5968, "learned_vocab_size": 5691, "compression_ratio": 1.178013715231269, "example_words": [] }, { "step": 5692, "pair": [ "स्तन", "धारी" ], "new_token": "स्तनधारी", "frequency": 3, "vocab_size": 5969, "learned_vocab_size": 5692, "compression_ratio": 1.178013715231269, "example_words": [] }, { "step": 5693, "pair": [ "फै", "को" ], "new_token": "फैको", "frequency": 3, "vocab_size": 5970, "learned_vocab_size": 5693, "compression_ratio": 1.178013715231269, "example_words": [] }, { "step": 5694, "pair": [ "फैको", "को" ], "new_token": "फैकोको", "frequency": 3, "vocab_size": 5971, "learned_vocab_size": 5694, "compression_ratio": 1.178020155632096, "example_words": [] }, { "step": 5695, "pair": [ "फैकोको", "एरस" ], "new_token": "फैकोकोएरस", "frequency": 3, "vocab_size": 5972, "learned_vocab_size": 5695, "compression_ratio": 1.1780265961033447, "example_words": [] }, { "step": 5696, "pair": [ "खु", "र" ], "new_token": "खुर", "frequency": 3, "vocab_size": 5973, "learned_vocab_size": 5696, "compression_ratio": 1.1780265961033447, "example_words": [] }, { "step": 5697, "pair": [ "गे", "हू" ], "new_token": "गेहू", "frequency": 3, "vocab_size": 5974, "learned_vocab_size": 5697, "compression_ratio": 1.1777990754929095, "example_words": [] }, { "step": 5698, "pair": [ "गेहू", "ं" ], "new_token": "गेहूं", "frequency": 3, "vocab_size": 5975, "learned_vocab_size": 5698, "compression_ratio": 1.177805513547, "example_words": [] }, { "step": 5699, "pair": [ "च", "मन" ], "new_token": "चमन", "frequency": 3, "vocab_size": 5976, "learned_vocab_size": 5699, "compression_ratio": 1.1778119516714738, "example_words": [] }, { "step": 5700, "pair": [ "मे", "थी" ], "new_token": "मेथी", "frequency": 3, "vocab_size": 5977, "learned_vocab_size": 5700, "compression_ratio": 1.1778183898663324, "example_words": [] }, { "step": 5701, "pair": [ "को", "फ़्" ], "new_token": "कोफ़्", "frequency": 3, "vocab_size": 5978, "learned_vocab_size": 5701, "compression_ratio": 1.1778248281315766, "example_words": [ "कोफ़्ता" ] }, { "step": 5702, "pair": [ "कोफ़्", "ता" ], "new_token": "कोफ़्ता", "frequency": 3, "vocab_size": 5979, "learned_vocab_size": 5702, "compression_ratio": 1.1778312664672077, "example_words": [] }, { "step": 5703, "pair": [ "म", "खानी" ], "new_token": "मखानी", "frequency": 3, "vocab_size": 5980, "learned_vocab_size": 5703, "compression_ratio": 1.177837704873227, "example_words": [] }, { "step": 5704, "pair": [ "जी", "रा" ], "new_token": "जीरा", "frequency": 3, "vocab_size": 5981, "learned_vocab_size": 5704, "compression_ratio": 1.177837704873227, "example_words": [] }, { "step": 5705, "pair": [ "मालपु", "आ" ], "new_token": "मालपुआ", "frequency": 3, "vocab_size": 5982, "learned_vocab_size": 5705, "compression_ratio": 1.1778441433496352, "example_words": [] }, { "step": 5706, "pair": [ "बिर", "यानी" ], "new_token": "बिरयानी", "frequency": 3, "vocab_size": 5983, "learned_vocab_size": 5706, "compression_ratio": 1.177850581896434, "example_words": [] }, { "step": 5707, "pair": [ "गा", "जर" ], "new_token": "गाजर", "frequency": 3, "vocab_size": 5984, "learned_vocab_size": 5707, "compression_ratio": 1.177850581896434, "example_words": [] }, { "step": 5708, "pair": [ "गु", "झिया" ], "new_token": "गुझिया", "frequency": 3, "vocab_size": 5985, "learned_vocab_size": 5708, "compression_ratio": 1.177857020513624, "example_words": [] }, { "step": 5709, "pair": [ "जा", "मुन" ], "new_token": "जामुन", "frequency": 3, "vocab_size": 5986, "learned_vocab_size": 5709, "compression_ratio": 1.177863459201207, "example_words": [] }, { "step": 5710, "pair": [ "ठ", "ंडा" ], "new_token": "ठंडा", "frequency": 3, "vocab_size": 5987, "learned_vocab_size": 5710, "compression_ratio": 1.177872044227486, "example_words": [] }, { "step": 5711, "pair": [ "सा", "ंध्य" ], "new_token": "सांध्य", "frequency": 3, "vocab_size": 5988, "learned_vocab_size": 5711, "compression_ratio": 1.177872044227486, "example_words": [] }, { "step": 5712, "pair": [ "हु", "नेरिक" ], "new_token": "हुनेरिक", "frequency": 3, "vocab_size": 5989, "learned_vocab_size": 5712, "compression_ratio": 1.177872044227486, "example_words": [] }, { "step": 5713, "pair": [ "८", "४" ], "new_token": "८४", "frequency": 3, "vocab_size": 5990, "learned_vocab_size": 5713, "compression_ratio": 1.177872044227486, "example_words": [] }, { "step": 5714, "pair": [ "वै", "ंडल" ], "new_token": "वैंडल", "frequency": 3, "vocab_size": 5991, "learned_vocab_size": 5714, "compression_ratio": 1.177880629378912, "example_words": [] }, { "step": 5715, "pair": [ "सोमन", "द" ], "new_token": "सोमनद", "frequency": 3, "vocab_size": 5992, "learned_vocab_size": 5715, "compression_ratio": 1.177880629378912, "example_words": [] }, { "step": 5716, "pair": [ "सोमनद", "ॊ" ], "new_token": "सोमनदॊ", "frequency": 3, "vocab_size": 5993, "learned_vocab_size": 5716, "compression_ratio": 1.177880629378912, "example_words": [] }, { "step": 5717, "pair": [ "सोमनदॊ", "ड्डि" ], "new_token": "सोमनदॊड्डि", "frequency": 3, "vocab_size": 5994, "learned_vocab_size": 5717, "compression_ratio": 1.177880629378912, "example_words": [] }, { "step": 5718, "pair": [ "प्रतिनिधि", "यों" ], "new_token": "प्रतिनिधियों", "frequency": 3, "vocab_size": 5995, "learned_vocab_size": 5718, "compression_ratio": 1.177880629378912, "example_words": [] }, { "step": 5719, "pair": [ "ध", "ै" ], "new_token": "धै", "frequency": 3, "vocab_size": 5996, "learned_vocab_size": 5719, "compression_ratio": 1.177880629378912, "example_words": [] }, { "step": 5720, "pair": [ "बो", "ड़" ], "new_token": "बोड़", "frequency": 3, "vocab_size": 5997, "learned_vocab_size": 5720, "compression_ratio": 1.1778870683246112, "example_words": [] }, { "step": 5721, "pair": [ "बोड़", "नदी" ], "new_token": "बोड़नदी", "frequency": 3, "vocab_size": 5998, "learned_vocab_size": 5721, "compression_ratio": 1.1778935073407084, "example_words": [] }, { "step": 5722, "pair": [ "बा", "क्सा" ], "new_token": "बाक्सा", "frequency": 3, "vocab_size": 5999, "learned_vocab_size": 5722, "compression_ratio": 1.1778999464272049, "example_words": [] }, { "step": 5723, "pair": [ "कड", "प" ], "new_token": "कडप", "frequency": 3, "vocab_size": 6000, "learned_vocab_size": 5723, "compression_ratio": 1.1778999464272049, "example_words": [] }, { "step": 5724, "pair": [ "व", "ॆ" ], "new_token": "वॆ", "frequency": 3, "vocab_size": 6001, "learned_vocab_size": 5724, "compression_ratio": 1.177910678394478, "example_words": [] }, { "step": 5725, "pair": [ "वॆ", "ल्लाल" ], "new_token": "वॆल्लाल", "frequency": 3, "vocab_size": 6002, "learned_vocab_size": 5725, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5726, "pair": [ "गरिकपा", "टिवारि" ], "new_token": "गरिकपाटिवारि", "frequency": 3, "vocab_size": 6003, "learned_vocab_size": 5726, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5727, "pair": [ "ख", "ंद्रिक" ], "new_token": "खंद्रिक", "frequency": 3, "vocab_size": 6004, "learned_vocab_size": 5727, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5728, "pair": [ "दा", "खिला" ], "new_token": "दाखिला", "frequency": 3, "vocab_size": 6005, "learned_vocab_size": 5728, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5729, "pair": [ "अमिता", "भ" ], "new_token": "अमिताभ", "frequency": 3, "vocab_size": 6006, "learned_vocab_size": 5729, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5730, "pair": [ "चन्द्र", "चू" ], "new_token": "चन्द्रचू", "frequency": 3, "vocab_size": 6007, "learned_vocab_size": 5730, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5731, "pair": [ "चन्द्रचू", "ढ़" ], "new_token": "चन्द्रचूढ़", "frequency": 3, "vocab_size": 6008, "learned_vocab_size": 5731, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5732, "pair": [ "वि", "जू" ], "new_token": "विजू", "frequency": 3, "vocab_size": 6009, "learned_vocab_size": 5732, "compression_ratio": 1.1779192641091007, "example_words": [] }, { "step": 5733, "pair": [ "मैं", "ने" ], "new_token": "मैंने", "frequency": 3, "vocab_size": 6010, "learned_vocab_size": 5733, "compression_ratio": 1.1779257034772055, "example_words": [] }, { "step": 5734, "pair": [ "लि", "प्य" ], "new_token": "लिप्य", "frequency": 3, "vocab_size": 6011, "learned_vocab_size": 5734, "compression_ratio": 1.1779321429157152, "example_words": [] }, { "step": 5735, "pair": [ "लिप्य", "ंतरण" ], "new_token": "लिप्यंतरण", "frequency": 3, "vocab_size": 6012, "learned_vocab_size": 5735, "compression_ratio": 1.1779321429157152, "example_words": [] }, { "step": 5736, "pair": [ "यू", "आरएल" ], "new_token": "यूआरएल", "frequency": 3, "vocab_size": 6013, "learned_vocab_size": 5736, "compression_ratio": 1.1779321429157152, "example_words": [] }, { "step": 5737, "pair": [ "सर्", "बिया" ], "new_token": "सर्बिया", "frequency": 3, "vocab_size": 6014, "learned_vocab_size": 5737, "compression_ratio": 1.177940728943249, "example_words": [] }, { "step": 5738, "pair": [ "जा", "कर" ], "new_token": "जाकर", "frequency": 3, "vocab_size": 6015, "learned_vocab_size": 5738, "compression_ratio": 1.177940728943249, "example_words": [] }, { "step": 5739, "pair": [ "ख", "मण" ], "new_token": "खमण", "frequency": 3, "vocab_size": 6016, "learned_vocab_size": 5739, "compression_ratio": 1.1779471685460416, "example_words": [] }, { "step": 5740, "pair": [ "भा", "जी" ], "new_token": "भाजी", "frequency": 3, "vocab_size": 6017, "learned_vocab_size": 5740, "compression_ratio": 1.177953608219243, "example_words": [] }, { "step": 5741, "pair": [ "मू", "ंगा" ], "new_token": "मूंगा", "frequency": 3, "vocab_size": 6018, "learned_vocab_size": 5741, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5742, "pair": [ "ध", "ौरी" ], "new_token": "धौरी", "frequency": 3, "vocab_size": 6019, "learned_vocab_size": 5742, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5743, "pair": [ "क", "ॊ" ], "new_token": "कॊ", "frequency": 3, "vocab_size": 6020, "learned_vocab_size": 5743, "compression_ratio": 1.1779600479628543, "example_words": [] }, { "step": 5744, "pair": [ "कॊ", "म्" ], "new_token": "कॊम्", "frequency": 3, "vocab_size": 6021, "learned_vocab_size": 5744, "compression_ratio": 1.1779664877768767, "example_words": [] }, { "step": 5745, "pair": [ "कॊम्", "मे" ], "new_token": "कॊम्मे", "frequency": 3, "vocab_size": 6022, "learned_vocab_size": 5745, "compression_ratio": 1.1779729276613116, "example_words": [] }, { "step": 5746, "pair": [ "कॊम्मे", "मर्रि" ], "new_token": "कॊम्मेमर्रि", "frequency": 3, "vocab_size": 6023, "learned_vocab_size": 5746, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 5747, "pair": [ "मत", "दाता" ], "new_token": "मतदाता", "frequency": 3, "vocab_size": 6024, "learned_vocab_size": 5747, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 5748, "pair": [ "मार", "कंडा" ], "new_token": "मारकंडा", "frequency": 3, "vocab_size": 6025, "learned_vocab_size": 5748, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 5749, "pair": [ "मत", "दान" ], "new_token": "मतदान", "frequency": 3, "vocab_size": 6026, "learned_vocab_size": 5749, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 5750, "pair": [ "ठ", "ि" ], "new_token": "ठि", "frequency": 3, "vocab_size": 6027, "learned_vocab_size": 5750, "compression_ratio": 1.1779793676161596, "example_words": [] }, { "step": 5751, "pair": [ "चे", "हरा" ], "new_token": "चेहरा", "frequency": 3, "vocab_size": 6028, "learned_vocab_size": 5751, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5752, "pair": [ "शान", "दार" ], "new_token": "शानदार", "frequency": 3, "vocab_size": 6029, "learned_vocab_size": 5752, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5753, "pair": [ "भाषा", "ओँ" ], "new_token": "भाषाओँ", "frequency": 3, "vocab_size": 6030, "learned_vocab_size": 5753, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5754, "pair": [ "स्वी", "डन" ], "new_token": "स्वीडन", "frequency": 3, "vocab_size": 6031, "learned_vocab_size": 5754, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5755, "pair": [ "समी", "क्षक" ], "new_token": "समीक्षक", "frequency": 3, "vocab_size": 6032, "learned_vocab_size": 5755, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5756, "pair": [ "फि", "न" ], "new_token": "फिन", "frequency": 3, "vocab_size": 6033, "learned_vocab_size": 5756, "compression_ratio": 1.1779858076414225, "example_words": [] }, { "step": 5757, "pair": [ "लिख", "ते" ], "new_token": "लिखते", "frequency": 3, "vocab_size": 6034, "learned_vocab_size": 5757, "compression_ratio": 1.1779943944513087, "example_words": [] }, { "step": 5758, "pair": [ "उप", "जिले" ], "new_token": "उपजिले", "frequency": 3, "vocab_size": 6035, "learned_vocab_size": 5758, "compression_ratio": 1.1780008346408766, "example_words": [] }, { "step": 5759, "pair": [ "ई", "श्वर" ], "new_token": "ईश्वर", "frequency": 3, "vocab_size": 6036, "learned_vocab_size": 5759, "compression_ratio": 1.1780008346408766, "example_words": [] }, { "step": 5760, "pair": [ "ब्राह्", "मन" ], "new_token": "ब्राह्मन", "frequency": 3, "vocab_size": 6037, "learned_vocab_size": 5760, "compression_ratio": 1.1780008346408766, "example_words": [] }, { "step": 5761, "pair": [ "रा", "ङ्" ], "new_token": "राङ्", "frequency": 3, "vocab_size": 6038, "learned_vocab_size": 5761, "compression_ratio": 1.1780008346408766, "example_words": [] }, { "step": 5762, "pair": [ "भारतप्रान्त", "तेलंगाना" ], "new_token": "भारतप्रान्ततेलंगाना", "frequency": 3, "vocab_size": 6039, "learned_vocab_size": 5762, "compression_ratio": 1.1780094216698407, "example_words": [] }, { "step": 5763, "pair": [ "प्रचलिततेलुगू", "समय" ], "new_token": "प्रचलिततेलुगूसमय", "frequency": 3, "vocab_size": 6040, "learned_vocab_size": 5763, "compression_ratio": 1.1780094216698407, "example_words": [] }, { "step": 5764, "pair": [ "वृष", "भानु" ], "new_token": "वृषभानु", "frequency": 3, "vocab_size": 6041, "learned_vocab_size": 5764, "compression_ratio": 1.1780094216698407, "example_words": [] }, { "step": 5765, "pair": [ "व", "सु" ], "new_token": "वसु", "frequency": 3, "vocab_size": 6042, "learned_vocab_size": 5765, "compression_ratio": 1.1780094216698407, "example_words": [] }, { "step": 5766, "pair": [ "बी", "जू" ], "new_token": "बीजू", "frequency": 3, "vocab_size": 6043, "learned_vocab_size": 5766, "compression_ratio": 1.1780158620237202, "example_words": [] }, { "step": 5767, "pair": [ "शिव", "सेना" ], "new_token": "शिवसेना", "frequency": 3, "vocab_size": 6044, "learned_vocab_size": 5767, "compression_ratio": 1.1780223024480208, "example_words": [] }, { "step": 5768, "pair": [ "स्टू", "डेंट्स" ], "new_token": "स्टूडेंट्स", "frequency": 3, "vocab_size": 6045, "learned_vocab_size": 5768, "compression_ratio": 1.1780223024480208, "example_words": [] }, { "step": 5769, "pair": [ "३", "३" ], "new_token": "३३", "frequency": 3, "vocab_size": 6046, "learned_vocab_size": 5769, "compression_ratio": 1.1780223024480208, "example_words": [] }, { "step": 5770, "pair": [ "८", "०" ], "new_token": "८०", "frequency": 3, "vocab_size": 6047, "learned_vocab_size": 5770, "compression_ratio": 1.1780330366450165, "example_words": [] }, { "step": 5771, "pair": [ "शि", "ंदे" ], "new_token": "शिंदे", "frequency": 3, "vocab_size": 6048, "learned_vocab_size": 5771, "compression_ratio": 1.178043771037635, "example_words": [] }, { "step": 5772, "pair": [ "२०", "२१" ], "new_token": "२०२१", "frequency": 3, "vocab_size": 6049, "learned_vocab_size": 5772, "compression_ratio": 1.178043771037635, "example_words": [] }, { "step": 5773, "pair": [ "रजिस्ट्री", "कृत" ], "new_token": "रजिस्ट्रीकृत", "frequency": 3, "vocab_size": 6050, "learned_vocab_size": 5773, "compression_ratio": 1.1780502117671072, "example_words": [] }, { "step": 5774, "pair": [ "पी", "॰" ], "new_token": "पी॰", "frequency": 3, "vocab_size": 6051, "learned_vocab_size": 5774, "compression_ratio": 1.1780502117671072, "example_words": [] }, { "step": 5775, "pair": [ "२००", "७" ], "new_token": "२००७", "frequency": 3, "vocab_size": 6052, "learned_vocab_size": 5775, "compression_ratio": 1.1780587995159573, "example_words": [] }, { "step": 5776, "pair": [ "संविली", "न" ], "new_token": "संविलीन", "frequency": 3, "vocab_size": 6053, "learned_vocab_size": 5776, "compression_ratio": 1.1780695343780925, "example_words": [] }, { "step": 5777, "pair": [ "एल", "ए" ], "new_token": "एलए", "frequency": 3, "vocab_size": 6054, "learned_vocab_size": 5777, "compression_ratio": 1.1780695343780925, "example_words": [] }, { "step": 5778, "pair": [ "वस्तु", "ओं" ], "new_token": "वस्तुओं", "frequency": 3, "vocab_size": 6055, "learned_vocab_size": 5778, "compression_ratio": 1.1780759753892809, "example_words": [] }, { "step": 5779, "pair": [ "श्रे", "णि" ], "new_token": "श्रेणि", "frequency": 3, "vocab_size": 6056, "learned_vocab_size": 5779, "compression_ratio": 1.1780759753892809, "example_words": [] }, { "step": 5780, "pair": [ "श्रेणि", "यों" ], "new_token": "श्रेणियों", "frequency": 3, "vocab_size": 6057, "learned_vocab_size": 5780, "compression_ratio": 1.1780759753892809, "example_words": [] }, { "step": 5781, "pair": [ "ई", "सवी" ], "new_token": "ईसवी", "frequency": 3, "vocab_size": 6058, "learned_vocab_size": 5781, "compression_ratio": 1.1780759753892809, "example_words": [] }, { "step": 5782, "pair": [ "व्या", "पार" ], "new_token": "व्यापार", "frequency": 3, "vocab_size": 6059, "learned_vocab_size": 5782, "compression_ratio": 1.1780824164709012, "example_words": [] }, { "step": 5783, "pair": [ "बो", "स" ], "new_token": "बोस", "frequency": 3, "vocab_size": 6060, "learned_vocab_size": 5783, "compression_ratio": 1.1780824164709012, "example_words": [] }, { "step": 5784, "pair": [ "नो", "किया" ], "new_token": "नोकिया", "frequency": 3, "vocab_size": 6061, "learned_vocab_size": 5784, "compression_ratio": 1.1781017401383653, "example_words": [] }, { "step": 5785, "pair": [ "ज", "वा" ], "new_token": "जवा", "frequency": 3, "vocab_size": 6062, "learned_vocab_size": 5785, "compression_ratio": 1.1781017401383653, "example_words": [] }, { "step": 5786, "pair": [ "मिला", "कर" ], "new_token": "मिलाकर", "frequency": 3, "vocab_size": 6063, "learned_vocab_size": 5786, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5787, "pair": [ "गाँव", "प्रखण्ड" ], "new_token": "गाँवप्रखण्ड", "frequency": 3, "vocab_size": 6064, "learned_vocab_size": 5787, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5788, "pair": [ "अजे", "हरा" ], "new_token": "अजेहरा", "frequency": 3, "vocab_size": 6065, "learned_vocab_size": 5788, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5789, "pair": [ "अतरसु", "इया" ], "new_token": "अतरसुइया", "frequency": 3, "vocab_size": 6066, "learned_vocab_size": 5789, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5790, "pair": [ "अनु", "वा" ], "new_token": "अनुवा", "frequency": 3, "vocab_size": 6067, "learned_vocab_size": 5790, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5791, "pair": [ "अन्ना", "व" ], "new_token": "अन्नाव", "frequency": 3, "vocab_size": 6068, "learned_vocab_size": 5791, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5792, "pair": [ "अमे", "पुर" ], "new_token": "अमेपुर", "frequency": 3, "vocab_size": 6069, "learned_vocab_size": 5792, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5793, "pair": [ "अव", "सानपुर" ], "new_token": "अवसानपुर", "frequency": 3, "vocab_size": 6070, "learned_vocab_size": 5793, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5794, "pair": [ "अस", "वा" ], "new_token": "असवा", "frequency": 3, "vocab_size": 6071, "learned_vocab_size": 5794, "compression_ratio": 1.1781489784387702, "example_words": [] }, { "step": 5795, "pair": [ "दौ", "तपुर" ], "new_token": "दौतपुर", "frequency": 3, "vocab_size": 6072, "learned_vocab_size": 5795, "compression_ratio": 1.1781554203186997, "example_words": [] }, { "step": 5796, "pair": [ "इना", "यत" ], "new_token": "इनायत", "frequency": 3, "vocab_size": 6073, "learned_vocab_size": 5796, "compression_ratio": 1.1781618622690755, "example_words": [] }, { "step": 5797, "pair": [ "उद", "गी" ], "new_token": "उदगी", "frequency": 3, "vocab_size": 6074, "learned_vocab_size": 5797, "compression_ratio": 1.1781618622690755, "example_words": [] }, { "step": 5798, "pair": [ "उपर", "दहा" ], "new_token": "उपरदहा", "frequency": 3, "vocab_size": 6075, "learned_vocab_size": 5798, "compression_ratio": 1.1781683042898985, "example_words": [] }, { "step": 5799, "pair": [ "ऊ", "अन" ], "new_token": "ऊअन", "frequency": 3, "vocab_size": 6076, "learned_vocab_size": 5799, "compression_ratio": 1.1781683042898985, "example_words": [] }, { "step": 5800, "pair": [ "ऊअन", "क" ], "new_token": "ऊअनक", "frequency": 3, "vocab_size": 6077, "learned_vocab_size": 5800, "compression_ratio": 1.17817474638117, "example_words": [] }, { "step": 5801, "pair": [ "ऊअनक", "त" ], "new_token": "ऊअनकत", "frequency": 3, "vocab_size": 6078, "learned_vocab_size": 5801, "compression_ratio": 1.1781811885428912, "example_words": [ "ऊअनकत" ] }, { "step": 5802, "pair": [ "ऊ", "गापुर" ], "new_token": "ऊगापुर", "frequency": 3, "vocab_size": 6079, "learned_vocab_size": 5802, "compression_ratio": 1.1781876307750632, "example_words": [] }, { "step": 5803, "pair": [ "ओ", "वासपुर" ], "new_token": "ओवासपुर", "frequency": 3, "vocab_size": 6080, "learned_vocab_size": 5803, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5804, "pair": [ "मासू", "मा" ], "new_token": "मासूमा", "frequency": 3, "vocab_size": 6081, "learned_vocab_size": 5804, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5805, "pair": [ "कटे", "हारी" ], "new_token": "कटेहारी", "frequency": 3, "vocab_size": 6082, "learned_vocab_size": 5805, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5806, "pair": [ "म", "विया" ], "new_token": "मविया", "frequency": 3, "vocab_size": 6083, "learned_vocab_size": 5806, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5807, "pair": [ "भ", "दैली" ], "new_token": "भदैली", "frequency": 3, "vocab_size": 6084, "learned_vocab_size": 5807, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5808, "pair": [ "करु", "वा" ], "new_token": "करुवा", "frequency": 3, "vocab_size": 6085, "learned_vocab_size": 5808, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5809, "pair": [ "करौ", "हा" ], "new_token": "करौहा", "frequency": 3, "vocab_size": 6086, "learned_vocab_size": 5809, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5810, "pair": [ "क", "वई" ], "new_token": "कवई", "frequency": 3, "vocab_size": 6087, "learned_vocab_size": 5810, "compression_ratio": 1.1781940730776872, "example_words": [] }, { "step": 5811, "pair": [ "कसि", "यौ" ], "new_token": "कसियौ", "frequency": 3, "vocab_size": 6088, "learned_vocab_size": 5811, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 5812, "pair": [ "कसियौ", "ंझा" ], "new_token": "कसियौंझा", "frequency": 3, "vocab_size": 6089, "learned_vocab_size": 5812, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 5813, "pair": [ "कसो", "धन" ], "new_token": "कसोधन", "frequency": 3, "vocab_size": 6090, "learned_vocab_size": 5813, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 5814, "pair": [ "स", "थेर" ], "new_token": "सथेर", "frequency": 3, "vocab_size": 6091, "learned_vocab_size": 5814, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 5815, "pair": [ "काली", "पुर" ], "new_token": "कालीपुर", "frequency": 3, "vocab_size": 6092, "learned_vocab_size": 5815, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 5816, "pair": [ "काशी", "नाथपुर" ], "new_token": "काशीनाथपुर", "frequency": 3, "vocab_size": 6093, "learned_vocab_size": 5816, "compression_ratio": 1.1782005154507642, "example_words": [] }, { "step": 5817, "pair": [ "कि", "चिकिला" ], "new_token": "किचिकिला", "frequency": 3, "vocab_size": 6094, "learned_vocab_size": 5817, "compression_ratio": 1.1782069578942955, "example_words": [] }, { "step": 5818, "pair": [ "किरा", "ँव" ], "new_token": "किराँव", "frequency": 3, "vocab_size": 6095, "learned_vocab_size": 5818, "compression_ratio": 1.1782069578942955, "example_words": [] }, { "step": 5819, "pair": [ "किशु", "नी" ], "new_token": "किशुनी", "frequency": 3, "vocab_size": 6096, "learned_vocab_size": 5819, "compression_ratio": 1.1782069578942955, "example_words": [] }, { "step": 5820, "pair": [ "किशुनी", "पुर" ], "new_token": "किशुनीपुर", "frequency": 3, "vocab_size": 6097, "learned_vocab_size": 5820, "compression_ratio": 1.1782134004082823, "example_words": [] }, { "step": 5821, "pair": [ "किसुनी", "पुर" ], "new_token": "किसुनीपुर", "frequency": 3, "vocab_size": 6098, "learned_vocab_size": 5821, "compression_ratio": 1.1782198429927255, "example_words": [] }, { "step": 5822, "pair": [ "कि", "हु" ], "new_token": "किहु", "frequency": 3, "vocab_size": 6099, "learned_vocab_size": 5822, "compression_ratio": 1.1782198429927255, "example_words": [] }, { "step": 5823, "pair": [ "किहु", "नी" ], "new_token": "किहुनी", "frequency": 3, "vocab_size": 6100, "learned_vocab_size": 5823, "compression_ratio": 1.1782262856476267, "example_words": [] }, { "step": 5824, "pair": [ "कु", "कुरहा" ], "new_token": "कुकुरहा", "frequency": 3, "vocab_size": 6101, "learned_vocab_size": 5824, "compression_ratio": 1.1782327283729865, "example_words": [] }, { "step": 5825, "pair": [ "कु", "नवरपुर" ], "new_token": "कुनवरपुर", "frequency": 3, "vocab_size": 6102, "learned_vocab_size": 5825, "compression_ratio": 1.1782327283729865, "example_words": [] }, { "step": 5826, "pair": [ "कुरा", "कथ" ], "new_token": "कुराकथ", "frequency": 3, "vocab_size": 6103, "learned_vocab_size": 5826, "compression_ratio": 1.1782327283729865, "example_words": [] }, { "step": 5827, "pair": [ "कु", "सरी" ], "new_token": "कुसरी", "frequency": 3, "vocab_size": 6104, "learned_vocab_size": 5827, "compression_ratio": 1.1782327283729865, "example_words": [] }, { "step": 5828, "pair": [ "कोइ", "त" ], "new_token": "कोइत", "frequency": 3, "vocab_size": 6105, "learned_vocab_size": 5828, "compression_ratio": 1.1782327283729865, "example_words": [] }, { "step": 5829, "pair": [ "कोरी", "पुर" ], "new_token": "कोरीपुर", "frequency": 3, "vocab_size": 6106, "learned_vocab_size": 5829, "compression_ratio": 1.1782391711688065, "example_words": [] }, { "step": 5830, "pair": [ "ख", "ख" ], "new_token": "खख", "frequency": 3, "vocab_size": 6107, "learned_vocab_size": 5830, "compression_ratio": 1.1782391711688065, "example_words": [] }, { "step": 5831, "pair": [ "खख", "ई" ], "new_token": "खखई", "frequency": 3, "vocab_size": 6108, "learned_vocab_size": 5831, "compression_ratio": 1.1782456140350877, "example_words": [] }, { "step": 5832, "pair": [ "खखई", "चा" ], "new_token": "खखईचा", "frequency": 3, "vocab_size": 6109, "learned_vocab_size": 5832, "compression_ratio": 1.1782520569718313, "example_words": [] }, { "step": 5833, "pair": [ "ख", "मरिया" ], "new_token": "खमरिया", "frequency": 3, "vocab_size": 6110, "learned_vocab_size": 5833, "compression_ratio": 1.1782584999790382, "example_words": [] }, { "step": 5834, "pair": [ "खी", "जिरपुर" ], "new_token": "खीजिरपुर", "frequency": 3, "vocab_size": 6111, "learned_vocab_size": 5834, "compression_ratio": 1.1782584999790382, "example_words": [] }, { "step": 5835, "pair": [ "खी", "जी" ], "new_token": "खीजी", "frequency": 3, "vocab_size": 6112, "learned_vocab_size": 5835, "compression_ratio": 1.1782584999790382, "example_words": [] }, { "step": 5836, "pair": [ "खुर्रम", "शाहपुर" ], "new_token": "खुर्रमशाहपुर", "frequency": 3, "vocab_size": 6113, "learned_vocab_size": 5836, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5837, "pair": [ "खेरु", "या" ], "new_token": "खेरुया", "frequency": 3, "vocab_size": 6114, "learned_vocab_size": 5837, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5838, "pair": [ "गढ़", "वा" ], "new_token": "गढ़वा", "frequency": 3, "vocab_size": 6115, "learned_vocab_size": 5838, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5839, "pair": [ "गणेशी", "पुर" ], "new_token": "गणेशीपुर", "frequency": 3, "vocab_size": 6116, "learned_vocab_size": 5839, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5840, "pair": [ "गर", "घनपुर" ], "new_token": "गरघनपुर", "frequency": 3, "vocab_size": 6117, "learned_vocab_size": 5840, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5841, "pair": [ "धो", "बहा" ], "new_token": "धोबहा", "frequency": 3, "vocab_size": 6118, "learned_vocab_size": 5841, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5842, "pair": [ "गिर्", "दा" ], "new_token": "गिर्दा", "frequency": 3, "vocab_size": 6119, "learned_vocab_size": 5842, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5843, "pair": [ "गोठ", "वा" ], "new_token": "गोठवा", "frequency": 3, "vocab_size": 6120, "learned_vocab_size": 5843, "compression_ratio": 1.17826494305671, "example_words": [] }, { "step": 5844, "pair": [ "गोपाली", "पुर" ], "new_token": "गोपालीपुर", "frequency": 3, "vocab_size": 6121, "learned_vocab_size": 5844, "compression_ratio": 1.1782713862048475, "example_words": [] }, { "step": 5845, "pair": [ "गोबि", "ंदापुर" ], "new_token": "गोबिंदापुर", "frequency": 3, "vocab_size": 6122, "learned_vocab_size": 5845, "compression_ratio": 1.1782713862048475, "example_words": [] }, { "step": 5846, "pair": [ "गोल", "छापा" ], "new_token": "गोलछापा", "frequency": 3, "vocab_size": 6123, "learned_vocab_size": 5846, "compression_ratio": 1.1782713862048475, "example_words": [] }, { "step": 5847, "pair": [ "गौ", "हरपुर" ], "new_token": "गौहरपुर", "frequency": 3, "vocab_size": 6124, "learned_vocab_size": 5847, "compression_ratio": 1.178277829423452, "example_words": [] }, { "step": 5848, "pair": [ "गौ", "हारपुर" ], "new_token": "गौहारपुर", "frequency": 3, "vocab_size": 6125, "learned_vocab_size": 5848, "compression_ratio": 1.178277829423452, "example_words": [] }, { "step": 5849, "pair": [ "घ", "महा" ], "new_token": "घमहा", "frequency": 3, "vocab_size": 6126, "learned_vocab_size": 5849, "compression_ratio": 1.178277829423452, "example_words": [] }, { "step": 5850, "pair": [ "घाट", "मपुर" ], "new_token": "घाटमपुर", "frequency": 3, "vocab_size": 6127, "learned_vocab_size": 5850, "compression_ratio": 1.178277829423452, "example_words": [] }, { "step": 5851, "pair": [ "घाटू", "पुर" ], "new_token": "घाटूपुर", "frequency": 3, "vocab_size": 6128, "learned_vocab_size": 5851, "compression_ratio": 1.1782842727125247, "example_words": [] }, { "step": 5852, "pair": [ "री", "ही" ], "new_token": "रीही", "frequency": 3, "vocab_size": 6129, "learned_vocab_size": 5852, "compression_ratio": 1.1782842727125247, "example_words": [] }, { "step": 5853, "pair": [ "न", "हा" ], "new_token": "नहा", "frequency": 3, "vocab_size": 6130, "learned_vocab_size": 5853, "compression_ratio": 1.1782928638742405, "example_words": [] }, { "step": 5854, "pair": [ "चंपा", "पुर" ], "new_token": "चंपापुर", "frequency": 3, "vocab_size": 6131, "learned_vocab_size": 5854, "compression_ratio": 1.1783250818464859, "example_words": [] }, { "step": 5855, "pair": [ "अजी", "ज" ], "new_token": "अजीज", "frequency": 3, "vocab_size": 6132, "learned_vocab_size": 5855, "compression_ratio": 1.17833152565236, "example_words": [] }, { "step": 5856, "pair": [ "आज़", "म" ], "new_token": "आज़म", "frequency": 3, "vocab_size": 6133, "learned_vocab_size": 5856, "compression_ratio": 1.17833152565236, "example_words": [] }, { "step": 5857, "pair": [ "कस", "वो" ], "new_token": "कसवो", "frequency": 3, "vocab_size": 6134, "learned_vocab_size": 5857, "compression_ratio": 1.17833152565236, "example_words": [] }, { "step": 5858, "pair": [ "कसवो", "धन" ], "new_token": "कसवोधन", "frequency": 3, "vocab_size": 6135, "learned_vocab_size": 5858, "compression_ratio": 1.1783379695287122, "example_words": [] }, { "step": 5859, "pair": [ "काठ", "र" ], "new_token": "काठर", "frequency": 3, "vocab_size": 6136, "learned_vocab_size": 5859, "compression_ratio": 1.1783444134755432, "example_words": [] }, { "step": 5860, "pair": [ "जली", "ल" ], "new_token": "जलील", "frequency": 3, "vocab_size": 6137, "learned_vocab_size": 5860, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 5861, "pair": [ "ठ", "कुरै" ], "new_token": "ठकुरै", "frequency": 3, "vocab_size": 6138, "learned_vocab_size": 5861, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 5862, "pair": [ "ठकुरै", "न" ], "new_token": "ठकुरैन", "frequency": 3, "vocab_size": 6139, "learned_vocab_size": 5862, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 5863, "pair": [ "दौल", "त" ], "new_token": "दौलत", "frequency": 3, "vocab_size": 6140, "learned_vocab_size": 5863, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 5864, "pair": [ "पुरे", "मिया" ], "new_token": "पुरेमिया", "frequency": 3, "vocab_size": 6141, "learned_vocab_size": 5864, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 5865, "pair": [ "सई", "दाबाद" ], "new_token": "सईदाबाद", "frequency": 3, "vocab_size": 6142, "learned_vocab_size": 5865, "compression_ratio": 1.1783508574928543, "example_words": [] }, { "step": 5866, "pair": [ "मधु", "कर" ], "new_token": "मधुकर", "frequency": 3, "vocab_size": 6143, "learned_vocab_size": 5866, "compression_ratio": 1.1783573015806466, "example_words": [] }, { "step": 5867, "pair": [ "मुजा", "मिल" ], "new_token": "मुजामिल", "frequency": 3, "vocab_size": 6144, "learned_vocab_size": 5867, "compression_ratio": 1.1783573015806466, "example_words": [] }, { "step": 5868, "pair": [ "अमी", "न" ], "new_token": "अमीन", "frequency": 3, "vocab_size": 6145, "learned_vocab_size": 5868, "compression_ratio": 1.1783573015806466, "example_words": [] }, { "step": 5869, "pair": [ "इसरा", "ल" ], "new_token": "इसराल", "frequency": 3, "vocab_size": 6146, "learned_vocab_size": 5869, "compression_ratio": 1.1783573015806466, "example_words": [] }, { "step": 5870, "pair": [ "शु", "भा" ], "new_token": "शुभा", "frequency": 3, "vocab_size": 6147, "learned_vocab_size": 5870, "compression_ratio": 1.1783573015806466, "example_words": [] }, { "step": 5871, "pair": [ "शुभा", "ंश" ], "new_token": "शुभांश", "frequency": 3, "vocab_size": 6148, "learned_vocab_size": 5871, "compression_ratio": 1.1783680418835951, "example_words": [] }, { "step": 5872, "pair": [ "सन", "दा" ], "new_token": "सनदा", "frequency": 3, "vocab_size": 6149, "learned_vocab_size": 5872, "compression_ratio": 1.178374486159343, "example_words": [] }, { "step": 5873, "pair": [ "सर", "ग" ], "new_token": "सरग", "frequency": 3, "vocab_size": 6150, "learned_vocab_size": 5873, "compression_ratio": 1.1783809305055764, "example_words": [] }, { "step": 5874, "pair": [ "हा", "फि" ], "new_token": "हाफि", "frequency": 3, "vocab_size": 6151, "learned_vocab_size": 5874, "compression_ratio": 1.1783916712392695, "example_words": [] }, { "step": 5875, "pair": [ "हाफि", "ज़" ], "new_token": "हाफिज़", "frequency": 3, "vocab_size": 6152, "learned_vocab_size": 5875, "compression_ratio": 1.17839811577347, "example_words": [] }, { "step": 5876, "pair": [ "हौ", "दा" ], "new_token": "हौदा", "frequency": 3, "vocab_size": 6153, "learned_vocab_size": 5876, "compression_ratio": 1.1784045603781599, "example_words": [] }, { "step": 5877, "pair": [ "रि", "हा" ], "new_token": "रिहा", "frequency": 3, "vocab_size": 6154, "learned_vocab_size": 5877, "compression_ratio": 1.1784110050533407, "example_words": [] }, { "step": 5878, "pair": [ "टो", "डर" ], "new_token": "टोडर", "frequency": 3, "vocab_size": 6155, "learned_vocab_size": 5878, "compression_ratio": 1.1784195980632366, "example_words": [] }, { "step": 5879, "pair": [ "गिर्", "ध" ], "new_token": "गिर्ध", "frequency": 3, "vocab_size": 6156, "learned_vocab_size": 5879, "compression_ratio": 1.1784260429029005, "example_words": [] }, { "step": 5880, "pair": [ "चंदो", "पारा" ], "new_token": "चंदोपारा", "frequency": 3, "vocab_size": 6157, "learned_vocab_size": 5880, "compression_ratio": 1.1784260429029005, "example_words": [] }, { "step": 5881, "pair": [ "चट", "पुर" ], "new_token": "चटपुर", "frequency": 3, "vocab_size": 6158, "learned_vocab_size": 5881, "compression_ratio": 1.1784260429029005, "example_words": [] }, { "step": 5882, "pair": [ "च", "फला" ], "new_token": "चफला", "frequency": 3, "vocab_size": 6159, "learned_vocab_size": 5882, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5883, "pair": [ "च", "बिलहा" ], "new_token": "चबिलहा", "frequency": 3, "vocab_size": 6160, "learned_vocab_size": 5883, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5884, "pair": [ "चाँदो", "पारा" ], "new_token": "चाँदोपारा", "frequency": 3, "vocab_size": 6161, "learned_vocab_size": 5884, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5885, "pair": [ "चाने", "थू" ], "new_token": "चानेथू", "frequency": 3, "vocab_size": 6162, "learned_vocab_size": 5885, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5886, "pair": [ "चिनिता", "मनपुर" ], "new_token": "चिनितामनपुर", "frequency": 3, "vocab_size": 6163, "learned_vocab_size": 5886, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5887, "pair": [ "चे", "तरा" ], "new_token": "चेतरा", "frequency": 3, "vocab_size": 6164, "learned_vocab_size": 5887, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5888, "pair": [ "छ", "प्पन" ], "new_token": "छप्पन", "frequency": 3, "vocab_size": 6165, "learned_vocab_size": 5888, "compression_ratio": 1.1784324878130594, "example_words": [] }, { "step": 5889, "pair": [ "छी", "नी" ], "new_token": "छीनी", "frequency": 3, "vocab_size": 6166, "learned_vocab_size": 5889, "compression_ratio": 1.1784389327937141, "example_words": [] }, { "step": 5890, "pair": [ "सो", "ढ़ा" ], "new_token": "सोढ़ा", "frequency": 3, "vocab_size": 6167, "learned_vocab_size": 5890, "compression_ratio": 1.178445377844866, "example_words": [] }, { "step": 5891, "pair": [ "जगु", "वा" ], "new_token": "जगुवा", "frequency": 3, "vocab_size": 6168, "learned_vocab_size": 5891, "compression_ratio": 1.178451822966516, "example_words": [] }, { "step": 5892, "pair": [ "जटा", "पुर" ], "new_token": "जटापुर", "frequency": 3, "vocab_size": 6169, "learned_vocab_size": 5892, "compression_ratio": 1.178451822966516, "example_words": [] }, { "step": 5893, "pair": [ "जन", "घी" ], "new_token": "जनघी", "frequency": 3, "vocab_size": 6170, "learned_vocab_size": 5893, "compression_ratio": 1.178451822966516, "example_words": [] }, { "step": 5894, "pair": [ "जनुवा", "डीह" ], "new_token": "जनुवाडीह", "frequency": 3, "vocab_size": 6171, "learned_vocab_size": 5894, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 5895, "pair": [ "जमसे", "धपुर" ], "new_token": "जमसेधपुर", "frequency": 3, "vocab_size": 6172, "learned_vocab_size": 5895, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 5896, "pair": [ "जमु", "वा" ], "new_token": "जमुवा", "frequency": 3, "vocab_size": 6173, "learned_vocab_size": 5896, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 5897, "pair": [ "जरा", "ँव" ], "new_token": "जराँव", "frequency": 3, "vocab_size": 6174, "learned_vocab_size": 5897, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 5898, "pair": [ "चंदो", "पाड़ा" ], "new_token": "चंदोपाड़ा", "frequency": 3, "vocab_size": 6175, "learned_vocab_size": 5898, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 5899, "pair": [ "मुत", "फ" ], "new_token": "मुतफ", "frequency": 3, "vocab_size": 6176, "learned_vocab_size": 5899, "compression_ratio": 1.1784582681586653, "example_words": [] }, { "step": 5900, "pair": [ "मुतफ", "करा" ], "new_token": "मुतफकरा", "frequency": 3, "vocab_size": 6177, "learned_vocab_size": 5900, "compression_ratio": 1.178464713421315, "example_words": [] }, { "step": 5901, "pair": [ "जस", "वाँ" ], "new_token": "जसवाँ", "frequency": 3, "vocab_size": 6178, "learned_vocab_size": 5901, "compression_ratio": 1.178464713421315, "example_words": [ "जसवाँ" ] }, { "step": 5902, "pair": [ "जौरा", "डीह" ], "new_token": "जौराडीह", "frequency": 3, "vocab_size": 6179, "learned_vocab_size": 5902, "compression_ratio": 1.1784711587544665, "example_words": [] }, { "step": 5903, "pair": [ "त", "ंधर" ], "new_token": "तंधर", "frequency": 3, "vocab_size": 6180, "learned_vocab_size": 5903, "compression_ratio": 1.1784711587544665, "example_words": [] }, { "step": 5904, "pair": [ "तर", "छ" ], "new_token": "तरछ", "frequency": 3, "vocab_size": 6181, "learned_vocab_size": 5904, "compression_ratio": 1.1784711587544665, "example_words": [] }, { "step": 5905, "pair": [ "तरछ", "ंदपुर" ], "new_token": "तरछंदपुर", "frequency": 3, "vocab_size": 6182, "learned_vocab_size": 5905, "compression_ratio": 1.1784776041581209, "example_words": [] }, { "step": 5906, "pair": [ "तिवारी", "पुर" ], "new_token": "तिवारीपुर", "frequency": 3, "vocab_size": 6183, "learned_vocab_size": 5906, "compression_ratio": 1.1784776041581209, "example_words": [] }, { "step": 5907, "pair": [ "तो", "डे" ], "new_token": "तोडे", "frequency": 3, "vocab_size": 6184, "learned_vocab_size": 5907, "compression_ratio": 1.1784776041581209, "example_words": [] }, { "step": 5908, "pair": [ "तोडे", "पुर" ], "new_token": "तोडेपुर", "frequency": 3, "vocab_size": 6185, "learned_vocab_size": 5908, "compression_ratio": 1.1784840496322793, "example_words": [] }, { "step": 5909, "pair": [ "थरै", "या" ], "new_token": "थरैया", "frequency": 3, "vocab_size": 6186, "learned_vocab_size": 5909, "compression_ratio": 1.1784904951769426, "example_words": [] }, { "step": 5910, "pair": [ "था", "टा" ], "new_token": "थाटा", "frequency": 3, "vocab_size": 6187, "learned_vocab_size": 5910, "compression_ratio": 1.1784904951769426, "example_words": [] }, { "step": 5911, "pair": [ "थु", "लमा" ], "new_token": "थुलमा", "frequency": 3, "vocab_size": 6188, "learned_vocab_size": 5911, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 5912, "pair": [ "दत्ते", "पुर" ], "new_token": "दत्तेपुर", "frequency": 3, "vocab_size": 6189, "learned_vocab_size": 5912, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 5913, "pair": [ "दल", "पतपुर" ], "new_token": "दलपतपुर", "frequency": 3, "vocab_size": 6190, "learned_vocab_size": 5913, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 5914, "pair": [ "दि", "घरी" ], "new_token": "दिघरी", "frequency": 3, "vocab_size": 6191, "learned_vocab_size": 5914, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 5915, "pair": [ "दि", "घ" ], "new_token": "दिघ", "frequency": 3, "vocab_size": 6192, "learned_vocab_size": 5915, "compression_ratio": 1.1784969407921124, "example_words": [] }, { "step": 5916, "pair": [ "दिघ", "ौटा" ], "new_token": "दिघौटा", "frequency": 3, "vocab_size": 6193, "learned_vocab_size": 5916, "compression_ratio": 1.1785098322339755, "example_words": [] }, { "step": 5917, "pair": [ "दि", "ह" ], "new_token": "दिह", "frequency": 3, "vocab_size": 6194, "learned_vocab_size": 5917, "compression_ratio": 1.178516278060671, "example_words": [] }, { "step": 5918, "pair": [ "दिह", "खास" ], "new_token": "दिहखास", "frequency": 3, "vocab_size": 6195, "learned_vocab_size": 5918, "compression_ratio": 1.1785227239578775, "example_words": [] }, { "step": 5919, "pair": [ "दु", "घेरा" ], "new_token": "दुघेरा", "frequency": 3, "vocab_size": 6196, "learned_vocab_size": 5919, "compression_ratio": 1.1785291699255962, "example_words": [] }, { "step": 5920, "pair": [ "दुबे", "पुर" ], "new_token": "दुबेपुर", "frequency": 3, "vocab_size": 6197, "learned_vocab_size": 5920, "compression_ratio": 1.1785291699255962, "example_words": [] }, { "step": 5921, "pair": [ "दु", "भेरा" ], "new_token": "दुभेरा", "frequency": 3, "vocab_size": 6198, "learned_vocab_size": 5921, "compression_ratio": 1.1785291699255962, "example_words": [] }, { "step": 5922, "pair": [ "दु", "सौती" ], "new_token": "दुसौती", "frequency": 3, "vocab_size": 6199, "learned_vocab_size": 5922, "compression_ratio": 1.1785291699255962, "example_words": [] }, { "step": 5923, "pair": [ "देवतै", "या" ], "new_token": "देवतैया", "frequency": 3, "vocab_size": 6200, "learned_vocab_size": 5923, "compression_ratio": 1.178535615963828, "example_words": [] }, { "step": 5924, "pair": [ "देव", "दहना" ], "new_token": "देवदहना", "frequency": 3, "vocab_size": 6201, "learned_vocab_size": 5924, "compression_ratio": 1.178535615963828, "example_words": [] }, { "step": 5925, "pair": [ "देव", "बाड़ा" ], "new_token": "देवबाड़ा", "frequency": 3, "vocab_size": 6202, "learned_vocab_size": 5925, "compression_ratio": 1.178535615963828, "example_words": [] }, { "step": 5926, "pair": [ "देवानी", "पुर" ], "new_token": "देवानीपुर", "frequency": 3, "vocab_size": 6203, "learned_vocab_size": 5926, "compression_ratio": 1.178535615963828, "example_words": [] }, { "step": 5927, "pair": [ "दो", "या" ], "new_token": "दोया", "frequency": 3, "vocab_size": 6204, "learned_vocab_size": 5927, "compression_ratio": 1.178535615963828, "example_words": [] }, { "step": 5928, "pair": [ "दोया", "धु" ], "new_token": "दोयाधु", "frequency": 3, "vocab_size": 6205, "learned_vocab_size": 5928, "compression_ratio": 1.1785420620725742, "example_words": [] }, { "step": 5929, "pair": [ "दोयाधु", "या" ], "new_token": "दोयाधुया", "frequency": 3, "vocab_size": 6206, "learned_vocab_size": 5929, "compression_ratio": 1.1785485082518359, "example_words": [] }, { "step": 5930, "pair": [ "धन", "केशरा" ], "new_token": "धनकेशरा", "frequency": 3, "vocab_size": 6207, "learned_vocab_size": 5930, "compression_ratio": 1.1785549545016145, "example_words": [] }, { "step": 5931, "pair": [ "धन", "सीपुर" ], "new_token": "धनसीपुर", "frequency": 3, "vocab_size": 6208, "learned_vocab_size": 5931, "compression_ratio": 1.1785549545016145, "example_words": [] }, { "step": 5932, "pair": [ "धनु", "पुर" ], "new_token": "धनुपुर", "frequency": 3, "vocab_size": 6209, "learned_vocab_size": 5932, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 5933, "pair": [ "धु", "डेहरी" ], "new_token": "धुडेहरी", "frequency": 3, "vocab_size": 6210, "learned_vocab_size": 5933, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 5934, "pair": [ "धु", "र्रावाँ" ], "new_token": "धुर्रावाँ", "frequency": 3, "vocab_size": 6211, "learned_vocab_size": 5934, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 5935, "pair": [ "धे", "ना" ], "new_token": "धेना", "frequency": 3, "vocab_size": 6212, "learned_vocab_size": 5935, "compression_ratio": 1.1785614008219107, "example_words": [] }, { "step": 5936, "pair": [ "ध", "ौरहारा" ], "new_token": "धौरहारा", "frequency": 3, "vocab_size": 6213, "learned_vocab_size": 5936, "compression_ratio": 1.1785678472127261, "example_words": [] }, { "step": 5937, "pair": [ "नंदा", "पट्टी" ], "new_token": "नंदापट्टी", "frequency": 3, "vocab_size": 6214, "learned_vocab_size": 5937, "compression_ratio": 1.1785678472127261, "example_words": [] }, { "step": 5938, "pair": [ "नगन", "थ" ], "new_token": "नगनथ", "frequency": 3, "vocab_size": 6215, "learned_vocab_size": 5938, "compression_ratio": 1.1785678472127261, "example_words": [] }, { "step": 5939, "pair": [ "नगनथ", "पुर" ], "new_token": "नगनथपुर", "frequency": 3, "vocab_size": 6216, "learned_vocab_size": 5939, "compression_ratio": 1.1785678472127261, "example_words": [] }, { "step": 5940, "pair": [ "न", "दौला" ], "new_token": "नदौला", "frequency": 3, "vocab_size": 6217, "learned_vocab_size": 5940, "compression_ratio": 1.1785678472127261, "example_words": [] }, { "step": 5941, "pair": [ "नाइ", "कीपुर" ], "new_token": "नाइकीपुर", "frequency": 3, "vocab_size": 6218, "learned_vocab_size": 5941, "compression_ratio": 1.1785678472127261, "example_words": [] }, { "step": 5942, "pair": [ "नासिर", "पट्टी" ], "new_token": "नासिरपट्टी", "frequency": 3, "vocab_size": 6219, "learned_vocab_size": 5942, "compression_ratio": 1.1785742936740617, "example_words": [] }, { "step": 5943, "pair": [ "ना", "हरपुर" ], "new_token": "नाहरपुर", "frequency": 3, "vocab_size": 6220, "learned_vocab_size": 5943, "compression_ratio": 1.1785742936740617, "example_words": [] }, { "step": 5944, "pair": [ "नि", "मि" ], "new_token": "निमि", "frequency": 3, "vocab_size": 6221, "learned_vocab_size": 5944, "compression_ratio": 1.1785742936740617, "example_words": [] }, { "step": 5945, "pair": [ "निमि", "वारी" ], "new_token": "निमिवारी", "frequency": 3, "vocab_size": 6222, "learned_vocab_size": 5945, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 5946, "pair": [ "ने", "कानामे" ], "new_token": "नेकानामे", "frequency": 3, "vocab_size": 6223, "learned_vocab_size": 5946, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 5947, "pair": [ "नेकानामे", "पुर" ], "new_token": "नेकानामेपुर", "frequency": 3, "vocab_size": 6224, "learned_vocab_size": 5947, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 5948, "pair": [ "ज", "ंघ" ], "new_token": "जंघ", "frequency": 3, "vocab_size": 6225, "learned_vocab_size": 5948, "compression_ratio": 1.1785807402059187, "example_words": [] }, { "step": 5949, "pair": [ "जंघ", "ई" ], "new_token": "जंघई", "frequency": 3, "vocab_size": 6226, "learned_vocab_size": 5949, "compression_ratio": 1.178587186808298, "example_words": [] }, { "step": 5950, "pair": [ "नो", "नारा" ], "new_token": "नोनारा", "frequency": 3, "vocab_size": 6227, "learned_vocab_size": 5950, "compression_ratio": 1.178593633481201, "example_words": [] }, { "step": 5951, "pair": [ "पकलु", "र" ], "new_token": "पकलुर", "frequency": 3, "vocab_size": 6228, "learned_vocab_size": 5951, "compression_ratio": 1.178593633481201, "example_words": [] }, { "step": 5952, "pair": [ "पट", "वा" ], "new_token": "पटवा", "frequency": 3, "vocab_size": 6229, "learned_vocab_size": 5952, "compression_ratio": 1.178593633481201, "example_words": [] }, { "step": 5953, "pair": [ "मुतफ़र्", "का" ], "new_token": "मुतफ़र्का", "frequency": 3, "vocab_size": 6230, "learned_vocab_size": 5953, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5954, "pair": [ "पटा", "या" ], "new_token": "पटाया", "frequency": 3, "vocab_size": 6231, "learned_vocab_size": 5954, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5955, "pair": [ "पटिया", "ला" ], "new_token": "पटियाला", "frequency": 3, "vocab_size": 6232, "learned_vocab_size": 5955, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5956, "pair": [ "प", "वारत" ], "new_token": "पवारत", "frequency": 3, "vocab_size": 6233, "learned_vocab_size": 5956, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5957, "pair": [ "पट्टी", "राम" ], "new_token": "पट्टीराम", "frequency": 3, "vocab_size": 6234, "learned_vocab_size": 5957, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5958, "pair": [ "पर", "भू" ], "new_token": "परभू", "frequency": 3, "vocab_size": 6235, "learned_vocab_size": 5958, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5959, "pair": [ "परभू", "पुर" ], "new_token": "परभूपुर", "frequency": 3, "vocab_size": 6236, "learned_vocab_size": 5959, "compression_ratio": 1.1786065270385828, "example_words": [] }, { "step": 5960, "pair": [ "परसो", "त्तमपुर" ], "new_token": "परसोत्तमपुर", "frequency": 3, "vocab_size": 6237, "learned_vocab_size": 5960, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 5961, "pair": [ "परे", "तीपुर" ], "new_token": "परेतीपुर", "frequency": 3, "vocab_size": 6238, "learned_vocab_size": 5961, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 5962, "pair": [ "पि", "ंदौना" ], "new_token": "पिंदौना", "frequency": 3, "vocab_size": 6239, "learned_vocab_size": 5962, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 5963, "pair": [ "भ", "दो" ], "new_token": "भदो", "frequency": 3, "vocab_size": 6240, "learned_vocab_size": 5963, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 5964, "pair": [ "भदो", "ही" ], "new_token": "भदोही", "frequency": 3, "vocab_size": 6241, "learned_vocab_size": 5964, "compression_ratio": 1.178632314999681, "example_words": [] }, { "step": 5965, "pair": [ "पि", "लखि" ], "new_token": "पिलखि", "frequency": 3, "vocab_size": 6242, "learned_vocab_size": 5965, "compression_ratio": 1.178638762166282, "example_words": [] }, { "step": 5966, "pair": [ "पिलखि", "नी" ], "new_token": "पिलखिनी", "frequency": 3, "vocab_size": 6243, "learned_vocab_size": 5966, "compression_ratio": 1.178638762166282, "example_words": [] }, { "step": 5967, "pair": [ "ग", "देरिया" ], "new_token": "गदेरिया", "frequency": 3, "vocab_size": 6244, "learned_vocab_size": 5967, "compression_ratio": 1.178638762166282, "example_words": [] }, { "step": 5968, "pair": [ "गो", "बाई" ], "new_token": "गोबाई", "frequency": 3, "vocab_size": 6245, "learned_vocab_size": 5968, "compression_ratio": 1.178638762166282, "example_words": [] }, { "step": 5969, "pair": [ "मथुरा", "दास" ], "new_token": "मथुरादास", "frequency": 3, "vocab_size": 6246, "learned_vocab_size": 5969, "compression_ratio": 1.1786452094034159, "example_words": [] }, { "step": 5970, "pair": [ "रु", "दा" ], "new_token": "रुदा", "frequency": 3, "vocab_size": 6247, "learned_vocab_size": 5970, "compression_ratio": 1.1786516567110839, "example_words": [] }, { "step": 5971, "pair": [ "रुदा", "ए" ], "new_token": "रुदाए", "frequency": 3, "vocab_size": 6248, "learned_vocab_size": 5971, "compression_ratio": 1.1786645515380267, "example_words": [] }, { "step": 5972, "pair": [ "लु", "टा" ], "new_token": "लुटा", "frequency": 3, "vocab_size": 6249, "learned_vocab_size": 5972, "compression_ratio": 1.1786709990573039, "example_words": [] }, { "step": 5973, "pair": [ "लुटा", "ए" ], "new_token": "लुटाए", "frequency": 3, "vocab_size": 6250, "learned_vocab_size": 5973, "compression_ratio": 1.1786774466471197, "example_words": [] }, { "step": 5974, "pair": [ "सदा", "भ" ], "new_token": "सदाभ", "frequency": 3, "vocab_size": 6251, "learned_vocab_size": 5974, "compression_ratio": 1.1786838943074756, "example_words": [] }, { "step": 5975, "pair": [ "सदाभ", "ला" ], "new_token": "सदाभला", "frequency": 3, "vocab_size": 6252, "learned_vocab_size": 5975, "compression_ratio": 1.1786838943074756, "example_words": [] }, { "step": 5976, "pair": [ "सु", "खा" ], "new_token": "सुखा", "frequency": 3, "vocab_size": 6253, "learned_vocab_size": 5976, "compression_ratio": 1.1786838943074756, "example_words": [] }, { "step": 5977, "pair": [ "सुखा", "व" ], "new_token": "सुखाव", "frequency": 3, "vocab_size": 6254, "learned_vocab_size": 5977, "compression_ratio": 1.178690342038372, "example_words": [] }, { "step": 5978, "pair": [ "पुरे", "ठकुराइन" ], "new_token": "पुरेठकुराइन", "frequency": 3, "vocab_size": 6255, "learned_vocab_size": 5978, "compression_ratio": 1.178696789839811, "example_words": [] }, { "step": 5979, "pair": [ "भ", "नाई" ], "new_token": "भनाई", "frequency": 3, "vocab_size": 6256, "learned_vocab_size": 5979, "compression_ratio": 1.178696789839811, "example_words": [] }, { "step": 5980, "pair": [ "पृथ्वी", "पुर" ], "new_token": "पृथ्वीपुर", "frequency": 3, "vocab_size": 6257, "learned_vocab_size": 5980, "compression_ratio": 1.1787032377117934, "example_words": [] }, { "step": 5981, "pair": [ "पै", "गवा" ], "new_token": "पैगवा", "frequency": 3, "vocab_size": 6258, "learned_vocab_size": 5981, "compression_ratio": 1.17870968565432, "example_words": [] }, { "step": 5982, "pair": [ "पै", "गहा" ], "new_token": "पैगहा", "frequency": 3, "vocab_size": 6259, "learned_vocab_size": 5982, "compression_ratio": 1.1787161336673924, "example_words": [] }, { "step": 5983, "pair": [ "पो", "आ" ], "new_token": "पोआ", "frequency": 3, "vocab_size": 6260, "learned_vocab_size": 5983, "compression_ratio": 1.1787225817510116, "example_words": [] }, { "step": 5984, "pair": [ "पोआ", "दन" ], "new_token": "पोआदन", "frequency": 3, "vocab_size": 6261, "learned_vocab_size": 5984, "compression_ratio": 1.1787290299051787, "example_words": [] }, { "step": 5985, "pair": [ "प्या", "गी" ], "new_token": "प्यागी", "frequency": 3, "vocab_size": 6262, "learned_vocab_size": 5985, "compression_ratio": 1.1787354781298949, "example_words": [] }, { "step": 5986, "pair": [ "प्यागी", "पुर" ], "new_token": "प्यागीपुर", "frequency": 3, "vocab_size": 6263, "learned_vocab_size": 5986, "compression_ratio": 1.1787354781298949, "example_words": [] }, { "step": 5987, "pair": [ "प्यारे", "पुर" ], "new_token": "प्यारेपुर", "frequency": 3, "vocab_size": 6264, "learned_vocab_size": 5987, "compression_ratio": 1.1787354781298949, "example_words": [] }, { "step": 5988, "pair": [ "फ़", "तुहा" ], "new_token": "फ़तुहा", "frequency": 3, "vocab_size": 6265, "learned_vocab_size": 5988, "compression_ratio": 1.1787354781298949, "example_words": [] }, { "step": 5989, "pair": [ "फ़", "तेहपुर" ], "new_token": "फ़तेहपुर", "frequency": 3, "vocab_size": 6266, "learned_vocab_size": 5989, "compression_ratio": 1.1787419264251615, "example_words": [] }, { "step": 5990, "pair": [ "फी", "रोज़" ], "new_token": "फीरोज़", "frequency": 3, "vocab_size": 6267, "learned_vocab_size": 5990, "compression_ratio": 1.1787419264251615, "example_words": [] }, { "step": 5991, "pair": [ "फीरोज़", "पुर" ], "new_token": "फीरोज़पुर", "frequency": 3, "vocab_size": 6268, "learned_vocab_size": 5991, "compression_ratio": 1.1787483747909795, "example_words": [] }, { "step": 5992, "pair": [ "रसू", "लहा" ], "new_token": "रसूलहा", "frequency": 3, "vocab_size": 6269, "learned_vocab_size": 5992, "compression_ratio": 1.17875482322735, "example_words": [] }, { "step": 5993, "pair": [ "बख्", "तियारा" ], "new_token": "बख्तियारा", "frequency": 3, "vocab_size": 6270, "learned_vocab_size": 5993, "compression_ratio": 1.17875482322735, "example_words": [] }, { "step": 5994, "pair": [ "ह", "व" ], "new_token": "हव", "frequency": 3, "vocab_size": 6271, "learned_vocab_size": 5994, "compression_ratio": 1.17875482322735, "example_words": [] }, { "step": 5995, "pair": [ "हव", "साबाद" ], "new_token": "हवसाबाद", "frequency": 3, "vocab_size": 6272, "learned_vocab_size": 5995, "compression_ratio": 1.178600080224629, "example_words": [] }, { "step": 5996, "pair": [ "बघा", "पुर" ], "new_token": "बघापुर", "frequency": 3, "vocab_size": 6273, "learned_vocab_size": 5996, "compression_ratio": 1.1786065270385828, "example_words": [] }, { "step": 5997, "pair": [ "ब", "ज़" ], "new_token": "बज़", "frequency": 3, "vocab_size": 6274, "learned_vocab_size": 5997, "compression_ratio": 1.1786065270385828, "example_words": [] }, { "step": 5998, "pair": [ "बज़", "टी" ], "new_token": "बज़टी", "frequency": 3, "vocab_size": 6275, "learned_vocab_size": 5998, "compression_ratio": 1.1786129739230637, "example_words": [] }, { "step": 5999, "pair": [ "ब", "जहा" ], "new_token": "बजहा", "frequency": 3, "vocab_size": 6276, "learned_vocab_size": 5999, "compression_ratio": 1.178619420878073, "example_words": [] }, { "step": 6000, "pair": [ "बड़", "गाँव" ], "new_token": "बड़गाँव", "frequency": 3, "vocab_size": 6277, "learned_vocab_size": 6000, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 6001, "pair": [ "सराय", "पीठ" ], "new_token": "सरायपीठ", "frequency": 3, "vocab_size": 6278, "learned_vocab_size": 6001, "compression_ratio": 1.1786258679036117, "example_words": [ "सरायपीठ" ] }, { "step": 6002, "pair": [ "बनी", "पुर" ], "new_token": "बनीपुर", "frequency": 3, "vocab_size": 6279, "learned_vocab_size": 6002, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 6003, "pair": [ "ब", "बु" ], "new_token": "बबु", "frequency": 3, "vocab_size": 6280, "learned_vocab_size": 6003, "compression_ratio": 1.1786258679036117, "example_words": [] }, { "step": 6004, "pair": [ "बबु", "वापुर" ], "new_token": "बबुवापुर", "frequency": 3, "vocab_size": 6281, "learned_vocab_size": 6004, "compression_ratio": 1.1786344640473776, "example_words": [] }, { "step": 6005, "pair": [ "ब", "बूपुर" ], "new_token": "बबूपुर", "frequency": 3, "vocab_size": 6282, "learned_vocab_size": 6005, "compression_ratio": 1.1786409112374896, "example_words": [] }, { "step": 6006, "pair": [ "ब", "बूरी" ], "new_token": "बबूरी", "frequency": 3, "vocab_size": 6283, "learned_vocab_size": 6006, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6007, "pair": [ "ब", "मलि" ], "new_token": "बमलि", "frequency": 3, "vocab_size": 6284, "learned_vocab_size": 6007, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6008, "pair": [ "बमलि", "आ" ], "new_token": "बमलिआ", "frequency": 3, "vocab_size": 6285, "learned_vocab_size": 6008, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6009, "pair": [ "बरौ", "त" ], "new_token": "बरौत", "frequency": 3, "vocab_size": 6286, "learned_vocab_size": 6009, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6010, "pair": [ "बल", "दिहा" ], "new_token": "बलदिहा", "frequency": 3, "vocab_size": 6287, "learned_vocab_size": 6010, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6011, "pair": [ "बसने", "हटा" ], "new_token": "बसनेहटा", "frequency": 3, "vocab_size": 6288, "learned_vocab_size": 6011, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6012, "pair": [ "बसे", "गि" ], "new_token": "बसेगि", "frequency": 3, "vocab_size": 6289, "learned_vocab_size": 6012, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6013, "pair": [ "बसेगि", "ट" ], "new_token": "बसेगिट", "frequency": 3, "vocab_size": 6290, "learned_vocab_size": 6013, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6014, "pair": [ "बहू", "पुर" ], "new_token": "बहूपुर", "frequency": 3, "vocab_size": 6291, "learned_vocab_size": 6014, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6015, "pair": [ "बाग", "दहा" ], "new_token": "बागदहा", "frequency": 3, "vocab_size": 6292, "learned_vocab_size": 6015, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6016, "pair": [ "विक्रम", "शाह" ], "new_token": "विक्रमशाह", "frequency": 3, "vocab_size": 6293, "learned_vocab_size": 6016, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6017, "pair": [ "बा", "थू" ], "new_token": "बाथू", "frequency": 3, "vocab_size": 6294, "learned_vocab_size": 6017, "compression_ratio": 1.1786473584981347, "example_words": [] }, { "step": 6018, "pair": [ "बाथू", "पुर" ], "new_token": "बाथूपुर", "frequency": 3, "vocab_size": 6295, "learned_vocab_size": 6018, "compression_ratio": 1.1786538058293143, "example_words": [] }, { "step": 6019, "pair": [ "बा", "बूपुर" ], "new_token": "बाबूपुर", "frequency": 3, "vocab_size": 6296, "learned_vocab_size": 6019, "compression_ratio": 1.1786602532310295, "example_words": [] }, { "step": 6020, "pair": [ "बि", "ंदरवाँ" ], "new_token": "बिंदरवाँ", "frequency": 3, "vocab_size": 6297, "learned_vocab_size": 6020, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6021, "pair": [ "बि", "ंदा" ], "new_token": "बिंदा", "frequency": 3, "vocab_size": 6298, "learned_vocab_size": 6021, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6022, "pair": [ "बिंदा", "चक" ], "new_token": "बिंदाचक", "frequency": 3, "vocab_size": 6299, "learned_vocab_size": 6022, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6023, "pair": [ "बिग", "हिया" ], "new_token": "बिगहिया", "frequency": 3, "vocab_size": 6300, "learned_vocab_size": 6023, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6024, "pair": [ "बिझ", "वनिया" ], "new_token": "बिझवनिया", "frequency": 3, "vocab_size": 6301, "learned_vocab_size": 6024, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6025, "pair": [ "बिझ", "ौली" ], "new_token": "बिझौली", "frequency": 3, "vocab_size": 6302, "learned_vocab_size": 6025, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6026, "pair": [ "बि", "यौर" ], "new_token": "बियौर", "frequency": 3, "vocab_size": 6303, "learned_vocab_size": 6026, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6027, "pair": [ "बिरही", "मपुर" ], "new_token": "बिरहीमपुर", "frequency": 3, "vocab_size": 6304, "learned_vocab_size": 6027, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6028, "pair": [ "बीबी", "वारी" ], "new_token": "बीबीवारी", "frequency": 3, "vocab_size": 6305, "learned_vocab_size": 6028, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6029, "pair": [ "कसौ", "धा" ], "new_token": "कसौधा", "frequency": 3, "vocab_size": 6306, "learned_vocab_size": 6029, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6030, "pair": [ "कसौधा", "ँ" ], "new_token": "कसौधाँ", "frequency": 3, "vocab_size": 6307, "learned_vocab_size": 6030, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6031, "pair": [ "बुध", "या" ], "new_token": "बुधया", "frequency": 3, "vocab_size": 6308, "learned_vocab_size": 6031, "compression_ratio": 1.1786667007032816, "example_words": [] }, { "step": 6032, "pair": [ "भ", "दरी" ], "new_token": "भदरी", "frequency": 3, "vocab_size": 6309, "learned_vocab_size": 6032, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6033, "pair": [ "भ", "दवान" ], "new_token": "भदवान", "frequency": 3, "vocab_size": 6310, "learned_vocab_size": 6033, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6034, "pair": [ "भये", "लखा" ], "new_token": "भयेलखा", "frequency": 3, "vocab_size": 6311, "learned_vocab_size": 6034, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6035, "pair": [ "भरत", "ौ" ], "new_token": "भरतौ", "frequency": 3, "vocab_size": 6312, "learned_vocab_size": 6035, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6036, "pair": [ "भरतौ", "टी" ], "new_token": "भरतौटी", "frequency": 3, "vocab_size": 6313, "learned_vocab_size": 6036, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6037, "pair": [ "भ", "हारपुर" ], "new_token": "भहारपुर", "frequency": 3, "vocab_size": 6314, "learned_vocab_size": 6037, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6038, "pair": [ "भारो", "पुर" ], "new_token": "भारोपुर", "frequency": 3, "vocab_size": 6315, "learned_vocab_size": 6038, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6039, "pair": [ "भि", "सकी" ], "new_token": "भिसकी", "frequency": 3, "vocab_size": 6316, "learned_vocab_size": 6039, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6040, "pair": [ "भू", "ई" ], "new_token": "भूई", "frequency": 3, "vocab_size": 6317, "learned_vocab_size": 6040, "compression_ratio": 1.1786731482460715, "example_words": [] }, { "step": 6041, "pair": [ "भू", "पतपुर" ], "new_token": "भूपतपुर", "frequency": 3, "vocab_size": 6318, "learned_vocab_size": 6041, "compression_ratio": 1.1786795958594005, "example_words": [] }, { "step": 6042, "pair": [ "भू", "पत्ती" ], "new_token": "भूपत्ती", "frequency": 3, "vocab_size": 6319, "learned_vocab_size": 6042, "compression_ratio": 1.1786795958594005, "example_words": [] }, { "step": 6043, "pair": [ "भू", "लेंड" ], "new_token": "भूलेंड", "frequency": 3, "vocab_size": 6320, "learned_vocab_size": 6043, "compression_ratio": 1.1786795958594005, "example_words": [] }, { "step": 6044, "pair": [ "भू", "संड" ], "new_token": "भूसंड", "frequency": 3, "vocab_size": 6321, "learned_vocab_size": 6044, "compression_ratio": 1.1786795958594005, "example_words": [] }, { "step": 6045, "pair": [ "भूसंड", "पुर" ], "new_token": "भूसंडपुर", "frequency": 3, "vocab_size": 6322, "learned_vocab_size": 6045, "compression_ratio": 1.1786795958594005, "example_words": [] }, { "step": 6046, "pair": [ "भू", "सलपुर" ], "new_token": "भूसलपुर", "frequency": 3, "vocab_size": 6323, "learned_vocab_size": 6046, "compression_ratio": 1.1786795958594005, "example_words": [] }, { "step": 6047, "pair": [ "भे", "मपुर" ], "new_token": "भेमपुर", "frequency": 3, "vocab_size": 6324, "learned_vocab_size": 6047, "compression_ratio": 1.1786860435432698, "example_words": [] }, { "step": 6048, "pair": [ "भे", "लसी" ], "new_token": "भेलसी", "frequency": 3, "vocab_size": 6325, "learned_vocab_size": 6048, "compression_ratio": 1.1786924912976804, "example_words": [] }, { "step": 6049, "pair": [ "भो", "गवारा" ], "new_token": "भोगवारा", "frequency": 3, "vocab_size": 6326, "learned_vocab_size": 6049, "compression_ratio": 1.1786924912976804, "example_words": [] }, { "step": 6050, "pair": [ "भो", "जा" ], "new_token": "भोजा", "frequency": 3, "vocab_size": 6327, "learned_vocab_size": 6050, "compression_ratio": 1.1786924912976804, "example_words": [] }, { "step": 6051, "pair": [ "मकदू", "मपुर" ], "new_token": "मकदूमपुर", "frequency": 3, "vocab_size": 6328, "learned_vocab_size": 6051, "compression_ratio": 1.1786989391226337, "example_words": [] }, { "step": 6052, "pair": [ "मकसू", "दना" ], "new_token": "मकसूदना", "frequency": 3, "vocab_size": 6329, "learned_vocab_size": 6052, "compression_ratio": 1.1786989391226337, "example_words": [] }, { "step": 6053, "pair": [ "मझ", "यार" ], "new_token": "मझयार", "frequency": 3, "vocab_size": 6330, "learned_vocab_size": 6053, "compression_ratio": 1.1786989391226337, "example_words": [] }, { "step": 6054, "pair": [ "म", "थो" ], "new_token": "मथो", "frequency": 3, "vocab_size": 6331, "learned_vocab_size": 6054, "compression_ratio": 1.1786989391226337, "example_words": [] }, { "step": 6055, "pair": [ "मथो", "य" ], "new_token": "मथोय", "frequency": 3, "vocab_size": 6332, "learned_vocab_size": 6055, "compression_ratio": 1.1787053870181305, "example_words": [] }, { "step": 6056, "pair": [ "मदारी", "पुर" ], "new_token": "मदारीपुर", "frequency": 3, "vocab_size": 6333, "learned_vocab_size": 6056, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6057, "pair": [ "मले", "थु" ], "new_token": "मलेथु", "frequency": 3, "vocab_size": 6334, "learned_vocab_size": 6057, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6058, "pair": [ "मलेथु", "वा" ], "new_token": "मलेथुवा", "frequency": 3, "vocab_size": 6335, "learned_vocab_size": 6058, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6059, "pair": [ "हिंदू", "बनी" ], "new_token": "हिंदूबनी", "frequency": 3, "vocab_size": 6336, "learned_vocab_size": 6059, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6060, "pair": [ "मसु", "इ" ], "new_token": "मसुइ", "frequency": 3, "vocab_size": 6337, "learned_vocab_size": 6060, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6061, "pair": [ "मसुइ", "दिया" ], "new_token": "मसुइदिया", "frequency": 3, "vocab_size": 6338, "learned_vocab_size": 6061, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6062, "pair": [ "महती", "कर" ], "new_token": "महतीकर", "frequency": 3, "vocab_size": 6339, "learned_vocab_size": 6062, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6063, "pair": [ "महर", "छा" ], "new_token": "महरछा", "frequency": 3, "vocab_size": 6340, "learned_vocab_size": 6063, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6064, "pair": [ "महा", "खरा" ], "new_token": "महाखरा", "frequency": 3, "vocab_size": 6341, "learned_vocab_size": 6064, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6065, "pair": [ "महा", "जना" ], "new_token": "महाजना", "frequency": 3, "vocab_size": 6342, "learned_vocab_size": 6065, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6066, "pair": [ "को", "ठी" ], "new_token": "कोठी", "frequency": 3, "vocab_size": 6343, "learned_vocab_size": 6066, "compression_ratio": 1.1787118349841723, "example_words": [] }, { "step": 6067, "pair": [ "महुआ", "डीह" ], "new_token": "महुआडीह", "frequency": 3, "vocab_size": 6344, "learned_vocab_size": 6067, "compression_ratio": 1.17871828302076, "example_words": [] }, { "step": 6068, "pair": [ "मा", "कनपुर" ], "new_token": "माकनपुर", "frequency": 3, "vocab_size": 6345, "learned_vocab_size": 6068, "compression_ratio": 1.17871828302076, "example_words": [] }, { "step": 6069, "pair": [ "मि", "दि" ], "new_token": "मिदि", "frequency": 3, "vocab_size": 6346, "learned_vocab_size": 6069, "compression_ratio": 1.17871828302076, "example_words": [] }, { "step": 6070, "pair": [ "मिदि", "उरा" ], "new_token": "मिदिउरा", "frequency": 3, "vocab_size": 6347, "learned_vocab_size": 6070, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 6071, "pair": [ "मी", "ठ" ], "new_token": "मीठ", "frequency": 3, "vocab_size": 6348, "learned_vocab_size": 6071, "compression_ratio": 1.1787247311278952, "example_words": [] }, { "step": 6072, "pair": [ "मीठ", "ू" ], "new_token": "मीठू", "frequency": 3, "vocab_size": 6349, "learned_vocab_size": 6072, "compression_ratio": 1.1787139843218633, "example_words": [] }, { "step": 6073, "pair": [ "मीठू", "पुर" ], "new_token": "मीठूपुर", "frequency": 3, "vocab_size": 6350, "learned_vocab_size": 6073, "compression_ratio": 1.1787204323819667, "example_words": [] }, { "step": 6074, "pair": [ "मु", "ंत" ], "new_token": "मुंत", "frequency": 3, "vocab_size": 6351, "learned_vocab_size": 6074, "compression_ratio": 1.1787268805126176, "example_words": [] }, { "step": 6075, "pair": [ "मुंत", "जि" ], "new_token": "मुंतजि", "frequency": 3, "vocab_size": 6352, "learned_vocab_size": 6075, "compression_ratio": 1.1787333287138173, "example_words": [] }, { "step": 6076, "pair": [ "मुंतजि", "बपुर" ], "new_token": "मुंतजिबपुर", "frequency": 3, "vocab_size": 6353, "learned_vocab_size": 6076, "compression_ratio": 1.178739776985567, "example_words": [] }, { "step": 6077, "pair": [ "मु", "इनु" ], "new_token": "मुइनु", "frequency": 3, "vocab_size": 6354, "learned_vocab_size": 6077, "compression_ratio": 1.1787462253278675, "example_words": [] }, { "step": 6078, "pair": [ "मुइनु", "द्दीनपुर" ], "new_token": "मुइनुद्दीनपुर", "frequency": 3, "vocab_size": 6355, "learned_vocab_size": 6078, "compression_ratio": 1.1787462253278675, "example_words": [] }, { "step": 6079, "pair": [ "मु", "गरसों" ], "new_token": "मुगरसों", "frequency": 3, "vocab_size": 6356, "learned_vocab_size": 6079, "compression_ratio": 1.1787462253278675, "example_words": [] }, { "step": 6080, "pair": [ "मु", "गा" ], "new_token": "मुगा", "frequency": 3, "vocab_size": 6357, "learned_vocab_size": 6080, "compression_ratio": 1.1787462253278675, "example_words": [] }, { "step": 6081, "pair": [ "मु", "लनापुर" ], "new_token": "मुलनापुर", "frequency": 3, "vocab_size": 6358, "learned_vocab_size": 6081, "compression_ratio": 1.1787526737407206, "example_words": [] }, { "step": 6082, "pair": [ "मुहि", "उद्दीनपुर" ], "new_token": "मुहिउद्दीनपुर", "frequency": 3, "vocab_size": 6359, "learned_vocab_size": 6082, "compression_ratio": 1.1787526737407206, "example_words": [] }, { "step": 6083, "pair": [ "मुहि", "द्दिनपुर" ], "new_token": "मुहिद्दिनपुर", "frequency": 3, "vocab_size": 6360, "learned_vocab_size": 6083, "compression_ratio": 1.1787526737407206, "example_words": [] }, { "step": 6084, "pair": [ "मै", "र" ], "new_token": "मैर", "frequency": 3, "vocab_size": 6361, "learned_vocab_size": 6084, "compression_ratio": 1.1787526737407206, "example_words": [] }, { "step": 6085, "pair": [ "मैर", "दान" ], "new_token": "मैरदान", "frequency": 3, "vocab_size": 6362, "learned_vocab_size": 6085, "compression_ratio": 1.178739776985567, "example_words": [] }, { "step": 6086, "pair": [ "मो", "तिहा" ], "new_token": "मोतिहा", "frequency": 3, "vocab_size": 6363, "learned_vocab_size": 6086, "compression_ratio": 1.178739776985567, "example_words": [] }, { "step": 6087, "pair": [ "या", "कू" ], "new_token": "याकू", "frequency": 3, "vocab_size": 6364, "learned_vocab_size": 6087, "compression_ratio": 1.1787784680976774, "example_words": [] }, { "step": 6088, "pair": [ "याकू", "बपुर" ], "new_token": "याकूबपुर", "frequency": 3, "vocab_size": 6365, "learned_vocab_size": 6088, "compression_ratio": 1.1787849168633087, "example_words": [] }, { "step": 6089, "pair": [ "या", "सिनपुर" ], "new_token": "यासिनपुर", "frequency": 3, "vocab_size": 6366, "learned_vocab_size": 6089, "compression_ratio": 1.178791365699499, "example_words": [] }, { "step": 6090, "pair": [ "रघु", "पुर" ], "new_token": "रघुपुर", "frequency": 3, "vocab_size": 6367, "learned_vocab_size": 6090, "compression_ratio": 1.178791365699499, "example_words": [] }, { "step": 6091, "pair": [ "रन", "का" ], "new_token": "रनका", "frequency": 3, "vocab_size": 6368, "learned_vocab_size": 6091, "compression_ratio": 1.1787978146062499, "example_words": [] }, { "step": 6092, "pair": [ "रव", "थू" ], "new_token": "रवथू", "frequency": 3, "vocab_size": 6369, "learned_vocab_size": 6092, "compression_ratio": 1.178804263583562, "example_words": [] }, { "step": 6093, "pair": [ "फ", "तू" ], "new_token": "फतू", "frequency": 3, "vocab_size": 6370, "learned_vocab_size": 6093, "compression_ratio": 1.1788107126314369, "example_words": [] }, { "step": 6094, "pair": [ "फतू", "हा" ], "new_token": "फतूहा", "frequency": 3, "vocab_size": 6371, "learned_vocab_size": 6094, "compression_ratio": 1.1788171617498755, "example_words": [] }, { "step": 6095, "pair": [ "रसू", "ला" ], "new_token": "रसूला", "frequency": 3, "vocab_size": 6372, "learned_vocab_size": 6095, "compression_ratio": 1.1788236109388792, "example_words": [] }, { "step": 6096, "pair": [ "रही", "मपट्टी" ], "new_token": "रहीमपट्टी", "frequency": 3, "vocab_size": 6373, "learned_vocab_size": 6096, "compression_ratio": 1.1788236109388792, "example_words": [] }, { "step": 6097, "pair": [ "रानिया", "डीह" ], "new_token": "रानियाडीह", "frequency": 3, "vocab_size": 6374, "learned_vocab_size": 6097, "compression_ratio": 1.1788236109388792, "example_words": [] }, { "step": 6098, "pair": [ "रामन", "थी" ], "new_token": "रामनथी", "frequency": 3, "vocab_size": 6375, "learned_vocab_size": 6098, "compression_ratio": 1.1788236109388792, "example_words": [] }, { "step": 6099, "pair": [ "रामी", "पुर" ], "new_token": "रामीपुर", "frequency": 3, "vocab_size": 6376, "learned_vocab_size": 6099, "compression_ratio": 1.1788236109388792, "example_words": [] }, { "step": 6100, "pair": [ "रिथ", "वा" ], "new_token": "रिथवा", "frequency": 3, "vocab_size": 6377, "learned_vocab_size": 6100, "compression_ratio": 1.1788236109388792, "example_words": [] }, { "step": 6101, "pair": [ "री", "खी" ], "new_token": "रीखी", "frequency": 3, "vocab_size": 6378, "learned_vocab_size": 6101, "compression_ratio": 1.1788300601984487, "example_words": [ "रीखीपुर" ] }, { "step": 6102, "pair": [ "रीखी", "पुर" ], "new_token": "रीखीपुर", "frequency": 3, "vocab_size": 6379, "learned_vocab_size": 6102, "compression_ratio": 1.1788365095285858, "example_words": [] }, { "step": 6103, "pair": [ "असे", "पुर" ], "new_token": "असेपुर", "frequency": 3, "vocab_size": 6380, "learned_vocab_size": 6103, "compression_ratio": 1.178842958929291, "example_words": [] }, { "step": 6104, "pair": [ "लोका", "पुर" ], "new_token": "लोकापुर", "frequency": 3, "vocab_size": 6381, "learned_vocab_size": 6104, "compression_ratio": 1.178842958929291, "example_words": [] }, { "step": 6105, "pair": [ "वकसा", "पुर" ], "new_token": "वकसापुर", "frequency": 3, "vocab_size": 6382, "learned_vocab_size": 6105, "compression_ratio": 1.178842958929291, "example_words": [] }, { "step": 6106, "pair": [ "वन", "पूर्व" ], "new_token": "वनपूर्व", "frequency": 3, "vocab_size": 6383, "learned_vocab_size": 6106, "compression_ratio": 1.178842958929291, "example_words": [] }, { "step": 6107, "pair": [ "वरी", "भीत" ], "new_token": "वरीभीत", "frequency": 3, "vocab_size": 6384, "learned_vocab_size": 6107, "compression_ratio": 1.178849408400566, "example_words": [] }, { "step": 6108, "pair": [ "वि", "ट्" ], "new_token": "विट्", "frequency": 3, "vocab_size": 6385, "learned_vocab_size": 6108, "compression_ratio": 1.178849408400566, "example_words": [] }, { "step": 6109, "pair": [ "विट्", "ठ" ], "new_token": "विट्ठ", "frequency": 3, "vocab_size": 6386, "learned_vocab_size": 6109, "compression_ratio": 1.1788558579424118, "example_words": [] }, { "step": 6110, "pair": [ "विट्ठ", "लपुर" ], "new_token": "विट्ठलपुर", "frequency": 3, "vocab_size": 6387, "learned_vocab_size": 6110, "compression_ratio": 1.1788623075548292, "example_words": [] }, { "step": 6111, "pair": [ "वि", "ठ" ], "new_token": "विठ", "frequency": 3, "vocab_size": 6388, "learned_vocab_size": 6111, "compression_ratio": 1.17886875723782, "example_words": [] }, { "step": 6112, "pair": [ "विठ", "ौली" ], "new_token": "विठौली", "frequency": 3, "vocab_size": 6389, "learned_vocab_size": 6112, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6113, "pair": [ "वीरा", "पुर" ], "new_token": "वीरापुर", "frequency": 3, "vocab_size": 6390, "learned_vocab_size": 6113, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6114, "pair": [ "शु", "कुलपुर" ], "new_token": "शुकुलपुर", "frequency": 3, "vocab_size": 6391, "learned_vocab_size": 6114, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6115, "pair": [ "शेख", "ौरा" ], "new_token": "शेखौरा", "frequency": 3, "vocab_size": 6392, "learned_vocab_size": 6115, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6116, "pair": [ "समरु", "वा" ], "new_token": "समरुवा", "frequency": 3, "vocab_size": 6393, "learned_vocab_size": 6116, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6117, "pair": [ "समो", "धीपुर" ], "new_token": "समोधीपुर", "frequency": 3, "vocab_size": 6394, "learned_vocab_size": 6117, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6118, "pair": [ "ब", "क्सा" ], "new_token": "बक्सा", "frequency": 3, "vocab_size": 6395, "learned_vocab_size": 6118, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6119, "pair": [ "य़", "ू" ], "new_token": "य़ू", "frequency": 3, "vocab_size": 6396, "learned_vocab_size": 6119, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6120, "pair": [ "य़ू", "सु" ], "new_token": "य़ूसु", "frequency": 3, "vocab_size": 6397, "learned_vocab_size": 6120, "compression_ratio": 1.178881656815525, "example_words": [] }, { "step": 6121, "pair": [ "य़ूसु", "फ" ], "new_token": "य़ूसुफ", "frequency": 3, "vocab_size": 6398, "learned_vocab_size": 6121, "compression_ratio": 1.1788881067102417, "example_words": [] }, { "step": 6122, "pair": [ "ममरे", "ज" ], "new_token": "ममरेज", "frequency": 3, "vocab_size": 6399, "learned_vocab_size": 6122, "compression_ratio": 1.1788945566755362, "example_words": [] }, { "step": 6123, "pair": [ "माँ", "ड" ], "new_token": "माँड", "frequency": 3, "vocab_size": 6400, "learned_vocab_size": 6123, "compression_ratio": 1.1788945566755362, "example_words": [] }, { "step": 6124, "pair": [ "सर", "पो" ], "new_token": "सरपो", "frequency": 3, "vocab_size": 6401, "learned_vocab_size": 6124, "compression_ratio": 1.1789010067114094, "example_words": [] }, { "step": 6125, "pair": [ "सरपो", "असबीर" ], "new_token": "सरपोअसबीर", "frequency": 3, "vocab_size": 6402, "learned_vocab_size": 6125, "compression_ratio": 1.1789074568178626, "example_words": [] }, { "step": 6126, "pair": [ "हरि", "राम" ], "new_token": "हरिराम", "frequency": 3, "vocab_size": 6403, "learned_vocab_size": 6126, "compression_ratio": 1.1789074568178626, "example_words": [] }, { "step": 6127, "pair": [ "हू", "सी" ], "new_token": "हूसी", "frequency": 3, "vocab_size": 6404, "learned_vocab_size": 6127, "compression_ratio": 1.1789074568178626, "example_words": [] }, { "step": 6128, "pair": [ "बाँ", "की" ], "new_token": "बाँकी", "frequency": 3, "vocab_size": 6405, "learned_vocab_size": 6128, "compression_ratio": 1.178913906994897, "example_words": [] }, { "step": 6129, "pair": [ "सरी", "फ" ], "new_token": "सरीफ", "frequency": 3, "vocab_size": 6406, "learned_vocab_size": 6129, "compression_ratio": 1.1789203572425138, "example_words": [] }, { "step": 6130, "pair": [ "सरीफ", "पुर" ], "new_token": "सरीफपुर", "frequency": 3, "vocab_size": 6407, "learned_vocab_size": 6130, "compression_ratio": 1.1789203572425138, "example_words": [] }, { "step": 6131, "pair": [ "सली", "मपुर" ], "new_token": "सलीमपुर", "frequency": 3, "vocab_size": 6408, "learned_vocab_size": 6131, "compression_ratio": 1.1789203572425138, "example_words": [] }, { "step": 6132, "pair": [ "सले", "मपट्टी" ], "new_token": "सलेमपट्टी", "frequency": 3, "vocab_size": 6409, "learned_vocab_size": 6132, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6133, "pair": [ "स", "वरन" ], "new_token": "सवरन", "frequency": 3, "vocab_size": 6410, "learned_vocab_size": 6133, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6134, "pair": [ "सह", "बाजपुर" ], "new_token": "सहबाजपुर", "frequency": 3, "vocab_size": 6411, "learned_vocab_size": 6134, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6135, "pair": [ "साहे", "बपुर" ], "new_token": "साहेबपुर", "frequency": 3, "vocab_size": 6412, "learned_vocab_size": 6135, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6136, "pair": [ "परसो", "त्तम" ], "new_token": "परसोत्तम", "frequency": 3, "vocab_size": 6413, "learned_vocab_size": 6136, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6137, "pair": [ "सि", "थौली" ], "new_token": "सिथौली", "frequency": 3, "vocab_size": 6414, "learned_vocab_size": 6137, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6138, "pair": [ "सि", "ध" ], "new_token": "सिध", "frequency": 3, "vocab_size": 6415, "learned_vocab_size": 6138, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6139, "pair": [ "सिध", "वर" ], "new_token": "सिधवर", "frequency": 3, "vocab_size": 6416, "learned_vocab_size": 6139, "compression_ratio": 1.1789375582479031, "example_words": [] }, { "step": 6140, "pair": [ "सु", "आरा" ], "new_token": "सुआरा", "frequency": 3, "vocab_size": 6417, "learned_vocab_size": 6140, "compression_ratio": 1.1789440087543315, "example_words": [] }, { "step": 6141, "pair": [ "सु", "जौला" ], "new_token": "सुजौला", "frequency": 3, "vocab_size": 6418, "learned_vocab_size": 6141, "compression_ratio": 1.1789440087543315, "example_words": [] }, { "step": 6142, "pair": [ "से", "मरी" ], "new_token": "सेमरी", "frequency": 3, "vocab_size": 6419, "learned_vocab_size": 6142, "compression_ratio": 1.1789440087543315, "example_words": [] }, { "step": 6143, "pair": [ "सै", "फा" ], "new_token": "सैफा", "frequency": 3, "vocab_size": 6420, "learned_vocab_size": 6143, "compression_ratio": 1.1789440087543315, "example_words": [] }, { "step": 6144, "pair": [ "सैफा", "बाद" ], "new_token": "सैफाबाद", "frequency": 3, "vocab_size": 6421, "learned_vocab_size": 6144, "compression_ratio": 1.1789504593313478, "example_words": [] }, { "step": 6145, "pair": [ "सो", "ई" ], "new_token": "सोई", "frequency": 3, "vocab_size": 6422, "learned_vocab_size": 6145, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 6146, "pair": [ "सोई", "राय" ], "new_token": "सोईराय", "frequency": 3, "vocab_size": 6423, "learned_vocab_size": 6146, "compression_ratio": 1.1789633606971481, "example_words": [] }, { "step": 6147, "pair": [ "सोना", "बरसा" ], "new_token": "सोनाबरसा", "frequency": 3, "vocab_size": 6424, "learned_vocab_size": 6147, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6148, "pair": [ "हरी", "राम" ], "new_token": "हरीराम", "frequency": 3, "vocab_size": 6425, "learned_vocab_size": 6148, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6149, "pair": [ "मुतफर", "का" ], "new_token": "मुतफरका", "frequency": 3, "vocab_size": 6426, "learned_vocab_size": 6149, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6150, "pair": [ "ह", "सहपुर" ], "new_token": "हसहपुर", "frequency": 3, "vocab_size": 6427, "learned_vocab_size": 6150, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6151, "pair": [ "हिम्", "मत" ], "new_token": "हिम्मत", "frequency": 3, "vocab_size": 6428, "learned_vocab_size": 6151, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6152, "pair": [ "है", "वत" ], "new_token": "हैवत", "frequency": 3, "vocab_size": 6429, "learned_vocab_size": 6152, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6153, "pair": [ "हो", "लापुर" ], "new_token": "होलापुर", "frequency": 3, "vocab_size": 6430, "learned_vocab_size": 6153, "compression_ratio": 1.1789848636009637, "example_words": [] }, { "step": 6154, "pair": [ "चै", "न" ], "new_token": "चैन", "frequency": 3, "vocab_size": 6431, "learned_vocab_size": 6154, "compression_ratio": 1.1789913146250626, "example_words": [] }, { "step": 6155, "pair": [ "कु", "सा" ], "new_token": "कुसा", "frequency": 3, "vocab_size": 6432, "learned_vocab_size": 6155, "compression_ratio": 1.178952609539373, "example_words": [] }, { "step": 6156, "pair": [ "खजु", "रिया" ], "new_token": "खजुरिया", "frequency": 3, "vocab_size": 6433, "learned_vocab_size": 6156, "compression_ratio": 1.1789590602105078, "example_words": [] }, { "step": 6157, "pair": [ "स्था", "पत्य" ], "new_token": "स्थापत्य", "frequency": 3, "vocab_size": 6434, "learned_vocab_size": 6157, "compression_ratio": 1.1789590602105078, "example_words": [] }, { "step": 6158, "pair": [ "मे", "के" ], "new_token": "मेके", "frequency": 3, "vocab_size": 6435, "learned_vocab_size": 6158, "compression_ratio": 1.1789590602105078, "example_words": [] }, { "step": 6159, "pair": [ "मेके", "वा" ], "new_token": "मेकेवा", "frequency": 3, "vocab_size": 6436, "learned_vocab_size": 6159, "compression_ratio": 1.1789655109522332, "example_words": [] }, { "step": 6160, "pair": [ "त्स", "व" ], "new_token": "त्सव", "frequency": 3, "vocab_size": 6437, "learned_vocab_size": 6160, "compression_ratio": 1.1789719617645502, "example_words": [] }, { "step": 6161, "pair": [ "अले", "क्" ], "new_token": "अलेक्", "frequency": 3, "vocab_size": 6438, "learned_vocab_size": 6161, "compression_ratio": 1.1789719617645502, "example_words": [] }, { "step": 6162, "pair": [ "अलेक्", "जेंडर" ], "new_token": "अलेक्जेंडर", "frequency": 3, "vocab_size": 6439, "learned_vocab_size": 6162, "compression_ratio": 1.1789719617645502, "example_words": [] }, { "step": 6163, "pair": [ "डी", "ज" ], "new_token": "डीज", "frequency": 3, "vocab_size": 6440, "learned_vocab_size": 6163, "compression_ratio": 1.1789719617645502, "example_words": [] }, { "step": 6164, "pair": [ "अम", "ज" ], "new_token": "अमज", "frequency": 3, "vocab_size": 6441, "learned_vocab_size": 6164, "compression_ratio": 1.179006367289169, "example_words": [] }, { "step": 6165, "pair": [ "अमज", "द" ], "new_token": "अमजद", "frequency": 3, "vocab_size": 6442, "learned_vocab_size": 6165, "compression_ratio": 1.179012818548593, "example_words": [] }, { "step": 6166, "pair": [ "ई", "शा" ], "new_token": "ईशा", "frequency": 3, "vocab_size": 6443, "learned_vocab_size": 6166, "compression_ratio": 1.179019269878617, "example_words": [] }, { "step": 6167, "pair": [ "रो", "हि" ], "new_token": "रोहि", "frequency": 3, "vocab_size": 6444, "learned_vocab_size": 6167, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 6168, "pair": [ "ब्", "बर" ], "new_token": "ब्बर", "frequency": 3, "vocab_size": 6445, "learned_vocab_size": 6168, "compression_ratio": 1.17904937701892, "example_words": [] }, { "step": 6169, "pair": [ "बलू", "चि" ], "new_token": "बलूचि", "frequency": 3, "vocab_size": 6446, "learned_vocab_size": 6169, "compression_ratio": 1.1790579793414282, "example_words": [] }, { "step": 6170, "pair": [ "बलूचि", "स्तान" ], "new_token": "बलूचिस्तान", "frequency": 3, "vocab_size": 6447, "learned_vocab_size": 6170, "compression_ratio": 1.1790579793414282, "example_words": [] }, { "step": 6171, "pair": [ "खली", "फा" ], "new_token": "खलीफा", "frequency": 3, "vocab_size": 6448, "learned_vocab_size": 6171, "compression_ratio": 1.1790579793414282, "example_words": [] }, { "step": 6172, "pair": [ "शासन", "काल" ], "new_token": "शासनकाल", "frequency": 3, "vocab_size": 6449, "learned_vocab_size": 6172, "compression_ratio": 1.1790644311656853, "example_words": [] }, { "step": 6173, "pair": [ "नूरु", "ल्ला" ], "new_token": "नूरुल्ला", "frequency": 3, "vocab_size": 6450, "learned_vocab_size": 6173, "compression_ratio": 1.179075184363024, "example_words": [] }, { "step": 6174, "pair": [ "ल", "त" ], "new_token": "लत", "frequency": 3, "vocab_size": 6451, "learned_vocab_size": 6174, "compression_ratio": 1.179075184363024, "example_words": [] }, { "step": 6175, "pair": [ "म", "य" ], "new_token": "मय", "frequency": 3, "vocab_size": 6452, "learned_vocab_size": 6175, "compression_ratio": 1.1790730337078652, "example_words": [] }, { "step": 6176, "pair": [ "फै", "न" ], "new_token": "फैन", "frequency": 3, "vocab_size": 6453, "learned_vocab_size": 6176, "compression_ratio": 1.1791181991138577, "example_words": [] }, { "step": 6177, "pair": [ "सीरिया", "ई" ], "new_token": "सीरियाई", "frequency": 3, "vocab_size": 6454, "learned_vocab_size": 6177, "compression_ratio": 1.1791246515971807, "example_words": [] }, { "step": 6178, "pair": [ "अब्", "देल" ], "new_token": "अब्देल", "frequency": 3, "vocab_size": 6455, "learned_vocab_size": 6178, "compression_ratio": 1.1791246515971807, "example_words": [] }, { "step": 6179, "pair": [ "वहा", "ब" ], "new_token": "वहाब", "frequency": 3, "vocab_size": 6456, "learned_vocab_size": 6179, "compression_ratio": 1.1791246515971807, "example_words": [] }, { "step": 6180, "pair": [ "अंतरा", "ल" ], "new_token": "अंतराल", "frequency": 3, "vocab_size": 6457, "learned_vocab_size": 6180, "compression_ratio": 1.1791246515971807, "example_words": [] }, { "step": 6181, "pair": [ "कु", "वैत" ], "new_token": "कुवैत", "frequency": 3, "vocab_size": 6458, "learned_vocab_size": 6181, "compression_ratio": 1.1791246515971807, "example_words": [] }, { "step": 6182, "pair": [ "मू", "ठा" ], "new_token": "मूठा", "frequency": 3, "vocab_size": 6459, "learned_vocab_size": 6182, "compression_ratio": 1.1791311041511237, "example_words": [] }, { "step": 6183, "pair": [ "ति", "यों" ], "new_token": "तियों", "frequency": 3, "vocab_size": 6460, "learned_vocab_size": 6183, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6184, "pair": [ "वै", "श्यम्" ], "new_token": "वैश्यम्", "frequency": 3, "vocab_size": 6461, "learned_vocab_size": 6184, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6185, "pair": [ "वैश्यम्", "पायन" ], "new_token": "वैश्यम्पायन", "frequency": 3, "vocab_size": 6462, "learned_vocab_size": 6185, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6186, "pair": [ "जन्मे", "जय" ], "new_token": "जन्मेजय", "frequency": 3, "vocab_size": 6463, "learned_vocab_size": 6186, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6187, "pair": [ "यशो", "वती" ], "new_token": "यशोवती", "frequency": 3, "vocab_size": 6464, "learned_vocab_size": 6187, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6188, "pair": [ "कै", "बिनेट" ], "new_token": "कैबिनेट", "frequency": 3, "vocab_size": 6465, "learned_vocab_size": 6188, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6189, "pair": [ "वाणि", "ज्य" ], "new_token": "वाणिज्य", "frequency": 3, "vocab_size": 6466, "learned_vocab_size": 6189, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6190, "pair": [ "उर्", "वर" ], "new_token": "उर्वर", "frequency": 3, "vocab_size": 6467, "learned_vocab_size": 6190, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6191, "pair": [ "प्रबंध", "क" ], "new_token": "प्रबंधक", "frequency": 3, "vocab_size": 6468, "learned_vocab_size": 6191, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6192, "pair": [ "ऎ", "र्रमट" ], "new_token": "ऎर्रमट", "frequency": 3, "vocab_size": 6469, "learned_vocab_size": 6192, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6193, "pair": [ "ऎर्रमट", "ं" ], "new_token": "ऎर्रमटं", "frequency": 3, "vocab_size": 6470, "learned_vocab_size": 6193, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6194, "pair": [ "त", "स्वीरों" ], "new_token": "तस्वीरों", "frequency": 3, "vocab_size": 6471, "learned_vocab_size": 6194, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6195, "pair": [ "आण", "ंद" ], "new_token": "आणंद", "frequency": 3, "vocab_size": 6472, "learned_vocab_size": 6195, "compression_ratio": 1.179137556775688, "example_words": [] }, { "step": 6196, "pair": [ "ज़िला", "प्रान्त" ], "new_token": "ज़िलाप्रान्त", "frequency": 3, "vocab_size": 6473, "learned_vocab_size": 6196, "compression_ratio": 1.179144009470875, "example_words": [] }, { "step": 6197, "pair": [ "फतेह", "गढ़" ], "new_token": "फतेहगढ़", "frequency": 3, "vocab_size": 6474, "learned_vocab_size": 6197, "compression_ratio": 1.179144009470875, "example_words": [] }, { "step": 6198, "pair": [ "प्रौ", "द्योगिकि" ], "new_token": "प्रौद्योगिकि", "frequency": 3, "vocab_size": 6475, "learned_vocab_size": 6198, "compression_ratio": 1.179144009470875, "example_words": [] }, { "step": 6199, "pair": [ "प्रौद्योगिकि", "यों" ], "new_token": "प्रौद्योगिकियों", "frequency": 3, "vocab_size": 6476, "learned_vocab_size": 6199, "compression_ratio": 1.179144009470875, "example_words": [] }, { "step": 6200, "pair": [ "एफ", "॰" ], "new_token": "एफ॰", "frequency": 3, "vocab_size": 6477, "learned_vocab_size": 6200, "compression_ratio": 1.179144009470875, "example_words": [] }, { "step": 6201, "pair": [ "व", "यस्क" ], "new_token": "वयस्क", "frequency": 3, "vocab_size": 6479, "learned_vocab_size": 6201, "compression_ratio": 1.1791504622366855, "example_words": [ "वयस्क" ] }, { "step": 6202, "pair": [ "है", "या" ], "new_token": "हैया", "frequency": 3, "vocab_size": 6480, "learned_vocab_size": 6202, "compression_ratio": 1.1791504622366855, "example_words": [] }, { "step": 6203, "pair": [ "भौ", "मिक" ], "new_token": "भौमिक", "frequency": 3, "vocab_size": 6481, "learned_vocab_size": 6203, "compression_ratio": 1.179156915073121, "example_words": [] }, { "step": 6204, "pair": [ "स्वी", "कृत" ], "new_token": "स्वीकृत", "frequency": 3, "vocab_size": 6482, "learned_vocab_size": 6204, "compression_ratio": 1.179156915073121, "example_words": [] }, { "step": 6205, "pair": [ "डि", "ट" ], "new_token": "डिट", "frequency": 3, "vocab_size": 6483, "learned_vocab_size": 6205, "compression_ratio": 1.179156915073121, "example_words": [] }, { "step": 6206, "pair": [ "ऋ", "ण" ], "new_token": "ऋण", "frequency": 3, "vocab_size": 6484, "learned_vocab_size": 6206, "compression_ratio": 1.1791655189648977, "example_words": [] }, { "step": 6207, "pair": [ "प", "पड़ी" ], "new_token": "पपड़ी", "frequency": 3, "vocab_size": 6485, "learned_vocab_size": 6207, "compression_ratio": 1.179169820957871, "example_words": [] }, { "step": 6208, "pair": [ "अ", "शुद्धता" ], "new_token": "अशुद्धता", "frequency": 3, "vocab_size": 6486, "learned_vocab_size": 6208, "compression_ratio": 1.179169820957871, "example_words": [] }, { "step": 6209, "pair": [ "दल", "पत" ], "new_token": "दलपत", "frequency": 3, "vocab_size": 6487, "learned_vocab_size": 6209, "compression_ratio": 1.1791762740061875, "example_words": [] }, { "step": 6210, "pair": [ "तर", "फ" ], "new_token": "तरफ", "frequency": 3, "vocab_size": 6488, "learned_vocab_size": 6210, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 6211, "pair": [ "बहु", "चरा" ], "new_token": "बहुचरा", "frequency": 3, "vocab_size": 6489, "learned_vocab_size": 6211, "compression_ratio": 1.1791977846773516, "example_words": [] }, { "step": 6212, "pair": [ "गरिया", "बंद" ], "new_token": "गरियाबंद", "frequency": 3, "vocab_size": 6490, "learned_vocab_size": 6212, "compression_ratio": 1.1791977846773516, "example_words": [] }, { "step": 6213, "pair": [ "सं", "पूर्ण" ], "new_token": "संपूर्ण", "frequency": 3, "vocab_size": 6491, "learned_vocab_size": 6213, "compression_ratio": 1.1791977846773516, "example_words": [] }, { "step": 6214, "pair": [ "बाई", "ं" ], "new_token": "बाईं", "frequency": 3, "vocab_size": 6492, "learned_vocab_size": 6214, "compression_ratio": 1.1792042380317378, "example_words": [] }, { "step": 6215, "pair": [ "गण", "ना" ], "new_token": "गणना", "frequency": 3, "vocab_size": 6493, "learned_vocab_size": 6215, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 6216, "pair": [ "बुद्धि", "मत्ता" ], "new_token": "बुद्धिमत्ता", "frequency": 3, "vocab_size": 6494, "learned_vocab_size": 6216, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6217, "pair": [ "आ", "उट" ], "new_token": "आउट", "frequency": 3, "vocab_size": 6495, "learned_vocab_size": 6217, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6218, "pair": [ "अनु", "प्रयोगों" ], "new_token": "अनुप्रयोगों", "frequency": 3, "vocab_size": 6496, "learned_vocab_size": 6218, "compression_ratio": 1.1792859866348258, "example_words": [] }, { "step": 6219, "pair": [ "विश्", "ले" ], "new_token": "विश्ले", "frequency": 3, "vocab_size": 6497, "learned_vocab_size": 6219, "compression_ratio": 1.1792859866348258, "example_words": [] }, { "step": 6220, "pair": [ "प्रोटो", "कॉल" ], "new_token": "प्रोटोकॉल", "frequency": 3, "vocab_size": 6498, "learned_vocab_size": 6220, "compression_ratio": 1.1792859866348258, "example_words": [] }, { "step": 6221, "pair": [ "स्", "लो" ], "new_token": "स्लो", "frequency": 3, "vocab_size": 6499, "learned_vocab_size": 6221, "compression_ratio": 1.1792859866348258, "example_words": [] }, { "step": 6222, "pair": [ "कं", "पनियों" ], "new_token": "कंपनियों", "frequency": 3, "vocab_size": 6500, "learned_vocab_size": 6222, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6223, "pair": [ "स्टा", "फ" ], "new_token": "स्टाफ", "frequency": 3, "vocab_size": 6501, "learned_vocab_size": 6223, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6224, "pair": [ "अनुकू", "लन" ], "new_token": "अनुकूलन", "frequency": 3, "vocab_size": 6502, "learned_vocab_size": 6224, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6225, "pair": [ "मॉर्", "गन" ], "new_token": "मॉर्गन", "frequency": 3, "vocab_size": 6503, "learned_vocab_size": 6225, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6226, "pair": [ "कर्", "ट" ], "new_token": "कर्ट", "frequency": 3, "vocab_size": 6504, "learned_vocab_size": 6226, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6227, "pair": [ "वर्", "क्स" ], "new_token": "वर्क्स", "frequency": 3, "vocab_size": 6505, "learned_vocab_size": 6227, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6228, "pair": [ "आर्", "मा" ], "new_token": "आर्मा", "frequency": 3, "vocab_size": 6506, "learned_vocab_size": 6228, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6229, "pair": [ "आर्मा", "गे" ], "new_token": "आर्मागे", "frequency": 3, "vocab_size": 6507, "learned_vocab_size": 6229, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6230, "pair": [ "आर्मागे", "डन" ], "new_token": "आर्मागेडन", "frequency": 3, "vocab_size": 6508, "learned_vocab_size": 6230, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6231, "pair": [ "धू", "मकेतु" ], "new_token": "धूमकेतु", "frequency": 3, "vocab_size": 6509, "learned_vocab_size": 6231, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6232, "pair": [ "ड", "ब" ], "new_token": "डब", "frequency": 3, "vocab_size": 6510, "learned_vocab_size": 6232, "compression_ratio": 1.1792924409546501, "example_words": [] }, { "step": 6233, "pair": [ "पार्", "थ" ], "new_token": "पार्थ", "frequency": 3, "vocab_size": 6511, "learned_vocab_size": 6233, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6234, "pair": [ "कि", "ग्रा" ], "new_token": "किग्रा", "frequency": 3, "vocab_size": 6512, "learned_vocab_size": 6234, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6235, "pair": [ "डब्ल्यू", "टी" ], "new_token": "डब्ल्यूटी", "frequency": 3, "vocab_size": 6513, "learned_vocab_size": 6235, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6236, "pair": [ "ऐ", "क्टिव" ], "new_token": "ऐक्टिव", "frequency": 3, "vocab_size": 6514, "learned_vocab_size": 6236, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6237, "pair": [ "मार्ग", "दर्शक" ], "new_token": "मार्गदर्शक", "frequency": 3, "vocab_size": 6515, "learned_vocab_size": 6237, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6238, "pair": [ "डा", "लकर" ], "new_token": "डालकर", "frequency": 3, "vocab_size": 6516, "learned_vocab_size": 6238, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6239, "pair": [ "डा", "कु" ], "new_token": "डाकु", "frequency": 3, "vocab_size": 6517, "learned_vocab_size": 6239, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6240, "pair": [ "डाकु", "ओं" ], "new_token": "डाकुओं", "frequency": 3, "vocab_size": 6518, "learned_vocab_size": 6240, "compression_ratio": 1.1792279009354796, "example_words": [] }, { "step": 6241, "pair": [ "विभा", "जन" ], "new_token": "विभाजन", "frequency": 3, "vocab_size": 6519, "learned_vocab_size": 6241, "compression_ratio": 1.1792343546195032, "example_words": [] }, { "step": 6242, "pair": [ "पहुँच", "ते" ], "new_token": "पहुँचते", "frequency": 3, "vocab_size": 6520, "learned_vocab_size": 6242, "compression_ratio": 1.1792408083741668, "example_words": [] }, { "step": 6243, "pair": [ "के", "न" ], "new_token": "केन", "frequency": 3, "vocab_size": 6521, "learned_vocab_size": 6243, "compression_ratio": 1.1792408083741668, "example_words": [] }, { "step": 6244, "pair": [ "जैन", "थ" ], "new_token": "जैनथ", "frequency": 3, "vocab_size": 6522, "learned_vocab_size": 6244, "compression_ratio": 1.1792343546195032, "example_words": [] }, { "step": 6245, "pair": [ "कट्टरता", "वाद" ], "new_token": "कट्टरतावाद", "frequency": 3, "vocab_size": 6523, "learned_vocab_size": 6245, "compression_ratio": 1.1792408083741668, "example_words": [] }, { "step": 6246, "pair": [ "ऑनोरि", "स" ], "new_token": "ऑनोरिस", "frequency": 3, "vocab_size": 6524, "learned_vocab_size": 6246, "compression_ratio": 1.1792408083741668, "example_words": [] }, { "step": 6247, "pair": [ "टो", "न" ], "new_token": "टोन", "frequency": 3, "vocab_size": 6525, "learned_vocab_size": 6247, "compression_ratio": 1.1792408083741668, "example_words": [] }, { "step": 6248, "pair": [ "आत", "ंक" ], "new_token": "आतंक", "frequency": 3, "vocab_size": 6526, "learned_vocab_size": 6248, "compression_ratio": 1.1792494134902711, "example_words": [] }, { "step": 6249, "pair": [ "निरा", "श" ], "new_token": "निराश", "frequency": 3, "vocab_size": 6527, "learned_vocab_size": 6249, "compression_ratio": 1.1792558674097655, "example_words": [] }, { "step": 6250, "pair": [ "पड़", "ने" ], "new_token": "पड़ने", "frequency": 3, "vocab_size": 6528, "learned_vocab_size": 6250, "compression_ratio": 1.1792558674097655, "example_words": [] }, { "step": 6251, "pair": [ "य", "्या" ], "new_token": "य्या", "frequency": 3, "vocab_size": 6529, "learned_vocab_size": 6251, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6252, "pair": [ "असमर्", "थ" ], "new_token": "असमर्थ", "frequency": 3, "vocab_size": 6530, "learned_vocab_size": 6252, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6253, "pair": [ "मालवी", "य" ], "new_token": "मालवीय", "frequency": 3, "vocab_size": 6531, "learned_vocab_size": 6253, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6254, "pair": [ "स्टॉ", "प" ], "new_token": "स्टॉप", "frequency": 3, "vocab_size": 6532, "learned_vocab_size": 6254, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6255, "pair": [ "पेर", "ंबूर" ], "new_token": "पेरंबूर", "frequency": 3, "vocab_size": 6533, "learned_vocab_size": 6255, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6256, "pair": [ "कालि", "ज" ], "new_token": "कालिज", "frequency": 3, "vocab_size": 6534, "learned_vocab_size": 6256, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6257, "pair": [ "क्", "कम" ], "new_token": "क्कम", "frequency": 3, "vocab_size": 6535, "learned_vocab_size": 6257, "compression_ratio": 1.1792623213999036, "example_words": [] }, { "step": 6258, "pair": [ "चै", "पल" ], "new_token": "चैपल", "frequency": 3, "vocab_size": 6536, "learned_vocab_size": 6258, "compression_ratio": 1.1792902895068587, "example_words": [] }, { "step": 6259, "pair": [ "पब्", "लिक" ], "new_token": "पब्लिक", "frequency": 3, "vocab_size": 6537, "learned_vocab_size": 6259, "compression_ratio": 1.1792988953451249, "example_words": [] }, { "step": 6260, "pair": [ "एलि", "वे" ], "new_token": "एलिवे", "frequency": 3, "vocab_size": 6538, "learned_vocab_size": 6260, "compression_ratio": 1.1792988953451249, "example_words": [] }, { "step": 6261, "pair": [ "एलिवे", "टेड" ], "new_token": "एलिवेटेड", "frequency": 3, "vocab_size": 6539, "learned_vocab_size": 6261, "compression_ratio": 1.1792988953451249, "example_words": [] }, { "step": 6262, "pair": [ "को", "य" ], "new_token": "कोय", "frequency": 3, "vocab_size": 6540, "learned_vocab_size": 6262, "compression_ratio": 1.1792988953451249, "example_words": [] }, { "step": 6263, "pair": [ "एयर", "पोर्ट" ], "new_token": "एयरपोर्ट", "frequency": 3, "vocab_size": 6541, "learned_vocab_size": 6263, "compression_ratio": 1.1793871124296198, "example_words": [] }, { "step": 6264, "pair": [ "पटिया", "ली" ], "new_token": "पटियाली", "frequency": 3, "vocab_size": 6542, "learned_vocab_size": 6264, "compression_ratio": 1.1793871124296198, "example_words": [] }, { "step": 6265, "pair": [ "बा", "स" ], "new_token": "बास", "frequency": 3, "vocab_size": 6543, "learned_vocab_size": 6265, "compression_ratio": 1.1793871124296198, "example_words": [] }, { "step": 6266, "pair": [ "दहल", "ई" ], "new_token": "दहलई", "frequency": 3, "vocab_size": 6544, "learned_vocab_size": 6266, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6267, "pair": [ "अलिया", "पुर" ], "new_token": "अलियापुर", "frequency": 3, "vocab_size": 6545, "learned_vocab_size": 6267, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6268, "pair": [ "अंगरै", "या" ], "new_token": "अंगरैया", "frequency": 3, "vocab_size": 6546, "learned_vocab_size": 6268, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6269, "pair": [ "बिल्स", "ड़" ], "new_token": "बिल्सड़", "frequency": 3, "vocab_size": 6547, "learned_vocab_size": 6269, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6270, "pair": [ "अस", "गरपुर" ], "new_token": "असगरपुर", "frequency": 3, "vocab_size": 6548, "learned_vocab_size": 6270, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6271, "pair": [ "द", "त" ], "new_token": "दत", "frequency": 3, "vocab_size": 6549, "learned_vocab_size": 6271, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6272, "pair": [ "शना", "बाद" ], "new_token": "शनाबाद", "frequency": 3, "vocab_size": 6550, "learned_vocab_size": 6272, "compression_ratio": 1.1791977846773516, "example_words": [] }, { "step": 6273, "pair": [ "इ", "कु" ], "new_token": "इकु", "frequency": 3, "vocab_size": 6551, "learned_vocab_size": 6273, "compression_ratio": 1.1791977846773516, "example_words": [] }, { "step": 6274, "pair": [ "ए", "प्" ], "new_token": "एप्", "frequency": 3, "vocab_size": 6552, "learned_vocab_size": 6274, "compression_ratio": 1.1792042380317378, "example_words": [] }, { "step": 6275, "pair": [ "प्र", "दाता" ], "new_token": "प्रदाता", "frequency": 3, "vocab_size": 6553, "learned_vocab_size": 6275, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 6276, "pair": [ "सि", "ग्" ], "new_token": "सिग्", "frequency": 3, "vocab_size": 6554, "learned_vocab_size": 6276, "compression_ratio": 1.1792149937793475, "example_words": [] }, { "step": 6277, "pair": [ "वा", "इस" ], "new_token": "वाइस", "frequency": 3, "vocab_size": 6555, "learned_vocab_size": 6277, "compression_ratio": 1.1792214473220948, "example_words": [] }, { "step": 6278, "pair": [ "वॉ", "यस" ], "new_token": "वॉयस", "frequency": 3, "vocab_size": 6556, "learned_vocab_size": 6278, "compression_ratio": 1.1792365058632088, "example_words": [] }, { "step": 6279, "pair": [ "जा", "ट" ], "new_token": "जाट", "frequency": 3, "vocab_size": 6557, "learned_vocab_size": 6279, "compression_ratio": 1.1792429596414191, "example_words": [] }, { "step": 6280, "pair": [ "गू", "जर" ], "new_token": "गूजर", "frequency": 3, "vocab_size": 6558, "learned_vocab_size": 6280, "compression_ratio": 1.1792494134902711, "example_words": [] }, { "step": 6281, "pair": [ "मंगरो", "ली" ], "new_token": "मंगरोली", "frequency": 3, "vocab_size": 6559, "learned_vocab_size": 6281, "compression_ratio": 1.1792601700620082, "example_words": [] }, { "step": 6282, "pair": [ "थ्रि", "लर" ], "new_token": "थ्रिलर", "frequency": 3, "vocab_size": 6560, "learned_vocab_size": 6282, "compression_ratio": 1.1792601700620082, "example_words": [] }, { "step": 6283, "pair": [ "जे", "डी" ], "new_token": "जेडी", "frequency": 3, "vocab_size": 6561, "learned_vocab_size": 6283, "compression_ratio": 1.1792601700620082, "example_words": [] }, { "step": 6284, "pair": [ "फोर्", "ब्स" ], "new_token": "फोर्ब्स", "frequency": 3, "vocab_size": 6562, "learned_vocab_size": 6284, "compression_ratio": 1.1792730782071232, "example_words": [] }, { "step": 6285, "pair": [ "गवर्", "नर" ], "new_token": "गवर्नर", "frequency": 3, "vocab_size": 6563, "learned_vocab_size": 6285, "compression_ratio": 1.1792730782071232, "example_words": [] }, { "step": 6286, "pair": [ "ये", "ल" ], "new_token": "येल", "frequency": 3, "vocab_size": 6564, "learned_vocab_size": 6286, "compression_ratio": 1.1792730782071232, "example_words": [] }, { "step": 6287, "pair": [ "हार्", "ट" ], "new_token": "हार्ट", "frequency": 3, "vocab_size": 6565, "learned_vocab_size": 6287, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6288, "pair": [ "आ", "चरण" ], "new_token": "आचरण", "frequency": 3, "vocab_size": 6566, "learned_vocab_size": 6288, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6289, "pair": [ "त", "ंजानिया" ], "new_token": "तंजानिया", "frequency": 3, "vocab_size": 6567, "learned_vocab_size": 6289, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6290, "pair": [ "मनी", "ष" ], "new_token": "मनीष", "frequency": 3, "vocab_size": 6568, "learned_vocab_size": 6290, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6291, "pair": [ "आ", "बू" ], "new_token": "आबू", "frequency": 3, "vocab_size": 6569, "learned_vocab_size": 6291, "compression_ratio": 1.1792795323856504, "example_words": [] }, { "step": 6292, "pair": [ "ब्", "बी" ], "new_token": "ब्बी", "frequency": 3, "vocab_size": 6570, "learned_vocab_size": 6292, "compression_ratio": 1.1792881380669171, "example_words": [] }, { "step": 6293, "pair": [ "सा", "ंता" ], "new_token": "सांता", "frequency": 3, "vocab_size": 6571, "learned_vocab_size": 6293, "compression_ratio": 1.1792945924102916, "example_words": [] }, { "step": 6294, "pair": [ "त", "ॉ" ], "new_token": "तॉ", "frequency": 3, "vocab_size": 6572, "learned_vocab_size": 6294, "compression_ratio": 1.1792945924102916, "example_words": [] }, { "step": 6295, "pair": [ "खली", "हृ" ], "new_token": "खलीहृ", "frequency": 3, "vocab_size": 6573, "learned_vocab_size": 6295, "compression_ratio": 1.1793010468243166, "example_words": [] }, { "step": 6296, "pair": [ "खलीहृ", "यत" ], "new_token": "खलीहृयत", "frequency": 3, "vocab_size": 6574, "learned_vocab_size": 6296, "compression_ratio": 1.1793075013089938, "example_words": [] }, { "step": 6297, "pair": [ "ल", "घु" ], "new_token": "लघु", "frequency": 3, "vocab_size": 6575, "learned_vocab_size": 6297, "compression_ratio": 1.1793139558643237, "example_words": [] }, { "step": 6298, "pair": [ "मछु", "आ" ], "new_token": "मछुआ", "frequency": 3, "vocab_size": 6576, "learned_vocab_size": 6298, "compression_ratio": 1.1793268651869475, "example_words": [] }, { "step": 6299, "pair": [ "सु", "ब" ], "new_token": "सुब", "frequency": 3, "vocab_size": 6577, "learned_vocab_size": 6299, "compression_ratio": 1.1793268651869475, "example_words": [] }, { "step": 6300, "pair": [ "ब", "झेरा" ], "new_token": "बझेरा", "frequency": 3, "vocab_size": 6578, "learned_vocab_size": 6300, "compression_ratio": 1.1793419264205505, "example_words": [] }, { "step": 6301, "pair": [ "जै", "तपुर" ], "new_token": "जैतपुर", "frequency": 3, "vocab_size": 6579, "learned_vocab_size": 6301, "compression_ratio": 1.1793419264205505, "example_words": [ "जैतपुर" ] }, { "step": 6302, "pair": [ "दरिया", "पुर" ], "new_token": "दरियापुर", "frequency": 3, "vocab_size": 6580, "learned_vocab_size": 6302, "compression_ratio": 1.1793483813527161, "example_words": [] }, { "step": 6303, "pair": [ "मा", "फी" ], "new_token": "माफी", "frequency": 3, "vocab_size": 6581, "learned_vocab_size": 6303, "compression_ratio": 1.1793483813527161, "example_words": [] }, { "step": 6304, "pair": [ "बि", "स" ], "new_token": "बिस", "frequency": 3, "vocab_size": 6582, "learned_vocab_size": 6304, "compression_ratio": 1.1793548363555424, "example_words": [] }, { "step": 6305, "pair": [ "मुकु", "ट" ], "new_token": "मुकुट", "frequency": 3, "vocab_size": 6583, "learned_vocab_size": 6305, "compression_ratio": 1.179316107398468, "example_words": [] }, { "step": 6306, "pair": [ "सिंघा", "पुर" ], "new_token": "सिंघापुर", "frequency": 3, "vocab_size": 6584, "learned_vocab_size": 6306, "compression_ratio": 1.179316107398468, "example_words": [] }, { "step": 6307, "pair": [ "मे", "द" ], "new_token": "मेद", "frequency": 3, "vocab_size": 6585, "learned_vocab_size": 6307, "compression_ratio": 1.179316107398468, "example_words": [] }, { "step": 6308, "pair": [ "हंसा", "पुर" ], "new_token": "हंसापुर", "frequency": 3, "vocab_size": 6586, "learned_vocab_size": 6308, "compression_ratio": 1.1793268651869475, "example_words": [] }, { "step": 6309, "pair": [ "ज", "ह" ], "new_token": "जह", "frequency": 3, "vocab_size": 6587, "learned_vocab_size": 6309, "compression_ratio": 1.1793268651869475, "example_words": [] }, { "step": 6310, "pair": [ "पहाड़", "ों" ], "new_token": "पहाड़ों", "frequency": 3, "vocab_size": 6588, "learned_vocab_size": 6310, "compression_ratio": 1.1788386593209799, "example_words": [] }, { "step": 6311, "pair": [ "सी", "धी" ], "new_token": "सीधी", "frequency": 3, "vocab_size": 6589, "learned_vocab_size": 6311, "compression_ratio": 1.1788386593209799, "example_words": [] }, { "step": 6312, "pair": [ "खू", "ब" ], "new_token": "खूब", "frequency": 3, "vocab_size": 6590, "learned_vocab_size": 6312, "compression_ratio": 1.1788451087452083, "example_words": [] }, { "step": 6313, "pair": [ "रि", "यूनी" ], "new_token": "रियूनी", "frequency": 3, "vocab_size": 6591, "learned_vocab_size": 6313, "compression_ratio": 1.1788537080872885, "example_words": [] }, { "step": 6314, "pair": [ "महात्", "मा" ], "new_token": "महात्मा", "frequency": 3, "vocab_size": 6592, "learned_vocab_size": 6314, "compression_ratio": 1.1788601576761821, "example_words": [] }, { "step": 6315, "pair": [ "इ", "त्तेहा" ], "new_token": "इत्तेहा", "frequency": 3, "vocab_size": 6593, "learned_vocab_size": 6315, "compression_ratio": 1.1788601576761821, "example_words": [] }, { "step": 6316, "pair": [ "इत्तेहा", "द" ], "new_token": "इत्तेहाद", "frequency": 3, "vocab_size": 6594, "learned_vocab_size": 6316, "compression_ratio": 1.1788601576761821, "example_words": [] }, { "step": 6317, "pair": [ "तहरी", "क" ], "new_token": "तहरीक", "frequency": 3, "vocab_size": 6595, "learned_vocab_size": 6317, "compression_ratio": 1.1788601576761821, "example_words": [] }, { "step": 6318, "pair": [ "आज़ा", "द" ], "new_token": "आज़ाद", "frequency": 3, "vocab_size": 6596, "learned_vocab_size": 6318, "compression_ratio": 1.1788601576761821, "example_words": [] }, { "step": 6319, "pair": [ "जे", "ऐ" ], "new_token": "जेऐ", "frequency": 3, "vocab_size": 6597, "learned_vocab_size": 6319, "compression_ratio": 1.1788601576761821, "example_words": [] }, { "step": 6320, "pair": [ "लि", "बर" ], "new_token": "लिबर", "frequency": 3, "vocab_size": 6598, "learned_vocab_size": 6320, "compression_ratio": 1.1788666073356482, "example_words": [] }, { "step": 6321, "pair": [ "लिबर", "ल" ], "new_token": "लिबरल", "frequency": 3, "vocab_size": 6599, "learned_vocab_size": 6321, "compression_ratio": 1.1788752069913848, "example_words": [] }, { "step": 6322, "pair": [ "कैटलॉगि", "ंग" ], "new_token": "कैटलॉगिंग", "frequency": 3, "vocab_size": 6600, "learned_vocab_size": 6322, "compression_ratio": 1.178881656815525, "example_words": [] }, { "step": 6323, "pair": [ "न्या", "सी" ], "new_token": "न्यासी", "frequency": 3, "vocab_size": 6601, "learned_vocab_size": 6323, "compression_ratio": 1.178881656815525, "example_words": [] }, { "step": 6324, "pair": [ "मुख्य", "भूमि" ], "new_token": "मुख्यभूमि", "frequency": 3, "vocab_size": 6602, "learned_vocab_size": 6324, "compression_ratio": 1.178881656815525, "example_words": [] }, { "step": 6325, "pair": [ "थो", "ड़े" ], "new_token": "थोड़े", "frequency": 3, "vocab_size": 6603, "learned_vocab_size": 6325, "compression_ratio": 1.1788881067102417, "example_words": [] }, { "step": 6326, "pair": [ "मू", "सा" ], "new_token": "मूसा", "frequency": 3, "vocab_size": 6604, "learned_vocab_size": 6326, "compression_ratio": 1.1788945566755362, "example_words": [] }, { "step": 6327, "pair": [ "गौरव", "शाली" ], "new_token": "गौरवशाली", "frequency": 3, "vocab_size": 6605, "learned_vocab_size": 6327, "compression_ratio": 1.1789031567390515, "example_words": [] }, { "step": 6328, "pair": [ "स्कॉ", "टलैंड" ], "new_token": "स्कॉटलैंड", "frequency": 3, "vocab_size": 6606, "learned_vocab_size": 6328, "compression_ratio": 1.1789031567390515, "example_words": [] }, { "step": 6329, "pair": [ "सं", "पन्न" ], "new_token": "संपन्न", "frequency": 3, "vocab_size": 6607, "learned_vocab_size": 6329, "compression_ratio": 1.1789031567390515, "example_words": [] }, { "step": 6330, "pair": [ "समे", "त" ], "new_token": "समेत", "frequency": 3, "vocab_size": 6608, "learned_vocab_size": 6330, "compression_ratio": 1.1789031567390515, "example_words": [] }, { "step": 6331, "pair": [ "फर्", "मेंट" ], "new_token": "फर्मेंट", "frequency": 3, "vocab_size": 6609, "learned_vocab_size": 6331, "compression_ratio": 1.1789031567390515, "example_words": [] }, { "step": 6332, "pair": [ "ने", "गी" ], "new_token": "नेगी", "frequency": 3, "vocab_size": 6610, "learned_vocab_size": 6332, "compression_ratio": 1.1789031567390515, "example_words": [] }, { "step": 6333, "pair": [ "फि", "जिक्स" ], "new_token": "फिजिक्स", "frequency": 3, "vocab_size": 6611, "learned_vocab_size": 6333, "compression_ratio": 1.1789096068690317, "example_words": [] }, { "step": 6334, "pair": [ "एले", "क्स" ], "new_token": "एलेक्स", "frequency": 3, "vocab_size": 6612, "learned_vocab_size": 6334, "compression_ratio": 1.1789096068690317, "example_words": [] }, { "step": 6335, "pair": [ "ता", "ई" ], "new_token": "ताई", "frequency": 3, "vocab_size": 6613, "learned_vocab_size": 6335, "compression_ratio": 1.1789096068690317, "example_words": [] }, { "step": 6336, "pair": [ "हि", "ंड्स" ], "new_token": "हिंड्स", "frequency": 3, "vocab_size": 6614, "learned_vocab_size": 6336, "compression_ratio": 1.1789182071521325, "example_words": [] }, { "step": 6337, "pair": [ "जिम्बा", "ब्" ], "new_token": "जिम्बाब्", "frequency": 3, "vocab_size": 6615, "learned_vocab_size": 6337, "compression_ratio": 1.1789182071521325, "example_words": [] }, { "step": 6338, "pair": [ "जिम्बाब्", "वे" ], "new_token": "जिम्बाब्वे", "frequency": 3, "vocab_size": 6616, "learned_vocab_size": 6338, "compression_ratio": 1.1789182071521325, "example_words": [] }, { "step": 6339, "pair": [ "पु", "जा" ], "new_token": "पुजा", "frequency": 3, "vocab_size": 6617, "learned_vocab_size": 6339, "compression_ratio": 1.1789182071521325, "example_words": [] }, { "step": 6340, "pair": [ "इन्", "होने" ], "new_token": "इन्होने", "frequency": 3, "vocab_size": 6618, "learned_vocab_size": 6340, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6341, "pair": [ "न्यूज़ी", "लैण्ड" ], "new_token": "न्यूज़ीलैण्ड", "frequency": 3, "vocab_size": 6619, "learned_vocab_size": 6341, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6342, "pair": [ "जी", "पी" ], "new_token": "जीपी", "frequency": 3, "vocab_size": 6620, "learned_vocab_size": 6342, "compression_ratio": 1.178926807560714, "example_words": [] }, { "step": 6343, "pair": [ "जीपी", "एक्स" ], "new_token": "जीपीएक्स", "frequency": 3, "vocab_size": 6621, "learned_vocab_size": 6343, "compression_ratio": 1.1789354080947796, "example_words": [] }, { "step": 6344, "pair": [ "विद्या", "लंकार" ], "new_token": "विद्यालंकार", "frequency": 3, "vocab_size": 6622, "learned_vocab_size": 6344, "compression_ratio": 1.1789354080947796, "example_words": [] }, { "step": 6345, "pair": [ "नी", "हरिका" ], "new_token": "नीहरिका", "frequency": 3, "vocab_size": 6623, "learned_vocab_size": 6345, "compression_ratio": 1.1789354080947796, "example_words": [] }, { "step": 6346, "pair": [ "नीहरिका", "एँ" ], "new_token": "नीहरिकाएँ", "frequency": 3, "vocab_size": 6624, "learned_vocab_size": 6346, "compression_ratio": 1.1789354080947796, "example_words": [] }, { "step": 6347, "pair": [ "७", "२" ], "new_token": "७२", "frequency": 3, "vocab_size": 6625, "learned_vocab_size": 6347, "compression_ratio": 1.1789354080947796, "example_words": [] }, { "step": 6348, "pair": [ "ज़े", "ग्लो" ], "new_token": "ज़ेग्लो", "frequency": 3, "vocab_size": 6626, "learned_vocab_size": 6348, "compression_ratio": 1.1789440087543315, "example_words": [] }, { "step": 6349, "pair": [ "ज़ेग्लो", "सस" ], "new_token": "ज़ेग्लोसस", "frequency": 3, "vocab_size": 6627, "learned_vocab_size": 6349, "compression_ratio": 1.1789504593313478, "example_words": [] }, { "step": 6350, "pair": [ "मेगा", "लि" ], "new_token": "मेगालि", "frequency": 3, "vocab_size": 6628, "learned_vocab_size": 6350, "compression_ratio": 1.178956909978953, "example_words": [] }, { "step": 6351, "pair": [ "मेगालि", "बग्" ], "new_token": "मेगालिबग्", "frequency": 3, "vocab_size": 6629, "learned_vocab_size": 6351, "compression_ratio": 1.1789633606971481, "example_words": [] }, { "step": 6352, "pair": [ "मेगालिबग्", "विलिया" ], "new_token": "मेगालिबग्विलिया", "frequency": 3, "vocab_size": 6630, "learned_vocab_size": 6352, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6353, "pair": [ "मोनोट्री", "म" ], "new_token": "मोनोट्रीम", "frequency": 3, "vocab_size": 6631, "learned_vocab_size": 6353, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6354, "pair": [ "हो", "यसाल" ], "new_token": "होयसाल", "frequency": 3, "vocab_size": 6632, "learned_vocab_size": 6354, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6355, "pair": [ "अनि", "ल" ], "new_token": "अनिल", "frequency": 3, "vocab_size": 6633, "learned_vocab_size": 6355, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6356, "pair": [ "डी", "॰" ], "new_token": "डी॰", "frequency": 3, "vocab_size": 6634, "learned_vocab_size": 6356, "compression_ratio": 1.1789698114859344, "example_words": [] }, { "step": 6357, "pair": [ "विश्वेश्वरै", "या" ], "new_token": "विश्वेश्वरैया", "frequency": 3, "vocab_size": 6635, "learned_vocab_size": 6357, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 6358, "pair": [ "यो", "द्धा" ], "new_token": "योद्धा", "frequency": 3, "vocab_size": 6636, "learned_vocab_size": 6358, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 6359, "pair": [ "आदिवासि", "यों" ], "new_token": "आदिवासियों", "frequency": 3, "vocab_size": 6637, "learned_vocab_size": 6359, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 6360, "pair": [ "विजये", "न्द्र" ], "new_token": "विजयेन्द्र", "frequency": 3, "vocab_size": 6638, "learned_vocab_size": 6360, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 6361, "pair": [ "रु", "क्" ], "new_token": "रुक्", "frequency": 3, "vocab_size": 6639, "learned_vocab_size": 6361, "compression_ratio": 1.178976262345313, "example_words": [] }, { "step": 6362, "pair": [ "बो", "थ" ], "new_token": "बोथ", "frequency": 3, "vocab_size": 6640, "learned_vocab_size": 6362, "compression_ratio": 1.1789848636009637, "example_words": [] }, { "step": 6363, "pair": [ "ए", "शियन" ], "new_token": "एशियन", "frequency": 3, "vocab_size": 6641, "learned_vocab_size": 6363, "compression_ratio": 1.1789913146250626, "example_words": [] }, { "step": 6364, "pair": [ "पा", "यर" ], "new_token": "पायर", "frequency": 3, "vocab_size": 6642, "learned_vocab_size": 6364, "compression_ratio": 1.1789977657197575, "example_words": [] }, { "step": 6365, "pair": [ "सॉ", "ल्" ], "new_token": "सॉल्", "frequency": 3, "vocab_size": 6643, "learned_vocab_size": 6365, "compression_ratio": 1.1790085177011327, "example_words": [] }, { "step": 6366, "pair": [ "सॉल्", "वै" ], "new_token": "सॉल्वै", "frequency": 3, "vocab_size": 6644, "learned_vocab_size": 6366, "compression_ratio": 1.179019269878617, "example_words": [] }, { "step": 6367, "pair": [ "किता", "ब" ], "new_token": "किताब", "frequency": 3, "vocab_size": 6645, "learned_vocab_size": 6367, "compression_ratio": 1.1790278717618068, "example_words": [] }, { "step": 6368, "pair": [ "ओ", "टी" ], "new_token": "ओटी", "frequency": 3, "vocab_size": 6646, "learned_vocab_size": 6368, "compression_ratio": 1.179030022252216, "example_words": [] }, { "step": 6369, "pair": [ "रुप", "ये" ], "new_token": "रुपये", "frequency": 3, "vocab_size": 6647, "learned_vocab_size": 6369, "compression_ratio": 1.1790364737705128, "example_words": [] }, { "step": 6370, "pair": [ "गुण", "सूत्र" ], "new_token": "गुणसूत्र", "frequency": 3, "vocab_size": 6648, "learned_vocab_size": 6370, "compression_ratio": 1.1790429253594137, "example_words": [] }, { "step": 6371, "pair": [ "उच्च", "भूमि" ], "new_token": "उच्चभूमि", "frequency": 3, "vocab_size": 6649, "learned_vocab_size": 6371, "compression_ratio": 1.1790429253594137, "example_words": [] }, { "step": 6372, "pair": [ "डा", "क" ], "new_token": "डाक", "frequency": 3, "vocab_size": 6650, "learned_vocab_size": 6372, "compression_ratio": 1.17904937701892, "example_words": [] }, { "step": 6373, "pair": [ "चै", "मिक" ], "new_token": "चैमिक", "frequency": 3, "vocab_size": 6651, "learned_vocab_size": 6373, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 6374, "pair": [ "मॉन्", "टै" ], "new_token": "मॉन्टै", "frequency": 3, "vocab_size": 6652, "learned_vocab_size": 6374, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 6375, "pair": [ "मॉन्टै", "ग्" ], "new_token": "मॉन्टैग्", "frequency": 3, "vocab_size": 6653, "learned_vocab_size": 6375, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 6376, "pair": [ "मॉन्टैग्", "नार्ड्स" ], "new_token": "मॉन्टैग्नार्ड्स", "frequency": 3, "vocab_size": 6654, "learned_vocab_size": 6376, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 6377, "pair": [ "वा", "या" ], "new_token": "वाया", "frequency": 3, "vocab_size": 6655, "learned_vocab_size": 6377, "compression_ratio": 1.1790450759047375, "example_words": [] }, { "step": 6378, "pair": [ "रा", "हत" ], "new_token": "राहत", "frequency": 3, "vocab_size": 6656, "learned_vocab_size": 6378, "compression_ratio": 1.1790601299416685, "example_words": [] }, { "step": 6379, "pair": [ "ह्", "वेन" ], "new_token": "ह्वेन", "frequency": 3, "vocab_size": 6657, "learned_vocab_size": 6379, "compression_ratio": 1.1790665817894619, "example_words": [] }, { "step": 6380, "pair": [ "औ", "जार" ], "new_token": "औजार", "frequency": 3, "vocab_size": 6658, "learned_vocab_size": 6380, "compression_ratio": 1.1790730337078652, "example_words": [] }, { "step": 6381, "pair": [ "नेतृ", "भ्रमि" ], "new_token": "नेतृभ्रमि", "frequency": 3, "vocab_size": 6659, "learned_vocab_size": 6381, "compression_ratio": 1.1790730337078652, "example_words": [] }, { "step": 6382, "pair": [ "शिरो", "दंड" ], "new_token": "शिरोदंड", "frequency": 3, "vocab_size": 6660, "learned_vocab_size": 6382, "compression_ratio": 1.1790730337078652, "example_words": [] }, { "step": 6383, "pair": [ "ई", "षा" ], "new_token": "ईषा", "frequency": 3, "vocab_size": 6661, "learned_vocab_size": 6383, "compression_ratio": 1.1790730337078652, "example_words": [] }, { "step": 6384, "pair": [ "मो", "टर" ], "new_token": "मोटर", "frequency": 3, "vocab_size": 6662, "learned_vocab_size": 6384, "compression_ratio": 1.1790794856968794, "example_words": [] }, { "step": 6385, "pair": [ "बा", "एँ" ], "new_token": "बाएँ", "frequency": 3, "vocab_size": 6663, "learned_vocab_size": 6385, "compression_ratio": 1.179090239168819, "example_words": [] }, { "step": 6386, "pair": [ "अभिनेत्री", "कार्यकाल" ], "new_token": "अभिनेत्रीकार्यकाल", "frequency": 3, "vocab_size": 6664, "learned_vocab_size": 6386, "compression_ratio": 1.1790966913461345, "example_words": [] }, { "step": 6387, "pair": [ "भा", "लो" ], "new_token": "भालो", "frequency": 3, "vocab_size": 6665, "learned_vocab_size": 6387, "compression_ratio": 1.1790966913461345, "example_words": [] }, { "step": 6388, "pair": [ "आई", "ं" ], "new_token": "आईं", "frequency": 3, "vocab_size": 6666, "learned_vocab_size": 6388, "compression_ratio": 1.1791031435940653, "example_words": [] }, { "step": 6389, "pair": [ "विकल्", "प" ], "new_token": "विकल्प", "frequency": 3, "vocab_size": 6667, "learned_vocab_size": 6389, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6390, "pair": [ "निर्", "ण" ], "new_token": "निर्ण", "frequency": 3, "vocab_size": 6668, "learned_vocab_size": 6390, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6391, "pair": [ "निर्ण", "य" ], "new_token": "निर्णय", "frequency": 3, "vocab_size": 6669, "learned_vocab_size": 6391, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6392, "pair": [ "कार्य", "प्रवाह" ], "new_token": "कार्यप्रवाह", "frequency": 3, "vocab_size": 6670, "learned_vocab_size": 6392, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6393, "pair": [ "परियोजना", "ओं" ], "new_token": "परियोजनाओं", "frequency": 3, "vocab_size": 6671, "learned_vocab_size": 6393, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6394, "pair": [ "म", "जलिस" ], "new_token": "मजलिस", "frequency": 3, "vocab_size": 6672, "learned_vocab_size": 6394, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6395, "pair": [ "मौ", "जपुर" ], "new_token": "मौजपुर", "frequency": 3, "vocab_size": 6673, "learned_vocab_size": 6395, "compression_ratio": 1.179109595912612, "example_words": [] }, { "step": 6396, "pair": [ "बा", "बरपुर" ], "new_token": "बाबरपुर", "frequency": 3, "vocab_size": 6674, "learned_vocab_size": 6396, "compression_ratio": 1.1791160483017766, "example_words": [] }, { "step": 6397, "pair": [ "छा", "वनी" ], "new_token": "छावनी", "frequency": 3, "vocab_size": 6675, "learned_vocab_size": 6397, "compression_ratio": 1.1791160483017766, "example_words": [] }, { "step": 6398, "pair": [ "कै", "ं" ], "new_token": "कैं", "frequency": 3, "vocab_size": 6676, "learned_vocab_size": 6398, "compression_ratio": 1.1791160483017766, "example_words": [] }, { "step": 6399, "pair": [ "कैं", "पस" ], "new_token": "कैंपस", "frequency": 3, "vocab_size": 6677, "learned_vocab_size": 6399, "compression_ratio": 1.1791354058929864, "example_words": [] }, { "step": 6400, "pair": [ "बा", "ध्य" ], "new_token": "बाध्य", "frequency": 3, "vocab_size": 6678, "learned_vocab_size": 6400, "compression_ratio": 1.1791418585646325, "example_words": [] }, { "step": 6401, "pair": [ "टन", "कपुर" ], "new_token": "टनकपुर", "frequency": 3, "vocab_size": 6679, "learned_vocab_size": 6401, "compression_ratio": 1.1791418585646325, "example_words": [ "टनकपुर" ] }, { "step": 6402, "pair": [ "बो", "दवा" ], "new_token": "बोदवा", "frequency": 3, "vocab_size": 6680, "learned_vocab_size": 6402, "compression_ratio": 1.1791418585646325, "example_words": [] }, { "step": 6403, "pair": [ "बोदवा", "ड" ], "new_token": "बोदवाड", "frequency": 3, "vocab_size": 6681, "learned_vocab_size": 6403, "compression_ratio": 1.1791483113069017, "example_words": [] }, { "step": 6404, "pair": [ "अल", "बर्ट" ], "new_token": "अलबर्ट", "frequency": 3, "vocab_size": 6682, "learned_vocab_size": 6404, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6405, "pair": [ "निर्", "झ" ], "new_token": "निर्झ", "frequency": 3, "vocab_size": 6683, "learned_vocab_size": 6405, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6406, "pair": [ "निर्झ", "रि" ], "new_token": "निर्झरि", "frequency": 3, "vocab_size": 6684, "learned_vocab_size": 6406, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6407, "pair": [ "निर्झरि", "णी" ], "new_token": "निर्झरिणी", "frequency": 3, "vocab_size": 6685, "learned_vocab_size": 6407, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6408, "pair": [ "प्रे", "म" ], "new_token": "प्रेम", "frequency": 3, "vocab_size": 6686, "learned_vocab_size": 6408, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6409, "pair": [ "प्रेम", "चंद" ], "new_token": "प्रेमचंद", "frequency": 3, "vocab_size": 6687, "learned_vocab_size": 6409, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6410, "pair": [ "मु", "ंशी" ], "new_token": "मुंशी", "frequency": 3, "vocab_size": 6688, "learned_vocab_size": 6410, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6411, "pair": [ "वा", "णी" ], "new_token": "वाणी", "frequency": 3, "vocab_size": 6689, "learned_vocab_size": 6411, "compression_ratio": 1.1791547641197953, "example_words": [] }, { "step": 6412, "pair": [ "टेरि", "टोरियल" ], "new_token": "टेरिटोरियल", "frequency": 3, "vocab_size": 6690, "learned_vocab_size": 6412, "compression_ratio": 1.1791633679801823, "example_words": [] }, { "step": 6413, "pair": [ "स्तरी", "य" ], "new_token": "स्तरीय", "frequency": 3, "vocab_size": 6691, "learned_vocab_size": 6413, "compression_ratio": 1.1791633679801823, "example_words": [] }, { "step": 6414, "pair": [ "फ़ि", "जी" ], "new_token": "फ़िजी", "frequency": 3, "vocab_size": 6692, "learned_vocab_size": 6414, "compression_ratio": 1.1791633679801823, "example_words": [] }, { "step": 6415, "pair": [ "थे", "म" ], "new_token": "थेम", "frequency": 3, "vocab_size": 6693, "learned_vocab_size": 6415, "compression_ratio": 1.179169820957871, "example_words": [] }, { "step": 6416, "pair": [ "ट्रि", "पै" ], "new_token": "ट्रिपै", "frequency": 3, "vocab_size": 6694, "learned_vocab_size": 6416, "compression_ratio": 1.1791805760776373, "example_words": [] }, { "step": 6417, "pair": [ "ट्रिपै", "नो" ], "new_token": "ट्रिपैनो", "frequency": 3, "vocab_size": 6695, "learned_vocab_size": 6417, "compression_ratio": 1.1791805760776373, "example_words": [] }, { "step": 6418, "pair": [ "ट्रिपैनो", "सोमा" ], "new_token": "ट्रिपैनोसोमा", "frequency": 3, "vocab_size": 6696, "learned_vocab_size": 6418, "compression_ratio": 1.1791805760776373, "example_words": [] }, { "step": 6419, "pair": [ "ब्रु", "से" ], "new_token": "ब्रुसे", "frequency": 3, "vocab_size": 6697, "learned_vocab_size": 6419, "compression_ratio": 1.1791805760776373, "example_words": [] }, { "step": 6420, "pair": [ "आ", "दो" ], "new_token": "आदो", "frequency": 3, "vocab_size": 6698, "learned_vocab_size": 6420, "compression_ratio": 1.1791805760776373, "example_words": [] }, { "step": 6421, "pair": [ "आदो", "नि" ], "new_token": "आदोनि", "frequency": 3, "vocab_size": 6699, "learned_vocab_size": 6421, "compression_ratio": 1.1791870292436706, "example_words": [] }, { "step": 6422, "pair": [ "चैं", "पि" ], "new_token": "चैंपि", "frequency": 3, "vocab_size": 6700, "learned_vocab_size": 6422, "compression_ratio": 1.1791934824803352, "example_words": [] }, { "step": 6423, "pair": [ "चैंपि", "यंस" ], "new_token": "चैंपियंस", "frequency": 3, "vocab_size": 6701, "learned_vocab_size": 6423, "compression_ratio": 1.1791827271251338, "example_words": [] }, { "step": 6424, "pair": [ "नन्द", "गोकुल" ], "new_token": "नन्दगोकुल", "frequency": 3, "vocab_size": 6702, "learned_vocab_size": 6424, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 6425, "pair": [ "चन्द्र", "शेखर" ], "new_token": "चन्द्रशेखर", "frequency": 3, "vocab_size": 6703, "learned_vocab_size": 6425, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 6426, "pair": [ "बू", "ढ़ी" ], "new_token": "बूढ़ी", "frequency": 3, "vocab_size": 6704, "learned_vocab_size": 6426, "compression_ratio": 1.1791891803147108, "example_words": [] }, { "step": 6427, "pair": [ "फर", "किया" ], "new_token": "फरकिया", "frequency": 3, "vocab_size": 6705, "learned_vocab_size": 6427, "compression_ratio": 1.1791956335749194, "example_words": [] }, { "step": 6428, "pair": [ "कु", "वाजरवाला" ], "new_token": "कुवाजरवाला", "frequency": 3, "vocab_size": 6706, "learned_vocab_size": 6428, "compression_ratio": 1.1791956335749194, "example_words": [] }, { "step": 6429, "pair": [ "सु", "मित" ], "new_token": "सुमित", "frequency": 3, "vocab_size": 6707, "learned_vocab_size": 6429, "compression_ratio": 1.1791956335749194, "example_words": [] }, { "step": 6430, "pair": [ "मेटा", "बेले" ], "new_token": "मेटाबेले", "frequency": 3, "vocab_size": 6708, "learned_vocab_size": 6430, "compression_ratio": 1.1791956335749194, "example_words": [] }, { "step": 6431, "pair": [ "मेटाबेले", "लैंड" ], "new_token": "मेटाबेलेलैंड", "frequency": 3, "vocab_size": 6709, "learned_vocab_size": 6431, "compression_ratio": 1.1791956335749194, "example_words": [] }, { "step": 6432, "pair": [ "काग", "ज्" ], "new_token": "कागज्", "frequency": 3, "vocab_size": 6710, "learned_vocab_size": 6432, "compression_ratio": 1.1791956335749194, "example_words": [] }, { "step": 6433, "pair": [ "कागज्", "नगर" ], "new_token": "कागज्नगर", "frequency": 3, "vocab_size": 6711, "learned_vocab_size": 6433, "compression_ratio": 1.179202086905761, "example_words": [] }, { "step": 6434, "pair": [ "बहु", "मूल्य" ], "new_token": "बहुमूल्य", "frequency": 3, "vocab_size": 6712, "learned_vocab_size": 6434, "compression_ratio": 1.1792085403072365, "example_words": [] }, { "step": 6435, "pair": [ "टु", "डे" ], "new_token": "टुडे", "frequency": 3, "vocab_size": 6713, "learned_vocab_size": 6435, "compression_ratio": 1.1792085403072365, "example_words": [] }, { "step": 6436, "pair": [ "रि", "चार्ड" ], "new_token": "रिचार्ड", "frequency": 3, "vocab_size": 6714, "learned_vocab_size": 6436, "compression_ratio": 1.1792171449524147, "example_words": [] }, { "step": 6437, "pair": [ "कू", "पर" ], "new_token": "कूपर", "frequency": 3, "vocab_size": 6715, "learned_vocab_size": 6437, "compression_ratio": 1.1792171449524147, "example_words": [] }, { "step": 6438, "pair": [ "श्", "मिट" ], "new_token": "श्मिट", "frequency": 3, "vocab_size": 6716, "learned_vocab_size": 6438, "compression_ratio": 1.1792235985187076, "example_words": [] }, { "step": 6439, "pair": [ "ग्लो", "ब" ], "new_token": "ग्लोब", "frequency": 3, "vocab_size": 6717, "learned_vocab_size": 6439, "compression_ratio": 1.1792300521556387, "example_words": [] }, { "step": 6440, "pair": [ "बि", "म्ब" ], "new_token": "बिम्ब", "frequency": 3, "vocab_size": 6718, "learned_vocab_size": 6440, "compression_ratio": 1.1792279009354796, "example_words": [] }, { "step": 6441, "pair": [ "हि", "पो" ], "new_token": "हिपो", "frequency": 3, "vocab_size": 6719, "learned_vocab_size": 6441, "compression_ratio": 1.1792343546195032, "example_words": [] }, { "step": 6442, "pair": [ "हिपो", "क्रि" ], "new_token": "हिपोक्रि", "frequency": 3, "vocab_size": 6720, "learned_vocab_size": 6442, "compression_ratio": 1.1792429596414191, "example_words": [] }, { "step": 6443, "pair": [ "हिपोक्रि", "ट" ], "new_token": "हिपोक्रिट", "frequency": 3, "vocab_size": 6721, "learned_vocab_size": 6443, "compression_ratio": 1.1792429596414191, "example_words": [] }, { "step": 6444, "pair": [ "सेवर्त्ज़ो", "व" ], "new_token": "सेवर्त्ज़ोव", "frequency": 3, "vocab_size": 6722, "learned_vocab_size": 6444, "compression_ratio": 1.1792429596414191, "example_words": [] }, { "step": 6445, "pair": [ "सुले", "मान" ], "new_token": "सुलेमान", "frequency": 3, "vocab_size": 6723, "learned_vocab_size": 6445, "compression_ratio": 1.1792429596414191, "example_words": [] }, { "step": 6446, "pair": [ "सी", "मैन" ], "new_token": "सीमैन", "frequency": 3, "vocab_size": 6724, "learned_vocab_size": 6446, "compression_ratio": 1.1792429596414191, "example_words": [] }, { "step": 6447, "pair": [ "खु", "श" ], "new_token": "खुश", "frequency": 3, "vocab_size": 6725, "learned_vocab_size": 6447, "compression_ratio": 1.1792494134902711, "example_words": [] }, { "step": 6448, "pair": [ "माध", "वन" ], "new_token": "माधवन", "frequency": 3, "vocab_size": 6726, "learned_vocab_size": 6448, "compression_ratio": 1.1792580187319621, "example_words": [] }, { "step": 6449, "pair": [ "बर्", "धमान" ], "new_token": "बर्धमान", "frequency": 3, "vocab_size": 6727, "learned_vocab_size": 6449, "compression_ratio": 1.1792644727456485, "example_words": [] }, { "step": 6450, "pair": [ "पैरा", "लं" ], "new_token": "पैरालं", "frequency": 3, "vocab_size": 6728, "learned_vocab_size": 6450, "compression_ratio": 1.1792644727456485, "example_words": [] }, { "step": 6451, "pair": [ "पैरालं", "पिक" ], "new_token": "पैरालंपिक", "frequency": 3, "vocab_size": 6729, "learned_vocab_size": 6451, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 6452, "pair": [ "पेट्रो", "ल" ], "new_token": "पेट्रोल", "frequency": 3, "vocab_size": 6730, "learned_vocab_size": 6452, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 6453, "pair": [ "एलि", "जा" ], "new_token": "एलिजा", "frequency": 3, "vocab_size": 6731, "learned_vocab_size": 6453, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 6454, "pair": [ "एलिजा", "बेथ" ], "new_token": "एलिजाबेथ", "frequency": 3, "vocab_size": 6732, "learned_vocab_size": 6454, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 6455, "pair": [ "हु", "दा" ], "new_token": "हुदा", "frequency": 3, "vocab_size": 6733, "learned_vocab_size": 6455, "compression_ratio": 1.1792709268299801, "example_words": [] }, { "step": 6456, "pair": [ "न्यूरो", "बायोलॉजी" ], "new_token": "न्यूरोबायोलॉजी", "frequency": 3, "vocab_size": 6734, "learned_vocab_size": 6456, "compression_ratio": 1.1792816837941924, "example_words": [] }, { "step": 6457, "pair": [ "स्टै", "न" ], "new_token": "स्टैन", "frequency": 3, "vocab_size": 6735, "learned_vocab_size": 6457, "compression_ratio": 1.1792816837941924, "example_words": [] }, { "step": 6458, "pair": [ "स्टैन", "फोर्ड" ], "new_token": "स्टैनफोर्ड", "frequency": 3, "vocab_size": 6736, "learned_vocab_size": 6458, "compression_ratio": 1.1792816837941924, "example_words": [] }, { "step": 6459, "pair": [ "बेरु", "त" ], "new_token": "बेरुत", "frequency": 3, "vocab_size": 6737, "learned_vocab_size": 6459, "compression_ratio": 1.1792816837941924, "example_words": [] }, { "step": 6460, "pair": [ "पाठ", "्यक्रम" ], "new_token": "पाठ्यक्रम", "frequency": 3, "vocab_size": 6738, "learned_vocab_size": 6460, "compression_ratio": 1.1792816837941924, "example_words": [] }, { "step": 6461, "pair": [ "६", "०" ], "new_token": "६०", "frequency": 3, "vocab_size": 6739, "learned_vocab_size": 6461, "compression_ratio": 1.1792816837941924, "example_words": [] }, { "step": 6462, "pair": [ "टेलीग्रा", "फ" ], "new_token": "टेलीग्राफ", "frequency": 3, "vocab_size": 6740, "learned_vocab_size": 6462, "compression_ratio": 1.1792988953451249, "example_words": [] }, { "step": 6463, "pair": [ "टाई", "म्स" ], "new_token": "टाईम्स", "frequency": 3, "vocab_size": 6741, "learned_vocab_size": 6463, "compression_ratio": 1.1792988953451249, "example_words": [] }, { "step": 6464, "pair": [ "लोहा", "घाट" ], "new_token": "लोहाघाट", "frequency": 3, "vocab_size": 6742, "learned_vocab_size": 6464, "compression_ratio": 1.1793075013089938, "example_words": [] }, { "step": 6465, "pair": [ "पे", "ग" ], "new_token": "पेग", "frequency": 3, "vocab_size": 6743, "learned_vocab_size": 6465, "compression_ratio": 1.1793139558643237, "example_words": [] }, { "step": 6466, "pair": [ "दिना", "जपुर" ], "new_token": "दिनाजपुर", "frequency": 3, "vocab_size": 6744, "learned_vocab_size": 6466, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6467, "pair": [ "अह", "सान" ], "new_token": "अहसान", "frequency": 3, "vocab_size": 6745, "learned_vocab_size": 6467, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6468, "pair": [ "ओ", "धिया" ], "new_token": "ओधिया", "frequency": 3, "vocab_size": 6746, "learned_vocab_size": 6468, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6469, "pair": [ "ओधिया", "म्बो" ], "new_token": "ओधियाम्बो", "frequency": 3, "vocab_size": 6747, "learned_vocab_size": 6469, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6470, "pair": [ "सचो", "ल्ट्" ], "new_token": "सचोल्ट्", "frequency": 3, "vocab_size": 6748, "learned_vocab_size": 6470, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6471, "pair": [ "सचोल्ट्", "ज़" ], "new_token": "सचोल्ट्ज़", "frequency": 3, "vocab_size": 6749, "learned_vocab_size": 6471, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6472, "pair": [ "सं", "यमन" ], "new_token": "संयमन", "frequency": 3, "vocab_size": 6750, "learned_vocab_size": 6472, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6473, "pair": [ "वै", "न" ], "new_token": "वैन", "frequency": 3, "vocab_size": 6751, "learned_vocab_size": 6473, "compression_ratio": 1.1793225620480037, "example_words": [] }, { "step": 6474, "pair": [ "रो", "जर" ], "new_token": "रोजर", "frequency": 3, "vocab_size": 6752, "learned_vocab_size": 6474, "compression_ratio": 1.1793440780567546, "example_words": [] }, { "step": 6475, "pair": [ "रे", "ट" ], "new_token": "रेट", "frequency": 3, "vocab_size": 6753, "learned_vocab_size": 6475, "compression_ratio": 1.1793548363555424, "example_words": [] }, { "step": 6476, "pair": [ "फा", "ल" ], "new_token": "फाल", "frequency": 3, "vocab_size": 6754, "learned_vocab_size": 6476, "compression_ratio": 1.179406478922065, "example_words": [] }, { "step": 6477, "pair": [ "गरौ", "ठा" ], "new_token": "गरौठा", "frequency": 3, "vocab_size": 6755, "learned_vocab_size": 6477, "compression_ratio": 1.1794107826734272, "example_words": [] }, { "step": 6478, "pair": [ "मणि", "पाल" ], "new_token": "मणिपाल", "frequency": 3, "vocab_size": 6756, "learned_vocab_size": 6478, "compression_ratio": 1.1794107826734272, "example_words": [] }, { "step": 6479, "pair": [ "रचना", "ओं" ], "new_token": "रचनाओं", "frequency": 3, "vocab_size": 6757, "learned_vocab_size": 6479, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6480, "pair": [ "मै", "ट्रिक्स" ], "new_token": "मैट्रिक्स", "frequency": 3, "vocab_size": 6758, "learned_vocab_size": 6480, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6481, "pair": [ "कथी", "ड्रल" ], "new_token": "कथीड्रल", "frequency": 3, "vocab_size": 6759, "learned_vocab_size": 6481, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6482, "pair": [ "कैथे", "ड्रल" ], "new_token": "कैथेड्रल", "frequency": 3, "vocab_size": 6760, "learned_vocab_size": 6482, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6483, "pair": [ "आमो", "दरा" ], "new_token": "आमोदरा", "frequency": 3, "vocab_size": 6761, "learned_vocab_size": 6483, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6484, "pair": [ "इंद्राय", "णी" ], "new_token": "इंद्रायणी", "frequency": 3, "vocab_size": 6762, "learned_vocab_size": 6484, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6485, "pair": [ "सह", "याद्रि" ], "new_token": "सहयाद्रि", "frequency": 3, "vocab_size": 6763, "learned_vocab_size": 6485, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6486, "pair": [ "ला", "फ्" ], "new_token": "लाफ्", "frequency": 3, "vocab_size": 6764, "learned_vocab_size": 6486, "compression_ratio": 1.1794172383593635, "example_words": [] }, { "step": 6487, "pair": [ "लाफ्", "तान" ], "new_token": "लाफ्तान", "frequency": 3, "vocab_size": 6765, "learned_vocab_size": 6487, "compression_ratio": 1.1794236941159728, "example_words": [] }, { "step": 6488, "pair": [ "बुरा", "क" ], "new_token": "बुराक", "frequency": 3, "vocab_size": 6766, "learned_vocab_size": 6488, "compression_ratio": 1.1794236941159728, "example_words": [] }, { "step": 6489, "pair": [ "डे", "नि" ], "new_token": "डेनि", "frequency": 3, "vocab_size": 6767, "learned_vocab_size": 6489, "compression_ratio": 1.1794301499432558, "example_words": [] }, { "step": 6490, "pair": [ "डेनि", "ज़" ], "new_token": "डेनिज़", "frequency": 3, "vocab_size": 6768, "learned_vocab_size": 6490, "compression_ratio": 1.1794387578229057, "example_words": [] }, { "step": 6491, "pair": [ "टिप्", "पणियाँ" ], "new_token": "टिप्पणियाँ", "frequency": 3, "vocab_size": 6769, "learned_vocab_size": 6491, "compression_ratio": 1.1794452138150993, "example_words": [] }, { "step": 6492, "pair": [ "केम्", "पटी" ], "new_token": "केम्पटी", "frequency": 3, "vocab_size": 6770, "learned_vocab_size": 6492, "compression_ratio": 1.1794452138150993, "example_words": [] }, { "step": 6493, "pair": [ "मं", "झ" ], "new_token": "मंझ", "frequency": 3, "vocab_size": 6771, "learned_vocab_size": 6493, "compression_ratio": 1.1794452138150993, "example_words": [] }, { "step": 6494, "pair": [ "दे", "त" ], "new_token": "देत", "frequency": 3, "vocab_size": 6772, "learned_vocab_size": 6494, "compression_ratio": 1.179453821914634, "example_words": [] }, { "step": 6495, "pair": [ "खो", "ङ" ], "new_token": "खोङ", "frequency": 3, "vocab_size": 6773, "learned_vocab_size": 6495, "compression_ratio": 1.179374201787995, "example_words": [] }, { "step": 6496, "pair": [ "खोङ", "जि" ], "new_token": "खोङजि", "frequency": 3, "vocab_size": 6774, "learned_vocab_size": 6496, "compression_ratio": 1.179382808851004, "example_words": [] }, { "step": 6497, "pair": [ "म", "खोल" ], "new_token": "मखोल", "frequency": 3, "vocab_size": 6775, "learned_vocab_size": 6497, "compression_ratio": 1.179391416039643, "example_words": [] }, { "step": 6498, "pair": [ "पे", "न" ], "new_token": "पेन", "frequency": 3, "vocab_size": 6776, "learned_vocab_size": 6498, "compression_ratio": 1.179400023353914, "example_words": [] }, { "step": 6499, "pair": [ "भारो", "त्तो" ], "new_token": "भारोत्तो", "frequency": 3, "vocab_size": 6777, "learned_vocab_size": 6499, "compression_ratio": 1.179397871513568, "example_words": [] }, { "step": 6500, "pair": [ "भारोत्तो", "लन" ], "new_token": "भारोत्तोलन", "frequency": 3, "vocab_size": 6778, "learned_vocab_size": 6500, "compression_ratio": 1.179397871513568, "example_words": [] }, { "step": 6501, "pair": [ "सी", "धा" ], "new_token": "सीधा", "frequency": 3, "vocab_size": 6779, "learned_vocab_size": 6501, "compression_ratio": 1.179397871513568, "example_words": [ "सीधा" ] }, { "step": 6502, "pair": [ "ओ", "ड़िया" ], "new_token": "ओड़िया", "frequency": 3, "vocab_size": 6780, "learned_vocab_size": 6502, "compression_ratio": 1.179406478922065, "example_words": [] }, { "step": 6503, "pair": [ "मुकना", "सर" ], "new_token": "मुकनासर", "frequency": 3, "vocab_size": 6781, "learned_vocab_size": 6503, "compression_ratio": 1.179406478922065, "example_words": [] }, { "step": 6504, "pair": [ "म", "जी" ], "new_token": "मजी", "frequency": 3, "vocab_size": 6782, "learned_vocab_size": 6504, "compression_ratio": 1.179406478922065, "example_words": [] }, { "step": 6505, "pair": [ "मजी", "द" ], "new_token": "मजीद", "frequency": 3, "vocab_size": 6783, "learned_vocab_size": 6505, "compression_ratio": 1.179415086456199, "example_words": [] }, { "step": 6506, "pair": [ "सली", "म" ], "new_token": "सलीम", "frequency": 3, "vocab_size": 6784, "learned_vocab_size": 6506, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6507, "pair": [ "कल्याण", "क" ], "new_token": "कल्याणक", "frequency": 3, "vocab_size": 6785, "learned_vocab_size": 6507, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6508, "pair": [ "परमाण्", "वों" ], "new_token": "परमाण्वों", "frequency": 3, "vocab_size": 6786, "learned_vocab_size": 6508, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6509, "pair": [ "आ", "बन्धन" ], "new_token": "आबन्धन", "frequency": 3, "vocab_size": 6787, "learned_vocab_size": 6509, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6510, "pair": [ "आ", "बन्ध" ], "new_token": "आबन्ध", "frequency": 3, "vocab_size": 6788, "learned_vocab_size": 6510, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6511, "pair": [ "इंड", "स्ट्रियल" ], "new_token": "इंडस्ट्रियल", "frequency": 3, "vocab_size": 6789, "learned_vocab_size": 6511, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6512, "pair": [ "कमर्", "शि" ], "new_token": "कमर्शि", "frequency": 3, "vocab_size": 6790, "learned_vocab_size": 6512, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6513, "pair": [ "कमर्शि", "यल" ], "new_token": "कमर्शियल", "frequency": 3, "vocab_size": 6791, "learned_vocab_size": 6513, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6514, "pair": [ "आईसी", "बीसी" ], "new_token": "आईसीबीसी", "frequency": 3, "vocab_size": 6792, "learned_vocab_size": 6514, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6515, "pair": [ "ची", "पुर" ], "new_token": "चीपुर", "frequency": 3, "vocab_size": 6793, "learned_vocab_size": 6515, "compression_ratio": 1.1794215421892504, "example_words": [] }, { "step": 6516, "pair": [ "मंगली", "पुर" ], "new_token": "मंगलीपुर", "frequency": 3, "vocab_size": 6794, "learned_vocab_size": 6516, "compression_ratio": 1.1794301499432558, "example_words": [] }, { "step": 6517, "pair": [ "र", "शी" ], "new_token": "रशी", "frequency": 3, "vocab_size": 6795, "learned_vocab_size": 6517, "compression_ratio": 1.1794301499432558, "example_words": [] }, { "step": 6518, "pair": [ "रशी", "दाबाद" ], "new_token": "रशीदाबाद", "frequency": 3, "vocab_size": 6796, "learned_vocab_size": 6518, "compression_ratio": 1.1794409098124505, "example_words": [] }, { "step": 6519, "pair": [ "७", "ए" ], "new_token": "७ए", "frequency": 3, "vocab_size": 6797, "learned_vocab_size": 6519, "compression_ratio": 1.1794473658282032, "example_words": [] }, { "step": 6520, "pair": [ "९", "ए" ], "new_token": "९ए", "frequency": 3, "vocab_size": 6798, "learned_vocab_size": 6520, "compression_ratio": 1.179453821914634, "example_words": [] }, { "step": 6521, "pair": [ "कॉलि", "ज" ], "new_token": "कॉलिज", "frequency": 3, "vocab_size": 6799, "learned_vocab_size": 6521, "compression_ratio": 1.179460278071744, "example_words": [] }, { "step": 6522, "pair": [ "कोर्", "नबर्ग" ], "new_token": "कोर्नबर्ग", "frequency": 3, "vocab_size": 6800, "learned_vocab_size": 6522, "compression_ratio": 1.179460278071744, "example_words": [] }, { "step": 6523, "pair": [ "मह", "ड" ], "new_token": "महड", "frequency": 2, "vocab_size": 6801, "learned_vocab_size": 6523, "compression_ratio": 1.179460278071744, "example_words": [] }, { "step": 6524, "pair": [ "फ़", "ो" ], "new_token": "फ़ो", "frequency": 2, "vocab_size": 6802, "learned_vocab_size": 6524, "compression_ratio": 1.1794645822157508, "example_words": [] }, { "step": 6525, "pair": [ "संस्करण", "ों" ], "new_token": "संस्करणों", "frequency": 2, "vocab_size": 6803, "learned_vocab_size": 6525, "compression_ratio": 1.1794882555693216, "example_words": [] }, { "step": 6526, "pair": [ "आवासी", "य" ], "new_token": "आवासीय", "frequency": 2, "vocab_size": 6804, "learned_vocab_size": 6526, "compression_ratio": 1.1794882555693216, "example_words": [] }, { "step": 6527, "pair": [ "स्वाधीन", "ता" ], "new_token": "स्वाधीनता", "frequency": 2, "vocab_size": 6805, "learned_vocab_size": 6527, "compression_ratio": 1.1794882555693216, "example_words": [] }, { "step": 6528, "pair": [ "डोंगर", "गांव" ], "new_token": "डोंगरगांव", "frequency": 2, "vocab_size": 6806, "learned_vocab_size": 6528, "compression_ratio": 1.1794882555693216, "example_words": [] }, { "step": 6529, "pair": [ "डि", "ज़्" ], "new_token": "डिज़्", "frequency": 2, "vocab_size": 6807, "learned_vocab_size": 6529, "compression_ratio": 1.1794882555693216, "example_words": [] }, { "step": 6530, "pair": [ "डिज़्", "नी" ], "new_token": "डिज़्नी", "frequency": 2, "vocab_size": 6808, "learned_vocab_size": 6530, "compression_ratio": 1.179492559917525, "example_words": [] }, { "step": 6531, "pair": [ "ई", "टीवी" ], "new_token": "ईटीवी", "frequency": 2, "vocab_size": 6809, "learned_vocab_size": 6531, "compression_ratio": 1.1794968642971446, "example_words": [] }, { "step": 6532, "pair": [ "घ", "ंटा" ], "new_token": "घंटा", "frequency": 2, "vocab_size": 6810, "learned_vocab_size": 6532, "compression_ratio": 1.1795011687081807, "example_words": [] }, { "step": 6533, "pair": [ "ए", "पी" ], "new_token": "एपी", "frequency": 2, "vocab_size": 6811, "learned_vocab_size": 6533, "compression_ratio": 1.1795011687081807, "example_words": [] }, { "step": 6534, "pair": [ "डायरे", "क्ट" ], "new_token": "डायरेक्ट", "frequency": 2, "vocab_size": 6812, "learned_vocab_size": 6534, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 6535, "pair": [ "ज़", "ू" ], "new_token": "ज़ू", "frequency": 2, "vocab_size": 6813, "learned_vocab_size": 6535, "compression_ratio": 1.1795054731506334, "example_words": [] }, { "step": 6536, "pair": [ "हा", "ंग" ], "new_token": "हांग", "frequency": 2, "vocab_size": 6814, "learned_vocab_size": 6536, "compression_ratio": 1.179514082129791, "example_words": [] }, { "step": 6537, "pair": [ "हांग", "कांग" ], "new_token": "हांगकांग", "frequency": 2, "vocab_size": 6815, "learned_vocab_size": 6537, "compression_ratio": 1.1795183866664964, "example_words": [] }, { "step": 6538, "pair": [ "डो", "वे" ], "new_token": "डोवे", "frequency": 2, "vocab_size": 6816, "learned_vocab_size": 6538, "compression_ratio": 1.17952269123462, "example_words": [] }, { "step": 6539, "pair": [ "डोवे", "गर" ], "new_token": "डोवेगर", "frequency": 2, "vocab_size": 6817, "learned_vocab_size": 6539, "compression_ratio": 1.179526995834162, "example_words": [] }, { "step": 6540, "pair": [ "तख्तापल", "ट" ], "new_token": "तख्तापलट", "frequency": 2, "vocab_size": 6818, "learned_vocab_size": 6540, "compression_ratio": 1.1795313004651231, "example_words": [] }, { "step": 6541, "pair": [ "शि", "शु" ], "new_token": "शिशु", "frequency": 2, "vocab_size": 6819, "learned_vocab_size": 6541, "compression_ratio": 1.1795313004651231, "example_words": [] }, { "step": 6542, "pair": [ "गुआ", "ंग" ], "new_token": "गुआंग", "frequency": 2, "vocab_size": 6820, "learned_vocab_size": 6542, "compression_ratio": 1.1795356051275032, "example_words": [] }, { "step": 6543, "pair": [ "गुआंग", "क्सू" ], "new_token": "गुआंगक्सू", "frequency": 2, "vocab_size": 6821, "learned_vocab_size": 6543, "compression_ratio": 1.1795463669209152, "example_words": [] }, { "step": 6544, "pair": [ "स", "वाल" ], "new_token": "सवाल", "frequency": 2, "vocab_size": 6822, "learned_vocab_size": 6544, "compression_ratio": 1.1795463669209152, "example_words": [] }, { "step": 6545, "pair": [ "व", "श" ], "new_token": "वश", "frequency": 2, "vocab_size": 6823, "learned_vocab_size": 6545, "compression_ratio": 1.1795528240912234, "example_words": [] }, { "step": 6546, "pair": [ "क्वार्", "टर" ], "new_token": "क्वार्टर", "frequency": 2, "vocab_size": 6824, "learned_vocab_size": 6546, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6547, "pair": [ "गर्", "भ" ], "new_token": "गर्भ", "frequency": 2, "vocab_size": 6825, "learned_vocab_size": 6547, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6548, "pair": [ "अनु", "स्मारक" ], "new_token": "अनुस्मारक", "frequency": 2, "vocab_size": 6826, "learned_vocab_size": 6548, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6549, "pair": [ "शु", "क्रा" ], "new_token": "शुक्रा", "frequency": 2, "vocab_size": 6827, "learned_vocab_size": 6549, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6550, "pair": [ "शुक्रा", "णु" ], "new_token": "शुक्राणु", "frequency": 2, "vocab_size": 6828, "learned_vocab_size": 6550, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6551, "pair": [ "नमू", "नों" ], "new_token": "नमूनों", "frequency": 2, "vocab_size": 6829, "learned_vocab_size": 6551, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6552, "pair": [ "सू", "जन" ], "new_token": "सूजन", "frequency": 2, "vocab_size": 6830, "learned_vocab_size": 6552, "compression_ratio": 1.179557128910705, "example_words": [] }, { "step": 6553, "pair": [ "अवरु", "द्ध" ], "new_token": "अवरुद्ध", "frequency": 2, "vocab_size": 6831, "learned_vocab_size": 6553, "compression_ratio": 1.1795614337616078, "example_words": [] }, { "step": 6554, "pair": [ "छोड़", "ना" ], "new_token": "छोड़ना", "frequency": 2, "vocab_size": 6832, "learned_vocab_size": 6554, "compression_ratio": 1.1795614337616078, "example_words": [] }, { "step": 6555, "pair": [ "नि", "ष्" ], "new_token": "निष्", "frequency": 2, "vocab_size": 6833, "learned_vocab_size": 6555, "compression_ratio": 1.1795657386439324, "example_words": [] }, { "step": 6556, "pair": [ "चि", "ंता" ], "new_token": "चिंता", "frequency": 2, "vocab_size": 6834, "learned_vocab_size": 6556, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6557, "pair": [ "थ", "ैली" ], "new_token": "थैली", "frequency": 2, "vocab_size": 6835, "learned_vocab_size": 6557, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6558, "pair": [ "मा", "मूली" ], "new_token": "मामूली", "frequency": 2, "vocab_size": 6836, "learned_vocab_size": 6558, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6559, "pair": [ "पुरू", "ष" ], "new_token": "पुरूष", "frequency": 2, "vocab_size": 6837, "learned_vocab_size": 6559, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6560, "pair": [ "इंजे", "क्शन" ], "new_token": "इंजेक्शन", "frequency": 2, "vocab_size": 6838, "learned_vocab_size": 6560, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6561, "pair": [ "श्रेणिया", "ं" ], "new_token": "श्रेणियां", "frequency": 2, "vocab_size": 6839, "learned_vocab_size": 6561, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6562, "pair": [ "गु", "दा" ], "new_token": "गुदा", "frequency": 2, "vocab_size": 6840, "learned_vocab_size": 6562, "compression_ratio": 1.1795765009872154, "example_words": [] }, { "step": 6563, "pair": [ "मु", "ंह" ], "new_token": "मुंह", "frequency": 2, "vocab_size": 6841, "learned_vocab_size": 6563, "compression_ratio": 1.1795808059795183, "example_words": [] }, { "step": 6564, "pair": [ "गा", "इड" ], "new_token": "गाइड", "frequency": 2, "vocab_size": 6842, "learned_vocab_size": 6564, "compression_ratio": 1.1795894160583942, "example_words": [] }, { "step": 6565, "pair": [ "को", "ण" ], "new_token": "कोण", "frequency": 2, "vocab_size": 6843, "learned_vocab_size": 6565, "compression_ratio": 1.1796023314123878, "example_words": [] }, { "step": 6566, "pair": [ "वर्गी", "कृत" ], "new_token": "वर्गीकृत", "frequency": 2, "vocab_size": 6844, "learned_vocab_size": 6566, "compression_ratio": 1.1796130944234282, "example_words": [] }, { "step": 6567, "pair": [ "द", "वे" ], "new_token": "दवे", "frequency": 2, "vocab_size": 6845, "learned_vocab_size": 6567, "compression_ratio": 1.1796130944234282, "example_words": [] }, { "step": 6568, "pair": [ "उज्", "ज्" ], "new_token": "उज्ज्", "frequency": 2, "vocab_size": 6846, "learned_vocab_size": 6568, "compression_ratio": 1.1796173996828392, "example_words": [] }, { "step": 6569, "pair": [ "पी", "यूष" ], "new_token": "पीयूष", "frequency": 2, "vocab_size": 6847, "learned_vocab_size": 6569, "compression_ratio": 1.1796217049736764, "example_words": [] }, { "step": 6570, "pair": [ "टू", "ट" ], "new_token": "टूट", "frequency": 2, "vocab_size": 6848, "learned_vocab_size": 6570, "compression_ratio": 1.17962601029594, "example_words": [] }, { "step": 6571, "pair": [ "दा", "मिनी" ], "new_token": "दामिनी", "frequency": 2, "vocab_size": 6849, "learned_vocab_size": 6571, "compression_ratio": 1.1796238576308797, "example_words": [] }, { "step": 6572, "pair": [ "नय", "्यर" ], "new_token": "नय्यर", "frequency": 2, "vocab_size": 6850, "learned_vocab_size": 6572, "compression_ratio": 1.1796238576308797, "example_words": [] }, { "step": 6573, "pair": [ "सु", "जीत" ], "new_token": "सुजीत", "frequency": 2, "vocab_size": 6851, "learned_vocab_size": 6573, "compression_ratio": 1.1796238576308797, "example_words": [] }, { "step": 6574, "pair": [ "दा", "दी" ], "new_token": "दादी", "frequency": 2, "vocab_size": 6852, "learned_vocab_size": 6574, "compression_ratio": 1.1796324683382606, "example_words": [] }, { "step": 6575, "pair": [ "विक्", "की" ], "new_token": "विक्की", "frequency": 2, "vocab_size": 6853, "learned_vocab_size": 6575, "compression_ratio": 1.1796367737390918, "example_words": [] }, { "step": 6576, "pair": [ "वि", "ंध्या" ], "new_token": "विंध्या", "frequency": 2, "vocab_size": 6854, "learned_vocab_size": 6576, "compression_ratio": 1.1796367737390918, "example_words": [] }, { "step": 6577, "pair": [ "तू", "लिका" ], "new_token": "तूलिका", "frequency": 2, "vocab_size": 6855, "learned_vocab_size": 6577, "compression_ratio": 1.1796367737390918, "example_words": [] }, { "step": 6578, "pair": [ "नागे", "श" ], "new_token": "नागेश", "frequency": 2, "vocab_size": 6856, "learned_vocab_size": 6578, "compression_ratio": 1.1796367737390918, "example_words": [] }, { "step": 6579, "pair": [ "रेश", "म" ], "new_token": "रेशम", "frequency": 2, "vocab_size": 6857, "learned_vocab_size": 6579, "compression_ratio": 1.1796367737390918, "example_words": [] }, { "step": 6580, "pair": [ "श्री", "प्रकाश" ], "new_token": "श्रीप्रकाश", "frequency": 2, "vocab_size": 6858, "learned_vocab_size": 6580, "compression_ratio": 1.1796410791713505, "example_words": [] }, { "step": 6581, "pair": [ "दे", "योल" ], "new_token": "देयोल", "frequency": 2, "vocab_size": 6859, "learned_vocab_size": 6581, "compression_ratio": 1.1796410791713505, "example_words": [] }, { "step": 6582, "pair": [ "स्वायत्त", "ता" ], "new_token": "स्वायत्तता", "frequency": 2, "vocab_size": 6860, "learned_vocab_size": 6582, "compression_ratio": 1.1796453846350374, "example_words": [] }, { "step": 6583, "pair": [ "नजदी", "क" ], "new_token": "नजदीक", "frequency": 2, "vocab_size": 6861, "learned_vocab_size": 6583, "compression_ratio": 1.1796453846350374, "example_words": [] }, { "step": 6584, "pair": [ "नवीन", "तम" ], "new_token": "नवीनतम", "frequency": 2, "vocab_size": 6862, "learned_vocab_size": 6584, "compression_ratio": 1.1796496901301525, "example_words": [] }, { "step": 6585, "pair": [ "सु", "स्पष्ट" ], "new_token": "सुस्पष्ट", "frequency": 2, "vocab_size": 6863, "learned_vocab_size": 6585, "compression_ratio": 1.1796496901301525, "example_words": [] }, { "step": 6586, "pair": [ "उपनि", "वेश" ], "new_token": "उपनिवेश", "frequency": 2, "vocab_size": 6864, "learned_vocab_size": 6586, "compression_ratio": 1.1796539956566965, "example_words": [] }, { "step": 6587, "pair": [ "या", "ल" ], "new_token": "याल", "frequency": 2, "vocab_size": 6865, "learned_vocab_size": 6587, "compression_ratio": 1.1796539956566965, "example_words": [] }, { "step": 6588, "pair": [ "तरी", "के" ], "new_token": "तरीके", "frequency": 2, "vocab_size": 6866, "learned_vocab_size": 6588, "compression_ratio": 1.1797379597066053, "example_words": [] }, { "step": 6589, "pair": [ "बाँ", "टा" ], "new_token": "बाँटा", "frequency": 2, "vocab_size": 6867, "learned_vocab_size": 6589, "compression_ratio": 1.1797379597066053, "example_words": [] }, { "step": 6590, "pair": [ "ख़ु", "द" ], "new_token": "ख़ुद", "frequency": 2, "vocab_size": 6868, "learned_vocab_size": 6590, "compression_ratio": 1.1797422658775134, "example_words": [] }, { "step": 6591, "pair": [ "बु", "नियादी" ], "new_token": "बुनियादी", "frequency": 2, "vocab_size": 6869, "learned_vocab_size": 6591, "compression_ratio": 1.1797465720798574, "example_words": [] }, { "step": 6592, "pair": [ "जा", "गरू" ], "new_token": "जागरू", "frequency": 2, "vocab_size": 6870, "learned_vocab_size": 6592, "compression_ratio": 1.1797465720798574, "example_words": [] }, { "step": 6593, "pair": [ "जबर", "दस्त" ], "new_token": "जबरदस्त", "frequency": 2, "vocab_size": 6871, "learned_vocab_size": 6593, "compression_ratio": 1.1797465720798574, "example_words": [] }, { "step": 6594, "pair": [ "ने", "हरू" ], "new_token": "नेहरू", "frequency": 2, "vocab_size": 6872, "learned_vocab_size": 6594, "compression_ratio": 1.1797465720798574, "example_words": [] }, { "step": 6595, "pair": [ "पद", "वी" ], "new_token": "पदवी", "frequency": 2, "vocab_size": 6873, "learned_vocab_size": 6595, "compression_ratio": 1.1797465720798574, "example_words": [] }, { "step": 6596, "pair": [ "मा", "मा" ], "new_token": "मामा", "frequency": 2, "vocab_size": 6874, "learned_vocab_size": 6596, "compression_ratio": 1.179750878313638, "example_words": [] }, { "step": 6597, "pair": [ "तीर्थ", "यात्रा" ], "new_token": "तीर्थयात्रा", "frequency": 2, "vocab_size": 6875, "learned_vocab_size": 6597, "compression_ratio": 1.1797573377232526, "example_words": [] }, { "step": 6598, "pair": [ "टि", "यर" ], "new_token": "टियर", "frequency": 2, "vocab_size": 6876, "learned_vocab_size": 6598, "compression_ratio": 1.1797573377232526, "example_words": [] }, { "step": 6599, "pair": [ "स", "य" ], "new_token": "सय", "frequency": 2, "vocab_size": 6877, "learned_vocab_size": 6599, "compression_ratio": 1.1797637972036012, "example_words": [] }, { "step": 6600, "pair": [ "अजी", "ब" ], "new_token": "अजीब", "frequency": 2, "vocab_size": 6878, "learned_vocab_size": 6600, "compression_ratio": 1.1797293474590964, "example_words": [] }, { "step": 6601, "pair": [ "सेना", "पति" ], "new_token": "सेनापति", "frequency": 2, "vocab_size": 6879, "learned_vocab_size": 6601, "compression_ratio": 1.1797293474590964, "example_words": [ "सेनापति" ] }, { "step": 6602, "pair": [ "त्रि", "पुरी" ], "new_token": "त्रिपुरी", "frequency": 2, "vocab_size": 6880, "learned_vocab_size": 6602, "compression_ratio": 1.1797293474590964, "example_words": [] }, { "step": 6603, "pair": [ "क", "ढ़ा" ], "new_token": "कढ़ा", "frequency": 2, "vocab_size": 6881, "learned_vocab_size": 6603, "compression_ratio": 1.1797293474590964, "example_words": [] }, { "step": 6604, "pair": [ "कढ़ा", "ही" ], "new_token": "कढ़ाही", "frequency": 2, "vocab_size": 6882, "learned_vocab_size": 6604, "compression_ratio": 1.1797336535671332, "example_words": [] }, { "step": 6605, "pair": [ "च", "मचा" ], "new_token": "चमचा", "frequency": 2, "vocab_size": 6883, "learned_vocab_size": 6605, "compression_ratio": 1.1797379597066053, "example_words": [] }, { "step": 6606, "pair": [ "छु", "री" ], "new_token": "छुरी", "frequency": 2, "vocab_size": 6884, "learned_vocab_size": 6606, "compression_ratio": 1.1797422658775134, "example_words": [] }, { "step": 6607, "pair": [ "पै", "न" ], "new_token": "पैन", "frequency": 2, "vocab_size": 6885, "learned_vocab_size": 6607, "compression_ratio": 1.1797465720798574, "example_words": [] }, { "step": 6608, "pair": [ "लो", "टा" ], "new_token": "लोटा", "frequency": 2, "vocab_size": 6886, "learned_vocab_size": 6608, "compression_ratio": 1.179755184578855, "example_words": [] }, { "step": 6609, "pair": [ "शक्ति", "पीठ" ], "new_token": "शक्तिपीठ", "frequency": 2, "vocab_size": 6887, "learned_vocab_size": 6609, "compression_ratio": 1.1797616440356256, "example_words": [] }, { "step": 6610, "pair": [ "न", "दि" ], "new_token": "नदि", "frequency": 2, "vocab_size": 6888, "learned_vocab_size": 6610, "compression_ratio": 1.1797616440356256, "example_words": [] }, { "step": 6611, "pair": [ "य", "ॉ" ], "new_token": "यॉ", "frequency": 2, "vocab_size": 6889, "learned_vocab_size": 6611, "compression_ratio": 1.179856390862166, "example_words": [] }, { "step": 6612, "pair": [ "मा", "घ" ], "new_token": "माघ", "frequency": 2, "vocab_size": 6890, "learned_vocab_size": 6612, "compression_ratio": 1.179811168887583, "example_words": [] }, { "step": 6613, "pair": [ "प्रति", "वर्ष" ], "new_token": "प्रतिवर्ष", "frequency": 2, "vocab_size": 6891, "learned_vocab_size": 6613, "compression_ratio": 1.1798154755929513, "example_words": [] }, { "step": 6614, "pair": [ "वा", "मन" ], "new_token": "वामन", "frequency": 2, "vocab_size": 6892, "learned_vocab_size": 6614, "compression_ratio": 1.1798154755929513, "example_words": [] }, { "step": 6615, "pair": [ "राम", "चन्द्र" ], "new_token": "रामचन्द्र", "frequency": 2, "vocab_size": 6893, "learned_vocab_size": 6615, "compression_ratio": 1.1798219357099575, "example_words": [] }, { "step": 6616, "pair": [ "कथानु", "सार" ], "new_token": "कथानुसार", "frequency": 2, "vocab_size": 6894, "learned_vocab_size": 6616, "compression_ratio": 1.1798219357099575, "example_words": [] }, { "step": 6617, "pair": [ "जग", "पाल" ], "new_token": "जगपाल", "frequency": 2, "vocab_size": 6895, "learned_vocab_size": 6617, "compression_ratio": 1.1798219357099575, "example_words": [] }, { "step": 6618, "pair": [ "जोड़", "ता" ], "new_token": "जोड़ता", "frequency": 2, "vocab_size": 6896, "learned_vocab_size": 6618, "compression_ratio": 1.1798262424939312, "example_words": [] }, { "step": 6619, "pair": [ "तीर्थ", "यात्रियों" ], "new_token": "तीर्थयात्रियों", "frequency": 2, "vocab_size": 6897, "learned_vocab_size": 6619, "compression_ratio": 1.179830549309348, "example_words": [] }, { "step": 6620, "pair": [ "रेल्", "वे" ], "new_token": "रेल्वे", "frequency": 2, "vocab_size": 6898, "learned_vocab_size": 6620, "compression_ratio": 1.179830549309348, "example_words": [] }, { "step": 6621, "pair": [ "मन", "सी" ], "new_token": "मनसी", "frequency": 2, "vocab_size": 6899, "learned_vocab_size": 6621, "compression_ratio": 1.179830549309348, "example_words": [] }, { "step": 6622, "pair": [ "गो", "गरी" ], "new_token": "गोगरी", "frequency": 2, "vocab_size": 6900, "learned_vocab_size": 6622, "compression_ratio": 1.1798370095914288, "example_words": [] }, { "step": 6623, "pair": [ "प्रचलितमराठी", "समय" ], "new_token": "प्रचलितमराठीसमय", "frequency": 2, "vocab_size": 6901, "learned_vocab_size": 6623, "compression_ratio": 1.1798370095914288, "example_words": [] }, { "step": 6624, "pair": [ "पॉ", "वर" ], "new_token": "पॉवर", "frequency": 2, "vocab_size": 6902, "learned_vocab_size": 6624, "compression_ratio": 1.1798370095914288, "example_words": [] }, { "step": 6625, "pair": [ "ताप", "विद्युत" ], "new_token": "तापविद्युत", "frequency": 2, "vocab_size": 6903, "learned_vocab_size": 6625, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6626, "pair": [ "पारं", "पारिक" ], "new_token": "पारंपारिक", "frequency": 2, "vocab_size": 6904, "learned_vocab_size": 6626, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6627, "pair": [ "पु", "तला" ], "new_token": "पुतला", "frequency": 2, "vocab_size": 6905, "learned_vocab_size": 6627, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6628, "pair": [ "पुर्", "णिया" ], "new_token": "पुर्णिया", "frequency": 2, "vocab_size": 6906, "learned_vocab_size": 6628, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6629, "pair": [ "अभिनेता", "कार्यकाल" ], "new_token": "अभिनेताकार्यकाल", "frequency": 2, "vocab_size": 6907, "learned_vocab_size": 6629, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6630, "pair": [ "बेहतरी", "न" ], "new_token": "बेहतरीन", "frequency": 2, "vocab_size": 6908, "learned_vocab_size": 6630, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6631, "pair": [ "श्या", "मलाल" ], "new_token": "श्यामलाल", "frequency": 2, "vocab_size": 6909, "learned_vocab_size": 6631, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6632, "pair": [ "ज़मी", "न" ], "new_token": "ज़मीन", "frequency": 2, "vocab_size": 6910, "learned_vocab_size": 6632, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6633, "pair": [ "धु", "ंध" ], "new_token": "धुंध", "frequency": 2, "vocab_size": 6911, "learned_vocab_size": 6633, "compression_ratio": 1.1798499303678367, "example_words": [] }, { "step": 6634, "pair": [ "फ़र्", "ज़" ], "new_token": "फ़र्ज़", "frequency": 2, "vocab_size": 6912, "learned_vocab_size": 6634, "compression_ratio": 1.1798542373561949, "example_words": [] }, { "step": 6635, "pair": [ "रो", "ल" ], "new_token": "रोल", "frequency": 2, "vocab_size": 6913, "learned_vocab_size": 6635, "compression_ratio": 1.1798542373561949, "example_words": [] }, { "step": 6636, "pair": [ "च", "तरा" ], "new_token": "चतरा", "frequency": 2, "vocab_size": 6914, "learned_vocab_size": 6636, "compression_ratio": 1.1798542373561949, "example_words": [] }, { "step": 6637, "pair": [ "गो", "ड्डा" ], "new_token": "गोड्डा", "frequency": 2, "vocab_size": 6915, "learned_vocab_size": 6637, "compression_ratio": 1.1798542373561949, "example_words": [] }, { "step": 6638, "pair": [ "हजारी", "बाग" ], "new_token": "हजारीबाग", "frequency": 2, "vocab_size": 6916, "learned_vocab_size": 6638, "compression_ratio": 1.1798542373561949, "example_words": [] }, { "step": 6639, "pair": [ "खू", "ँ" ], "new_token": "खूँ", "frequency": 2, "vocab_size": 6917, "learned_vocab_size": 6639, "compression_ratio": 1.1798542373561949, "example_words": [] }, { "step": 6640, "pair": [ "खूँ", "टी" ], "new_token": "खूँटी", "frequency": 2, "vocab_size": 6918, "learned_vocab_size": 6640, "compression_ratio": 1.1798585443759981, "example_words": [] }, { "step": 6641, "pair": [ "सिंह", "भू" ], "new_token": "सिंहभू", "frequency": 2, "vocab_size": 6919, "learned_vocab_size": 6641, "compression_ratio": 1.179862851427247, "example_words": [] }, { "step": 6642, "pair": [ "सिंहभू", "म" ], "new_token": "सिंहभूम", "frequency": 2, "vocab_size": 6920, "learned_vocab_size": 6642, "compression_ratio": 1.1798671585099412, "example_words": [] }, { "step": 6643, "pair": [ "सरा", "कार" ], "new_token": "सराकार", "frequency": 2, "vocab_size": 6921, "learned_vocab_size": 6643, "compression_ratio": 1.1798714656240816, "example_words": [] }, { "step": 6644, "pair": [ "दुः", "शला" ], "new_token": "दुःशला", "frequency": 2, "vocab_size": 6922, "learned_vocab_size": 6644, "compression_ratio": 1.1798714656240816, "example_words": [] }, { "step": 6645, "pair": [ "वृ", "द्ध" ], "new_token": "वृद्ध", "frequency": 2, "vocab_size": 6923, "learned_vocab_size": 6645, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 6646, "pair": [ "वृद्ध", "क्षत्र" ], "new_token": "वृद्धक्षत्र", "frequency": 2, "vocab_size": 6924, "learned_vocab_size": 6646, "compression_ratio": 1.1798994626325165, "example_words": [] }, { "step": 6647, "pair": [ "सूर्या", "स्त" ], "new_token": "सूर्यास्त", "frequency": 2, "vocab_size": 6925, "learned_vocab_size": 6647, "compression_ratio": 1.1798994626325165, "example_words": [] }, { "step": 6648, "pair": [ "अ", "श्व" ], "new_token": "अश्व", "frequency": 2, "vocab_size": 6926, "learned_vocab_size": 6648, "compression_ratio": 1.1798994626325165, "example_words": [] }, { "step": 6649, "pair": [ "हरि", "वंश" ], "new_token": "हरिवंश", "frequency": 2, "vocab_size": 6927, "learned_vocab_size": 6649, "compression_ratio": 1.1799059236693055, "example_words": [] }, { "step": 6650, "pair": [ "दु", "र" ], "new_token": "दुर", "frequency": 2, "vocab_size": 6928, "learned_vocab_size": 6650, "compression_ratio": 1.1799059236693055, "example_words": [] }, { "step": 6651, "pair": [ "दुर्यो", "धन" ], "new_token": "दुर्योधन", "frequency": 2, "vocab_size": 6929, "learned_vocab_size": 6651, "compression_ratio": 1.179770256754685, "example_words": [] }, { "step": 6652, "pair": [ "दुः", "शासन" ], "new_token": "दुःशासन", "frequency": 2, "vocab_size": 6930, "learned_vocab_size": 6652, "compression_ratio": 1.179770256754685, "example_words": [] }, { "step": 6653, "pair": [ "श", "कु" ], "new_token": "शकु", "frequency": 2, "vocab_size": 6931, "learned_vocab_size": 6653, "compression_ratio": 1.179774563161372, "example_words": [] }, { "step": 6654, "pair": [ "शकु", "नि" ], "new_token": "शकुनि", "frequency": 2, "vocab_size": 6932, "learned_vocab_size": 6654, "compression_ratio": 1.1797788695994977, "example_words": [] }, { "step": 6655, "pair": [ "यु", "धि" ], "new_token": "युधि", "frequency": 2, "vocab_size": 6933, "learned_vocab_size": 6655, "compression_ratio": 1.1797831760690625, "example_words": [] }, { "step": 6656, "pair": [ "युधि", "ष्ठि" ], "new_token": "युधिष्ठि", "frequency": 2, "vocab_size": 6934, "learned_vocab_size": 6656, "compression_ratio": 1.1797874825700665, "example_words": [] }, { "step": 6657, "pair": [ "युधिष्ठि", "र" ], "new_token": "युधिष्ठिर", "frequency": 2, "vocab_size": 6935, "learned_vocab_size": 6657, "compression_ratio": 1.1797874825700665, "example_words": [] }, { "step": 6658, "pair": [ "न", "कुल" ], "new_token": "नकुल", "frequency": 2, "vocab_size": 6936, "learned_vocab_size": 6658, "compression_ratio": 1.1797874825700665, "example_words": [] }, { "step": 6659, "pair": [ "ध", "ृ" ], "new_token": "धृ", "frequency": 2, "vocab_size": 6937, "learned_vocab_size": 6659, "compression_ratio": 1.1797939423805222, "example_words": [] }, { "step": 6660, "pair": [ "घ", "टो" ], "new_token": "घटो", "frequency": 2, "vocab_size": 6938, "learned_vocab_size": 6660, "compression_ratio": 1.1797982489601262, "example_words": [] }, { "step": 6661, "pair": [ "घटो", "त्" ], "new_token": "घटोत्", "frequency": 2, "vocab_size": 6939, "learned_vocab_size": 6661, "compression_ratio": 1.1798025555711706, "example_words": [] }, { "step": 6662, "pair": [ "घटोत्", "कच" ], "new_token": "घटोत्कच", "frequency": 2, "vocab_size": 6940, "learned_vocab_size": 6662, "compression_ratio": 1.1798068622136562, "example_words": [] }, { "step": 6663, "pair": [ "सु", "त" ], "new_token": "सुत", "frequency": 2, "vocab_size": 6941, "learned_vocab_size": 6663, "compression_ratio": 1.179811168887583, "example_words": [] }, { "step": 6664, "pair": [ "मया", "सुर" ], "new_token": "मयासुर", "frequency": 2, "vocab_size": 6942, "learned_vocab_size": 6664, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 6665, "pair": [ "हि", "डि" ], "new_token": "हिडि", "frequency": 2, "vocab_size": 6943, "learned_vocab_size": 6665, "compression_ratio": 1.179817628957426, "example_words": [] }, { "step": 6666, "pair": [ "वै", "श" ], "new_token": "वैश", "frequency": 2, "vocab_size": 6944, "learned_vocab_size": 6666, "compression_ratio": 1.1798219357099575, "example_words": [] }, { "step": 6667, "pair": [ "हस्ति", "नापुर" ], "new_token": "हस्तिनापुर", "frequency": 2, "vocab_size": 6945, "learned_vocab_size": 6667, "compression_ratio": 1.179824089098014, "example_words": [] }, { "step": 6668, "pair": [ "इंद्र", "प्रस्थ" ], "new_token": "इंद्रप्रस्थ", "frequency": 2, "vocab_size": 6946, "learned_vocab_size": 6668, "compression_ratio": 1.179824089098014, "example_words": [] }, { "step": 6669, "pair": [ "बाया", "ं" ], "new_token": "बायां", "frequency": 2, "vocab_size": 6947, "learned_vocab_size": 6669, "compression_ratio": 1.179824089098014, "example_words": [] }, { "step": 6670, "pair": [ "बा", "एं" ], "new_token": "बाएं", "frequency": 2, "vocab_size": 6948, "learned_vocab_size": 6670, "compression_ratio": 1.179824089098014, "example_words": [] }, { "step": 6671, "pair": [ "ऑ", "र्" ], "new_token": "ऑर्", "frequency": 2, "vocab_size": 6949, "learned_vocab_size": 6671, "compression_ratio": 1.1798327027288473, "example_words": [] }, { "step": 6672, "pair": [ "धी", "मा" ], "new_token": "धीमा", "frequency": 2, "vocab_size": 6950, "learned_vocab_size": 6672, "compression_ratio": 1.1798434699442581, "example_words": [] }, { "step": 6673, "pair": [ "तर्क", "शास्त्र" ], "new_token": "तर्कशास्त्र", "frequency": 2, "vocab_size": 6951, "learned_vocab_size": 6673, "compression_ratio": 1.1798477768854494, "example_words": [] }, { "step": 6674, "pair": [ "सर्", "किल्स" ], "new_token": "सर्किल्स", "frequency": 2, "vocab_size": 6952, "learned_vocab_size": 6674, "compression_ratio": 1.1798477768854494, "example_words": [] }, { "step": 6675, "pair": [ "इंग्", "लिश" ], "new_token": "इंग्लिश", "frequency": 2, "vocab_size": 6953, "learned_vocab_size": 6675, "compression_ratio": 1.1798477768854494, "example_words": [] }, { "step": 6676, "pair": [ "वरि", "ष्ठ" ], "new_token": "वरिष्ठ", "frequency": 2, "vocab_size": 6954, "learned_vocab_size": 6676, "compression_ratio": 1.1798477768854494, "example_words": [] }, { "step": 6677, "pair": [ "टीसी", "एन" ], "new_token": "टीसीएन", "frequency": 2, "vocab_size": 6955, "learned_vocab_size": 6677, "compression_ratio": 1.1798477768854494, "example_words": [] }, { "step": 6678, "pair": [ "त", "स्वीर" ], "new_token": "तस्वीर", "frequency": 2, "vocab_size": 6956, "learned_vocab_size": 6678, "compression_ratio": 1.1798520838580853, "example_words": [] }, { "step": 6679, "pair": [ "विज्ञा", "पन" ], "new_token": "विज्ञापन", "frequency": 2, "vocab_size": 6957, "learned_vocab_size": 6679, "compression_ratio": 1.1798520838580853, "example_words": [] }, { "step": 6680, "pair": [ "सचे", "त" ], "new_token": "सचेत", "frequency": 2, "vocab_size": 6958, "learned_vocab_size": 6680, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 6681, "pair": [ "राजा", "ओं" ], "new_token": "राजाओं", "frequency": 2, "vocab_size": 6959, "learned_vocab_size": 6681, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 6682, "pair": [ "ड़िया", "ं" ], "new_token": "ड़ियां", "frequency": 2, "vocab_size": 6960, "learned_vocab_size": 6682, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 6683, "pair": [ "ओंग", "बी" ], "new_token": "ओंगबी", "frequency": 2, "vocab_size": 6961, "learned_vocab_size": 6683, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 6684, "pair": [ "निंग", "बी" ], "new_token": "निंगबी", "frequency": 2, "vocab_size": 6962, "learned_vocab_size": 6684, "compression_ratio": 1.1798606978976918, "example_words": [] }, { "step": 6685, "pair": [ "पद्म", "श्री" ], "new_token": "पद्मश्री", "frequency": 2, "vocab_size": 6963, "learned_vocab_size": 6685, "compression_ratio": 1.1798650049646633, "example_words": [] }, { "step": 6686, "pair": [ "ख्", "मेर" ], "new_token": "ख्मेर", "frequency": 2, "vocab_size": 6964, "learned_vocab_size": 6686, "compression_ratio": 1.1798650049646633, "example_words": [] }, { "step": 6687, "pair": [ "कम्बो", "डिया" ], "new_token": "कम्बोडिया", "frequency": 2, "vocab_size": 6965, "learned_vocab_size": 6687, "compression_ratio": 1.1798714656240816, "example_words": [] }, { "step": 6688, "pair": [ "ला", "एँ" ], "new_token": "लाएँ", "frequency": 2, "vocab_size": 6966, "learned_vocab_size": 6688, "compression_ratio": 1.1798714656240816, "example_words": [] }, { "step": 6689, "pair": [ "मि", "यन" ], "new_token": "मियन", "frequency": 2, "vocab_size": 6967, "learned_vocab_size": 6689, "compression_ratio": 1.1798757727696685, "example_words": [] }, { "step": 6690, "pair": [ "मियन", "चि" ], "new_token": "मियनचि", "frequency": 2, "vocab_size": 6968, "learned_vocab_size": 6690, "compression_ratio": 1.1798800799467022, "example_words": [] }, { "step": 6691, "pair": [ "मियनचि", "य" ], "new_token": "मियनचिय", "frequency": 2, "vocab_size": 6969, "learned_vocab_size": 6691, "compression_ratio": 1.179884387155183, "example_words": [] }, { "step": 6692, "pair": [ "थो", "म" ], "new_token": "थोम", "frequency": 2, "vocab_size": 6970, "learned_vocab_size": 6692, "compression_ratio": 1.1798886943951112, "example_words": [] }, { "step": 6693, "pair": [ "को", "ह" ], "new_token": "कोह", "frequency": 2, "vocab_size": 6971, "learned_vocab_size": 6693, "compression_ratio": 1.1798973089693114, "example_words": [] }, { "step": 6694, "pair": [ "प्रे", "अह" ], "new_token": "प्रेअह", "frequency": 2, "vocab_size": 6972, "learned_vocab_size": 6694, "compression_ratio": 1.1799037699825137, "example_words": [] }, { "step": 6695, "pair": [ "नगरपालिका", "एँ" ], "new_token": "नगरपालिकाएँ", "frequency": 2, "vocab_size": 6973, "learned_vocab_size": 6695, "compression_ratio": 1.1799037699825137, "example_words": [] }, { "step": 6696, "pair": [ "एलु", "रु" ], "new_token": "एलुरु", "frequency": 2, "vocab_size": 6974, "learned_vocab_size": 6696, "compression_ratio": 1.1799037699825137, "example_words": [] }, { "step": 6697, "pair": [ "विशाखा", "पत्तनम" ], "new_token": "विशाखापत्तनम", "frequency": 2, "vocab_size": 6975, "learned_vocab_size": 6697, "compression_ratio": 1.1799037699825137, "example_words": [] }, { "step": 6698, "pair": [ "ओ", "वेन" ], "new_token": "ओवेन", "frequency": 2, "vocab_size": 6976, "learned_vocab_size": 6698, "compression_ratio": 1.1799037699825137, "example_words": [] }, { "step": 6699, "pair": [ "पाठ", "शाला" ], "new_token": "पाठशाला", "frequency": 2, "vocab_size": 6977, "learned_vocab_size": 6699, "compression_ratio": 1.1799080773639596, "example_words": [] }, { "step": 6700, "pair": [ "तनाव", "ड़ा" ], "new_token": "तनावड़ा", "frequency": 2, "vocab_size": 6978, "learned_vocab_size": 6700, "compression_ratio": 1.1799080773639596, "example_words": [] }, { "step": 6701, "pair": [ "काशी", "कांत" ], "new_token": "काशीकांत", "frequency": 2, "vocab_size": 6979, "learned_vocab_size": 6701, "compression_ratio": 1.1799080773639596, "example_words": [ "काशीकांत" ] }, { "step": 6702, "pair": [ "जान", "सन" ], "new_token": "जानसन", "frequency": 2, "vocab_size": 6980, "learned_vocab_size": 6702, "compression_ratio": 1.1799080773639596, "example_words": [] }, { "step": 6703, "pair": [ "तवा", "कुल" ], "new_token": "तवाकुल", "frequency": 2, "vocab_size": 6981, "learned_vocab_size": 6703, "compression_ratio": 1.1799080773639596, "example_words": [] }, { "step": 6704, "pair": [ "लाइ", "बेरि" ], "new_token": "लाइबेरि", "frequency": 2, "vocab_size": 6982, "learned_vocab_size": 6704, "compression_ratio": 1.179912384776855, "example_words": [] }, { "step": 6705, "pair": [ "लाइबेरि", "यन" ], "new_token": "लाइबेरियन", "frequency": 2, "vocab_size": 6983, "learned_vocab_size": 6705, "compression_ratio": 1.179912384776855, "example_words": [] }, { "step": 6706, "pair": [ "मु", "फ्" ], "new_token": "मुफ्", "frequency": 2, "vocab_size": 6984, "learned_vocab_size": 6706, "compression_ratio": 1.179912384776855, "example_words": [] }, { "step": 6707, "pair": [ "ने", "न्" ], "new_token": "नेन्", "frequency": 2, "vocab_size": 6985, "learned_vocab_size": 6707, "compression_ratio": 1.1799166922212, "example_words": [] }, { "step": 6708, "pair": [ "क्रे", "मर" ], "new_token": "क्रेमर", "frequency": 2, "vocab_size": 6986, "learned_vocab_size": 6708, "compression_ratio": 1.179920999696995, "example_words": [] }, { "step": 6709, "pair": [ "अर्", "नो" ], "new_token": "अर्नो", "frequency": 2, "vocab_size": 6987, "learned_vocab_size": 6709, "compression_ratio": 1.179920999696995, "example_words": [] }, { "step": 6710, "pair": [ "अर्नो", "ल्ड" ], "new_token": "अर्नोल्ड", "frequency": 2, "vocab_size": 6988, "learned_vocab_size": 6710, "compression_ratio": 1.179920999696995, "example_words": [] }, { "step": 6711, "pair": [ "रू", "ट" ], "new_token": "रूट", "frequency": 2, "vocab_size": 6989, "learned_vocab_size": 6711, "compression_ratio": 1.179920999696995, "example_words": [] }, { "step": 6712, "pair": [ "नान", "सेन" ], "new_token": "नानसेन", "frequency": 2, "vocab_size": 6990, "learned_vocab_size": 6712, "compression_ratio": 1.1799253072042406, "example_words": [] }, { "step": 6713, "pair": [ "ऑ", "स्टेन" ], "new_token": "ऑस्टेन", "frequency": 2, "vocab_size": 6991, "learned_vocab_size": 6713, "compression_ratio": 1.1799253072042406, "example_words": [] }, { "step": 6714, "pair": [ "स्टी", "ड" ], "new_token": "स्टीड", "frequency": 2, "vocab_size": 6992, "learned_vocab_size": 6714, "compression_ratio": 1.1799253072042406, "example_words": [] }, { "step": 6715, "pair": [ "ब्लो", "म" ], "new_token": "ब्लोम", "frequency": 2, "vocab_size": 6993, "learned_vocab_size": 6715, "compression_ratio": 1.1799253072042406, "example_words": [] }, { "step": 6716, "pair": [ "कार्लो", "स" ], "new_token": "कार्लोस", "frequency": 2, "vocab_size": 6994, "learned_vocab_size": 6716, "compression_ratio": 1.1799296147429368, "example_words": [] }, { "step": 6717, "pair": [ "कोर", "डेल" ], "new_token": "कोरडेल", "frequency": 2, "vocab_size": 6995, "learned_vocab_size": 6717, "compression_ratio": 1.1799296147429368, "example_words": [] }, { "step": 6718, "pair": [ "बी", "॰" ], "new_token": "बी॰", "frequency": 2, "vocab_size": 6996, "learned_vocab_size": 6718, "compression_ratio": 1.1799296147429368, "example_words": [] }, { "step": 6719, "pair": [ "सो", "साइटी" ], "new_token": "सोसाइटी", "frequency": 2, "vocab_size": 6997, "learned_vocab_size": 6719, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 6720, "pair": [ "खारो", "व" ], "new_token": "खारोव", "frequency": 2, "vocab_size": 6998, "learned_vocab_size": 6720, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 6721, "pair": [ "इ", "रे" ], "new_token": "इरे", "frequency": 2, "vocab_size": 6999, "learned_vocab_size": 6721, "compression_ratio": 1.1792106914567584, "example_words": [] }, { "step": 6722, "pair": [ "इ", "ण्" ], "new_token": "इण्", "frequency": 2, "vocab_size": 7000, "learned_vocab_size": 6722, "compression_ratio": 1.1792192961333303, "example_words": [] }, { "step": 6723, "pair": [ "पेरे", "ज़" ], "new_token": "पेरेज़", "frequency": 2, "vocab_size": 7001, "learned_vocab_size": 6723, "compression_ratio": 1.1792300521556387, "example_words": [] }, { "step": 6724, "pair": [ "आ", "ंग" ], "new_token": "आंग", "frequency": 2, "vocab_size": 7002, "learned_vocab_size": 6724, "compression_ratio": 1.1792300521556387, "example_words": [] }, { "step": 6725, "pair": [ "विले", "म" ], "new_token": "विलेम", "frequency": 2, "vocab_size": 7003, "learned_vocab_size": 6725, "compression_ratio": 1.1792537160954182, "example_words": [] }, { "step": 6726, "pair": [ "ख़", "ो" ], "new_token": "ख़ो", "frequency": 2, "vocab_size": 7004, "learned_vocab_size": 6726, "compression_ratio": 1.1792537160954182, "example_words": [] }, { "step": 6727, "pair": [ "प्रति", "बंध" ], "new_token": "प्रतिबंध", "frequency": 2, "vocab_size": 7005, "learned_vocab_size": 6727, "compression_ratio": 1.1792580187319621, "example_words": [] }, { "step": 6728, "pair": [ "सा", "ं" ], "new_token": "सां", "frequency": 2, "vocab_size": 7006, "learned_vocab_size": 6728, "compression_ratio": 1.1792580187319621, "example_words": [] }, { "step": 6729, "pair": [ "नि", "षेध" ], "new_token": "निषेध", "frequency": 2, "vocab_size": 7007, "learned_vocab_size": 6729, "compression_ratio": 1.17951192987322, "example_words": [] }, { "step": 6730, "pair": [ "ज़", "ई" ], "new_token": "ज़ई", "frequency": 2, "vocab_size": 7008, "learned_vocab_size": 6730, "compression_ratio": 1.1795162343942165, "example_words": [] }, { "step": 6731, "pair": [ "जु", "आन" ], "new_token": "जुआन", "frequency": 2, "vocab_size": 7009, "learned_vocab_size": 6731, "compression_ratio": 1.1795205389466308, "example_words": [] }, { "step": 6732, "pair": [ "ना", "भिकीय" ], "new_token": "नाभिकीय", "frequency": 2, "vocab_size": 7010, "learned_vocab_size": 6732, "compression_ratio": 1.1795248435304637, "example_words": [] }, { "step": 6733, "pair": [ "नर", "गि" ], "new_token": "नरगि", "frequency": 2, "vocab_size": 7011, "learned_vocab_size": 6733, "compression_ratio": 1.1795248435304637, "example_words": [] }, { "step": 6734, "pair": [ "निर्", "धारण" ], "new_token": "निर्धारण", "frequency": 2, "vocab_size": 7012, "learned_vocab_size": 6734, "compression_ratio": 1.179529148145715, "example_words": [] }, { "step": 6735, "pair": [ "कारा", "कोरम" ], "new_token": "काराकोरम", "frequency": 2, "vocab_size": 7013, "learned_vocab_size": 6735, "compression_ratio": 1.179529148145715, "example_words": [] }, { "step": 6736, "pair": [ "आरो", "हण" ], "new_token": "आरोहण", "frequency": 2, "vocab_size": 7014, "learned_vocab_size": 6736, "compression_ratio": 1.179529148145715, "example_words": [] }, { "step": 6737, "pair": [ "नि", "मा" ], "new_token": "निमा", "frequency": 2, "vocab_size": 7015, "learned_vocab_size": 6737, "compression_ratio": 1.179529148145715, "example_words": [] }, { "step": 6738, "pair": [ "लद्दाख़", "ी" ], "new_token": "लद्दाख़ी", "frequency": 2, "vocab_size": 7016, "learned_vocab_size": 6738, "compression_ratio": 1.1795356051275032, "example_words": [] }, { "step": 6739, "pair": [ "नि", "गर" ], "new_token": "निगर", "frequency": 2, "vocab_size": 7017, "learned_vocab_size": 6739, "compression_ratio": 1.1795356051275032, "example_words": [] }, { "step": 6740, "pair": [ "त्रि", "नि" ], "new_token": "त्रिनि", "frequency": 2, "vocab_size": 7018, "learned_vocab_size": 6740, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6741, "pair": [ "त्रिनि", "दा" ], "new_token": "त्रिनिदा", "frequency": 2, "vocab_size": 7019, "learned_vocab_size": 6741, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6742, "pair": [ "त्रिनिदा", "द" ], "new_token": "त्रिनिदाद", "frequency": 2, "vocab_size": 7020, "learned_vocab_size": 6742, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6743, "pair": [ "प्रवी", "ण" ], "new_token": "प्रवीण", "frequency": 2, "vocab_size": 7021, "learned_vocab_size": 6743, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6744, "pair": [ "मे", "हरु" ], "new_token": "मेहरु", "frequency": 2, "vocab_size": 7022, "learned_vocab_size": 6744, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6745, "pair": [ "मेहरु", "निस्सा" ], "new_token": "मेहरुनिस्सा", "frequency": 2, "vocab_size": 7023, "learned_vocab_size": 6745, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6746, "pair": [ "वि", "द" ], "new_token": "विद", "frequency": 2, "vocab_size": 7024, "learned_vocab_size": 6746, "compression_ratio": 1.1795506716932656, "example_words": [] }, { "step": 6747, "pair": [ "दा", "ग" ], "new_token": "दाग", "frequency": 2, "vocab_size": 7025, "learned_vocab_size": 6747, "compression_ratio": 1.1783873749222964, "example_words": [] }, { "step": 6748, "pair": [ "गा", "इन" ], "new_token": "गाइन", "frequency": 2, "vocab_size": 7026, "learned_vocab_size": 6748, "compression_ratio": 1.1783916712392695, "example_words": [] }, { "step": 6749, "pair": [ "नि", "बंध" ], "new_token": "निबंध", "frequency": 2, "vocab_size": 7027, "learned_vocab_size": 6749, "compression_ratio": 1.178395967587571, "example_words": [] }, { "step": 6750, "pair": [ "निबंध", "कार" ], "new_token": "निबंधकार", "frequency": 2, "vocab_size": 7028, "learned_vocab_size": 6750, "compression_ratio": 1.1784002639672009, "example_words": [] }, { "step": 6751, "pair": [ "ग", "ज" ], "new_token": "गज", "frequency": 2, "vocab_size": 7029, "learned_vocab_size": 6751, "compression_ratio": 1.1784002639672009, "example_words": [] }, { "step": 6752, "pair": [ "आशु", "तो" ], "new_token": "आशुतो", "frequency": 2, "vocab_size": 7030, "learned_vocab_size": 6752, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 6753, "pair": [ "आशुतो", "ष" ], "new_token": "आशुतोष", "frequency": 2, "vocab_size": 7031, "learned_vocab_size": 6753, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 6754, "pair": [ "चित्रा", "ल" ], "new_token": "चित्राल", "frequency": 2, "vocab_size": 7032, "learned_vocab_size": 6754, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 6755, "pair": [ "वंश", "ज" ], "new_token": "वंशज", "frequency": 2, "vocab_size": 7033, "learned_vocab_size": 6755, "compression_ratio": 1.1784174497990139, "example_words": [] }, { "step": 6756, "pair": [ "त्यो", "हार" ], "new_token": "त्योहार", "frequency": 2, "vocab_size": 7034, "learned_vocab_size": 6756, "compression_ratio": 1.178421746335292, "example_words": [] }, { "step": 6757, "pair": [ "पा", "यी" ], "new_token": "पायी", "frequency": 2, "vocab_size": 7035, "learned_vocab_size": 6757, "compression_ratio": 1.178421746335292, "example_words": [] }, { "step": 6758, "pair": [ "शा", "म" ], "new_token": "शाम", "frequency": 2, "vocab_size": 7036, "learned_vocab_size": 6758, "compression_ratio": 1.1784260429029005, "example_words": [] }, { "step": 6759, "pair": [ "गरु", "ङ" ], "new_token": "गरुङ", "frequency": 2, "vocab_size": 7037, "learned_vocab_size": 6759, "compression_ratio": 1.1781511257242527, "example_words": [] }, { "step": 6760, "pair": [ "प्रति", "मा" ], "new_token": "प्रतिमा", "frequency": 2, "vocab_size": 7038, "learned_vocab_size": 6760, "compression_ratio": 1.1781511257242527, "example_words": [] }, { "step": 6761, "pair": [ "रोमानिया", "ई" ], "new_token": "रोमानियाई", "frequency": 2, "vocab_size": 7039, "learned_vocab_size": 6761, "compression_ratio": 1.1781511257242527, "example_words": [] }, { "step": 6762, "pair": [ "डो", "ना" ], "new_token": "डोना", "frequency": 2, "vocab_size": 7040, "learned_vocab_size": 6762, "compression_ratio": 1.1781511257242527, "example_words": [] }, { "step": 6763, "pair": [ "यूनी", "वर्स" ], "new_token": "यूनीवर्स", "frequency": 2, "vocab_size": 7041, "learned_vocab_size": 6763, "compression_ratio": 1.1781640096015222, "example_words": [] }, { "step": 6764, "pair": [ "सो", "साय" ], "new_token": "सोसाय", "frequency": 2, "vocab_size": 7042, "learned_vocab_size": 6764, "compression_ratio": 1.1781640096015222, "example_words": [] }, { "step": 6765, "pair": [ "सोसाय", "टी" ], "new_token": "सोसायटी", "frequency": 2, "vocab_size": 7043, "learned_vocab_size": 6765, "compression_ratio": 1.1781683042898985, "example_words": [] }, { "step": 6766, "pair": [ "धर्मनिर", "पेक्ष" ], "new_token": "धर्मनिरपेक्ष", "frequency": 2, "vocab_size": 7044, "learned_vocab_size": 6766, "compression_ratio": 1.1781725990095853, "example_words": [] }, { "step": 6767, "pair": [ "परिकल्", "पित" ], "new_token": "परिकल्पित", "frequency": 2, "vocab_size": 7045, "learned_vocab_size": 6767, "compression_ratio": 1.1781725990095853, "example_words": [] }, { "step": 6768, "pair": [ "वि", "वि" ], "new_token": "विवि", "frequency": 2, "vocab_size": 7046, "learned_vocab_size": 6768, "compression_ratio": 1.1781725990095853, "example_words": [] }, { "step": 6769, "pair": [ "विवि", "यन" ], "new_token": "विवियन", "frequency": 2, "vocab_size": 7047, "learned_vocab_size": 6769, "compression_ratio": 1.1781618622690755, "example_words": [] }, { "step": 6770, "pair": [ "पाठ", "्य" ], "new_token": "पाठ्य", "frequency": 2, "vocab_size": 7048, "learned_vocab_size": 6770, "compression_ratio": 1.1781661569417965, "example_words": [] }, { "step": 6771, "pair": [ "पिक", "फोर्ड" ], "new_token": "पिकफोर्ड", "frequency": 2, "vocab_size": 7049, "learned_vocab_size": 6771, "compression_ratio": 1.1781768937605828, "example_words": [] }, { "step": 6772, "pair": [ "रा", "उंड" ], "new_token": "राउंड", "frequency": 2, "vocab_size": 7050, "learned_vocab_size": 6772, "compression_ratio": 1.1781768937605828, "example_words": [] }, { "step": 6773, "pair": [ "चाहि", "ये" ], "new_token": "चाहिये", "frequency": 2, "vocab_size": 7051, "learned_vocab_size": 6773, "compression_ratio": 1.1782026629241131, "example_words": [] }, { "step": 6774, "pair": [ "नामांकन", "कर्ता" ], "new_token": "नामांकनकर्ता", "frequency": 2, "vocab_size": 7052, "learned_vocab_size": 6774, "compression_ratio": 1.1782026629241131, "example_words": [] }, { "step": 6775, "pair": [ "ऐ", "ब्यू" ], "new_token": "ऐब्यू", "frequency": 2, "vocab_size": 7053, "learned_vocab_size": 6775, "compression_ratio": 1.1782026629241131, "example_words": [] }, { "step": 6776, "pair": [ "ऐब्यू", "ज़" ], "new_token": "ऐब्यूज़", "frequency": 2, "vocab_size": 7054, "learned_vocab_size": 6776, "compression_ratio": 1.1782026629241131, "example_words": [] }, { "step": 6777, "pair": [ "राजे", "श" ], "new_token": "राजेश", "frequency": 2, "vocab_size": 7055, "learned_vocab_size": 6777, "compression_ratio": 1.1782026629241131, "example_words": [] }, { "step": 6778, "pair": [ "था", "पा" ], "new_token": "थापा", "frequency": 2, "vocab_size": 7056, "learned_vocab_size": 6778, "compression_ratio": 1.1782026629241131, "example_words": [] }, { "step": 6779, "pair": [ "परम्परा", "गत" ], "new_token": "परम्परागत", "frequency": 2, "vocab_size": 7057, "learned_vocab_size": 6779, "compression_ratio": 1.1782069578942955, "example_words": [] }, { "step": 6780, "pair": [ "नै", "न" ], "new_token": "नैन", "frequency": 2, "vocab_size": 7058, "learned_vocab_size": 6780, "compression_ratio": 1.1782069578942955, "example_words": [] }, { "step": 6781, "pair": [ "लि", "टिल" ], "new_token": "लिटिल", "frequency": 2, "vocab_size": 7059, "learned_vocab_size": 6781, "compression_ratio": 1.1779128248114, "example_words": [] }, { "step": 6782, "pair": [ "प्रचलित", "तमिलसमय" ], "new_token": "प्रचलिततमिलसमय", "frequency": 2, "vocab_size": 7060, "learned_vocab_size": 6782, "compression_ratio": 1.177917117668711, "example_words": [] }, { "step": 6783, "pair": [ "चौ", "ंस" ], "new_token": "चौंस", "frequency": 2, "vocab_size": 7061, "learned_vocab_size": 6783, "compression_ratio": 1.177917117668711, "example_words": [] }, { "step": 6784, "pair": [ "चौंस", "ठ" ], "new_token": "चौंसठ", "frequency": 2, "vocab_size": 7062, "learned_vocab_size": 6784, "compression_ratio": 1.177923557013348, "example_words": [] }, { "step": 6785, "pair": [ "ल", "पसी" ], "new_token": "लपसी", "frequency": 2, "vocab_size": 7063, "learned_vocab_size": 6785, "compression_ratio": 1.1779278499488859, "example_words": [] }, { "step": 6786, "pair": [ "भो", "ज" ], "new_token": "भोज", "frequency": 2, "vocab_size": 7064, "learned_vocab_size": 6786, "compression_ratio": 1.1779278499488859, "example_words": [] }, { "step": 6787, "pair": [ "अव", "सरों" ], "new_token": "अवसरों", "frequency": 2, "vocab_size": 7065, "learned_vocab_size": 6787, "compression_ratio": 1.1777583027847216, "example_words": [] }, { "step": 6788, "pair": [ "ला", "पसी" ], "new_token": "लापसी", "frequency": 2, "vocab_size": 7066, "learned_vocab_size": 6788, "compression_ratio": 1.1777583027847216, "example_words": [] }, { "step": 6789, "pair": [ "खा", "या" ], "new_token": "खाया", "frequency": 2, "vocab_size": 7067, "learned_vocab_size": 6789, "compression_ratio": 1.1777583027847216, "example_words": [] }, { "step": 6790, "pair": [ "वि", "मो" ], "new_token": "विमो", "frequency": 2, "vocab_size": 7068, "learned_vocab_size": 6790, "compression_ratio": 1.1777625945158057, "example_words": [] }, { "step": 6791, "pair": [ "नक्", "की" ], "new_token": "नक्की", "frequency": 2, "vocab_size": 7069, "learned_vocab_size": 6791, "compression_ratio": 1.177766886278168, "example_words": [] }, { "step": 6792, "pair": [ "नक्की", "ना" ], "new_token": "नक्कीना", "frequency": 2, "vocab_size": 7070, "learned_vocab_size": 6792, "compression_ratio": 1.1777711780718088, "example_words": [] }, { "step": 6793, "pair": [ "घ", "ट्टा" ], "new_token": "घट्टा", "frequency": 2, "vocab_size": 7071, "learned_vocab_size": 6793, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 6794, "pair": [ "कं", "पनिया" ], "new_token": "कंपनिया", "frequency": 2, "vocab_size": 7072, "learned_vocab_size": 6794, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 6795, "pair": [ "कंपनिया", "ं" ], "new_token": "कंपनियां", "frequency": 2, "vocab_size": 7073, "learned_vocab_size": 6795, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 6796, "pair": [ "पी", "पल" ], "new_token": "पीपल", "frequency": 2, "vocab_size": 7074, "learned_vocab_size": 6796, "compression_ratio": 1.1777754698967284, "example_words": [] }, { "step": 6797, "pair": [ "फै", "क्ट्री" ], "new_token": "फैक्ट्री", "frequency": 2, "vocab_size": 7075, "learned_vocab_size": 6797, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 6798, "pair": [ "प्रि", "ंसि" ], "new_token": "प्रिंसि", "frequency": 2, "vocab_size": 7076, "learned_vocab_size": 6798, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 6799, "pair": [ "प्रिंसि", "पल" ], "new_token": "प्रिंसिपल", "frequency": 2, "vocab_size": 7077, "learned_vocab_size": 6799, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 6800, "pair": [ "बैक", "ग्राउंड" ], "new_token": "बैकग्राउंड", "frequency": 2, "vocab_size": 7078, "learned_vocab_size": 6800, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 6801, "pair": [ "विवे", "क" ], "new_token": "विवेक", "frequency": 2, "vocab_size": 7079, "learned_vocab_size": 6801, "compression_ratio": 1.1777861995958743, "example_words": [ "विवेक", "विवेकानंदार", "विवेकानन्द" ] }, { "step": 6802, "pair": [ "बि", "जनेस" ], "new_token": "बिजनेस", "frequency": 2, "vocab_size": 7080, "learned_vocab_size": 6802, "compression_ratio": 1.1777926375092014, "example_words": [] }, { "step": 6803, "pair": [ "ख", "लनायक" ], "new_token": "खलनायक", "frequency": 2, "vocab_size": 7081, "learned_vocab_size": 6803, "compression_ratio": 1.1777926375092014, "example_words": [] }, { "step": 6804, "pair": [ "स", "जा" ], "new_token": "सजा", "frequency": 2, "vocab_size": 7082, "learned_vocab_size": 6804, "compression_ratio": 1.1777926375092014, "example_words": [] }, { "step": 6805, "pair": [ "बा", "बर" ], "new_token": "बाबर", "frequency": 2, "vocab_size": 7083, "learned_vocab_size": 6805, "compression_ratio": 1.1777926375092014, "example_words": [] }, { "step": 6806, "pair": [ "गु", "ंबद" ], "new_token": "गुंबद", "frequency": 2, "vocab_size": 7084, "learned_vocab_size": 6806, "compression_ratio": 1.1778076595806708, "example_words": [] }, { "step": 6807, "pair": [ "हु", "मा" ], "new_token": "हुमा", "frequency": 2, "vocab_size": 7085, "learned_vocab_size": 6807, "compression_ratio": 1.1778076595806708, "example_words": [] }, { "step": 6808, "pair": [ "हुमा", "यू" ], "new_token": "हुमायू", "frequency": 2, "vocab_size": 7086, "learned_vocab_size": 6808, "compression_ratio": 1.1778119516714738, "example_words": [] }, { "step": 6809, "pair": [ "हुमायू", "ं" ], "new_token": "हुमायूं", "frequency": 2, "vocab_size": 7087, "learned_vocab_size": 6809, "compression_ratio": 1.1778162437935589, "example_words": [] }, { "step": 6810, "pair": [ "नगी", "ना" ], "new_token": "नगीना", "frequency": 2, "vocab_size": 7088, "learned_vocab_size": 6810, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6811, "pair": [ "स", "फा" ], "new_token": "सफा", "frequency": 2, "vocab_size": 7089, "learned_vocab_size": 6811, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6812, "pair": [ "के", "व" ], "new_token": "केव", "frequency": 2, "vocab_size": 7090, "learned_vocab_size": 6812, "compression_ratio": 1.1778248281315766, "example_words": [] }, { "step": 6813, "pair": [ "सि", "दी" ], "new_token": "सिदी", "frequency": 2, "vocab_size": 7091, "learned_vocab_size": 6813, "compression_ratio": 1.177760448646354, "example_words": [] }, { "step": 6814, "pair": [ "साह", "ब" ], "new_token": "साहब", "frequency": 2, "vocab_size": 7092, "learned_vocab_size": 6814, "compression_ratio": 1.177764740393077, "example_words": [] }, { "step": 6815, "pair": [ "ब", "ट" ], "new_token": "बट", "frequency": 2, "vocab_size": 7093, "learned_vocab_size": 6815, "compression_ratio": 1.1777690321710785, "example_words": [] }, { "step": 6816, "pair": [ "अंदा", "वर" ], "new_token": "अंदावर", "frequency": 2, "vocab_size": 7094, "learned_vocab_size": 6816, "compression_ratio": 1.1777819076927563, "example_words": [] }, { "step": 6817, "pair": [ "ट्रि", "प्" ], "new_token": "ट्रिप्", "frequency": 2, "vocab_size": 7095, "learned_vocab_size": 6817, "compression_ratio": 1.1777819076927563, "example_words": [] }, { "step": 6818, "pair": [ "ट्रिप्", "लिकेन" ], "new_token": "ट्रिप्लिकेन", "frequency": 2, "vocab_size": 7096, "learned_vocab_size": 6818, "compression_ratio": 1.1777819076927563, "example_words": [] }, { "step": 6819, "pair": [ "मिया", "ं" ], "new_token": "मियां", "frequency": 2, "vocab_size": 7097, "learned_vocab_size": 6819, "compression_ratio": 1.1777819076927563, "example_words": [] }, { "step": 6820, "pair": [ "मु", "शी" ], "new_token": "मुशी", "frequency": 2, "vocab_size": 7098, "learned_vocab_size": 6820, "compression_ratio": 1.1777819076927563, "example_words": [] }, { "step": 6821, "pair": [ "शो", "ना" ], "new_token": "शोना", "frequency": 2, "vocab_size": 7099, "learned_vocab_size": 6821, "compression_ratio": 1.1777861995958743, "example_words": [] }, { "step": 6822, "pair": [ "क", "तरा" ], "new_token": "कतरा", "frequency": 2, "vocab_size": 7100, "learned_vocab_size": 6822, "compression_ratio": 1.1777904915302722, "example_words": [] }, { "step": 6823, "pair": [ "टी", "पू" ], "new_token": "टीपू", "frequency": 2, "vocab_size": 7101, "learned_vocab_size": 6823, "compression_ratio": 1.1777904915302722, "example_words": [] }, { "step": 6824, "pair": [ "क़ा", "दिया" ], "new_token": "क़ादिया", "frequency": 2, "vocab_size": 7102, "learned_vocab_size": 6824, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6825, "pair": [ "क़ादिया", "ं" ], "new_token": "क़ादियां", "frequency": 2, "vocab_size": 7103, "learned_vocab_size": 6825, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6826, "pair": [ "शा", "सित" ], "new_token": "शासित", "frequency": 2, "vocab_size": 7104, "learned_vocab_size": 6826, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6827, "pair": [ "प्रचलितकन्नड़", "समय" ], "new_token": "प्रचलितकन्नड़समय", "frequency": 2, "vocab_size": 7105, "learned_vocab_size": 6827, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6828, "pair": [ "तु", "मकूर" ], "new_token": "तुमकूर", "frequency": 2, "vocab_size": 7106, "learned_vocab_size": 6828, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6829, "pair": [ "विनाश", "कारी" ], "new_token": "विनाशकारी", "frequency": 2, "vocab_size": 7107, "learned_vocab_size": 6829, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6830, "pair": [ "द्रु", "मयू" ], "new_token": "द्रुमयू", "frequency": 2, "vocab_size": 7108, "learned_vocab_size": 6830, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6831, "pair": [ "द्रुमयू", "का" ], "new_token": "द्रुमयूका", "frequency": 2, "vocab_size": 7109, "learned_vocab_size": 6831, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6832, "pair": [ "स्पर्", "श" ], "new_token": "स्पर्श", "frequency": 2, "vocab_size": 7110, "learned_vocab_size": 6832, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6833, "pair": [ "ग्रीष्", "म" ], "new_token": "ग्रीष्म", "frequency": 2, "vocab_size": 7111, "learned_vocab_size": 6833, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6834, "pair": [ "काला", "ढू" ], "new_token": "कालाढू", "frequency": 2, "vocab_size": 7112, "learned_vocab_size": 6834, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6835, "pair": [ "कालाढू", "गी" ], "new_token": "कालाढूगी", "frequency": 2, "vocab_size": 7113, "learned_vocab_size": 6835, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6836, "pair": [ "स्टूडियो", "ज" ], "new_token": "स्टूडियोज", "frequency": 2, "vocab_size": 7114, "learned_vocab_size": 6836, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6837, "pair": [ "दु", "ग्" ], "new_token": "दुग्", "frequency": 2, "vocab_size": 7115, "learned_vocab_size": 6837, "compression_ratio": 1.1777947834959506, "example_words": [] }, { "step": 6838, "pair": [ "सेंचु", "री" ], "new_token": "सेंचुरी", "frequency": 2, "vocab_size": 7116, "learned_vocab_size": 6838, "compression_ratio": 1.1777990754929095, "example_words": [] }, { "step": 6839, "pair": [ "ब्रे", "क" ], "new_token": "ब्रेक", "frequency": 2, "vocab_size": 7117, "learned_vocab_size": 6839, "compression_ratio": 1.1777990754929095, "example_words": [] }, { "step": 6840, "pair": [ "बो", "त्सवाना" ], "new_token": "बोत्सवाना", "frequency": 2, "vocab_size": 7118, "learned_vocab_size": 6840, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 6841, "pair": [ "क़", "तर" ], "new_token": "क़तर", "frequency": 2, "vocab_size": 7119, "learned_vocab_size": 6841, "compression_ratio": 1.1778012215031193, "example_words": [] }, { "step": 6842, "pair": [ "बल्ले", "बाज" ], "new_token": "बल्लेबाज", "frequency": 2, "vocab_size": 7120, "learned_vocab_size": 6842, "compression_ratio": 1.177805513547, "example_words": [] }, { "step": 6843, "pair": [ "न्", "गा" ], "new_token": "न्गा", "frequency": 2, "vocab_size": 7121, "learned_vocab_size": 6843, "compression_ratio": 1.177805513547, "example_words": [] }, { "step": 6844, "pair": [ "बिलि", "रान" ], "new_token": "बिलिरान", "frequency": 2, "vocab_size": 7122, "learned_vocab_size": 6844, "compression_ratio": 1.1778226820353412, "example_words": [] }, { "step": 6845, "pair": [ "गो", "न" ], "new_token": "गोन", "frequency": 2, "vocab_size": 7123, "learned_vocab_size": 6845, "compression_ratio": 1.1778226820353412, "example_words": [] }, { "step": 6846, "pair": [ "सिबु", "आनो" ], "new_token": "सिबुआनो", "frequency": 2, "vocab_size": 7124, "learned_vocab_size": 6846, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6847, "pair": [ "हिलि", "गा" ], "new_token": "हिलिगा", "frequency": 2, "vocab_size": 7125, "learned_vocab_size": 6847, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6848, "pair": [ "हिलिगा", "यनो" ], "new_token": "हिलिगायनो", "frequency": 2, "vocab_size": 7126, "learned_vocab_size": 6848, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6849, "pair": [ "हिलिगायनो", "न" ], "new_token": "हिलिगायनोन", "frequency": 2, "vocab_size": 7127, "learned_vocab_size": 6849, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6850, "pair": [ "रि", "पोर्ट" ], "new_token": "रिपोर्ट", "frequency": 2, "vocab_size": 7128, "learned_vocab_size": 6850, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6851, "pair": [ "भु", "वनेश्वर" ], "new_token": "भुवनेश्वर", "frequency": 2, "vocab_size": 7130, "learned_vocab_size": 6851, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6852, "pair": [ "जिला", "जनसंख्या" ], "new_token": "जिलाजनसंख्या", "frequency": 2, "vocab_size": 7131, "learned_vocab_size": 6852, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6853, "pair": [ "मण्डल", "आईएसटी" ], "new_token": "मण्डलआईएसटी", "frequency": 2, "vocab_size": 7132, "learned_vocab_size": 6853, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6854, "pair": [ "ज्वालामुखी", "य" ], "new_token": "ज्वालामुखीय", "frequency": 2, "vocab_size": 7133, "learned_vocab_size": 6854, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6855, "pair": [ "खो", "ख" ], "new_token": "खोख", "frequency": 2, "vocab_size": 7134, "learned_vocab_size": 6855, "compression_ratio": 1.1778419971830114, "example_words": [] }, { "step": 6856, "pair": [ "खोख", "ला" ], "new_token": "खोखला", "frequency": 2, "vocab_size": 7135, "learned_vocab_size": 6856, "compression_ratio": 1.1778462895240802, "example_words": [] }, { "step": 6857, "pair": [ "प्पु", "शी" ], "new_token": "प्पुशी", "frequency": 2, "vocab_size": 7136, "learned_vocab_size": 6857, "compression_ratio": 1.177850581896434, "example_words": [] }, { "step": 6858, "pair": [ "चिटो", "ज" ], "new_token": "चिटोज", "frequency": 2, "vocab_size": 7137, "learned_vocab_size": 6858, "compression_ratio": 1.1778548743000727, "example_words": [] }, { "step": 6859, "pair": [ "विस्", "फो" ], "new_token": "विस्फो", "frequency": 2, "vocab_size": 7138, "learned_vocab_size": 6859, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 6860, "pair": [ "विस्फो", "ट" ], "new_token": "विस्फोट", "frequency": 2, "vocab_size": 7139, "learned_vocab_size": 6860, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 6861, "pair": [ "ओ", "न" ], "new_token": "ओन", "frequency": 2, "vocab_size": 7140, "learned_vocab_size": 6861, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 6862, "pair": [ "प्रशि", "ध्द" ], "new_token": "प्रशिध्द", "frequency": 2, "vocab_size": 7141, "learned_vocab_size": 6862, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6863, "pair": [ "अमूर्", "त" ], "new_token": "अमूर्त", "frequency": 2, "vocab_size": 7142, "learned_vocab_size": 6863, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6864, "pair": [ "भी", "लवाड़ा" ], "new_token": "भीलवाड़ा", "frequency": 2, "vocab_size": 7143, "learned_vocab_size": 6864, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6865, "pair": [ "ध", "ौलपुर" ], "new_token": "धौलपुर", "frequency": 2, "vocab_size": 7144, "learned_vocab_size": 6865, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6866, "pair": [ "दौ", "सा" ], "new_token": "दौसा", "frequency": 2, "vocab_size": 7145, "learned_vocab_size": 6866, "compression_ratio": 1.1778205359469265, "example_words": [] }, { "step": 6867, "pair": [ "सी", "कर" ], "new_token": "सीकर", "frequency": 2, "vocab_size": 7146, "learned_vocab_size": 6867, "compression_ratio": 1.1778248281315766, "example_words": [] }, { "step": 6868, "pair": [ "बू", "ंदी" ], "new_token": "बूंदी", "frequency": 2, "vocab_size": 7147, "learned_vocab_size": 6868, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 6869, "pair": [ "चित्त", "ौड़" ], "new_token": "चित्तौड़", "frequency": 2, "vocab_size": 7148, "learned_vocab_size": 6869, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 6870, "pair": [ "उ", "त" ], "new_token": "उत", "frequency": 2, "vocab_size": 7149, "learned_vocab_size": 6870, "compression_ratio": 1.177859166734997, "example_words": [] }, { "step": 6871, "pair": [ "खे", "डिया" ], "new_token": "खेडिया", "frequency": 2, "vocab_size": 7150, "learned_vocab_size": 6871, "compression_ratio": 1.1758109433008161, "example_words": [] }, { "step": 6872, "pair": [ "गिर", "धरपुर" ], "new_token": "गिरधरपुर", "frequency": 2, "vocab_size": 7151, "learned_vocab_size": 6872, "compression_ratio": 1.1758109433008161, "example_words": [] }, { "step": 6873, "pair": [ "ज्", "जू" ], "new_token": "ज्जू", "frequency": 2, "vocab_size": 7152, "learned_vocab_size": 6873, "compression_ratio": 1.1758109433008161, "example_words": [] }, { "step": 6874, "pair": [ "ड", "ंडा" ], "new_token": "डंडा", "frequency": 2, "vocab_size": 7153, "learned_vocab_size": 6874, "compression_ratio": 1.1758152208513184, "example_words": [] }, { "step": 6875, "pair": [ "गू", "ना" ], "new_token": "गूना", "frequency": 2, "vocab_size": 7154, "learned_vocab_size": 6875, "compression_ratio": 1.1758152208513184, "example_words": [] }, { "step": 6876, "pair": [ "पा", "इ" ], "new_token": "पाइ", "frequency": 2, "vocab_size": 7155, "learned_vocab_size": 6876, "compression_ratio": 1.175819498432944, "example_words": [] }, { "step": 6877, "pair": [ "भ", "मरौला" ], "new_token": "भमरौला", "frequency": 2, "vocab_size": 7156, "learned_vocab_size": 6877, "compression_ratio": 1.175823776045693, "example_words": [] }, { "step": 6878, "pair": [ "भो", "गपुर" ], "new_token": "भोगपुर", "frequency": 2, "vocab_size": 7157, "learned_vocab_size": 6878, "compression_ratio": 1.175823776045693, "example_words": [] }, { "step": 6879, "pair": [ "देवासं", "अलीगढ़" ], "new_token": "देवासंअलीगढ़", "frequency": 2, "vocab_size": 7158, "learned_vocab_size": 6879, "compression_ratio": 1.175828053689566, "example_words": [] }, { "step": 6880, "pair": [ "इ", "गलास" ], "new_token": "इगलास", "frequency": 2, "vocab_size": 7159, "learned_vocab_size": 6880, "compression_ratio": 1.175828053689566, "example_words": [] }, { "step": 6881, "pair": [ "ग", "भाना" ], "new_token": "गभाना", "frequency": 2, "vocab_size": 7160, "learned_vocab_size": 6881, "compression_ratio": 1.175828053689566, "example_words": [] }, { "step": 6882, "pair": [ "माली", "पुरा" ], "new_token": "मालीपुरा", "frequency": 2, "vocab_size": 7161, "learned_vocab_size": 6882, "compression_ratio": 1.175828053689566, "example_words": [] }, { "step": 6883, "pair": [ "त्व", "चा" ], "new_token": "त्वचा", "frequency": 2, "vocab_size": 7162, "learned_vocab_size": 6883, "compression_ratio": 1.175828053689566, "example_words": [] }, { "step": 6884, "pair": [ "पर्यवे", "क्षण" ], "new_token": "पर्यवेक्षण", "frequency": 2, "vocab_size": 7163, "learned_vocab_size": 6884, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 6885, "pair": [ "दै", "र्घ्य" ], "new_token": "दैर्घ्य", "frequency": 2, "vocab_size": 7164, "learned_vocab_size": 6885, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 6886, "pair": [ "उपपाच", "यी" ], "new_token": "उपपाचयी", "frequency": 2, "vocab_size": 7165, "learned_vocab_size": 6886, "compression_ratio": 1.1758323313645633, "example_words": [] }, { "step": 6887, "pair": [ "अंतरिक्ष", "जैविकी" ], "new_token": "अंतरिक्षजैविकी", "frequency": 2, "vocab_size": 7166, "learned_vocab_size": 6887, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6888, "pair": [ "जैव", "सूचना" ], "new_token": "जैवसूचना", "frequency": 2, "vocab_size": 7167, "learned_vocab_size": 6888, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6889, "pair": [ "जैव", "सांख्यिकी" ], "new_token": "जैवसांख्यिकी", "frequency": 2, "vocab_size": 7168, "learned_vocab_size": 6889, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6890, "pair": [ "क्रो", "नो" ], "new_token": "क्रोनो", "frequency": 2, "vocab_size": 7169, "learned_vocab_size": 6890, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6891, "pair": [ "क्रोनो", "बायोलॉजी" ], "new_token": "क्रोनोबायोलॉजी", "frequency": 2, "vocab_size": 7170, "learned_vocab_size": 6891, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6892, "pair": [ "जैव", "विकास" ], "new_token": "जैवविकास", "frequency": 2, "vocab_size": 7171, "learned_vocab_size": 6892, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6893, "pair": [ "इम्", "म्यु" ], "new_token": "इम्म्यु", "frequency": 2, "vocab_size": 7172, "learned_vocab_size": 6893, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6894, "pair": [ "इम्म्यु", "नोलॉजी" ], "new_token": "इम्म्युनोलॉजी", "frequency": 2, "vocab_size": 7173, "learned_vocab_size": 6894, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6895, "pair": [ "सागरी", "य" ], "new_token": "सागरीय", "frequency": 2, "vocab_size": 7174, "learned_vocab_size": 6895, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6896, "pair": [ "जीवा", "श्" ], "new_token": "जीवाश्", "frequency": 2, "vocab_size": 7175, "learned_vocab_size": 6896, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6897, "pair": [ "जीवाश्", "म" ], "new_token": "जीवाश्म", "frequency": 2, "vocab_size": 7176, "learned_vocab_size": 6897, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6898, "pair": [ "जीवाश्म", "विज्ञान" ], "new_token": "जीवाश्मविज्ञान", "frequency": 2, "vocab_size": 7177, "learned_vocab_size": 6898, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6899, "pair": [ "टै", "क्सोनॉ" ], "new_token": "टैक्सोनॉ", "frequency": 2, "vocab_size": 7178, "learned_vocab_size": 6899, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6900, "pair": [ "टैक्सोनॉ", "मी" ], "new_token": "टैक्सोनॉमी", "frequency": 2, "vocab_size": 7179, "learned_vocab_size": 6900, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6901, "pair": [ "जैव", "प्रौद्योगिकी" ], "new_token": "जैवप्रौद्योगिकी", "frequency": 2, "vocab_size": 7180, "learned_vocab_size": 6901, "compression_ratio": 1.1758366090706849, "example_words": [ "जैवप्रौद्योगिकी" ] }, { "step": 6902, "pair": [ "धर्मे", "श" ], "new_token": "धर्मेश", "frequency": 2, "vocab_size": 7181, "learned_vocab_size": 6902, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6903, "pair": [ "चौ", "हान" ], "new_token": "चौहान", "frequency": 2, "vocab_size": 7182, "learned_vocab_size": 6903, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6904, "pair": [ "खगोल", "ज्ञ" ], "new_token": "खगोलज्ञ", "frequency": 2, "vocab_size": 7183, "learned_vocab_size": 6904, "compression_ratio": 1.1758366090706849, "example_words": [] }, { "step": 6905, "pair": [ "विक्रमा", "दित्य" ], "new_token": "विक्रमादित्य", "frequency": 2, "vocab_size": 7184, "learned_vocab_size": 6905, "compression_ratio": 1.1758408868079318, "example_words": [] }, { "step": 6906, "pair": [ "घ", "ट" ], "new_token": "घट", "frequency": 2, "vocab_size": 7185, "learned_vocab_size": 6906, "compression_ratio": 1.1758408868079318, "example_words": [] }, { "step": 6907, "pair": [ "शह", "ंशाह" ], "new_token": "शहंशाह", "frequency": 2, "vocab_size": 7186, "learned_vocab_size": 6907, "compression_ratio": 1.175943561840207, "example_words": [] }, { "step": 6908, "pair": [ "वे", "ध" ], "new_token": "वेध", "frequency": 2, "vocab_size": 7187, "learned_vocab_size": 6908, "compression_ratio": 1.175943561840207, "example_words": [] }, { "step": 6909, "pair": [ "वेध", "शाला" ], "new_token": "वेधशाला", "frequency": 2, "vocab_size": 7188, "learned_vocab_size": 6909, "compression_ratio": 1.175947840355687, "example_words": [] }, { "step": 6910, "pair": [ "जन", "हित" ], "new_token": "जनहित", "frequency": 2, "vocab_size": 7189, "learned_vocab_size": 6910, "compression_ratio": 1.175947840355687, "example_words": [] }, { "step": 6911, "pair": [ "कु", "सु" ], "new_token": "कुसु", "frequency": 2, "vocab_size": 7190, "learned_vocab_size": 6911, "compression_ratio": 1.175947840355687, "example_words": [] }, { "step": 6912, "pair": [ "आर्य", "भट्ट" ], "new_token": "आर्यभट्ट", "frequency": 2, "vocab_size": 7191, "learned_vocab_size": 6912, "compression_ratio": 1.1759521189023003, "example_words": [] }, { "step": 6913, "pair": [ "ध्ये", "य" ], "new_token": "ध्येय", "frequency": 2, "vocab_size": 7192, "learned_vocab_size": 6913, "compression_ratio": 1.1759521189023003, "example_words": [] }, { "step": 6914, "pair": [ "चन्द्र", "गुप्त" ], "new_token": "चन्द्रगुप्त", "frequency": 2, "vocab_size": 7193, "learned_vocab_size": 6914, "compression_ratio": 1.1759521189023003, "example_words": [] }, { "step": 6915, "pair": [ "मे", "ची" ], "new_token": "मेची", "frequency": 2, "vocab_size": 7194, "learned_vocab_size": 6915, "compression_ratio": 1.1759521189023003, "example_words": [] }, { "step": 6916, "pair": [ "जिला", "की" ], "new_token": "जिलाकी", "frequency": 2, "vocab_size": 7195, "learned_vocab_size": 6916, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 6917, "pair": [ "देवासं", "इलाम" ], "new_token": "देवासंइलाम", "frequency": 2, "vocab_size": 7196, "learned_vocab_size": 6917, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 6918, "pair": [ "आम", "चोक" ], "new_token": "आमचोक", "frequency": 2, "vocab_size": 7197, "learned_vocab_size": 6918, "compression_ratio": 1.175956397480048, "example_words": [] }, { "step": 6919, "pair": [ "इ", "भा" ], "new_token": "इभा", "frequency": 2, "vocab_size": 7198, "learned_vocab_size": 6919, "compression_ratio": 1.17596067608893, "example_words": [] }, { "step": 6920, "pair": [ "इभा", "ङ" ], "new_token": "इभाङ", "frequency": 2, "vocab_size": 7199, "learned_vocab_size": 6920, "compression_ratio": 1.1759649547289468, "example_words": [] }, { "step": 6921, "pair": [ "इ", "रौ" ], "new_token": "इरौ", "frequency": 2, "vocab_size": 7200, "learned_vocab_size": 6921, "compression_ratio": 1.1759692334000986, "example_words": [] }, { "step": 6922, "pair": [ "इरौ", "ंटार" ], "new_token": "इरौंटार", "frequency": 2, "vocab_size": 7201, "learned_vocab_size": 6922, "compression_ratio": 1.175973512102386, "example_words": [] }, { "step": 6923, "pair": [ "एक", "तप्पा" ], "new_token": "एकतप्पा", "frequency": 2, "vocab_size": 7202, "learned_vocab_size": 6923, "compression_ratio": 1.175973512102386, "example_words": [] }, { "step": 6924, "pair": [ "कोल्", "बुङ" ], "new_token": "कोल्बुङ", "frequency": 2, "vocab_size": 7203, "learned_vocab_size": 6924, "compression_ratio": 1.1759777908358091, "example_words": [] }, { "step": 6925, "pair": [ "गजु", "रमुखी" ], "new_token": "गजुरमुखी", "frequency": 2, "vocab_size": 7204, "learned_vocab_size": 6925, "compression_ratio": 1.1759777908358091, "example_words": [] }, { "step": 6926, "pair": [ "गोद", "क" ], "new_token": "गोदक", "frequency": 2, "vocab_size": 7205, "learned_vocab_size": 6926, "compression_ratio": 1.1759777908358091, "example_words": [] }, { "step": 6927, "pair": [ "गोर्", "खे" ], "new_token": "गोर्खे", "frequency": 2, "vocab_size": 7206, "learned_vocab_size": 6927, "compression_ratio": 1.1759820696003682, "example_words": [] }, { "step": 6928, "pair": [ "च", "मै" ], "new_token": "चमै", "frequency": 2, "vocab_size": 7207, "learned_vocab_size": 6928, "compression_ratio": 1.1759820696003682, "example_words": [] }, { "step": 6929, "pair": [ "चमै", "ता" ], "new_token": "चमैता", "frequency": 2, "vocab_size": 7208, "learned_vocab_size": 6929, "compression_ratio": 1.175986348396064, "example_words": [] }, { "step": 6930, "pair": [ "चि", "सापानी" ], "new_token": "चिसापानी", "frequency": 2, "vocab_size": 7209, "learned_vocab_size": 6930, "compression_ratio": 1.1759906272228964, "example_words": [] }, { "step": 6931, "pair": [ "चुला", "चु" ], "new_token": "चुलाचु", "frequency": 2, "vocab_size": 7210, "learned_vocab_size": 6931, "compression_ratio": 1.1759906272228964, "example_words": [] }, { "step": 6932, "pair": [ "चुलाचु", "ली" ], "new_token": "चुलाचुली", "frequency": 2, "vocab_size": 7211, "learned_vocab_size": 6932, "compression_ratio": 1.1759949060808659, "example_words": [] }, { "step": 6933, "pair": [ "जिर्", "मले" ], "new_token": "जिर्मले", "frequency": 2, "vocab_size": 7212, "learned_vocab_size": 6933, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6934, "pair": [ "दाना", "वारी" ], "new_token": "दानावारी", "frequency": 2, "vocab_size": 7213, "learned_vocab_size": 6934, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6935, "pair": [ "धु", "सेनी" ], "new_token": "धुसेनी", "frequency": 2, "vocab_size": 7214, "learned_vocab_size": 6935, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6936, "pair": [ "नयाँ", "बजार" ], "new_token": "नयाँबजार", "frequency": 2, "vocab_size": 7215, "learned_vocab_size": 6936, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6937, "pair": [ "नाम्सालि", "ङ" ], "new_token": "नाम्सालिङ", "frequency": 2, "vocab_size": 7216, "learned_vocab_size": 6937, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6938, "pair": [ "पशुपति", "नगर" ], "new_token": "पशुपतिनगर", "frequency": 2, "vocab_size": 7217, "learned_vocab_size": 6938, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6939, "pair": [ "पुवा", "मझुवा" ], "new_token": "पुवामझुवा", "frequency": 2, "vocab_size": 7218, "learned_vocab_size": 6939, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6940, "pair": [ "प्या", "ङ" ], "new_token": "प्याङ", "frequency": 2, "vocab_size": 7219, "learned_vocab_size": 6940, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6941, "pair": [ "फा", "क" ], "new_token": "फाक", "frequency": 2, "vocab_size": 7220, "learned_vocab_size": 6941, "compression_ratio": 1.1759991849699731, "example_words": [] }, { "step": 6942, "pair": [ "फाक", "फो" ], "new_token": "फाकफो", "frequency": 2, "vocab_size": 7221, "learned_vocab_size": 6942, "compression_ratio": 1.176003463890218, "example_words": [] }, { "step": 6943, "pair": [ "फाकफो", "क" ], "new_token": "फाकफोक", "frequency": 2, "vocab_size": 7222, "learned_vocab_size": 6943, "compression_ratio": 1.1760077428416011, "example_words": [] }, { "step": 6944, "pair": [ "फु", "ँ" ], "new_token": "फुँ", "frequency": 2, "vocab_size": 7223, "learned_vocab_size": 6944, "compression_ratio": 1.1760120218241226, "example_words": [] }, { "step": 6945, "pair": [ "फुँ", "ए" ], "new_token": "फुँए", "frequency": 2, "vocab_size": 7224, "learned_vocab_size": 6945, "compression_ratio": 1.176016300837783, "example_words": [] }, { "step": 6946, "pair": [ "फुँए", "तप्पा" ], "new_token": "फुँएतप्पा", "frequency": 2, "vocab_size": 7225, "learned_vocab_size": 6946, "compression_ratio": 1.1760205798825827, "example_words": [] }, { "step": 6947, "pair": [ "बर", "बोटे" ], "new_token": "बरबोटे", "frequency": 2, "vocab_size": 7226, "learned_vocab_size": 6947, "compression_ratio": 1.1760248589585216, "example_words": [] }, { "step": 6948, "pair": [ "मंगल", "बारे" ], "new_token": "मंगलबारे", "frequency": 2, "vocab_size": 7227, "learned_vocab_size": 6948, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6949, "pair": [ "माइ", "मझुवा" ], "new_token": "माइमझुवा", "frequency": 2, "vocab_size": 7228, "learned_vocab_size": 6949, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6950, "pair": [ "लुम्", "दे" ], "new_token": "लुम्दे", "frequency": 2, "vocab_size": 7229, "learned_vocab_size": 6950, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6951, "pair": [ "शान्ति", "डाँ" ], "new_token": "शान्तिडाँ", "frequency": 2, "vocab_size": 7230, "learned_vocab_size": 6951, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6952, "pair": [ "शान्तिडाँ", "डा" ], "new_token": "शान्तिडाँडा", "frequency": 2, "vocab_size": 7231, "learned_vocab_size": 6952, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6953, "pair": [ "शान्ति", "पुर" ], "new_token": "शान्तिपुर", "frequency": 2, "vocab_size": 7232, "learned_vocab_size": 6953, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6954, "pair": [ "श्री", "अन्तु" ], "new_token": "श्रीअन्तु", "frequency": 2, "vocab_size": 7233, "learned_vocab_size": 6954, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6955, "pair": [ "समाल", "बुङ" ], "new_token": "समालबुङ", "frequency": 2, "vocab_size": 7234, "learned_vocab_size": 6955, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6956, "pair": [ "साँ", "खे" ], "new_token": "साँखे", "frequency": 2, "vocab_size": 7235, "learned_vocab_size": 6956, "compression_ratio": 1.1760291380656007, "example_words": [] }, { "step": 6957, "pair": [ "साँखे", "जु" ], "new_token": "साँखेजु", "frequency": 2, "vocab_size": 7236, "learned_vocab_size": 6957, "compression_ratio": 1.1760334172038198, "example_words": [] }, { "step": 6958, "pair": [ "साँखेजु", "ङ" ], "new_token": "साँखेजुङ", "frequency": 2, "vocab_size": 7237, "learned_vocab_size": 6958, "compression_ratio": 1.1760376963731796, "example_words": [] }, { "step": 6959, "pair": [ "साक", "फारा" ], "new_token": "साकफारा", "frequency": 2, "vocab_size": 7238, "learned_vocab_size": 6959, "compression_ratio": 1.1760419755736802, "example_words": [] }, { "step": 6960, "pair": [ "सा", "ङ्" ], "new_token": "साङ्", "frequency": 2, "vocab_size": 7239, "learned_vocab_size": 6960, "compression_ratio": 1.1760419755736802, "example_words": [] }, { "step": 6961, "pair": [ "साङ्", "गरू" ], "new_token": "साङ्गरू", "frequency": 2, "vocab_size": 7240, "learned_vocab_size": 6961, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6962, "pair": [ "साङ्गरू", "म्बा" ], "new_token": "साङ्गरूम्बा", "frequency": 2, "vocab_size": 7241, "learned_vocab_size": 6962, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6963, "pair": [ "सिद्धि", "थु" ], "new_token": "सिद्धिथु", "frequency": 2, "vocab_size": 7242, "learned_vocab_size": 6963, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6964, "pair": [ "सिद्धिथु", "म्" ], "new_token": "सिद्धिथुम्", "frequency": 2, "vocab_size": 7243, "learned_vocab_size": 6964, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6965, "pair": [ "सिद्धिथुम्", "का" ], "new_token": "सिद्धिथुम्का", "frequency": 2, "vocab_size": 7244, "learned_vocab_size": 6965, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6966, "pair": [ "सु", "म्बे" ], "new_token": "सुम्बे", "frequency": 2, "vocab_size": 7245, "learned_vocab_size": 6966, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6967, "pair": [ "सुम्बे", "क" ], "new_token": "सुम्बेक", "frequency": 2, "vocab_size": 7246, "learned_vocab_size": 6967, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6968, "pair": [ "सुलु", "बुङ" ], "new_token": "सुलुबुङ", "frequency": 2, "vocab_size": 7247, "learned_vocab_size": 6968, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6969, "pair": [ "सोया", "क" ], "new_token": "सोयाक", "frequency": 2, "vocab_size": 7248, "learned_vocab_size": 6969, "compression_ratio": 1.1760462548053219, "example_words": [] }, { "step": 6970, "pair": [ "सोया", "ङ" ], "new_token": "सोयाङ", "frequency": 2, "vocab_size": 7249, "learned_vocab_size": 6970, "compression_ratio": 1.1760505340681053, "example_words": [] }, { "step": 6971, "pair": [ "सोयाङ", "नगरपालिका" ], "new_token": "सोयाङनगरपालिका", "frequency": 2, "vocab_size": 7250, "learned_vocab_size": 6971, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6972, "pair": [ "सूर्यो", "दय" ], "new_token": "सूर्योदय", "frequency": 2, "vocab_size": 7251, "learned_vocab_size": 6972, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6973, "pair": [ "रंगी", "न" ], "new_token": "रंगीन", "frequency": 2, "vocab_size": 7252, "learned_vocab_size": 6973, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6974, "pair": [ "पर्", "तें" ], "new_token": "पर्तें", "frequency": 2, "vocab_size": 7253, "learned_vocab_size": 6974, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6975, "pair": [ "स्या", "ही" ], "new_token": "स्याही", "frequency": 2, "vocab_size": 7254, "learned_vocab_size": 6975, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6976, "pair": [ "नुक़्", "ता" ], "new_token": "नुक़्ता", "frequency": 2, "vocab_size": 7255, "learned_vocab_size": 6976, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6977, "pair": [ "उदाहरणार्", "थ" ], "new_token": "उदाहरणार्थ", "frequency": 2, "vocab_size": 7256, "learned_vocab_size": 6977, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6978, "pair": [ "लगा", "कर" ], "new_token": "लगाकर", "frequency": 2, "vocab_size": 7257, "learned_vocab_size": 6978, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6979, "pair": [ "लगी", "ं" ], "new_token": "लगीं", "frequency": 2, "vocab_size": 7258, "learned_vocab_size": 6979, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6980, "pair": [ "अरब", "पति" ], "new_token": "अरबपति", "frequency": 2, "vocab_size": 7259, "learned_vocab_size": 6980, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6981, "pair": [ "वे", "फेयर" ], "new_token": "वेफेयर", "frequency": 2, "vocab_size": 7260, "learned_vocab_size": 6981, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6982, "pair": [ "सीई", "ओ" ], "new_token": "सीईओ", "frequency": 2, "vocab_size": 7261, "learned_vocab_size": 6982, "compression_ratio": 1.176059092687098, "example_words": [] }, { "step": 6983, "pair": [ "जल्", "दी" ], "new_token": "जल्दी", "frequency": 2, "vocab_size": 7262, "learned_vocab_size": 6983, "compression_ratio": 1.1760655117330918, "example_words": [] }, { "step": 6984, "pair": [ "वे", "फ़ेयर" ], "new_token": "वेफ़ेयर", "frequency": 2, "vocab_size": 7263, "learned_vocab_size": 6984, "compression_ratio": 1.1760655117330918, "example_words": [] }, { "step": 6985, "pair": [ "डर", "ल" ], "new_token": "डरल", "frequency": 2, "vocab_size": 7264, "learned_vocab_size": 6985, "compression_ratio": 1.1760697911360163, "example_words": [] }, { "step": 6986, "pair": [ "रि", "जर्" ], "new_token": "रिजर्", "frequency": 2, "vocab_size": 7265, "learned_vocab_size": 6986, "compression_ratio": 1.1760740705700843, "example_words": [] }, { "step": 6987, "pair": [ "रिजर्", "व" ], "new_token": "रिजर्व", "frequency": 2, "vocab_size": 7266, "learned_vocab_size": 6987, "compression_ratio": 1.1760740705700843, "example_words": [] }, { "step": 6988, "pair": [ "शे", "यर" ], "new_token": "शेयर", "frequency": 2, "vocab_size": 7267, "learned_vocab_size": 6988, "compression_ratio": 1.1760740705700843, "example_words": [] }, { "step": 6989, "pair": [ "फा", "उंडे" ], "new_token": "फाउंडे", "frequency": 2, "vocab_size": 7268, "learned_vocab_size": 6989, "compression_ratio": 1.176078350035296, "example_words": [] }, { "step": 6990, "pair": [ "फाउंडे", "शन" ], "new_token": "फाउंडेशन", "frequency": 2, "vocab_size": 7269, "learned_vocab_size": 6990, "compression_ratio": 1.176078350035296, "example_words": [] }, { "step": 6991, "pair": [ "मल्होत्रा", "लेखक" ], "new_token": "मल्होत्रालेखक", "frequency": 2, "vocab_size": 7270, "learned_vocab_size": 6991, "compression_ratio": 1.176078350035296, "example_words": [] }, { "step": 6992, "pair": [ "सै", "फ" ], "new_token": "सैफ", "frequency": 2, "vocab_size": 7271, "learned_vocab_size": 6992, "compression_ratio": 1.176078350035296, "example_words": [] }, { "step": 6993, "pair": [ "इ", "कलौ" ], "new_token": "इकलौ", "frequency": 2, "vocab_size": 7272, "learned_vocab_size": 6993, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6994, "pair": [ "साद", "गी" ], "new_token": "सादगी", "frequency": 2, "vocab_size": 7273, "learned_vocab_size": 6994, "compression_ratio": 1.1760548133620305, "example_words": [] }, { "step": 6995, "pair": [ "अंतर्", "मुखी" ], "new_token": "अंतर्मुखी", "frequency": 2, "vocab_size": 7274, "learned_vocab_size": 6995, "compression_ratio": 1.176059092687098, "example_words": [] }, { "step": 6996, "pair": [ "इ", "श्" ], "new_token": "इश्", "frequency": 2, "vocab_size": 7275, "learned_vocab_size": 6996, "compression_ratio": 1.176059092687098, "example_words": [] }, { "step": 6997, "pair": [ "इश्", "कबाज" ], "new_token": "इश्कबाज", "frequency": 2, "vocab_size": 7276, "learned_vocab_size": 6997, "compression_ratio": 1.176063372043308, "example_words": [] }, { "step": 6998, "pair": [ "स", "पनों" ], "new_token": "सपनों", "frequency": 2, "vocab_size": 7277, "learned_vocab_size": 6998, "compression_ratio": 1.176063372043308, "example_words": [] }, { "step": 6999, "pair": [ "किस्", "मत" ], "new_token": "किस्मत", "frequency": 2, "vocab_size": 7278, "learned_vocab_size": 6999, "compression_ratio": 1.176063372043308, "example_words": [] }, { "step": 7000, "pair": [ "मे", "हन" ], "new_token": "मेहन", "frequency": 2, "vocab_size": 7279, "learned_vocab_size": 7000, "compression_ratio": 1.176063372043308, "example_words": [] }, { "step": 7001, "pair": [ "समझ", "ता" ], "new_token": "समझता", "frequency": 2, "vocab_size": 7280, "learned_vocab_size": 7001, "compression_ratio": 1.1760676514306612, "example_words": [ "समझता" ] }, { "step": 7002, "pair": [ "कना", "ली" ], "new_token": "कनाली", "frequency": 2, "vocab_size": 7281, "learned_vocab_size": 7002, "compression_ratio": 1.1760719308491574, "example_words": [] }, { "step": 7003, "pair": [ "कनाली", "छी" ], "new_token": "कनालीछी", "frequency": 2, "vocab_size": 7282, "learned_vocab_size": 7003, "compression_ratio": 1.1760762102987972, "example_words": [] }, { "step": 7004, "pair": [ "कनालीछी", "ना" ], "new_token": "कनालीछीना", "frequency": 2, "vocab_size": 7283, "learned_vocab_size": 7004, "compression_ratio": 1.176080489779581, "example_words": [] }, { "step": 7005, "pair": [ "सो", "च" ], "new_token": "सोच", "frequency": 2, "vocab_size": 7284, "learned_vocab_size": 7005, "compression_ratio": 1.176084769291509, "example_words": [] }, { "step": 7006, "pair": [ "किद", "वई" ], "new_token": "किदवई", "frequency": 2, "vocab_size": 7285, "learned_vocab_size": 7006, "compression_ratio": 1.1760890488345817, "example_words": [] }, { "step": 7007, "pair": [ "सौं", "पा" ], "new_token": "सौंपा", "frequency": 2, "vocab_size": 7286, "learned_vocab_size": 7007, "compression_ratio": 1.1760933284087993, "example_words": [] }, { "step": 7008, "pair": [ "रु", "क" ], "new_token": "रुक", "frequency": 2, "vocab_size": 7287, "learned_vocab_size": 7008, "compression_ratio": 1.1760976080141623, "example_words": [] }, { "step": 7009, "pair": [ "पूर्व", "ज" ], "new_token": "पूर्वज", "frequency": 2, "vocab_size": 7288, "learned_vocab_size": 7009, "compression_ratio": 1.1760997478285233, "example_words": [] }, { "step": 7010, "pair": [ "सो", "पान" ], "new_token": "सोपान", "frequency": 2, "vocab_size": 7289, "learned_vocab_size": 7010, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 7011, "pair": [ "कि", "ष्किन्धा" ], "new_token": "किष्किन्धा", "frequency": 2, "vocab_size": 7290, "learned_vocab_size": 7011, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 7012, "pair": [ "उर्", "मिला" ], "new_token": "उर्मिला", "frequency": 2, "vocab_size": 7291, "learned_vocab_size": 7012, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 7013, "pair": [ "जा", "म्ब" ], "new_token": "जाम्ब", "frequency": 2, "vocab_size": 7292, "learned_vocab_size": 7013, "compression_ratio": 1.176104027480605, "example_words": [] }, { "step": 7014, "pair": [ "भी", "षण" ], "new_token": "भीषण", "frequency": 2, "vocab_size": 7293, "learned_vocab_size": 7014, "compression_ratio": 1.1761083071638325, "example_words": [] }, { "step": 7015, "pair": [ "मेघना", "द" ], "new_token": "मेघनाद", "frequency": 2, "vocab_size": 7294, "learned_vocab_size": 7015, "compression_ratio": 1.1761125868782067, "example_words": [] }, { "step": 7016, "pair": [ "औ", "ष" ], "new_token": "औष", "frequency": 2, "vocab_size": 7295, "learned_vocab_size": 7016, "compression_ratio": 1.1761125868782067, "example_words": [] }, { "step": 7017, "pair": [ "रा", "क्ष" ], "new_token": "राक्ष", "frequency": 2, "vocab_size": 7296, "learned_vocab_size": 7017, "compression_ratio": 1.1761168666237278, "example_words": [] }, { "step": 7018, "pair": [ "स्तानिस्", "लास" ], "new_token": "स्तानिस्लास", "frequency": 2, "vocab_size": 7297, "learned_vocab_size": 7018, "compression_ratio": 1.1761232863004103, "example_words": [] }, { "step": 7019, "pair": [ "वा", "वरि" ], "new_token": "वावरि", "frequency": 2, "vocab_size": 7298, "learned_vocab_size": 7019, "compression_ratio": 1.1761232863004103, "example_words": [] }, { "step": 7020, "pair": [ "वावरि", "न्" ], "new_token": "वावरिन्", "frequency": 2, "vocab_size": 7299, "learned_vocab_size": 7020, "compression_ratio": 1.1761232863004103, "example_words": [] }, { "step": 7021, "pair": [ "वावरिन्", "का" ], "new_token": "वावरिन्का", "frequency": 2, "vocab_size": 7300, "learned_vocab_size": 7021, "compression_ratio": 1.1761232863004103, "example_words": [] }, { "step": 7022, "pair": [ "ज़र", "लैंड" ], "new_token": "ज़रलैंड", "frequency": 2, "vocab_size": 7301, "learned_vocab_size": 7022, "compression_ratio": 1.1761232863004103, "example_words": [] }, { "step": 7023, "pair": [ "व", "ज़न" ], "new_token": "वज़न", "frequency": 2, "vocab_size": 7302, "learned_vocab_size": 7023, "compression_ratio": 1.1761275661237998, "example_words": [] }, { "step": 7024, "pair": [ "वि", "म्बलडन" ], "new_token": "विम्बलडन", "frequency": 2, "vocab_size": 7303, "learned_vocab_size": 7024, "compression_ratio": 1.1761318459783374, "example_words": [] }, { "step": 7025, "pair": [ "नोवा", "क" ], "new_token": "नोवाक", "frequency": 2, "vocab_size": 7304, "learned_vocab_size": 7025, "compression_ratio": 1.1761318459783374, "example_words": [] }, { "step": 7026, "pair": [ "जो", "को" ], "new_token": "जोको", "frequency": 2, "vocab_size": 7305, "learned_vocab_size": 7026, "compression_ratio": 1.1761361258640233, "example_words": [] }, { "step": 7027, "pair": [ "जोको", "विच" ], "new_token": "जोकोविच", "frequency": 2, "vocab_size": 7306, "learned_vocab_size": 7027, "compression_ratio": 1.176140405780858, "example_words": [] }, { "step": 7028, "pair": [ "दा", "वेन" ], "new_token": "दावेन", "frequency": 2, "vocab_size": 7307, "learned_vocab_size": 7028, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7029, "pair": [ "प्रशी", "तन" ], "new_token": "प्रशीतन", "frequency": 2, "vocab_size": 7308, "learned_vocab_size": 7029, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 7030, "pair": [ "निरी", "क्षण" ], "new_token": "निरीक्षण", "frequency": 2, "vocab_size": 7309, "learned_vocab_size": 7030, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 7031, "pair": [ "झ", "ि" ], "new_token": "झि", "frequency": 2, "vocab_size": 7310, "learned_vocab_size": 7031, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 7032, "pair": [ "झि", "ल्ली" ], "new_token": "झिल्ली", "frequency": 2, "vocab_size": 7311, "learned_vocab_size": 7032, "compression_ratio": 1.176140405780858, "example_words": [] }, { "step": 7033, "pair": [ "विश्व", "विधा" ], "new_token": "विश्वविधा", "frequency": 2, "vocab_size": 7312, "learned_vocab_size": 7033, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7034, "pair": [ "आयरि", "श" ], "new_token": "आयरिश", "frequency": 2, "vocab_size": 7313, "learned_vocab_size": 7034, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7035, "pair": [ "अनु", "सन्धान" ], "new_token": "अनुसन्धान", "frequency": 2, "vocab_size": 7314, "learned_vocab_size": 7035, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7036, "pair": [ "श", "ंघा" ], "new_token": "शंघा", "frequency": 2, "vocab_size": 7315, "learned_vocab_size": 7036, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7037, "pair": [ "शंघा", "ई" ], "new_token": "शंघाई", "frequency": 2, "vocab_size": 7316, "learned_vocab_size": 7037, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7038, "pair": [ "यू॰", "के॰" ], "new_token": "यू॰के॰", "frequency": 2, "vocab_size": 7317, "learned_vocab_size": 7038, "compression_ratio": 1.1761446857288416, "example_words": [] }, { "step": 7039, "pair": [ "मे", "कै" ], "new_token": "मेकै", "frequency": 2, "vocab_size": 7318, "learned_vocab_size": 7039, "compression_ratio": 1.1761489657079747, "example_words": [] }, { "step": 7040, "pair": [ "मेकै", "निकल" ], "new_token": "मेकैनिकल", "frequency": 2, "vocab_size": 7319, "learned_vocab_size": 7040, "compression_ratio": 1.1761532457182575, "example_words": [] }, { "step": 7041, "pair": [ "फेलो", "शिप" ], "new_token": "फेलोशिप", "frequency": 2, "vocab_size": 7320, "learned_vocab_size": 7041, "compression_ratio": 1.1761532457182575, "example_words": [] }, { "step": 7042, "pair": [ "प्रो", "सेस" ], "new_token": "प्रोसेस", "frequency": 2, "vocab_size": 7321, "learned_vocab_size": 7042, "compression_ratio": 1.176159665792088, "example_words": [] }, { "step": 7043, "pair": [ "टेक्", "नोलॉजी" ], "new_token": "टेक्नोलॉजी", "frequency": 2, "vocab_size": 7322, "learned_vocab_size": 7043, "compression_ratio": 1.176159665792088, "example_words": [] }, { "step": 7044, "pair": [ "सम्", "पादक" ], "new_token": "सम्पादक", "frequency": 2, "vocab_size": 7323, "learned_vocab_size": 7044, "compression_ratio": 1.176168225999556, "example_words": [] }, { "step": 7045, "pair": [ "मेंटे", "शन" ], "new_token": "मेंटेशन", "frequency": 2, "vocab_size": 7324, "learned_vocab_size": 7045, "compression_ratio": 1.176168225999556, "example_words": [] }, { "step": 7046, "pair": [ "असो", "सिएशन" ], "new_token": "असोसिएशन", "frequency": 2, "vocab_size": 7325, "learned_vocab_size": 7046, "compression_ratio": 1.176168225999556, "example_words": [] }, { "step": 7047, "pair": [ "साइंटि", "स्ट" ], "new_token": "साइंटिस्ट", "frequency": 2, "vocab_size": 7326, "learned_vocab_size": 7047, "compression_ratio": 1.176168225999556, "example_words": [] }, { "step": 7048, "pair": [ "जा", "ग्रत" ], "new_token": "जाग्रत", "frequency": 2, "vocab_size": 7327, "learned_vocab_size": 7048, "compression_ratio": 1.176168225999556, "example_words": [] }, { "step": 7049, "pair": [ "ना", "ड़ी" ], "new_token": "नाड़ी", "frequency": 2, "vocab_size": 7328, "learned_vocab_size": 7049, "compression_ratio": 1.176168225999556, "example_words": [] }, { "step": 7050, "pair": [ "सह", "स्रार" ], "new_token": "सहस्रार", "frequency": 2, "vocab_size": 7329, "learned_vocab_size": 7050, "compression_ratio": 1.1761725061500168, "example_words": [] }, { "step": 7051, "pair": [ "शै", "व" ], "new_token": "शैव", "frequency": 2, "vocab_size": 7330, "learned_vocab_size": 7051, "compression_ratio": 1.1761725061500168, "example_words": [] }, { "step": 7052, "pair": [ "आ", "चार्य" ], "new_token": "आचार्य", "frequency": 2, "vocab_size": 7331, "learned_vocab_size": 7052, "compression_ratio": 1.176176786331629, "example_words": [] }, { "step": 7053, "pair": [ "ष", "ट्" ], "new_token": "षट्", "frequency": 2, "vocab_size": 7332, "learned_vocab_size": 7053, "compression_ratio": 1.176176786331629, "example_words": [] }, { "step": 7054, "pair": [ "संतु", "लन" ], "new_token": "संतुलन", "frequency": 2, "vocab_size": 7333, "learned_vocab_size": 7054, "compression_ratio": 1.1761832066624573, "example_words": [] }, { "step": 7055, "pair": [ "शाखा", "ओं" ], "new_token": "शाखाओं", "frequency": 2, "vocab_size": 7334, "learned_vocab_size": 7055, "compression_ratio": 1.1761832066624573, "example_words": [] }, { "step": 7056, "pair": [ "प्रोटी", "न" ], "new_token": "प्रोटीन", "frequency": 2, "vocab_size": 7335, "learned_vocab_size": 7056, "compression_ratio": 1.1761874869219502, "example_words": [] }, { "step": 7057, "pair": [ "कॉ", "पीराइट" ], "new_token": "कॉपीराइट", "frequency": 2, "vocab_size": 7336, "learned_vocab_size": 7057, "compression_ratio": 1.1761874869219502, "example_words": [] }, { "step": 7058, "pair": [ "जर्", "मन" ], "new_token": "जर्मन", "frequency": 2, "vocab_size": 7337, "learned_vocab_size": 7058, "compression_ratio": 1.1761874869219502, "example_words": [] }, { "step": 7059, "pair": [ "उम्मी", "द" ], "new_token": "उम्मीद", "frequency": 2, "vocab_size": 7338, "learned_vocab_size": 7059, "compression_ratio": 1.1761874869219502, "example_words": [] }, { "step": 7060, "pair": [ "अती", "त" ], "new_token": "अतीत", "frequency": 2, "vocab_size": 7339, "learned_vocab_size": 7060, "compression_ratio": 1.1761917672125957, "example_words": [] }, { "step": 7061, "pair": [ "ढ", "क्" ], "new_token": "ढक्", "frequency": 2, "vocab_size": 7340, "learned_vocab_size": 7061, "compression_ratio": 1.1761917672125957, "example_words": [] }, { "step": 7062, "pair": [ "ढक्", "कन" ], "new_token": "ढक्कन", "frequency": 2, "vocab_size": 7341, "learned_vocab_size": 7062, "compression_ratio": 1.1761960475343944, "example_words": [] }, { "step": 7063, "pair": [ "घ", "ृ" ], "new_token": "घृ", "frequency": 2, "vocab_size": 7342, "learned_vocab_size": 7063, "compression_ratio": 1.1762003278873465, "example_words": [] }, { "step": 7064, "pair": [ "न", "स्ट" ], "new_token": "नस्ट", "frequency": 2, "vocab_size": 7343, "learned_vocab_size": 7064, "compression_ratio": 1.1762046082714523, "example_words": [] }, { "step": 7065, "pair": [ "ब्लो", "ख" ], "new_token": "ब्लोख", "frequency": 2, "vocab_size": 7344, "learned_vocab_size": 7065, "compression_ratio": 1.1762110289060255, "example_words": [] }, { "step": 7066, "pair": [ "यू", "टो" ], "new_token": "यूटो", "frequency": 2, "vocab_size": 7345, "learned_vocab_size": 7066, "compression_ratio": 1.1762174496106963, "example_words": [] }, { "step": 7067, "pair": [ "छवि", "यों" ], "new_token": "छवियों", "frequency": 2, "vocab_size": 7346, "learned_vocab_size": 7067, "compression_ratio": 1.1762260106593008, "example_words": [] }, { "step": 7068, "pair": [ "खु", "ले" ], "new_token": "खुले", "frequency": 2, "vocab_size": 7347, "learned_vocab_size": 7068, "compression_ratio": 1.1762260106593008, "example_words": [] }, { "step": 7069, "pair": [ "अव", "सर" ], "new_token": "अवसर", "frequency": 2, "vocab_size": 7348, "learned_vocab_size": 7069, "compression_ratio": 1.1762345718325287, "example_words": [] }, { "step": 7070, "pair": [ "द", "बाव" ], "new_token": "दबाव", "frequency": 2, "vocab_size": 7349, "learned_vocab_size": 7070, "compression_ratio": 1.1762452734743194, "example_words": [] }, { "step": 7071, "pair": [ "व्", "हाट" ], "new_token": "व्हाट", "frequency": 2, "vocab_size": 7350, "learned_vocab_size": 7071, "compression_ratio": 1.1762495541855607, "example_words": [] }, { "step": 7072, "pair": [ "कै", "न" ], "new_token": "कैन", "frequency": 2, "vocab_size": 7351, "learned_vocab_size": 7072, "compression_ratio": 1.1762538349279599, "example_words": [] }, { "step": 7073, "pair": [ "बाइ", "बिल" ], "new_token": "बाइबिल", "frequency": 2, "vocab_size": 7352, "learned_vocab_size": 7073, "compression_ratio": 1.1762581157015168, "example_words": [] }, { "step": 7074, "pair": [ "रा", "उ" ], "new_token": "राउ", "frequency": 2, "vocab_size": 7353, "learned_vocab_size": 7074, "compression_ratio": 1.1762623965062324, "example_words": [] }, { "step": 7075, "pair": [ "कोला", "ट्ट्" ], "new_token": "कोलाट्ट्", "frequency": 2, "vocab_size": 7354, "learned_vocab_size": 7075, "compression_ratio": 1.1762581157015168, "example_words": [] }, { "step": 7076, "pair": [ "कीर्", "तन" ], "new_token": "कीर्तन", "frequency": 2, "vocab_size": 7355, "learned_vocab_size": 7076, "compression_ratio": 1.1762581157015168, "example_words": [] }, { "step": 7077, "pair": [ "री", "ना" ], "new_token": "रीना", "frequency": 2, "vocab_size": 7356, "learned_vocab_size": 7077, "compression_ratio": 1.1762645369202747, "example_words": [] }, { "step": 7078, "pair": [ "पु", "ंग" ], "new_token": "पुंग", "frequency": 2, "vocab_size": 7357, "learned_vocab_size": 7078, "compression_ratio": 1.1762688177717284, "example_words": [] }, { "step": 7079, "pair": [ "पर", "क" ], "new_token": "परक", "frequency": 2, "vocab_size": 7358, "learned_vocab_size": 7079, "compression_ratio": 1.1762730986543413, "example_words": [] }, { "step": 7080, "pair": [ "समझ", "ते" ], "new_token": "समझते", "frequency": 2, "vocab_size": 7359, "learned_vocab_size": 7080, "compression_ratio": 1.1762773795681138, "example_words": [] }, { "step": 7081, "pair": [ "टेली", "फोन" ], "new_token": "टेलीफोन", "frequency": 2, "vocab_size": 7360, "learned_vocab_size": 7081, "compression_ratio": 1.1762816605130464, "example_words": [] }, { "step": 7082, "pair": [ "डि", "यन" ], "new_token": "डियन", "frequency": 2, "vocab_size": 7361, "learned_vocab_size": 7082, "compression_ratio": 1.1762816605130464, "example_words": [] }, { "step": 7083, "pair": [ "कम्यु", "निकेशन" ], "new_token": "कम्युनिकेशन", "frequency": 2, "vocab_size": 7362, "learned_vocab_size": 7083, "compression_ratio": 1.1763266123162033, "example_words": [] }, { "step": 7084, "pair": [ "पॉ", "प" ], "new_token": "पॉप", "frequency": 2, "vocab_size": 7363, "learned_vocab_size": 7084, "compression_ratio": 1.1763266123162033, "example_words": [] }, { "step": 7085, "pair": [ "ई", "सी" ], "new_token": "ईसी", "frequency": 2, "vocab_size": 7364, "learned_vocab_size": 7085, "compression_ratio": 1.1763351749539595, "example_words": [] }, { "step": 7086, "pair": [ "हथ", "ौड़ा" ], "new_token": "हथौड़ा", "frequency": 2, "vocab_size": 7365, "learned_vocab_size": 7086, "compression_ratio": 1.1763394563195841, "example_words": [] }, { "step": 7087, "pair": [ "सा", "म्य" ], "new_token": "साम्य", "frequency": 2, "vocab_size": 7366, "learned_vocab_size": 7087, "compression_ratio": 1.1763394563195841, "example_words": [] }, { "step": 7088, "pair": [ "साम्य", "वाद" ], "new_token": "साम्यवाद", "frequency": 2, "vocab_size": 7367, "learned_vocab_size": 7088, "compression_ratio": 1.1763394563195841, "example_words": [] }, { "step": 7089, "pair": [ "ट्", "वेंटी" ], "new_token": "ट्वेंटी", "frequency": 2, "vocab_size": 7368, "learned_vocab_size": 7089, "compression_ratio": 1.1763394563195841, "example_words": [] }, { "step": 7090, "pair": [ "साध", "क" ], "new_token": "साधक", "frequency": 2, "vocab_size": 7369, "learned_vocab_size": 7090, "compression_ratio": 1.1763394563195841, "example_words": [] }, { "step": 7091, "pair": [ "पला", "यन" ], "new_token": "पलायन", "frequency": 2, "vocab_size": 7370, "learned_vocab_size": 7091, "compression_ratio": 1.1763458784264555, "example_words": [] }, { "step": 7092, "pair": [ "शिल्", "प" ], "new_token": "शिल्प", "frequency": 2, "vocab_size": 7371, "learned_vocab_size": 7092, "compression_ratio": 1.1763458784264555, "example_words": [] }, { "step": 7093, "pair": [ "अंध", "कार" ], "new_token": "अंधकार", "frequency": 2, "vocab_size": 7372, "learned_vocab_size": 7093, "compression_ratio": 1.1763523006034489, "example_words": [] }, { "step": 7094, "pair": [ "बि", "खरे" ], "new_token": "बिखरे", "frequency": 2, "vocab_size": 7373, "learned_vocab_size": 7094, "compression_ratio": 1.1763523006034489, "example_words": [] }, { "step": 7095, "pair": [ "भय", "ंकर" ], "new_token": "भयंकर", "frequency": 2, "vocab_size": 7374, "learned_vocab_size": 7095, "compression_ratio": 1.1763523006034489, "example_words": [] }, { "step": 7096, "pair": [ "पिन", "कोड" ], "new_token": "पिनकोड", "frequency": 2, "vocab_size": 7375, "learned_vocab_size": 7096, "compression_ratio": 1.1763523006034489, "example_words": [] }, { "step": 7097, "pair": [ "२०", "९" ], "new_token": "२०९", "frequency": 2, "vocab_size": 7376, "learned_vocab_size": 7097, "compression_ratio": 1.1763587228505654, "example_words": [] }, { "step": 7098, "pair": [ "७", "८" ], "new_token": "७८", "frequency": 2, "vocab_size": 7377, "learned_vocab_size": 7098, "compression_ratio": 1.1763630043876012, "example_words": [] }, { "step": 7099, "pair": [ "मही", "नों" ], "new_token": "महीनों", "frequency": 2, "vocab_size": 7378, "learned_vocab_size": 7099, "compression_ratio": 1.1763672859558036, "example_words": [] }, { "step": 7100, "pair": [ "कब्", "जा" ], "new_token": "कब्जा", "frequency": 2, "vocab_size": 7379, "learned_vocab_size": 7100, "compression_ratio": 1.1763672859558036, "example_words": [] }, { "step": 7101, "pair": [ "फस", "ल" ], "new_token": "फसल", "frequency": 2, "vocab_size": 7380, "learned_vocab_size": 7101, "compression_ratio": 1.1763672859558036, "example_words": [ "फसलों", "फसल" ] }, { "step": 7102, "pair": [ "जी", "॰" ], "new_token": "जी॰", "frequency": 2, "vocab_size": 7381, "learned_vocab_size": 7102, "compression_ratio": 1.17637584918571, "example_words": [] }, { "step": 7103, "pair": [ "टी", "॰" ], "new_token": "टी॰", "frequency": 2, "vocab_size": 7382, "learned_vocab_size": 7103, "compression_ratio": 1.1763801308474144, "example_words": [] }, { "step": 7104, "pair": [ "अग्नि", "हो" ], "new_token": "अग्निहो", "frequency": 2, "vocab_size": 7383, "learned_vocab_size": 7104, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7105, "pair": [ "अग्निहो", "त्री" ], "new_token": "अग्निहोत्री", "frequency": 2, "vocab_size": 7384, "learned_vocab_size": 7105, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7106, "pair": [ "घू", "मकर" ], "new_token": "घूमकर", "frequency": 2, "vocab_size": 7385, "learned_vocab_size": 7106, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7107, "pair": [ "बढ़", "ता" ], "new_token": "बढ़ता", "frequency": 2, "vocab_size": 7386, "learned_vocab_size": 7107, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7108, "pair": [ "रेडियो", "धर्मी" ], "new_token": "रेडियोधर्मी", "frequency": 2, "vocab_size": 7387, "learned_vocab_size": 7108, "compression_ratio": 1.1763951169088316, "example_words": [] }, { "step": 7109, "pair": [ "अवशो", "षित" ], "new_token": "अवशोषित", "frequency": 2, "vocab_size": 7388, "learned_vocab_size": 7109, "compression_ratio": 1.1763951169088316, "example_words": [] }, { "step": 7110, "pair": [ "ले", "ती" ], "new_token": "लेती", "frequency": 2, "vocab_size": 7389, "learned_vocab_size": 7110, "compression_ratio": 1.1763951169088316, "example_words": [] }, { "step": 7111, "pair": [ "सम्", "पन्न" ], "new_token": "सम्पन्न", "frequency": 2, "vocab_size": 7390, "learned_vocab_size": 7111, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 7112, "pair": [ "अत्या", "धु" ], "new_token": "अत्याधु", "frequency": 2, "vocab_size": 7391, "learned_vocab_size": 7112, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 7113, "pair": [ "अत्याधु", "निक" ], "new_token": "अत्याधुनिक", "frequency": 2, "vocab_size": 7392, "learned_vocab_size": 7113, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 7114, "pair": [ "अपटे", "क" ], "new_token": "अपटेक", "frequency": 2, "vocab_size": 7393, "learned_vocab_size": 7114, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 7115, "pair": [ "कहा", "ँ" ], "new_token": "कहाँ", "frequency": 2, "vocab_size": 7394, "learned_vocab_size": 7115, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 7116, "pair": [ "ह", "डि" ], "new_token": "हडि", "frequency": 2, "vocab_size": 7395, "learned_vocab_size": 7116, "compression_ratio": 1.1763993987107952, "example_words": [] }, { "step": 7117, "pair": [ "हडि", "्ड" ], "new_token": "हडि्ड", "frequency": 2, "vocab_size": 7396, "learned_vocab_size": 7117, "compression_ratio": 1.1764036805439284, "example_words": [] }, { "step": 7118, "pair": [ "हडि्ड", "यों" ], "new_token": "हडि्डयों", "frequency": 2, "vocab_size": 7397, "learned_vocab_size": 7118, "compression_ratio": 1.1764079624082318, "example_words": [] }, { "step": 7119, "pair": [ "जोड़", "ों" ], "new_token": "जोड़ों", "frequency": 2, "vocab_size": 7398, "learned_vocab_size": 7119, "compression_ratio": 1.1764079624082318, "example_words": [] }, { "step": 7120, "pair": [ "क्", "चर" ], "new_token": "क्चर", "frequency": 2, "vocab_size": 7399, "learned_vocab_size": 7120, "compression_ratio": 1.1764122443037053, "example_words": [] }, { "step": 7121, "pair": [ "मूल्या", "ंकन" ], "new_token": "मूल्यांकन", "frequency": 2, "vocab_size": 7400, "learned_vocab_size": 7121, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7122, "pair": [ "प्रत्यारो", "पण" ], "new_token": "प्रत्यारोपण", "frequency": 2, "vocab_size": 7401, "learned_vocab_size": 7122, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7123, "pair": [ "दा", "श्त" ], "new_token": "दाश्त", "frequency": 2, "vocab_size": 7402, "learned_vocab_size": 7123, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7124, "pair": [ "अमाव", "स" ], "new_token": "अमावस", "frequency": 2, "vocab_size": 7403, "learned_vocab_size": 7124, "compression_ratio": 1.1764379363311421, "example_words": [] }, { "step": 7125, "pair": [ "न", "ता" ], "new_token": "नता", "frequency": 2, "vocab_size": 7404, "learned_vocab_size": 7125, "compression_ratio": 1.1764379363311421, "example_words": [] }, { "step": 7126, "pair": [ "नता", "शा" ], "new_token": "नताशा", "frequency": 2, "vocab_size": 7405, "learned_vocab_size": 7126, "compression_ratio": 1.176452923865388, "example_words": [] }, { "step": 7127, "pair": [ "देसा", "ई" ], "new_token": "देसाई", "frequency": 2, "vocab_size": 7406, "learned_vocab_size": 7127, "compression_ratio": 1.176459347211252, "example_words": [] }, { "step": 7128, "pair": [ "ट", "हरी" ], "new_token": "टहरी", "frequency": 2, "vocab_size": 7407, "learned_vocab_size": 7128, "compression_ratio": 1.176459347211252, "example_words": [] }, { "step": 7129, "pair": [ "ई", "टा" ], "new_token": "ईटा", "frequency": 2, "vocab_size": 7408, "learned_vocab_size": 7129, "compression_ratio": 1.176459347211252, "example_words": [] }, { "step": 7130, "pair": [ "ईटा", "वा" ], "new_token": "ईटावा", "frequency": 2, "vocab_size": 7409, "learned_vocab_size": 7130, "compression_ratio": 1.1764636294807955, "example_words": [] }, { "step": 7131, "pair": [ "ं", "रा" ], "new_token": "ंरा", "frequency": 2, "vocab_size": 7410, "learned_vocab_size": 7131, "compression_ratio": 1.176467911781514, "example_words": [] }, { "step": 7132, "pair": [ "जल", "पा" ], "new_token": "जलपा", "frequency": 2, "vocab_size": 7411, "learned_vocab_size": 7132, "compression_ratio": 1.1764721941134075, "example_words": [] }, { "step": 7133, "pair": [ "झ", "राहा" ], "new_token": "झराहा", "frequency": 2, "vocab_size": 7412, "learned_vocab_size": 7133, "compression_ratio": 1.1764764764764766, "example_words": [] }, { "step": 7134, "pair": [ "ध", "मौल" ], "new_token": "धमौल", "frequency": 2, "vocab_size": 7413, "learned_vocab_size": 7134, "compression_ratio": 1.1764807588707211, "example_words": [] }, { "step": 7135, "pair": [ "मा", "ह" ], "new_token": "माह", "frequency": 2, "vocab_size": 7414, "learned_vocab_size": 7135, "compression_ratio": 1.1764807588707211, "example_words": [] }, { "step": 7136, "pair": [ "परसा", "वां" ], "new_token": "परसावां", "frequency": 2, "vocab_size": 7415, "learned_vocab_size": 7136, "compression_ratio": 1.1764636294807955, "example_words": [] }, { "step": 7137, "pair": [ "आ", "चक" ], "new_token": "आचक", "frequency": 2, "vocab_size": 7416, "learned_vocab_size": 7137, "compression_ratio": 1.1764636294807955, "example_words": [] }, { "step": 7138, "pair": [ "भरौ", "ंधा" ], "new_token": "भरौंधा", "frequency": 2, "vocab_size": 7417, "learned_vocab_size": 7138, "compression_ratio": 1.1764700529435639, "example_words": [] }, { "step": 7139, "pair": [ "म", "ख" ], "new_token": "मख", "frequency": 2, "vocab_size": 7418, "learned_vocab_size": 7139, "compression_ratio": 1.1764700529435639, "example_words": [] }, { "step": 7140, "pair": [ "र", "कसा" ], "new_token": "रकसा", "frequency": 2, "vocab_size": 7419, "learned_vocab_size": 7140, "compression_ratio": 1.176461488342127, "example_words": [] }, { "step": 7141, "pair": [ "सरै", "या" ], "new_token": "सरैया", "frequency": 2, "vocab_size": 7420, "learned_vocab_size": 7141, "compression_ratio": 1.176461488342127, "example_words": [] }, { "step": 7142, "pair": [ "स", "लिमपुर" ], "new_token": "सलिमपुर", "frequency": 2, "vocab_size": 7421, "learned_vocab_size": 7142, "compression_ratio": 1.176461488342127, "example_words": [] }, { "step": 7143, "pair": [ "शेर", "घाटी" ], "new_token": "शेरघाटी", "frequency": 2, "vocab_size": 7422, "learned_vocab_size": 7143, "compression_ratio": 1.176461488342127, "example_words": [] }, { "step": 7144, "pair": [ "दो", "भी" ], "new_token": "दोभी", "frequency": 2, "vocab_size": 7423, "learned_vocab_size": 7144, "compression_ratio": 1.176461488342127, "example_words": [] }, { "step": 7145, "pair": [ "बा", "ंके" ], "new_token": "बांके", "frequency": 2, "vocab_size": 7424, "learned_vocab_size": 7145, "compression_ratio": 1.1764657706272579, "example_words": [] }, { "step": 7146, "pair": [ "घो", "टा" ], "new_token": "घोटा", "frequency": 2, "vocab_size": 7425, "learned_vocab_size": 7146, "compression_ratio": 1.1764657706272579, "example_words": [] }, { "step": 7147, "pair": [ "घोटा", "ले" ], "new_token": "घोटाले", "frequency": 2, "vocab_size": 7426, "learned_vocab_size": 7147, "compression_ratio": 1.1764700529435639, "example_words": [] }, { "step": 7148, "pair": [ "ब्रा", "ंड" ], "new_token": "ब्रांड", "frequency": 2, "vocab_size": 7427, "learned_vocab_size": 7148, "compression_ratio": 1.1764743352910452, "example_words": [] }, { "step": 7149, "pair": [ "बा", "धा" ], "new_token": "बाधा", "frequency": 2, "vocab_size": 7428, "learned_vocab_size": 7149, "compression_ratio": 1.1764743352910452, "example_words": [] }, { "step": 7150, "pair": [ "बाधा", "ओं" ], "new_token": "बाधाओं", "frequency": 2, "vocab_size": 7429, "learned_vocab_size": 7150, "compression_ratio": 1.1764786176697017, "example_words": [] }, { "step": 7151, "pair": [ "र", "च" ], "new_token": "रच", "frequency": 2, "vocab_size": 7430, "learned_vocab_size": 7151, "compression_ratio": 1.1764829000795345, "example_words": [] }, { "step": 7152, "pair": [ "रच", "यिता" ], "new_token": "रचयिता", "frequency": 2, "vocab_size": 7431, "learned_vocab_size": 7152, "compression_ratio": 1.176589970458521, "example_words": [] }, { "step": 7153, "pair": [ "ग्रो", "तो" ], "new_token": "ग्रोतो", "frequency": 2, "vocab_size": 7432, "learned_vocab_size": 7153, "compression_ratio": 1.176589970458521, "example_words": [] }, { "step": 7154, "pair": [ "ग्रोतो", "व्सकी" ], "new_token": "ग्रोतोव्सकी", "frequency": 2, "vocab_size": 7433, "learned_vocab_size": 7154, "compression_ratio": 1.176589970458521, "example_words": [] }, { "step": 7155, "pair": [ "अवधारणा", "ओं" ], "new_token": "अवधारणाओं", "frequency": 2, "vocab_size": 7434, "learned_vocab_size": 7155, "compression_ratio": 1.176589970458521, "example_words": [] }, { "step": 7156, "pair": [ "रा", "लन" ], "new_token": "रालन", "frequency": 2, "vocab_size": 7435, "learned_vocab_size": 7156, "compression_ratio": 1.176589970458521, "example_words": [] }, { "step": 7157, "pair": [ "द्वि", "पद" ], "new_token": "द्विपद", "frequency": 2, "vocab_size": 7436, "learned_vocab_size": 7157, "compression_ratio": 1.176594253679047, "example_words": [] }, { "step": 7158, "pair": [ "जीव", "वैज्ञानिक" ], "new_token": "जीववैज्ञानिक", "frequency": 2, "vocab_size": 7437, "learned_vocab_size": 7158, "compression_ratio": 1.176598536930758, "example_words": [] }, { "step": 7159, "pair": [ "ढा", "ंचे" ], "new_token": "ढांचे", "frequency": 2, "vocab_size": 7438, "learned_vocab_size": 7159, "compression_ratio": 1.176598536930758, "example_words": [] }, { "step": 7160, "pair": [ "थॉर्", "न" ], "new_token": "थॉर्न", "frequency": 2, "vocab_size": 7439, "learned_vocab_size": 7160, "compression_ratio": 1.176598536930758, "example_words": [] }, { "step": 7161, "pair": [ "श", "स" ], "new_token": "शस", "frequency": 2, "vocab_size": 7440, "learned_vocab_size": 7161, "compression_ratio": 1.176598536930758, "example_words": [] }, { "step": 7162, "pair": [ "देहा", "ंत" ], "new_token": "देहांत", "frequency": 2, "vocab_size": 7441, "learned_vocab_size": 7162, "compression_ratio": 1.1766028202136547, "example_words": [] }, { "step": 7163, "pair": [ "कर्", "नल" ], "new_token": "कर्नल", "frequency": 2, "vocab_size": 7442, "learned_vocab_size": 7163, "compression_ratio": 1.1766028202136547, "example_words": [] }, { "step": 7164, "pair": [ "हर", "बंश" ], "new_token": "हरबंश", "frequency": 2, "vocab_size": 7443, "learned_vocab_size": 7164, "compression_ratio": 1.1766028202136547, "example_words": [] }, { "step": 7165, "pair": [ "उ", "ग" ], "new_token": "उग", "frequency": 2, "vocab_size": 7444, "learned_vocab_size": 7165, "compression_ratio": 1.1766092451964731, "example_words": [] }, { "step": 7166, "pair": [ "राठ", "ौड़" ], "new_token": "राठौड़", "frequency": 2, "vocab_size": 7445, "learned_vocab_size": 7166, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 7167, "pair": [ "सी", "स" ], "new_token": "सीस", "frequency": 2, "vocab_size": 7446, "learned_vocab_size": 7167, "compression_ratio": 1.17663494582945, "example_words": [] }, { "step": 7168, "pair": [ "रचना", "कार" ], "new_token": "रचनाकार", "frequency": 2, "vocab_size": 7447, "learned_vocab_size": 7168, "compression_ratio": 1.176641371163126, "example_words": [] }, { "step": 7169, "pair": [ "साल्", "वाटोर" ], "new_token": "साल्वाटोर", "frequency": 2, "vocab_size": 7448, "learned_vocab_size": 7169, "compression_ratio": 1.176641371163126, "example_words": [] }, { "step": 7170, "pair": [ "सैन्", "फिलिपो" ], "new_token": "सैन्फिलिपो", "frequency": 2, "vocab_size": 7449, "learned_vocab_size": 7170, "compression_ratio": 1.176641371163126, "example_words": [] }, { "step": 7171, "pair": [ "डे", "वल" ], "new_token": "डेवल", "frequency": 2, "vocab_size": 7450, "learned_vocab_size": 7171, "compression_ratio": 1.176641371163126, "example_words": [] }, { "step": 7172, "pair": [ "डा", "टा" ], "new_token": "डाटा", "frequency": 2, "vocab_size": 7451, "learned_vocab_size": 7172, "compression_ratio": 1.176649938383855, "example_words": [] }, { "step": 7173, "pair": [ "स्ट्री", "म" ], "new_token": "स्ट्रीम", "frequency": 2, "vocab_size": 7452, "learned_vocab_size": 7173, "compression_ratio": 1.1766542220410035, "example_words": [] }, { "step": 7174, "pair": [ "एस", "डी" ], "new_token": "एसडी", "frequency": 2, "vocab_size": 7453, "learned_vocab_size": 7174, "compression_ratio": 1.1766542220410035, "example_words": [] }, { "step": 7175, "pair": [ "रि", "मो" ], "new_token": "रिमो", "frequency": 2, "vocab_size": 7454, "learned_vocab_size": 7175, "compression_ratio": 1.1766585057293422, "example_words": [] }, { "step": 7176, "pair": [ "रिमो", "ट" ], "new_token": "रिमोट", "frequency": 2, "vocab_size": 7455, "learned_vocab_size": 7176, "compression_ratio": 1.1766649313203317, "example_words": [] }, { "step": 7177, "pair": [ "प्रोटो", "टाइप" ], "new_token": "प्रोटोटाइप", "frequency": 2, "vocab_size": 7456, "learned_vocab_size": 7177, "compression_ratio": 1.1766713569815002, "example_words": [] }, { "step": 7178, "pair": [ "ह", "फ्" ], "new_token": "हफ्", "frequency": 2, "vocab_size": 7457, "learned_vocab_size": 7178, "compression_ratio": 1.1766713569815002, "example_words": [] }, { "step": 7179, "pair": [ "न्यू", "ज" ], "new_token": "न्यूज", "frequency": 2, "vocab_size": 7458, "learned_vocab_size": 7179, "compression_ratio": 1.1766756407946017, "example_words": [] }, { "step": 7180, "pair": [ "कर्", "षण" ], "new_token": "कर्षण", "frequency": 2, "vocab_size": 7459, "learned_vocab_size": 7180, "compression_ratio": 1.1766756407946017, "example_words": [] }, { "step": 7181, "pair": [ "रू", "बी" ], "new_token": "रूबी", "frequency": 2, "vocab_size": 7460, "learned_vocab_size": 7181, "compression_ratio": 1.1766756407946017, "example_words": [] }, { "step": 7182, "pair": [ "वी", "एम" ], "new_token": "वीएम", "frequency": 2, "vocab_size": 7461, "learned_vocab_size": 7182, "compression_ratio": 1.1766799246388948, "example_words": [] }, { "step": 7183, "pair": [ "वीएम", "वेयर" ], "new_token": "वीएमवेयर", "frequency": 2, "vocab_size": 7462, "learned_vocab_size": 7183, "compression_ratio": 1.1766842085143796, "example_words": [] }, { "step": 7184, "pair": [ "भ", "ंडारण" ], "new_token": "भंडारण", "frequency": 2, "vocab_size": 7463, "learned_vocab_size": 7184, "compression_ratio": 1.1766884924210568, "example_words": [] }, { "step": 7185, "pair": [ "आरडी", "बीएम" ], "new_token": "आरडीबीएम", "frequency": 2, "vocab_size": 7464, "learned_vocab_size": 7185, "compression_ratio": 1.1766884924210568, "example_words": [] }, { "step": 7186, "pair": [ "आरडीबीएम", "एस" ], "new_token": "आरडीबीएमएस", "frequency": 2, "vocab_size": 7465, "learned_vocab_size": 7186, "compression_ratio": 1.1766927763589266, "example_words": [] }, { "step": 7187, "pair": [ "पे", "ज" ], "new_token": "पेज", "frequency": 2, "vocab_size": 7466, "learned_vocab_size": 7187, "compression_ratio": 1.1766970603279894, "example_words": [] }, { "step": 7188, "pair": [ "ली", "डर" ], "new_token": "लीडर", "frequency": 2, "vocab_size": 7467, "learned_vocab_size": 7188, "compression_ratio": 1.1767034863400712, "example_words": [] }, { "step": 7189, "pair": [ "बार्", "किंग" ], "new_token": "बार्किंग", "frequency": 2, "vocab_size": 7468, "learned_vocab_size": 7189, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7190, "pair": [ "ब्रि", "ज" ], "new_token": "ब्रिज", "frequency": 2, "vocab_size": 7469, "learned_vocab_size": 7190, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7191, "pair": [ "है", "मरस्मिथ" ], "new_token": "हैमरस्मिथ", "frequency": 2, "vocab_size": 7470, "learned_vocab_size": 7191, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7192, "pair": [ "रि", "च" ], "new_token": "रिच", "frequency": 2, "vocab_size": 7471, "learned_vocab_size": 7192, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7193, "pair": [ "वॉ", "ल्" ], "new_token": "वॉल्", "frequency": 2, "vocab_size": 7472, "learned_vocab_size": 7193, "compression_ratio": 1.1767741771055014, "example_words": [] }, { "step": 7194, "pair": [ "मिया", "मी" ], "new_token": "मियामी", "frequency": 2, "vocab_size": 7473, "learned_vocab_size": 7194, "compression_ratio": 1.1767656080755122, "example_words": [] }, { "step": 7195, "pair": [ "ए", "गो" ], "new_token": "एगो", "frequency": 2, "vocab_size": 7474, "learned_vocab_size": 7195, "compression_ratio": 1.1767656080755122, "example_words": [] }, { "step": 7196, "pair": [ "ज़ो", "ना" ], "new_token": "ज़ोना", "frequency": 2, "vocab_size": 7475, "learned_vocab_size": 7196, "compression_ratio": 1.1767698925749073, "example_words": [] }, { "step": 7197, "pair": [ "फिला", "डेल्फिया" ], "new_token": "फिलाडेल्फिया", "frequency": 2, "vocab_size": 7476, "learned_vocab_size": 7197, "compression_ratio": 1.1767741771055014, "example_words": [] }, { "step": 7198, "pair": [ "वा", "शिंगटन" ], "new_token": "वाशिंगटन", "frequency": 2, "vocab_size": 7477, "learned_vocab_size": 7198, "compression_ratio": 1.1767741771055014, "example_words": [] }, { "step": 7199, "pair": [ "मिनेसो", "टा" ], "new_token": "मिनेसोटा", "frequency": 2, "vocab_size": 7478, "learned_vocab_size": 7199, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7200, "pair": [ "राधा", "वल्लभ" ], "new_token": "राधावल्लभ", "frequency": 2, "vocab_size": 7479, "learned_vocab_size": 7200, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7201, "pair": [ "त्रिपाठी", "देश" ], "new_token": "त्रिपाठीदेश", "frequency": 2, "vocab_size": 7481, "learned_vocab_size": 7201, "compression_ratio": 1.1767806039598914, "example_words": [ "त्रिपाठीदेश" ] }, { "step": 7202, "pair": [ "चि", "र्रावूरु" ], "new_token": "चिर्रावूरु", "frequency": 2, "vocab_size": 7482, "learned_vocab_size": 7202, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7203, "pair": [ "यज्ञ", "ेश्वर" ], "new_token": "यज्ञेश्वर", "frequency": 2, "vocab_size": 7483, "learned_vocab_size": 7203, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7204, "pair": [ "चिन्ता", "मणि" ], "new_token": "चिन्तामणि", "frequency": 2, "vocab_size": 7484, "learned_vocab_size": 7204, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7205, "pair": [ "यि", "न" ], "new_token": "यिन", "frequency": 2, "vocab_size": 7485, "learned_vocab_size": 7205, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7206, "pair": [ "अधि", "वर्ष" ], "new_token": "अधिवर्ष", "frequency": 2, "vocab_size": 7486, "learned_vocab_size": 7206, "compression_ratio": 1.1767977425814673, "example_words": [] }, { "step": 7207, "pair": [ "बा", "भ" ], "new_token": "बाभ", "frequency": 2, "vocab_size": 7487, "learned_vocab_size": 7207, "compression_ratio": 1.1767977425814673, "example_words": [] }, { "step": 7208, "pair": [ "हँ", "स" ], "new_token": "हँस", "frequency": 2, "vocab_size": 7488, "learned_vocab_size": 7208, "compression_ratio": 1.1768020273148636, "example_words": [] }, { "step": 7209, "pair": [ "मु", "हल्ला" ], "new_token": "मुहल्ला", "frequency": 2, "vocab_size": 7489, "learned_vocab_size": 7209, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7210, "pair": [ "अल्", "प" ], "new_token": "अल्प", "frequency": 2, "vocab_size": 7490, "learned_vocab_size": 7210, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7211, "pair": [ "प्रा", "ण" ], "new_token": "प्राण", "frequency": 2, "vocab_size": 7491, "learned_vocab_size": 7211, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7212, "pair": [ "टो", "कागावा" ], "new_token": "टोकागावा", "frequency": 2, "vocab_size": 7492, "learned_vocab_size": 7212, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7213, "pair": [ "इमे", "त्सु" ], "new_token": "इमेत्सु", "frequency": 2, "vocab_size": 7493, "learned_vocab_size": 7213, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7214, "pair": [ "की", "ल" ], "new_token": "कील", "frequency": 2, "vocab_size": 7494, "learned_vocab_size": 7214, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7215, "pair": [ "ई", "डो" ], "new_token": "ईडो", "frequency": 2, "vocab_size": 7495, "learned_vocab_size": 7215, "compression_ratio": 1.1768063120794616, "example_words": [] }, { "step": 7216, "pair": [ "ष", "ि" ], "new_token": "षि", "frequency": 2, "vocab_size": 7496, "learned_vocab_size": 7216, "compression_ratio": 1.1768127392848626, "example_words": [] }, { "step": 7217, "pair": [ "ताला", "ब" ], "new_token": "तालाब", "frequency": 2, "vocab_size": 7497, "learned_vocab_size": 7217, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7218, "pair": [ "मनो", "कामना" ], "new_token": "मनोकामना", "frequency": 2, "vocab_size": 7498, "learned_vocab_size": 7218, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7219, "pair": [ "सर्", "दियों" ], "new_token": "सर्दियों", "frequency": 2, "vocab_size": 7499, "learned_vocab_size": 7219, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7220, "pair": [ "पेगो", "ड़ा" ], "new_token": "पेगोड़ा", "frequency": 2, "vocab_size": 7500, "learned_vocab_size": 7220, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7221, "pair": [ "डु", "मरा" ], "new_token": "डुमरा", "frequency": 2, "vocab_size": 7501, "learned_vocab_size": 7221, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7222, "pair": [ "चक्", "की" ], "new_token": "चक्की", "frequency": 2, "vocab_size": 7502, "learned_vocab_size": 7222, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7223, "pair": [ "च", "ँ" ], "new_token": "चँ", "frequency": 2, "vocab_size": 7503, "learned_vocab_size": 7223, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7224, "pair": [ "देवासं", "पटना" ], "new_token": "देवासंपटना", "frequency": 2, "vocab_size": 7504, "learned_vocab_size": 7224, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 7225, "pair": [ "खु", "सरुपूर" ], "new_token": "खुसरुपूर", "frequency": 2, "vocab_size": 7505, "learned_vocab_size": 7225, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 7226, "pair": [ "घो", "सवारी" ], "new_token": "घोसवारी", "frequency": 2, "vocab_size": 7506, "learned_vocab_size": 7226, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 7227, "pair": [ "दनिया", "वान" ], "new_token": "दनियावान", "frequency": 2, "vocab_size": 7507, "learned_vocab_size": 7227, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 7228, "pair": [ "दु", "ल्" ], "new_token": "दुल्", "frequency": 2, "vocab_size": 7508, "learned_vocab_size": 7228, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 7229, "pair": [ "दुल्", "हि" ], "new_token": "दुल्हि", "frequency": 2, "vocab_size": 7509, "learned_vocab_size": 7229, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 7230, "pair": [ "दुल्हि", "न" ], "new_token": "दुल्हिन", "frequency": 2, "vocab_size": 7510, "learned_vocab_size": 7230, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 7231, "pair": [ "दुल्हिन", "बाजार" ], "new_token": "दुल्हिनबाजार", "frequency": 2, "vocab_size": 7511, "learned_vocab_size": 7231, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7232, "pair": [ "नौ", "बतपुर" ], "new_token": "नौबतपुर", "frequency": 2, "vocab_size": 7512, "learned_vocab_size": 7232, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7233, "pair": [ "पान", "दार" ], "new_token": "पानदार", "frequency": 2, "vocab_size": 7513, "learned_vocab_size": 7233, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7234, "pair": [ "पानदार", "क" ], "new_token": "पानदारक", "frequency": 2, "vocab_size": 7514, "learned_vocab_size": 7234, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7235, "pair": [ "फुलवारी", "शरीफ़" ], "new_token": "फुलवारीशरीफ़", "frequency": 2, "vocab_size": 7515, "learned_vocab_size": 7235, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7236, "pair": [ "ब", "ख़्" ], "new_token": "बख़्", "frequency": 2, "vocab_size": 7516, "learned_vocab_size": 7236, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7237, "pair": [ "बख़्", "तियारपुर" ], "new_token": "बख़्तियारपुर", "frequency": 2, "vocab_size": 7517, "learned_vocab_size": 7237, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7238, "pair": [ "बेल्", "छी" ], "new_token": "बेल्छी", "frequency": 2, "vocab_size": 7518, "learned_vocab_size": 7238, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7239, "pair": [ "मसौ", "ढी" ], "new_token": "मसौढी", "frequency": 2, "vocab_size": 7519, "learned_vocab_size": 7239, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7240, "pair": [ "मो", "कामा" ], "new_token": "मोकामा", "frequency": 2, "vocab_size": 7520, "learned_vocab_size": 7240, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7241, "pair": [ "सम", "पत" ], "new_token": "समपत", "frequency": 2, "vocab_size": 7521, "learned_vocab_size": 7241, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7242, "pair": [ "समपत", "चक" ], "new_token": "समपतचक", "frequency": 2, "vocab_size": 7522, "learned_vocab_size": 7242, "compression_ratio": 1.1771406198783552, "example_words": [] }, { "step": 7243, "pair": [ "बलि", "दान" ], "new_token": "बलिदान", "frequency": 2, "vocab_size": 7523, "learned_vocab_size": 7243, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 7244, "pair": [ "ऑफि", "सर" ], "new_token": "ऑफिसर", "frequency": 2, "vocab_size": 7524, "learned_vocab_size": 7244, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 7245, "pair": [ "राधा", "कृष्ण" ], "new_token": "राधाकृष्ण", "frequency": 2, "vocab_size": 7525, "learned_vocab_size": 7245, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 7246, "pair": [ "स्", "मृति" ], "new_token": "स्मृति", "frequency": 2, "vocab_size": 7526, "learned_vocab_size": 7246, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 7247, "pair": [ "वी", "बी" ], "new_token": "वीबी", "frequency": 2, "vocab_size": 7527, "learned_vocab_size": 7247, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 7248, "pair": [ "पिछ", "ली" ], "new_token": "पिछली", "frequency": 2, "vocab_size": 7528, "learned_vocab_size": 7248, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 7249, "pair": [ "भिकिया", "सै" ], "new_token": "भिकियासै", "frequency": 2, "vocab_size": 7529, "learned_vocab_size": 7249, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7250, "pair": [ "भिकियासै", "ण" ], "new_token": "भिकियासैण", "frequency": 2, "vocab_size": 7530, "learned_vocab_size": 7250, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7251, "pair": [ "मॉ", "ड्यू" ], "new_token": "मॉड्यू", "frequency": 2, "vocab_size": 7531, "learned_vocab_size": 7251, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7252, "pair": [ "मॉड्यू", "ल" ], "new_token": "मॉड्यूल", "frequency": 2, "vocab_size": 7532, "learned_vocab_size": 7252, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7253, "pair": [ "आर", "एनए" ], "new_token": "आरएनए", "frequency": 2, "vocab_size": 7533, "learned_vocab_size": 7253, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7254, "pair": [ "प्रयोगशाला", "ओं" ], "new_token": "प्रयोगशालाओं", "frequency": 2, "vocab_size": 7534, "learned_vocab_size": 7254, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7255, "pair": [ "माइक्रो", "बायोलॉजी" ], "new_token": "माइक्रोबायोलॉजी", "frequency": 2, "vocab_size": 7535, "learned_vocab_size": 7255, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7256, "pair": [ "इरास्", "मस" ], "new_token": "इरास्मस", "frequency": 2, "vocab_size": 7536, "learned_vocab_size": 7256, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7257, "pair": [ "ए", "जेंट" ], "new_token": "एजेंट", "frequency": 2, "vocab_size": 7537, "learned_vocab_size": 7257, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7258, "pair": [ "साइंसे", "ज" ], "new_token": "साइंसेज", "frequency": 2, "vocab_size": 7538, "learned_vocab_size": 7258, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7259, "pair": [ "टो", "बा" ], "new_token": "टोबा", "frequency": 2, "vocab_size": 7539, "learned_vocab_size": 7259, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7260, "pair": [ "मुखम्", "मस" ], "new_token": "मुखम्मस", "frequency": 2, "vocab_size": 7540, "learned_vocab_size": 7260, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7261, "pair": [ "दि", "ये" ], "new_token": "दिये", "frequency": 2, "vocab_size": 7541, "learned_vocab_size": 7261, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7262, "pair": [ "जिस", "पे" ], "new_token": "जिसपे", "frequency": 2, "vocab_size": 7542, "learned_vocab_size": 7262, "compression_ratio": 1.1771620563436709, "example_words": [] }, { "step": 7263, "pair": [ "तड़", "पाने" ], "new_token": "तड़पाने", "frequency": 2, "vocab_size": 7543, "learned_vocab_size": 7263, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 7264, "pair": [ "इ", "तना" ], "new_token": "इतना", "frequency": 2, "vocab_size": 7544, "learned_vocab_size": 7264, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 7265, "pair": [ "अ", "श्" ], "new_token": "अश्", "frequency": 2, "vocab_size": 7545, "learned_vocab_size": 7265, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 7266, "pair": [ "रु", "ख" ], "new_token": "रुख", "frequency": 2, "vocab_size": 7546, "learned_vocab_size": 7266, "compression_ratio": 1.1771706311484067, "example_words": [] }, { "step": 7267, "pair": [ "फ्", "ल" ], "new_token": "फ्ल", "frequency": 2, "vocab_size": 7547, "learned_vocab_size": 7267, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 7268, "pair": [ "क़", "दम" ], "new_token": "क़दम", "frequency": 2, "vocab_size": 7548, "learned_vocab_size": 7268, "compression_ratio": 1.177129901938468, "example_words": [] }, { "step": 7269, "pair": [ "आ", "बाद" ], "new_token": "आबाद", "frequency": 2, "vocab_size": 7549, "learned_vocab_size": 7269, "compression_ratio": 1.1771341890910019, "example_words": [] }, { "step": 7270, "pair": [ "मौ", "का" ], "new_token": "मौका", "frequency": 2, "vocab_size": 7550, "learned_vocab_size": 7270, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 7271, "pair": [ "श्रो", "ता" ], "new_token": "श्रोता", "frequency": 2, "vocab_size": 7551, "learned_vocab_size": 7271, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 7272, "pair": [ "बता", "ये" ], "new_token": "बताये", "frequency": 2, "vocab_size": 7552, "learned_vocab_size": 7272, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 7273, "pair": [ "खली", "क" ], "new_token": "खलीक", "frequency": 2, "vocab_size": 7553, "learned_vocab_size": 7273, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 7274, "pair": [ "अंजु", "म" ], "new_token": "अंजुम", "frequency": 2, "vocab_size": 7554, "learned_vocab_size": 7274, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 7275, "pair": [ "मुज्", "तबा" ], "new_token": "मुज्तबा", "frequency": 2, "vocab_size": 7555, "learned_vocab_size": 7275, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 7276, "pair": [ "नूरन", "बी" ], "new_token": "नूरनबी", "frequency": 2, "vocab_size": 7556, "learned_vocab_size": 7276, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 7277, "pair": [ "बु", "क्स" ], "new_token": "बुक्स", "frequency": 2, "vocab_size": 7557, "learned_vocab_size": 7277, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 7278, "pair": [ "कविता", "एँ" ], "new_token": "कविताएँ", "frequency": 2, "vocab_size": 7558, "learned_vocab_size": 7278, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 7279, "pair": [ "ट्यू", "ब" ], "new_token": "ट्यूब", "frequency": 2, "vocab_size": 7559, "learned_vocab_size": 7279, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 7280, "pair": [ "विष", "म" ], "new_token": "विषम", "frequency": 2, "vocab_size": 7560, "learned_vocab_size": 7280, "compression_ratio": 1.1771963563121683, "example_words": [] }, { "step": 7281, "pair": [ "सि", "डनी" ], "new_token": "सिडनी", "frequency": 2, "vocab_size": 7561, "learned_vocab_size": 7281, "compression_ratio": 1.1772006439487754, "example_words": [] }, { "step": 7282, "pair": [ "बै", "रि" ], "new_token": "बैरि", "frequency": 2, "vocab_size": 7562, "learned_vocab_size": 7282, "compression_ratio": 1.1772006439487754, "example_words": [] }, { "step": 7283, "pair": [ "बैरि", "स्टर" ], "new_token": "बैरिस्टर", "frequency": 2, "vocab_size": 7563, "learned_vocab_size": 7283, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 7284, "pair": [ "लॉ", "री" ], "new_token": "लॉरी", "frequency": 2, "vocab_size": 7564, "learned_vocab_size": 7284, "compression_ratio": 1.1772070754622488, "example_words": [] }, { "step": 7285, "pair": [ "अर्", "नेस्ट" ], "new_token": "अर्नेस्ट", "frequency": 2, "vocab_size": 7565, "learned_vocab_size": 7285, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 7286, "pair": [ "नौ", "कर" ], "new_token": "नौकर", "frequency": 2, "vocab_size": 7566, "learned_vocab_size": 7286, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 7287, "pair": [ "हु", "नर" ], "new_token": "हुनर", "frequency": 2, "vocab_size": 7567, "learned_vocab_size": 7287, "compression_ratio": 1.17722851434805, "example_words": [] }, { "step": 7288, "pair": [ "दो", "ष" ], "new_token": "दोष", "frequency": 2, "vocab_size": 7568, "learned_vocab_size": 7288, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 7289, "pair": [ "दिख", "ता" ], "new_token": "दिखता", "frequency": 2, "vocab_size": 7569, "learned_vocab_size": 7289, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 7290, "pair": [ "क्षति", "पूर्ति" ], "new_token": "क्षतिपूर्ति", "frequency": 2, "vocab_size": 7570, "learned_vocab_size": 7290, "compression_ratio": 1.1772413780543551, "example_words": [] }, { "step": 7291, "pair": [ "उछा", "ल" ], "new_token": "उछाल", "frequency": 2, "vocab_size": 7571, "learned_vocab_size": 7291, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7292, "pair": [ "बग्", "घी" ], "new_token": "बग्घी", "frequency": 2, "vocab_size": 7572, "learned_vocab_size": 7292, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 7293, "pair": [ "मुस्त", "फा" ], "new_token": "मुस्तफा", "frequency": 2, "vocab_size": 7573, "learned_vocab_size": 7293, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 7294, "pair": [ "मुस्तफा", "पुर" ], "new_token": "मुस्तफापुर", "frequency": 2, "vocab_size": 7574, "learned_vocab_size": 7294, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 7295, "pair": [ "अजु", "री" ], "new_token": "अजुरी", "frequency": 2, "vocab_size": 7575, "learned_vocab_size": 7295, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 7296, "pair": [ "स्कॉ", "टलैण्ड" ], "new_token": "स्कॉटलैण्ड", "frequency": 2, "vocab_size": 7576, "learned_vocab_size": 7296, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 7297, "pair": [ "वी", "भ" ], "new_token": "वीभ", "frequency": 2, "vocab_size": 7577, "learned_vocab_size": 7297, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 7298, "pair": [ "वीभ", "त्स" ], "new_token": "वीभत्स", "frequency": 2, "vocab_size": 7578, "learned_vocab_size": 7298, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7299, "pair": [ "तृ", "ण" ], "new_token": "तृण", "frequency": 2, "vocab_size": 7579, "learned_vocab_size": 7299, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7300, "pair": [ "स्त्रि", "यों" ], "new_token": "स्त्रियों", "frequency": 2, "vocab_size": 7580, "learned_vocab_size": 7300, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 7301, "pair": [ "त", "ण्डु" ], "new_token": "तण्डु", "frequency": 2, "vocab_size": 7581, "learned_vocab_size": 7301, "compression_ratio": 1.1772649622460762, "example_words": [ "तण्डु", "तण्डुना" ] }, { "step": 7302, "pair": [ "पा", "ये" ], "new_token": "पाये", "frequency": 2, "vocab_size": 7582, "learned_vocab_size": 7302, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 7303, "pair": [ "रा", "घ" ], "new_token": "राघ", "frequency": 2, "vocab_size": 7583, "learned_vocab_size": 7303, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 7304, "pair": [ "पू", "जन" ], "new_token": "पूजन", "frequency": 2, "vocab_size": 7584, "learned_vocab_size": 7304, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7305, "pair": [ "श्रीराम", "चंद्र" ], "new_token": "श्रीरामचंद्र", "frequency": 2, "vocab_size": 7585, "learned_vocab_size": 7305, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7306, "pair": [ "दि", "शत्" ], "new_token": "दिशत्", "frequency": 2, "vocab_size": 7586, "learned_vocab_size": 7306, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7307, "pair": [ "चारा", "गाह" ], "new_token": "चारागाह", "frequency": 2, "vocab_size": 7587, "learned_vocab_size": 7307, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7308, "pair": [ "ई", "॰" ], "new_token": "ई॰", "frequency": 2, "vocab_size": 7588, "learned_vocab_size": 7308, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7309, "pair": [ "म्", "प" ], "new_token": "म्प", "frequency": 2, "vocab_size": 7589, "learned_vocab_size": 7309, "compression_ratio": 1.1772821149790373, "example_words": [] }, { "step": 7310, "pair": [ "बि", "ंदु" ], "new_token": "बिंदु", "frequency": 2, "vocab_size": 7590, "learned_vocab_size": 7310, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7311, "pair": [ "वन", "स्पति" ], "new_token": "वनस्पति", "frequency": 2, "vocab_size": 7591, "learned_vocab_size": 7311, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7312, "pair": [ "बो", "या" ], "new_token": "बोया", "frequency": 2, "vocab_size": 7592, "learned_vocab_size": 7312, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7313, "pair": [ "बढ़", "ो" ], "new_token": "बढ़ो", "frequency": 2, "vocab_size": 7593, "learned_vocab_size": 7313, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 7314, "pair": [ "तरी", "कों" ], "new_token": "तरीकों", "frequency": 2, "vocab_size": 7594, "learned_vocab_size": 7314, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 7315, "pair": [ "जा", "येगा" ], "new_token": "जायेगा", "frequency": 2, "vocab_size": 7595, "learned_vocab_size": 7315, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 7316, "pair": [ "दो", "लखा" ], "new_token": "दोलखा", "frequency": 2, "vocab_size": 7596, "learned_vocab_size": 7316, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7317, "pair": [ "सर्", "लाही" ], "new_token": "सर्लाही", "frequency": 2, "vocab_size": 7597, "learned_vocab_size": 7317, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7318, "pair": [ "भि", "मान" ], "new_token": "भिमान", "frequency": 2, "vocab_size": 7598, "learned_vocab_size": 7318, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7319, "pair": [ "वा", "कोट" ], "new_token": "वाकोट", "frequency": 2, "vocab_size": 7599, "learned_vocab_size": 7319, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7320, "pair": [ "रुकु", "म" ], "new_token": "रुकुम", "frequency": 2, "vocab_size": 7600, "learned_vocab_size": 7320, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7321, "pair": [ "झा", "ंग" ], "new_token": "झांग", "frequency": 2, "vocab_size": 7601, "learned_vocab_size": 7321, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7322, "pair": [ "वेल्टरवे", "ट" ], "new_token": "वेल्टरवेट", "frequency": 2, "vocab_size": 7602, "learned_vocab_size": 7322, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 7323, "pair": [ "यू", "एफसी" ], "new_token": "यूएफसी", "frequency": 2, "vocab_size": 7603, "learned_vocab_size": 7323, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 7324, "pair": [ "समर्", "थ" ], "new_token": "समर्थ", "frequency": 2, "vocab_size": 7604, "learned_vocab_size": 7324, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7325, "pair": [ "नि", "ंदा" ], "new_token": "निंदा", "frequency": 2, "vocab_size": 7605, "learned_vocab_size": 7325, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7326, "pair": [ "भा", "इयों" ], "new_token": "भाइयों", "frequency": 2, "vocab_size": 7606, "learned_vocab_size": 7326, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7327, "pair": [ "एंड्र", "यू" ], "new_token": "एंड्रयू", "frequency": 2, "vocab_size": 7607, "learned_vocab_size": 7327, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7328, "pair": [ "योजना", "बद्ध" ], "new_token": "योजनाबद्ध", "frequency": 2, "vocab_size": 7608, "learned_vocab_size": 7328, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7329, "pair": [ "पो", "ल" ], "new_token": "पोल", "frequency": 2, "vocab_size": 7609, "learned_vocab_size": 7329, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7330, "pair": [ "चरण", "ों" ], "new_token": "चरणों", "frequency": 2, "vocab_size": 7610, "learned_vocab_size": 7330, "compression_ratio": 1.1772156509228653, "example_words": [] }, { "step": 7331, "pair": [ "भू", "खे" ], "new_token": "भूखे", "frequency": 2, "vocab_size": 7611, "learned_vocab_size": 7331, "compression_ratio": 1.1772156509228653, "example_words": [] }, { "step": 7332, "pair": [ "हत्या", "एँ" ], "new_token": "हत्याएँ", "frequency": 2, "vocab_size": 7612, "learned_vocab_size": 7332, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 7333, "pair": [ "ओ", "ट्टो" ], "new_token": "ओट्टो", "frequency": 2, "vocab_size": 7613, "learned_vocab_size": 7333, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 7334, "pair": [ "ओट्टो", "मन" ], "new_token": "ओट्टोमन", "frequency": 2, "vocab_size": 7614, "learned_vocab_size": 7334, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 7335, "pair": [ "इ", "तने" ], "new_token": "इतने", "frequency": 2, "vocab_size": 7615, "learned_vocab_size": 7335, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 7336, "pair": [ "१९", "४" ], "new_token": "१९४", "frequency": 2, "vocab_size": 7616, "learned_vocab_size": 7336, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 7337, "pair": [ "यहू", "दी" ], "new_token": "यहूदी", "frequency": 2, "vocab_size": 7617, "learned_vocab_size": 7337, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7338, "pair": [ "जेनि", "फ़र" ], "new_token": "जेनिफ़र", "frequency": 2, "vocab_size": 7618, "learned_vocab_size": 7338, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7339, "pair": [ "जेनो", "साइड" ], "new_token": "जेनोसाइड", "frequency": 2, "vocab_size": 7619, "learned_vocab_size": 7339, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7340, "pair": [ "पार्", "लिया" ], "new_token": "पार्लिया", "frequency": 2, "vocab_size": 7620, "learned_vocab_size": 7340, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7341, "pair": [ "असे", "म्बली" ], "new_token": "असेम्बली", "frequency": 2, "vocab_size": 7621, "learned_vocab_size": 7341, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7342, "pair": [ "ष", "ड्" ], "new_token": "षड्", "frequency": 2, "vocab_size": 7622, "learned_vocab_size": 7342, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7343, "pair": [ "प्रचार", "क" ], "new_token": "प्रचारक", "frequency": 2, "vocab_size": 7623, "learned_vocab_size": 7343, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 7344, "pair": [ "९", "४" ], "new_token": "९४", "frequency": 2, "vocab_size": 7624, "learned_vocab_size": 7344, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 7345, "pair": [ "१५", "०" ], "new_token": "१५०", "frequency": 2, "vocab_size": 7625, "learned_vocab_size": 7345, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 7346, "pair": [ "१५", "३" ], "new_token": "१५३", "frequency": 2, "vocab_size": 7626, "learned_vocab_size": 7346, "compression_ratio": 1.1772435220327377, "example_words": [] }, { "step": 7347, "pair": [ "१५", "४२" ], "new_token": "१५४२", "frequency": 2, "vocab_size": 7627, "learned_vocab_size": 7347, "compression_ratio": 1.1772478100129304, "example_words": [] }, { "step": 7348, "pair": [ "कु", "ण्ड" ], "new_token": "कुण्ड", "frequency": 2, "vocab_size": 7628, "learned_vocab_size": 7348, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 7349, "pair": [ "१५५", "८" ], "new_token": "१५५८", "frequency": 2, "vocab_size": 7629, "learned_vocab_size": 7349, "compression_ratio": 1.1772520980243604, "example_words": [] }, { "step": 7350, "pair": [ "वै", "रा" ], "new_token": "वैरा", "frequency": 2, "vocab_size": 7630, "learned_vocab_size": 7350, "compression_ratio": 1.1772563860670278, "example_words": [] }, { "step": 7351, "pair": [ "रह", "स्य" ], "new_token": "रहस्य", "frequency": 2, "vocab_size": 7631, "learned_vocab_size": 7351, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7352, "pair": [ "शुभार", "ंभ" ], "new_token": "शुभारंभ", "frequency": 2, "vocab_size": 7632, "learned_vocab_size": 7352, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7353, "pair": [ "इड", "स्सेरी" ], "new_token": "इडस्सेरी", "frequency": 2, "vocab_size": 7633, "learned_vocab_size": 7353, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7354, "pair": [ "वी", "क" ], "new_token": "वीक", "frequency": 2, "vocab_size": 7634, "learned_vocab_size": 7354, "compression_ratio": 1.1772606741409328, "example_words": [] }, { "step": 7355, "pair": [ "शादी", "शुदा" ], "new_token": "शादीशुदा", "frequency": 2, "vocab_size": 7635, "learned_vocab_size": 7355, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 7356, "pair": [ "बंगालज़िला", "पूर्व" ], "new_token": "बंगालज़िलापूर्व", "frequency": 2, "vocab_size": 7636, "learned_vocab_size": 7356, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7357, "pair": [ "उद्दीन", "चक" ], "new_token": "उद्दीनचक", "frequency": 2, "vocab_size": 7637, "learned_vocab_size": 7357, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7358, "pair": [ "नि", "मन" ], "new_token": "निमन", "frequency": 2, "vocab_size": 7638, "learned_vocab_size": 7358, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7359, "pair": [ "बी", "नै" ], "new_token": "बीनै", "frequency": 2, "vocab_size": 7639, "learned_vocab_size": 7359, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 7360, "pair": [ "बीनै", "का" ], "new_token": "बीनैका", "frequency": 2, "vocab_size": 7640, "learned_vocab_size": 7360, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 7361, "pair": [ "रे", "मंड" ], "new_token": "रेमंड", "frequency": 2, "vocab_size": 7641, "learned_vocab_size": 7361, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7362, "pair": [ "प्रण", "ब" ], "new_token": "प्रणब", "frequency": 2, "vocab_size": 7642, "learned_vocab_size": 7362, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7363, "pair": [ "निती", "श" ], "new_token": "नितीश", "frequency": 2, "vocab_size": 7643, "learned_vocab_size": 7363, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7364, "pair": [ "राजनीतिकसंबद्ध", "ता" ], "new_token": "राजनीतिकसंबद्धता", "frequency": 2, "vocab_size": 7644, "learned_vocab_size": 7364, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7365, "pair": [ "राजनीतिकसंबद्धता", "ऐं" ], "new_token": "राजनीतिकसंबद्धताऐं", "frequency": 2, "vocab_size": 7645, "learned_vocab_size": 7365, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7366, "pair": [ "रो", "ज" ], "new_token": "रोज", "frequency": 2, "vocab_size": 7646, "learned_vocab_size": 7366, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7367, "pair": [ "मुज", "फ़्" ], "new_token": "मुजफ़्", "frequency": 2, "vocab_size": 7647, "learned_vocab_size": 7367, "compression_ratio": 1.17722851434805, "example_words": [] }, { "step": 7368, "pair": [ "जनता", "ंत्रिक" ], "new_token": "जनतांत्रिक", "frequency": 2, "vocab_size": 7648, "learned_vocab_size": 7368, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 7369, "pair": [ "उन्", "के" ], "new_token": "उन्के", "frequency": 2, "vocab_size": 7649, "learned_vocab_size": 7369, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 7370, "pair": [ "से", "मिनरी" ], "new_token": "सेमिनरी", "frequency": 2, "vocab_size": 7650, "learned_vocab_size": 7370, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 7371, "pair": [ "हो", "टल" ], "new_token": "होटल", "frequency": 2, "vocab_size": 7651, "learned_vocab_size": 7371, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 7372, "pair": [ "तला", "श" ], "new_token": "तलाश", "frequency": 2, "vocab_size": 7652, "learned_vocab_size": 7372, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 7373, "pair": [ "समाचार", "पत्र" ], "new_token": "समाचारपत्र", "frequency": 2, "vocab_size": 7653, "learned_vocab_size": 7373, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 7374, "pair": [ "फु", "ट" ], "new_token": "फुट", "frequency": 2, "vocab_size": 7654, "learned_vocab_size": 7374, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 7375, "pair": [ "प्रे", "क्षण" ], "new_token": "प्रेक्षण", "frequency": 2, "vocab_size": 7655, "learned_vocab_size": 7375, "compression_ratio": 1.1771942125055772, "example_words": [] }, { "step": 7376, "pair": [ "त", "थ्य" ], "new_token": "तथ्य", "frequency": 2, "vocab_size": 7656, "learned_vocab_size": 7376, "compression_ratio": 1.1771942125055772, "example_words": [] }, { "step": 7377, "pair": [ "विष", "ु" ], "new_token": "विषु", "frequency": 2, "vocab_size": 7657, "learned_vocab_size": 7377, "compression_ratio": 1.1771942125055772, "example_words": [] }, { "step": 7378, "pair": [ "वे", "ग" ], "new_token": "वेग", "frequency": 2, "vocab_size": 7658, "learned_vocab_size": 7378, "compression_ratio": 1.1771985001265677, "example_words": [] }, { "step": 7379, "pair": [ "आका", "श" ], "new_token": "आकाश", "frequency": 2, "vocab_size": 7659, "learned_vocab_size": 7379, "compression_ratio": 1.1772027877787916, "example_words": [] }, { "step": 7380, "pair": [ "नाम", "फ्लाविया" ], "new_token": "नामफ्लाविया", "frequency": 2, "vocab_size": 7660, "learned_vocab_size": 7380, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7381, "pair": [ "कॉन्स्टेंटिनो", "पल" ], "new_token": "कॉन्स्टेंटिनोपल", "frequency": 2, "vocab_size": 7661, "learned_vocab_size": 7381, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7382, "pair": [ "ओरि", "एंटल" ], "new_token": "ओरिएंटल", "frequency": 2, "vocab_size": 7662, "learned_vocab_size": 7382, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7383, "pair": [ "एंग्", "लिकन" ], "new_token": "एंग्लिकन", "frequency": 2, "vocab_size": 7663, "learned_vocab_size": 7383, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7384, "pair": [ "कम्यु", "नियन" ], "new_token": "कम्युनियन", "frequency": 2, "vocab_size": 7664, "learned_vocab_size": 7384, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7385, "pair": [ "पोंट", "स" ], "new_token": "पोंटस", "frequency": 2, "vocab_size": 7665, "learned_vocab_size": 7385, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7386, "pair": [ "तारी", "ख" ], "new_token": "तारीख", "frequency": 2, "vocab_size": 7666, "learned_vocab_size": 7386, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7387, "pair": [ "एम्ब्रो", "स" ], "new_token": "एम्ब्रोस", "frequency": 2, "vocab_size": 7667, "learned_vocab_size": 7387, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7388, "pair": [ "बो", "ना" ], "new_token": "बोना", "frequency": 2, "vocab_size": 7668, "learned_vocab_size": 7388, "compression_ratio": 1.1772092193156902, "example_words": [] }, { "step": 7389, "pair": [ "अन", "देखी" ], "new_token": "अनदेखी", "frequency": 2, "vocab_size": 7669, "learned_vocab_size": 7389, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 7390, "pair": [ "बार्", "न्स" ], "new_token": "बार्न्स", "frequency": 2, "vocab_size": 7670, "learned_vocab_size": 7390, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 7391, "pair": [ "सु", "झा" ], "new_token": "सुझा", "frequency": 2, "vocab_size": 7671, "learned_vocab_size": 7391, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 7392, "pair": [ "सुझा", "व" ], "new_token": "सुझाव", "frequency": 2, "vocab_size": 7672, "learned_vocab_size": 7392, "compression_ratio": 1.177217794807541, "example_words": [] }, { "step": 7393, "pair": [ "उन", "से" ], "new_token": "उनसे", "frequency": 2, "vocab_size": 7673, "learned_vocab_size": 7393, "compression_ratio": 1.1772220826003184, "example_words": [] }, { "step": 7394, "pair": [ "भी", "ल" ], "new_token": "भील", "frequency": 2, "vocab_size": 7674, "learned_vocab_size": 7394, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7395, "pair": [ "फा", "ग" ], "new_token": "फाग", "frequency": 2, "vocab_size": 7675, "learned_vocab_size": 7395, "compression_ratio": 1.1772220826003184, "example_words": [] }, { "step": 7396, "pair": [ "स्व", "च्छता" ], "new_token": "स्वच्छता", "frequency": 2, "vocab_size": 7676, "learned_vocab_size": 7396, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7397, "pair": [ "रा", "केश" ], "new_token": "राकेश", "frequency": 2, "vocab_size": 7677, "learned_vocab_size": 7397, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7398, "pair": [ "घ", "ई" ], "new_token": "घई", "frequency": 2, "vocab_size": 7678, "learned_vocab_size": 7398, "compression_ratio": 1.1772328022189158, "example_words": [] }, { "step": 7399, "pair": [ "रचै", "यता" ], "new_token": "रचैयता", "frequency": 2, "vocab_size": 7679, "learned_vocab_size": 7399, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 7400, "pair": [ "का", "श" ], "new_token": "काश", "frequency": 2, "vocab_size": 7680, "learned_vocab_size": 7400, "compression_ratio": 1.1772370901210174, "example_words": [] }, { "step": 7401, "pair": [ "मिनट", "उत्पादन" ], "new_token": "मिनटउत्पादन", "frequency": 2, "vocab_size": 7681, "learned_vocab_size": 7401, "compression_ratio": 1.1771534816638562, "example_words": [ "मिनटउत्पादन" ] }, { "step": 7402, "pair": [ "यूनि", "ट" ], "new_token": "यूनिट", "frequency": 2, "vocab_size": 7682, "learned_vocab_size": 7402, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7403, "pair": [ "मे", "क" ], "new_token": "मेक", "frequency": 2, "vocab_size": 7683, "learned_vocab_size": 7403, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7404, "pair": [ "बह", "स" ], "new_token": "बहस", "frequency": 2, "vocab_size": 7684, "learned_vocab_size": 7404, "compression_ratio": 1.17714490710896, "example_words": [] }, { "step": 7405, "pair": [ "खालि", "द" ], "new_token": "खालिद", "frequency": 2, "vocab_size": 7685, "learned_vocab_size": 7405, "compression_ratio": 1.177151338013421, "example_words": [] }, { "step": 7406, "pair": [ "चट", "वाल" ], "new_token": "चटवाल", "frequency": 2, "vocab_size": 7686, "learned_vocab_size": 7406, "compression_ratio": 1.177151338013421, "example_words": [] }, { "step": 7407, "pair": [ "हिते", "श" ], "new_token": "हितेश", "frequency": 2, "vocab_size": 7687, "learned_vocab_size": 7407, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 7408, "pair": [ "भार", "द्" ], "new_token": "भारद्", "frequency": 2, "vocab_size": 7688, "learned_vocab_size": 7408, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 7409, "pair": [ "भारद्", "वाज" ], "new_token": "भारद्वाज", "frequency": 2, "vocab_size": 7689, "learned_vocab_size": 7409, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 7410, "pair": [ "पंक", "ज" ], "new_token": "पंकज", "frequency": 2, "vocab_size": 7690, "learned_vocab_size": 7410, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 7411, "pair": [ "भा", "टिया" ], "new_token": "भाटिया", "frequency": 2, "vocab_size": 7691, "learned_vocab_size": 7411, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 7412, "pair": [ "वाद", "क" ], "new_token": "वादक", "frequency": 2, "vocab_size": 7692, "learned_vocab_size": 7412, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 7413, "pair": [ "सू", "चकांक" ], "new_token": "सूचकांक", "frequency": 2, "vocab_size": 7693, "learned_vocab_size": 7413, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 7414, "pair": [ "उ", "ज़्" ], "new_token": "उज़्", "frequency": 2, "vocab_size": 7694, "learned_vocab_size": 7414, "compression_ratio": 1.1771663437304236, "example_words": [] }, { "step": 7415, "pair": [ "उज़्", "बे" ], "new_token": "उज़्बे", "frequency": 2, "vocab_size": 7695, "learned_vocab_size": 7415, "compression_ratio": 1.1771727748691099, "example_words": [] }, { "step": 7416, "pair": [ "उज़्बे", "किस्तान" ], "new_token": "उज़्बेकिस्तान", "frequency": 2, "vocab_size": 7696, "learned_vocab_size": 7416, "compression_ratio": 1.1771792060780664, "example_words": [] }, { "step": 7417, "pair": [ "लैंडि", "ंग" ], "new_token": "लैंडिंग", "frequency": 2, "vocab_size": 7697, "learned_vocab_size": 7417, "compression_ratio": 1.1771792060780664, "example_words": [] }, { "step": 7418, "pair": [ "ये", "क" ], "new_token": "येक", "frequency": 2, "vocab_size": 7698, "learned_vocab_size": 7418, "compression_ratio": 1.1771792060780664, "example_words": [] }, { "step": 7419, "pair": [ "येक", "तरीना" ], "new_token": "येकतरीना", "frequency": 2, "vocab_size": 7699, "learned_vocab_size": 7419, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 7420, "pair": [ "त्स्वे", "त्" ], "new_token": "त्स्वेत्", "frequency": 2, "vocab_size": 7700, "learned_vocab_size": 7420, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 7421, "pair": [ "त्स्वेत्", "कोवा" ], "new_token": "त्स्वेत्कोवा", "frequency": 2, "vocab_size": 7701, "learned_vocab_size": 7421, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 7422, "pair": [ "वि", "वाद" ], "new_token": "विवाद", "frequency": 2, "vocab_size": 7702, "learned_vocab_size": 7422, "compression_ratio": 1.1771834935897436, "example_words": [] }, { "step": 7423, "pair": [ "राज", "द" ], "new_token": "राजद", "frequency": 2, "vocab_size": 7703, "learned_vocab_size": 7423, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 7424, "pair": [ "द्वि", "वार्षिक" ], "new_token": "द्विवार्षिक", "frequency": 2, "vocab_size": 7704, "learned_vocab_size": 7424, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7425, "pair": [ "दवा", "इयां" ], "new_token": "दवाइयां", "frequency": 2, "vocab_size": 7705, "learned_vocab_size": 7425, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 7426, "pair": [ "एन्", "टी" ], "new_token": "एन्टी", "frequency": 2, "vocab_size": 7706, "learned_vocab_size": 7426, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 7427, "pair": [ "एव", "म" ], "new_token": "एवम", "frequency": 2, "vocab_size": 7707, "learned_vocab_size": 7427, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 7428, "pair": [ "स्क्री", "न" ], "new_token": "स्क्रीन", "frequency": 2, "vocab_size": 7708, "learned_vocab_size": 7428, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 7429, "pair": [ "बे", "ची" ], "new_token": "बेची", "frequency": 2, "vocab_size": 7709, "learned_vocab_size": 7429, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 7430, "pair": [ "जीवन", "काल" ], "new_token": "जीवनकाल", "frequency": 2, "vocab_size": 7710, "learned_vocab_size": 7430, "compression_ratio": 1.1772413780543551, "example_words": [] }, { "step": 7431, "pair": [ "इ", "रो" ], "new_token": "इरो", "frequency": 2, "vocab_size": 7711, "learned_vocab_size": 7431, "compression_ratio": 1.1772413780543551, "example_words": [] }, { "step": 7432, "pair": [ "अभि", "लेखा" ], "new_token": "अभिलेखा", "frequency": 2, "vocab_size": 7712, "learned_vocab_size": 7432, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7433, "pair": [ "अभिलेखा", "गार" ], "new_token": "अभिलेखागार", "frequency": 2, "vocab_size": 7713, "learned_vocab_size": 7433, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7434, "pair": [ "पुरातत्व", "विद्" ], "new_token": "पुरातत्वविद्", "frequency": 2, "vocab_size": 7714, "learned_vocab_size": 7434, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7435, "pair": [ "पुरातत्व", "विदों" ], "new_token": "पुरातत्वविदों", "frequency": 2, "vocab_size": 7715, "learned_vocab_size": 7435, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7436, "pair": [ "उत्", "थान" ], "new_token": "उत्थान", "frequency": 2, "vocab_size": 7716, "learned_vocab_size": 7436, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7437, "pair": [ "अफ", "जु" ], "new_token": "अफजु", "frequency": 2, "vocab_size": 7717, "learned_vocab_size": 7437, "compression_ratio": 1.1772456660189294, "example_words": [] }, { "step": 7438, "pair": [ "र", "बि" ], "new_token": "रबि", "frequency": 2, "vocab_size": 7718, "learned_vocab_size": 7438, "compression_ratio": 1.1772499540147408, "example_words": [] }, { "step": 7439, "pair": [ "साल्", "मन" ], "new_token": "साल्मन", "frequency": 2, "vocab_size": 7719, "learned_vocab_size": 7439, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 7440, "pair": [ "तोले", "मि" ], "new_token": "तोलेमि", "frequency": 2, "vocab_size": 7720, "learned_vocab_size": 7440, "compression_ratio": 1.1772713944623634, "example_words": [] }, { "step": 7441, "pair": [ "तोलेमी", "य" ], "new_token": "तोलेमीय", "frequency": 2, "vocab_size": 7721, "learned_vocab_size": 7441, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 7442, "pair": [ "मिस्री", "य" ], "new_token": "मिस्रीय", "frequency": 2, "vocab_size": 7722, "learned_vocab_size": 7442, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 7443, "pair": [ "ने", "पोलियन" ], "new_token": "नेपोलियन", "frequency": 2, "vocab_size": 7723, "learned_vocab_size": 7443, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 7444, "pair": [ "निः", "शु" ], "new_token": "निःशु", "frequency": 2, "vocab_size": 7724, "learned_vocab_size": 7444, "compression_ratio": 1.1772756826456034, "example_words": [] }, { "step": 7445, "pair": [ "निःशु", "ल्क" ], "new_token": "निःशुल्क", "frequency": 2, "vocab_size": 7725, "learned_vocab_size": 7445, "compression_ratio": 1.177279970860083, "example_words": [] }, { "step": 7446, "pair": [ "ति", "न" ], "new_token": "तिन", "frequency": 2, "vocab_size": 7726, "learned_vocab_size": 7446, "compression_ratio": 1.177284259105802, "example_words": [] }, { "step": 7447, "pair": [ "शोर", "कोट" ], "new_token": "शोरकोट", "frequency": 2, "vocab_size": 7727, "learned_vocab_size": 7447, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7448, "pair": [ "ल", "इया" ], "new_token": "लइया", "frequency": 2, "vocab_size": 7728, "learned_vocab_size": 7448, "compression_ratio": 1.177288547382761, "example_words": [] }, { "step": 7449, "pair": [ "शा", "ब" ], "new_token": "शाब", "frequency": 2, "vocab_size": 7729, "learned_vocab_size": 7449, "compression_ratio": 1.1772928356909604, "example_words": [] }, { "step": 7450, "pair": [ "इला", "क़ा" ], "new_token": "इलाक़ा", "frequency": 2, "vocab_size": 7730, "learned_vocab_size": 7450, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 7451, "pair": [ "ही", "र" ], "new_token": "हीर", "frequency": 2, "vocab_size": 7731, "learned_vocab_size": 7451, "compression_ratio": 1.1772971240304007, "example_words": [] }, { "step": 7452, "pair": [ "म", "ज़ार" ], "new_token": "मज़ार", "frequency": 2, "vocab_size": 7732, "learned_vocab_size": 7452, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 7453, "pair": [ "वि", "पण" ], "new_token": "विपण", "frequency": 2, "vocab_size": 7733, "learned_vocab_size": 7453, "compression_ratio": 1.1772649622460762, "example_words": [] }, { "step": 7454, "pair": [ "विपण", "न" ], "new_token": "विपणन", "frequency": 2, "vocab_size": 7734, "learned_vocab_size": 7454, "compression_ratio": 1.177269250382458, "example_words": [] }, { "step": 7455, "pair": [ "नमू", "ना" ], "new_token": "नमूना", "frequency": 2, "vocab_size": 7735, "learned_vocab_size": 7455, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7456, "pair": [ "सू", "ती" ], "new_token": "सूती", "frequency": 2, "vocab_size": 7736, "learned_vocab_size": 7456, "compression_ratio": 1.1772735385500785, "example_words": [] }, { "step": 7457, "pair": [ "बु", "ना" ], "new_token": "बुना", "frequency": 2, "vocab_size": 7737, "learned_vocab_size": 7457, "compression_ratio": 1.177277826748938, "example_words": [] }, { "step": 7458, "pair": [ "बुना", "वट" ], "new_token": "बुनावट", "frequency": 2, "vocab_size": 7738, "learned_vocab_size": 7458, "compression_ratio": 1.1772821149790373, "example_words": [] }, { "step": 7459, "pair": [ "मही", "न" ], "new_token": "महीन", "frequency": 2, "vocab_size": 7739, "learned_vocab_size": 7459, "compression_ratio": 1.1772864032403765, "example_words": [] }, { "step": 7460, "pair": [ "मो", "टे" ], "new_token": "मोटे", "frequency": 2, "vocab_size": 7740, "learned_vocab_size": 7460, "compression_ratio": 1.1772864032403765, "example_words": [] }, { "step": 7461, "pair": [ "चढ़", "कर" ], "new_token": "चढ़कर", "frequency": 2, "vocab_size": 7741, "learned_vocab_size": 7461, "compression_ratio": 1.1772906915329557, "example_words": [] }, { "step": 7462, "pair": [ "मो", "टा" ], "new_token": "मोटा", "frequency": 2, "vocab_size": 7742, "learned_vocab_size": 7462, "compression_ratio": 1.1772949798567756, "example_words": [] }, { "step": 7463, "pair": [ "प्", "प" ], "new_token": "प्प", "frequency": 2, "vocab_size": 7743, "learned_vocab_size": 7463, "compression_ratio": 1.1772992682118362, "example_words": [] }, { "step": 7464, "pair": [ "छी", "ंट" ], "new_token": "छींट", "frequency": 2, "vocab_size": 7744, "learned_vocab_size": 7464, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 7465, "pair": [ "बेल", "बारी" ], "new_token": "बेलबारी", "frequency": 2, "vocab_size": 7745, "learned_vocab_size": 7465, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 7466, "pair": [ "यि", "ंग" ], "new_token": "यिंग", "frequency": 2, "vocab_size": 7746, "learned_vocab_size": 7466, "compression_ratio": 1.1771277583739115, "example_words": [] }, { "step": 7467, "pair": [ "ज", "ंतु" ], "new_token": "जंतु", "frequency": 2, "vocab_size": 7747, "learned_vocab_size": 7467, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7468, "pair": [ "रज्", "जु" ], "new_token": "रज्जु", "frequency": 2, "vocab_size": 7748, "learned_vocab_size": 7468, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7469, "pair": [ "रज्जु", "की" ], "new_token": "रज्जुकी", "frequency": 2, "vocab_size": 7749, "learned_vocab_size": 7469, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7470, "pair": [ "टि", "यो" ], "new_token": "टियो", "frequency": 2, "vocab_size": 7750, "learned_vocab_size": 7470, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7471, "pair": [ "सू", "इडा" ], "new_token": "सूइडा", "frequency": 2, "vocab_size": 7751, "learned_vocab_size": 7471, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 7472, "pair": [ "सूइडा", "ए" ], "new_token": "सूइडाए", "frequency": 2, "vocab_size": 7752, "learned_vocab_size": 7472, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 7473, "pair": [ "उप", "जाति" ], "new_token": "उपजाति", "frequency": 2, "vocab_size": 7753, "learned_vocab_size": 7473, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 7474, "pair": [ "सू", "अर" ], "new_token": "सूअर", "frequency": 2, "vocab_size": 7754, "learned_vocab_size": 7474, "compression_ratio": 1.1771534816638562, "example_words": [] }, { "step": 7475, "pair": [ "उद्भव", "संबंधित" ], "new_token": "उद्भवसंबंधित", "frequency": 2, "vocab_size": 7755, "learned_vocab_size": 7475, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7476, "pair": [ "भारत", "देश" ], "new_token": "भारतदेश", "frequency": 2, "vocab_size": 7756, "learned_vocab_size": 7476, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7477, "pair": [ "ना", "देर" ], "new_token": "नादेर", "frequency": 2, "vocab_size": 7757, "learned_vocab_size": 7477, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7478, "pair": [ "जो", "श" ], "new_token": "जोश", "frequency": 2, "vocab_size": 7758, "learned_vocab_size": 7478, "compression_ratio": 1.1771577689881485, "example_words": [] }, { "step": 7479, "pair": [ "कुल्", "लू" ], "new_token": "कुल्लू", "frequency": 2, "vocab_size": 7759, "learned_vocab_size": 7479, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7480, "pair": [ "अनार", "दाना" ], "new_token": "अनारदाना", "frequency": 2, "vocab_size": 7760, "learned_vocab_size": 7480, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7481, "pair": [ "त", "ंदूरी" ], "new_token": "तंदूरी", "frequency": 2, "vocab_size": 7761, "learned_vocab_size": 7481, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7482, "pair": [ "ल", "च्छा" ], "new_token": "लच्छा", "frequency": 2, "vocab_size": 7762, "learned_vocab_size": 7482, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7483, "pair": [ "मक्", "के" ], "new_token": "मक्के", "frequency": 2, "vocab_size": 7763, "learned_vocab_size": 7483, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7484, "pair": [ "को", "फ्" ], "new_token": "कोफ्", "frequency": 2, "vocab_size": 7764, "learned_vocab_size": 7484, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7485, "pair": [ "पा", "पड़ी" ], "new_token": "पापड़ी", "frequency": 2, "vocab_size": 7765, "learned_vocab_size": 7485, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 7486, "pair": [ "ति", "ल" ], "new_token": "तिल", "frequency": 2, "vocab_size": 7766, "learned_vocab_size": 7486, "compression_ratio": 1.177147050735973, "example_words": [] }, { "step": 7487, "pair": [ "ख", "स्ता" ], "new_token": "खस्ता", "frequency": 2, "vocab_size": 7767, "learned_vocab_size": 7487, "compression_ratio": 1.1770077312172935, "example_words": [] }, { "step": 7488, "pair": [ "खि", "च" ], "new_token": "खिच", "frequency": 2, "vocab_size": 7768, "learned_vocab_size": 7488, "compression_ratio": 1.1770077312172935, "example_words": [] }, { "step": 7489, "pair": [ "लै", "म्ब" ], "new_token": "लैम्ब", "frequency": 2, "vocab_size": 7769, "learned_vocab_size": 7489, "compression_ratio": 1.177012017479971, "example_words": [] }, { "step": 7490, "pair": [ "मू", "ंग" ], "new_token": "मूंग", "frequency": 2, "vocab_size": 7770, "learned_vocab_size": 7490, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7491, "pair": [ "खा", "जा" ], "new_token": "खाजा", "frequency": 2, "vocab_size": 7771, "learned_vocab_size": 7491, "compression_ratio": 1.1770291628428673, "example_words": [] }, { "step": 7492, "pair": [ "बो", "टी" ], "new_token": "बोटी", "frequency": 2, "vocab_size": 7772, "learned_vocab_size": 7492, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7493, "pair": [ "आ", "लु" ], "new_token": "आलु", "frequency": 2, "vocab_size": 7773, "learned_vocab_size": 7493, "compression_ratio": 1.1770377357116324, "example_words": [] }, { "step": 7494, "pair": [ "चावल", "आम" ], "new_token": "चावलआम", "frequency": 2, "vocab_size": 7774, "learned_vocab_size": 7494, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7495, "pair": [ "नी", "बू" ], "new_token": "नीबू", "frequency": 2, "vocab_size": 7775, "learned_vocab_size": 7495, "compression_ratio": 1.1770463087052792, "example_words": [] }, { "step": 7496, "pair": [ "पु", "दीना" ], "new_token": "पुदीना", "frequency": 2, "vocab_size": 7776, "learned_vocab_size": 7496, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7497, "pair": [ "बिसि", "बेले" ], "new_token": "बिसिबेले", "frequency": 2, "vocab_size": 7777, "learned_vocab_size": 7497, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7498, "pair": [ "ज़ा", "फ़रानी" ], "new_token": "ज़ाफ़रानी", "frequency": 2, "vocab_size": 7778, "learned_vocab_size": 7498, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7499, "pair": [ "मै", "करो" ], "new_token": "मैकरो", "frequency": 2, "vocab_size": 7779, "learned_vocab_size": 7499, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7500, "pair": [ "मैकरो", "नी" ], "new_token": "मैकरोनी", "frequency": 2, "vocab_size": 7780, "learned_vocab_size": 7500, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7501, "pair": [ "मसाले", "मिठाई" ], "new_token": "मसालेमिठाई", "frequency": 2, "vocab_size": 7781, "learned_vocab_size": 7501, "compression_ratio": 1.1770505952489339, "example_words": [ "मसालेमिठाईअनरसा", "मसालेमिठाईअनरसे" ] }, { "step": 7502, "pair": [ "कला", "कंद" ], "new_token": "कलाकंद", "frequency": 2, "vocab_size": 7782, "learned_vocab_size": 7502, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7503, "pair": [ "का", "जू" ], "new_token": "काजू", "frequency": 2, "vocab_size": 7783, "learned_vocab_size": 7503, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 7504, "pair": [ "क", "तली" ], "new_token": "कतली", "frequency": 2, "vocab_size": 7784, "learned_vocab_size": 7504, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 7505, "pair": [ "छे", "ना" ], "new_token": "छेना", "frequency": 2, "vocab_size": 7785, "learned_vocab_size": 7505, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 7506, "pair": [ "कि", "श" ], "new_token": "किश", "frequency": 2, "vocab_size": 7786, "learned_vocab_size": 7506, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 7507, "pair": [ "किश", "मिश" ], "new_token": "किशमिश", "frequency": 2, "vocab_size": 7787, "learned_vocab_size": 7507, "compression_ratio": 1.176982014296795, "example_words": [] }, { "step": 7508, "pair": [ "रस", "गुल्" ], "new_token": "रसगुल्", "frequency": 2, "vocab_size": 7788, "learned_vocab_size": 7508, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7509, "pair": [ "रसगुल्", "ले" ], "new_token": "रसगुल्ले", "frequency": 2, "vocab_size": 7789, "learned_vocab_size": 7509, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7510, "pair": [ "पेय", "अनार" ], "new_token": "पेयअनार", "frequency": 2, "vocab_size": 7790, "learned_vocab_size": 7510, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7511, "pair": [ "फ़ा", "लसे" ], "new_token": "फ़ालसे", "frequency": 2, "vocab_size": 7791, "learned_vocab_size": 7511, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7512, "pair": [ "बदा", "म" ], "new_token": "बदाम", "frequency": 2, "vocab_size": 7792, "learned_vocab_size": 7512, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7513, "pair": [ "मू", "ँगिया" ], "new_token": "मूँगिया", "frequency": 2, "vocab_size": 7793, "learned_vocab_size": 7513, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7514, "pair": [ "सु", "ंदरी" ], "new_token": "सुंदरी", "frequency": 2, "vocab_size": 7794, "learned_vocab_size": 7514, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7515, "pair": [ "मधु", "रि" ], "new_token": "मधुरि", "frequency": 2, "vocab_size": 7795, "learned_vocab_size": 7515, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7516, "pair": [ "मधुरि", "मा" ], "new_token": "मधुरिमा", "frequency": 2, "vocab_size": 7796, "learned_vocab_size": 7516, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7517, "pair": [ "अन्य", "प्रयुक्त" ], "new_token": "अन्यप्रयुक्त", "frequency": 2, "vocab_size": 7797, "learned_vocab_size": 7517, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7518, "pair": [ "खान", "सा" ], "new_token": "खानसा", "frequency": 2, "vocab_size": 7798, "learned_vocab_size": 7518, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7519, "pair": [ "खानसा", "मे" ], "new_token": "खानसामे", "frequency": 2, "vocab_size": 7799, "learned_vocab_size": 7519, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7520, "pair": [ "यू", "डो" ], "new_token": "यूडो", "frequency": 2, "vocab_size": 7800, "learned_vocab_size": 7520, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7521, "pair": [ "भू", "मध्य" ], "new_token": "भूमध्य", "frequency": 2, "vocab_size": 7801, "learned_vocab_size": 7521, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7522, "pair": [ "खु", "जे" ], "new_token": "खुजे", "frequency": 2, "vocab_size": 7802, "learned_vocab_size": 7522, "compression_ratio": 1.1769970156971779, "example_words": [] }, { "step": 7523, "pair": [ "खुजे", "ठी" ], "new_token": "खुजेठी", "frequency": 2, "vocab_size": 7803, "learned_vocab_size": 7523, "compression_ratio": 1.177001301881811, "example_words": [] }, { "step": 7524, "pair": [ "अक्सो", "डा" ], "new_token": "अक्सोडा", "frequency": 2, "vocab_size": 7804, "learned_vocab_size": 7524, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7525, "pair": [ "ओख", "लकाण्डा" ], "new_token": "ओखलकाण्डा", "frequency": 2, "vocab_size": 7805, "learned_vocab_size": 7525, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7526, "pair": [ "जा", "ँ" ], "new_token": "जाँ", "frequency": 2, "vocab_size": 7806, "learned_vocab_size": 7526, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7527, "pair": [ "का", "ँ" ], "new_token": "काँ", "frequency": 2, "vocab_size": 7807, "learned_vocab_size": 7527, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7528, "pair": [ "थ", "ला" ], "new_token": "थला", "frequency": 2, "vocab_size": 7808, "learned_vocab_size": 7528, "compression_ratio": 1.1770077312172935, "example_words": [] }, { "step": 7529, "pair": [ "चू", "ली" ], "new_token": "चूली", "frequency": 2, "vocab_size": 7809, "learned_vocab_size": 7529, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 7530, "pair": [ "न", "द" ], "new_token": "नद", "frequency": 2, "vocab_size": 7810, "learned_vocab_size": 7530, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7531, "pair": [ "पो", "खरा" ], "new_token": "पोखरा", "frequency": 2, "vocab_size": 7811, "learned_vocab_size": 7531, "compression_ratio": 1.1765128778213176, "example_words": [] }, { "step": 7532, "pair": [ "ल", "द" ], "new_token": "लद", "frequency": 2, "vocab_size": 7812, "learned_vocab_size": 7532, "compression_ratio": 1.1765128778213176, "example_words": [] }, { "step": 7533, "pair": [ "लद", "फो" ], "new_token": "लदफो", "frequency": 2, "vocab_size": 7813, "learned_vocab_size": 7533, "compression_ratio": 1.1765193018218882, "example_words": [] }, { "step": 7534, "pair": [ "लदफो", "डा" ], "new_token": "लदफोडा", "frequency": 2, "vocab_size": 7814, "learned_vocab_size": 7534, "compression_ratio": 1.176523584527909, "example_words": [] }, { "step": 7535, "pair": [ "स", "लिया" ], "new_token": "सलिया", "frequency": 2, "vocab_size": 7815, "learned_vocab_size": 7535, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 7536, "pair": [ "सलिया", "कोट" ], "new_token": "सलियाकोट", "frequency": 2, "vocab_size": 7816, "learned_vocab_size": 7536, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 7537, "pair": [ "सु", "ई" ], "new_token": "सुई", "frequency": 2, "vocab_size": 7817, "learned_vocab_size": 7537, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 7538, "pair": [ "नि", "चली" ], "new_token": "निचली", "frequency": 2, "vocab_size": 7818, "learned_vocab_size": 7538, "compression_ratio": 1.1765321500334895, "example_words": [] }, { "step": 7539, "pair": [ "बी", "ए" ], "new_token": "बीए", "frequency": 2, "vocab_size": 7819, "learned_vocab_size": 7539, "compression_ratio": 1.1765321500334895, "example_words": [] }, { "step": 7540, "pair": [ "कर्मचारि", "यों" ], "new_token": "कर्मचारियों", "frequency": 2, "vocab_size": 7820, "learned_vocab_size": 7540, "compression_ratio": 1.1765193018218882, "example_words": [] }, { "step": 7541, "pair": [ "०", "४" ], "new_token": "०४", "frequency": 2, "vocab_size": 7821, "learned_vocab_size": 7541, "compression_ratio": 1.1765193018218882, "example_words": [] }, { "step": 7542, "pair": [ "यू", "पी" ], "new_token": "यूपी", "frequency": 2, "vocab_size": 7822, "learned_vocab_size": 7542, "compression_ratio": 1.1765321500334895, "example_words": [] }, { "step": 7543, "pair": [ "ऑ", "ग" ], "new_token": "ऑग", "frequency": 2, "vocab_size": 7823, "learned_vocab_size": 7543, "compression_ratio": 1.17653643283305, "example_words": [] }, { "step": 7544, "pair": [ "शाह", "प्रदर्शन" ], "new_token": "शाहप्रदर्शन", "frequency": 2, "vocab_size": 7824, "learned_vocab_size": 7544, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7545, "pair": [ "सि", "मरन" ], "new_token": "सिमरन", "frequency": 2, "vocab_size": 7825, "learned_vocab_size": 7545, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7546, "pair": [ "म", "शहूर" ], "new_token": "मशहूर", "frequency": 2, "vocab_size": 7826, "learned_vocab_size": 7546, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7547, "pair": [ "शम्भू", "नाथ" ], "new_token": "शम्भूनाथ", "frequency": 2, "vocab_size": 7827, "learned_vocab_size": 7547, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7548, "pair": [ "जाए", "गा" ], "new_token": "जाएगा", "frequency": 2, "vocab_size": 7828, "learned_vocab_size": 7548, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7549, "pair": [ "दु", "सरे" ], "new_token": "दुसरे", "frequency": 2, "vocab_size": 7829, "learned_vocab_size": 7549, "compression_ratio": 1.1765471399683665, "example_words": [] }, { "step": 7550, "pair": [ "इंडस्ट्री", "ज़" ], "new_token": "इंडस्ट्रीज़", "frequency": 2, "vocab_size": 7830, "learned_vocab_size": 7550, "compression_ratio": 1.1765471399683665, "example_words": [] }, { "step": 7551, "pair": [ "नव", "भारत" ], "new_token": "नवभारत", "frequency": 2, "vocab_size": 7833, "learned_vocab_size": 7551, "compression_ratio": 1.1765471399683665, "example_words": [] }, { "step": 7552, "pair": [ "लि", "प" ], "new_token": "लिप", "frequency": 2, "vocab_size": 7834, "learned_vocab_size": 7552, "compression_ratio": 1.1765471399683665, "example_words": [] }, { "step": 7553, "pair": [ "आ", "कृति" ], "new_token": "आकृति", "frequency": 2, "vocab_size": 7835, "learned_vocab_size": 7553, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 7554, "pair": [ "क", "ष्ट" ], "new_token": "कष्ट", "frequency": 2, "vocab_size": 7836, "learned_vocab_size": 7554, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 7555, "pair": [ "भे", "ज" ], "new_token": "भेज", "frequency": 2, "vocab_size": 7837, "learned_vocab_size": 7555, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 7556, "pair": [ "पृष्ठ", "ों" ], "new_token": "पृष्ठों", "frequency": 2, "vocab_size": 7838, "learned_vocab_size": 7556, "compression_ratio": 1.1765021713095927, "example_words": [] }, { "step": 7557, "pair": [ "कु", "की" ], "new_token": "कुकी", "frequency": 2, "vocab_size": 7839, "learned_vocab_size": 7557, "compression_ratio": 1.1765064538908991, "example_words": [] }, { "step": 7558, "pair": [ "टै", "क्स्ट" ], "new_token": "टैक्स्ट", "frequency": 2, "vocab_size": 7840, "learned_vocab_size": 7558, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 7559, "pair": [ "ढो", "कला" ], "new_token": "ढोकला", "frequency": 2, "vocab_size": 7841, "learned_vocab_size": 7559, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 7560, "pair": [ "भर्", "ता" ], "new_token": "भर्ता", "frequency": 2, "vocab_size": 7842, "learned_vocab_size": 7560, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 7561, "pair": [ "घे", "वर" ], "new_token": "घेवर", "frequency": 2, "vocab_size": 7843, "learned_vocab_size": 7561, "compression_ratio": 1.1765107365033836, "example_words": [] }, { "step": 7562, "pair": [ "धु", "री" ], "new_token": "धुरी", "frequency": 2, "vocab_size": 7844, "learned_vocab_size": 7562, "compression_ratio": 1.1765150191470464, "example_words": [] }, { "step": 7563, "pair": [ "पा", "पड़" ], "new_token": "पापड़", "frequency": 2, "vocab_size": 7845, "learned_vocab_size": 7563, "compression_ratio": 1.1765193018218882, "example_words": [] }, { "step": 7564, "pair": [ "के", "क" ], "new_token": "केक", "frequency": 2, "vocab_size": 7846, "learned_vocab_size": 7564, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 7565, "pair": [ "गो", "अन" ], "new_token": "गोअन", "frequency": 2, "vocab_size": 7847, "learned_vocab_size": 7565, "compression_ratio": 1.17653643283305, "example_words": [] }, { "step": 7566, "pair": [ "स्वी", "ट" ], "new_token": "स्वीट", "frequency": 2, "vocab_size": 7848, "learned_vocab_size": 7566, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7567, "pair": [ "वे", "ट" ], "new_token": "वेट", "frequency": 2, "vocab_size": 7849, "learned_vocab_size": 7567, "compression_ratio": 1.1765407156637908, "example_words": [] }, { "step": 7568, "pair": [ "पा", "यस" ], "new_token": "पायस", "frequency": 2, "vocab_size": 7850, "learned_vocab_size": 7568, "compression_ratio": 1.1765514228770602, "example_words": [] }, { "step": 7569, "pair": [ "करा", "ची" ], "new_token": "कराची", "frequency": 2, "vocab_size": 7851, "learned_vocab_size": 7569, "compression_ratio": 1.1765557058169356, "example_words": [] }, { "step": 7570, "pair": [ "सा", "स" ], "new_token": "सास", "frequency": 2, "vocab_size": 7852, "learned_vocab_size": 7570, "compression_ratio": 1.1765557058169356, "example_words": [] }, { "step": 7571, "pair": [ "ब", "म्बोर" ], "new_token": "बम्बोर", "frequency": 2, "vocab_size": 7853, "learned_vocab_size": 7571, "compression_ratio": 1.176562130285215, "example_words": [] }, { "step": 7572, "pair": [ "बर", "दीहा" ], "new_token": "बरदीहा", "frequency": 2, "vocab_size": 7854, "learned_vocab_size": 7572, "compression_ratio": 1.176562130285215, "example_words": [] }, { "step": 7573, "pair": [ "भु", "न्ना" ], "new_token": "भुन्ना", "frequency": 2, "vocab_size": 7855, "learned_vocab_size": 7573, "compression_ratio": 1.1765664133030462, "example_words": [] }, { "step": 7574, "pair": [ "जु", "रा" ], "new_token": "जुरा", "frequency": 2, "vocab_size": 7856, "learned_vocab_size": 7574, "compression_ratio": 1.1765664133030462, "example_words": [] }, { "step": 7575, "pair": [ "मो", "क्सी" ], "new_token": "मोक्सी", "frequency": 2, "vocab_size": 7857, "learned_vocab_size": 7575, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7576, "pair": [ "मोक्सी", "बस्टन" ], "new_token": "मोक्सीबस्टन", "frequency": 2, "vocab_size": 7858, "learned_vocab_size": 7576, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7577, "pair": [ "मग", "वॉर्ट" ], "new_token": "मगवॉर्ट", "frequency": 2, "vocab_size": 7859, "learned_vocab_size": 7577, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7578, "pair": [ "अनु", "सूचित" ], "new_token": "अनुसूचित", "frequency": 2, "vocab_size": 7860, "learned_vocab_size": 7578, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7579, "pair": [ "निर्", "दली" ], "new_token": "निर्दली", "frequency": 2, "vocab_size": 7861, "learned_vocab_size": 7579, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7580, "pair": [ "निर्दली", "य" ], "new_token": "निर्दलीय", "frequency": 2, "vocab_size": 7862, "learned_vocab_size": 7580, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7581, "pair": [ "संबद्ध", "ता" ], "new_token": "संबद्धता", "frequency": 2, "vocab_size": 7863, "learned_vocab_size": 7581, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7582, "pair": [ "फू", "ंचो" ], "new_token": "फूंचो", "frequency": 2, "vocab_size": 7864, "learned_vocab_size": 7582, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7583, "pair": [ "फूंचो", "ग" ], "new_token": "फूंचोग", "frequency": 2, "vocab_size": 7865, "learned_vocab_size": 7583, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7584, "pair": [ "बै", "जनाथ" ], "new_token": "बैजनाथ", "frequency": 2, "vocab_size": 7866, "learned_vocab_size": 7584, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7585, "pair": [ "जोगि", "ंदर" ], "new_token": "जोगिंदर", "frequency": 2, "vocab_size": 7867, "learned_vocab_size": 7585, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7586, "pair": [ "सर", "का" ], "new_token": "सरका", "frequency": 2, "vocab_size": 7868, "learned_vocab_size": 7586, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7587, "pair": [ "ना", "ला" ], "new_token": "नाला", "frequency": 2, "vocab_size": 7869, "learned_vocab_size": 7587, "compression_ratio": 1.1771320455108314, "example_words": [] }, { "step": 7588, "pair": [ "अर्", "जक" ], "new_token": "अर्जक", "frequency": 2, "vocab_size": 7870, "learned_vocab_size": 7588, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7589, "pair": [ "टाइ", "गर" ], "new_token": "टाइगर", "frequency": 2, "vocab_size": 7871, "learned_vocab_size": 7589, "compression_ratio": 1.1771363326789792, "example_words": [] }, { "step": 7590, "pair": [ "टाइ", "म" ], "new_token": "टाइम", "frequency": 2, "vocab_size": 7872, "learned_vocab_size": 7590, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 7591, "pair": [ "राठ", "ौर" ], "new_token": "राठौर", "frequency": 2, "vocab_size": 7873, "learned_vocab_size": 7591, "compression_ratio": 1.1770998927450884, "example_words": [] }, { "step": 7592, "pair": [ "बा", "ंटू" ], "new_token": "बांटू", "frequency": 2, "vocab_size": 7874, "learned_vocab_size": 7592, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7593, "pair": [ "नाइजी", "रिया" ], "new_token": "नाइजीरिया", "frequency": 2, "vocab_size": 7875, "learned_vocab_size": 7593, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7594, "pair": [ "बाहूर", "बाहूर" ], "new_token": "बाहूरबाहूर", "frequency": 2, "vocab_size": 7876, "learned_vocab_size": 7594, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7595, "pair": [ "डेलार", "गी" ], "new_token": "डेलारगी", "frequency": 2, "vocab_size": 7877, "learned_vocab_size": 7595, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7596, "pair": [ "चि", "ड़िया" ], "new_token": "चिड़िया", "frequency": 2, "vocab_size": 7878, "learned_vocab_size": 7596, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7597, "pair": [ "चिड़िया", "घर" ], "new_token": "चिड़ियाघर", "frequency": 2, "vocab_size": 7879, "learned_vocab_size": 7597, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7598, "pair": [ "वा", "इल्डलाइ" ], "new_token": "वाइल्डलाइ", "frequency": 2, "vocab_size": 7880, "learned_vocab_size": 7598, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7599, "pair": [ "वाइल्डलाइ", "फ" ], "new_token": "वाइल्डलाइफ", "frequency": 2, "vocab_size": 7881, "learned_vocab_size": 7599, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7600, "pair": [ "बो", "हमान" ], "new_token": "बोहमान", "frequency": 2, "vocab_size": 7882, "learned_vocab_size": 7600, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 7601, "pair": [ "बे", "क" ], "new_token": "बेक", "frequency": 2, "vocab_size": 7883, "learned_vocab_size": 7601, "compression_ratio": 1.1771041796790354, "example_words": [ "बेक्सली", "बेक्ड", "हौएलेबेक" ] }, { "step": 7602, "pair": [ "प्रश", "ंसक" ], "new_token": "प्रशंसक", "frequency": 2, "vocab_size": 7884, "learned_vocab_size": 7602, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7603, "pair": [ "आकर्", "षक" ], "new_token": "आकर्षक", "frequency": 2, "vocab_size": 7885, "learned_vocab_size": 7603, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7604, "pair": [ "त्रै", "मासिक" ], "new_token": "त्रैमासिक", "frequency": 2, "vocab_size": 7886, "learned_vocab_size": 7604, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7605, "pair": [ "बात", "ची" ], "new_token": "बातची", "frequency": 2, "vocab_size": 7887, "learned_vocab_size": 7605, "compression_ratio": 1.177110610138504, "example_words": [] }, { "step": 7606, "pair": [ "बातची", "त" ], "new_token": "बातचीत", "frequency": 2, "vocab_size": 7888, "learned_vocab_size": 7606, "compression_ratio": 1.1771148971505156, "example_words": [] }, { "step": 7607, "pair": [ "लिख", "ती" ], "new_token": "लिखती", "frequency": 2, "vocab_size": 7889, "learned_vocab_size": 7607, "compression_ratio": 1.177119184193754, "example_words": [] }, { "step": 7608, "pair": [ "थ", "ल" ], "new_token": "थल", "frequency": 2, "vocab_size": 7890, "learned_vocab_size": 7608, "compression_ratio": 1.177123471268219, "example_words": [] }, { "step": 7609, "pair": [ "सेन्", "ट" ], "new_token": "सेन्ट", "frequency": 2, "vocab_size": 7891, "learned_vocab_size": 7609, "compression_ratio": 1.1771127536406065, "example_words": [] }, { "step": 7610, "pair": [ "उपजिला", "उपज़िला" ], "new_token": "उपजिलाउपज़िला", "frequency": 2, "vocab_size": 7892, "learned_vocab_size": 7610, "compression_ratio": 1.1771127536406065, "example_words": [] }, { "step": 7611, "pair": [ "उपजिलाउपज़िला", "बांग्लादेश" ], "new_token": "उपजिलाउपज़िलाबांग्लादेश", "frequency": 2, "vocab_size": 7893, "learned_vocab_size": 7611, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 7612, "pair": [ "अवस्थिति", "देश" ], "new_token": "अवस्थितिदेश", "frequency": 2, "vocab_size": 7894, "learned_vocab_size": 7612, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 7613, "pair": [ "जिला", "शासन" ], "new_token": "जिलाशासन", "frequency": 2, "vocab_size": 7895, "learned_vocab_size": 7613, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 7614, "pair": [ "अधिकारी", "सूचीजनसंख्या" ], "new_token": "अधिकारीसूचीजनसंख्या", "frequency": 2, "vocab_size": 7896, "learned_vocab_size": 7614, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 7615, "pair": [ "मण्डल", "बांग्लादेश" ], "new_token": "मण्डलबांग्लादेश", "frequency": 2, "vocab_size": 7897, "learned_vocab_size": 7615, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 7616, "pair": [ "जो", "की" ], "new_token": "जोकी", "frequency": 2, "vocab_size": 7898, "learned_vocab_size": 7616, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 7617, "pair": [ "उप", "ज़िले" ], "new_token": "उपज़िले", "frequency": 2, "vocab_size": 7899, "learned_vocab_size": 7617, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 7618, "pair": [ "मातृ", "भाषा" ], "new_token": "मातृभाषा", "frequency": 2, "vocab_size": 7900, "learned_vocab_size": 7618, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 7619, "pair": [ "निकट", "ता" ], "new_token": "निकटता", "frequency": 2, "vocab_size": 7901, "learned_vocab_size": 7619, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 7620, "pair": [ "जनसांख्यिकी", "क" ], "new_token": "जनसांख्यिकीक", "frequency": 2, "vocab_size": 7902, "learned_vocab_size": 7620, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 7621, "pair": [ "प्रमुख", "तः" ], "new_token": "प्रमुखतः", "frequency": 2, "vocab_size": 7903, "learned_vocab_size": 7621, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 7622, "pair": [ "उप", "ज़ि" ], "new_token": "उपज़ि", "frequency": 2, "vocab_size": 7904, "learned_vocab_size": 7622, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 7623, "pair": [ "उपज़ि", "लो" ], "new_token": "उपज़िलो", "frequency": 2, "vocab_size": 7905, "learned_vocab_size": 7623, "compression_ratio": 1.1767656080755122, "example_words": [] }, { "step": 7624, "pair": [ "जिलानु", "सार" ], "new_token": "जिलानुसार", "frequency": 2, "vocab_size": 7906, "learned_vocab_size": 7624, "compression_ratio": 1.176782746260288, "example_words": [] }, { "step": 7625, "pair": [ "शि", "बगंज" ], "new_token": "शिबगंज", "frequency": 2, "vocab_size": 7907, "learned_vocab_size": 7625, "compression_ratio": 1.176782746260288, "example_words": [] }, { "step": 7626, "pair": [ "न", "ओ" ], "new_token": "नओ", "frequency": 2, "vocab_size": 7908, "learned_vocab_size": 7626, "compression_ratio": 1.1767870308844812, "example_words": [] }, { "step": 7627, "pair": [ "नओ", "गाँ" ], "new_token": "नओगाँ", "frequency": 2, "vocab_size": 7909, "learned_vocab_size": 7627, "compression_ratio": 1.176791315539875, "example_words": [] }, { "step": 7628, "pair": [ "ना", "टोर" ], "new_token": "नाटोर", "frequency": 2, "vocab_size": 7910, "learned_vocab_size": 7628, "compression_ratio": 1.1767956002264697, "example_words": [] }, { "step": 7629, "pair": [ "पा", "बना" ], "new_token": "पाबना", "frequency": 2, "vocab_size": 7911, "learned_vocab_size": 7629, "compression_ratio": 1.1767956002264697, "example_words": [] }, { "step": 7630, "pair": [ "चा", "ट" ], "new_token": "चाट", "frequency": 2, "vocab_size": 7912, "learned_vocab_size": 7630, "compression_ratio": 1.1767956002264697, "example_words": [] }, { "step": 7631, "pair": [ "देव", "ड़ा" ], "new_token": "देवड़ा", "frequency": 2, "vocab_size": 7913, "learned_vocab_size": 7631, "compression_ratio": 1.1767998849442654, "example_words": [] }, { "step": 7632, "pair": [ "को", "मिला" ], "new_token": "कोमिला", "frequency": 2, "vocab_size": 7914, "learned_vocab_size": 7632, "compression_ratio": 1.1768041696932625, "example_words": [] }, { "step": 7633, "pair": [ "ं", "छड़ि" ], "new_token": "ंछड़ि", "frequency": 2, "vocab_size": 7915, "learned_vocab_size": 7633, "compression_ratio": 1.1768041696932625, "example_words": [] }, { "step": 7634, "pair": [ "फरि", "द" ], "new_token": "फरिद", "frequency": 2, "vocab_size": 7916, "learned_vocab_size": 7634, "compression_ratio": 1.1768084544734614, "example_words": [] }, { "step": 7635, "pair": [ "दा", "उद" ], "new_token": "दाउद", "frequency": 2, "vocab_size": 7917, "learned_vocab_size": 7635, "compression_ratio": 1.1768084544734614, "example_words": [] }, { "step": 7636, "pair": [ "फे", "नी" ], "new_token": "फेनी", "frequency": 2, "vocab_size": 7918, "learned_vocab_size": 7636, "compression_ratio": 1.1768127392848626, "example_words": [] }, { "step": 7637, "pair": [ "खा", "गड़ा" ], "new_token": "खागड़ा", "frequency": 2, "vocab_size": 7919, "learned_vocab_size": 7637, "compression_ratio": 1.176817024127466, "example_words": [] }, { "step": 7638, "pair": [ "खागड़ा", "छड़ि" ], "new_token": "खागड़ाछड़ि", "frequency": 2, "vocab_size": 7920, "learned_vocab_size": 7638, "compression_ratio": 1.176817024127466, "example_words": [] }, { "step": 7639, "pair": [ "मल्", "ही" ], "new_token": "मल्ही", "frequency": 2, "vocab_size": 7921, "learned_vocab_size": 7639, "compression_ratio": 1.176817024127466, "example_words": [] }, { "step": 7640, "pair": [ "मल्ही", "पुर" ], "new_token": "मल्हीपुर", "frequency": 2, "vocab_size": 7922, "learned_vocab_size": 7640, "compression_ratio": 1.176817024127466, "example_words": [] }, { "step": 7641, "pair": [ "वा", "य" ], "new_token": "वाय", "frequency": 2, "vocab_size": 7923, "learned_vocab_size": 7641, "compression_ratio": 1.176817024127466, "example_words": [] }, { "step": 7642, "pair": [ "शुरू", "आत" ], "new_token": "शुरूआत", "frequency": 2, "vocab_size": 7924, "learned_vocab_size": 7642, "compression_ratio": 1.1765963953010043, "example_words": [] }, { "step": 7643, "pair": [ "बहुता", "यत" ], "new_token": "बहुतायत", "frequency": 2, "vocab_size": 7925, "learned_vocab_size": 7643, "compression_ratio": 1.1766006785683083, "example_words": [] }, { "step": 7644, "pair": [ "अनु", "पालन" ], "new_token": "अनुपालन", "frequency": 2, "vocab_size": 7926, "learned_vocab_size": 7644, "compression_ratio": 1.1766006785683083, "example_words": [] }, { "step": 7645, "pair": [ "रें", "रिया" ], "new_token": "रेंरिया", "frequency": 2, "vocab_size": 7927, "learned_vocab_size": 7645, "compression_ratio": 1.1766006785683083, "example_words": [] }, { "step": 7646, "pair": [ "द्", "वा" ], "new_token": "द्वा", "frequency": 2, "vocab_size": 7928, "learned_vocab_size": 7646, "compression_ratio": 1.1766006785683083, "example_words": [] }, { "step": 7647, "pair": [ "द्वा", "पर" ], "new_token": "द्वापर", "frequency": 2, "vocab_size": 7929, "learned_vocab_size": 7647, "compression_ratio": 1.1775930949175577, "example_words": [] }, { "step": 7648, "pair": [ "पुनर्", "जन्म" ], "new_token": "पुनर्जन्म", "frequency": 2, "vocab_size": 7930, "learned_vocab_size": 7648, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7649, "pair": [ "आशीर्", "वाद" ], "new_token": "आशीर्वाद", "frequency": 2, "vocab_size": 7931, "learned_vocab_size": 7649, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7650, "pair": [ "एन॰", "आर" ], "new_token": "एन॰आर", "frequency": 2, "vocab_size": 7932, "learned_vocab_size": 7650, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7651, "pair": [ "एन॰आर", "॰" ], "new_token": "एन॰आर॰", "frequency": 2, "vocab_size": 7933, "learned_vocab_size": 7651, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7652, "pair": [ "जन", "शक्ति" ], "new_token": "जनशक्ति", "frequency": 2, "vocab_size": 7934, "learned_vocab_size": 7652, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7653, "pair": [ "गो", "मांतक" ], "new_token": "गोमांतक", "frequency": 2, "vocab_size": 7935, "learned_vocab_size": 7653, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7654, "pair": [ "पा", "ट्टा" ], "new_token": "पाट्टा", "frequency": 2, "vocab_size": 7936, "learned_vocab_size": 7654, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7655, "pair": [ "पाट्टा", "ली" ], "new_token": "पाट्टाली", "frequency": 2, "vocab_size": 7937, "learned_vocab_size": 7655, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7656, "pair": [ "मक्", "कल" ], "new_token": "मक्कल", "frequency": 2, "vocab_size": 7938, "learned_vocab_size": 7656, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7657, "pair": [ "क्रमानु", "सार" ], "new_token": "क्रमानुसार", "frequency": 2, "vocab_size": 7939, "learned_vocab_size": 7657, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7658, "pair": [ "प्रोग्रेसि", "व" ], "new_token": "प्रोग्रेसिव", "frequency": 2, "vocab_size": 7940, "learned_vocab_size": 7658, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7659, "pair": [ "सु", "देश" ], "new_token": "सुदेश", "frequency": 2, "vocab_size": 7941, "learned_vocab_size": 7659, "compression_ratio": 1.1775973854446948, "example_words": [] }, { "step": 7660, "pair": [ "मि", "ड" ], "new_token": "मिड", "frequency": 2, "vocab_size": 7942, "learned_vocab_size": 7660, "compression_ratio": 1.177601676003097, "example_words": [] }, { "step": 7661, "pair": [ "लि", "ज" ], "new_token": "लिज", "frequency": 2, "vocab_size": 7943, "learned_vocab_size": 7661, "compression_ratio": 1.1776059665927643, "example_words": [] }, { "step": 7662, "pair": [ "मि", "जोरम" ], "new_token": "मिजोरम", "frequency": 2, "vocab_size": 7944, "learned_vocab_size": 7662, "compression_ratio": 1.1776102572136975, "example_words": [] }, { "step": 7663, "pair": [ "सई", "द" ], "new_token": "सईद", "frequency": 2, "vocab_size": 7945, "learned_vocab_size": 7663, "compression_ratio": 1.1776102572136975, "example_words": [] }, { "step": 7664, "pair": [ "श्र", "य" ], "new_token": "श्रय", "frequency": 2, "vocab_size": 7946, "learned_vocab_size": 7664, "compression_ratio": 1.177601676003097, "example_words": [] }, { "step": 7665, "pair": [ "हे", "ल्" ], "new_token": "हेल्", "frequency": 2, "vocab_size": 7947, "learned_vocab_size": 7665, "compression_ratio": 1.177601676003097, "example_words": [] }, { "step": 7666, "pair": [ "दे", "यता" ], "new_token": "देयता", "frequency": 2, "vocab_size": 7948, "learned_vocab_size": 7666, "compression_ratio": 1.1776081118993227, "example_words": [] }, { "step": 7667, "pair": [ "प्री", "मियम" ], "new_token": "प्रीमियम", "frequency": 2, "vocab_size": 7949, "learned_vocab_size": 7667, "compression_ratio": 1.1776081118993227, "example_words": [] }, { "step": 7668, "pair": [ "भु", "गतान" ], "new_token": "भुगतान", "frequency": 2, "vocab_size": 7950, "learned_vocab_size": 7668, "compression_ratio": 1.1776081118993227, "example_words": [] }, { "step": 7669, "pair": [ "वाह", "क" ], "new_token": "वाहक", "frequency": 2, "vocab_size": 7951, "learned_vocab_size": 7669, "compression_ratio": 1.1776081118993227, "example_words": [] }, { "step": 7670, "pair": [ "बीमाधार", "क" ], "new_token": "बीमाधारक", "frequency": 2, "vocab_size": 7952, "learned_vocab_size": 7670, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 7671, "pair": [ "अनु", "बंध" ], "new_token": "अनुबंध", "frequency": 2, "vocab_size": 7953, "learned_vocab_size": 7671, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 7672, "pair": [ "दिग्", "विजयनाथ" ], "new_token": "दिग्विजयनाथ", "frequency": 2, "vocab_size": 7954, "learned_vocab_size": 7672, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 7673, "pair": [ "तेन्", "कासी" ], "new_token": "तेन्कासी", "frequency": 2, "vocab_size": 7955, "learned_vocab_size": 7673, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 7674, "pair": [ "क़", "बीलों" ], "new_token": "क़बीलों", "frequency": 2, "vocab_size": 7956, "learned_vocab_size": 7674, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 7675, "pair": [ "७", "४४" ], "new_token": "७४४", "frequency": 2, "vocab_size": 7957, "learned_vocab_size": 7675, "compression_ratio": 1.1776124025358887, "example_words": [] }, { "step": 7676, "pair": [ "हटा", "कर" ], "new_token": "हटाकर", "frequency": 2, "vocab_size": 7958, "learned_vocab_size": 7676, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 7677, "pair": [ "उ", "ई" ], "new_token": "उई", "frequency": 2, "vocab_size": 7959, "learned_vocab_size": 7677, "compression_ratio": 1.1776166932037209, "example_words": [] }, { "step": 7678, "pair": [ "उई", "ग़" ], "new_token": "उईग़", "frequency": 2, "vocab_size": 7960, "learned_vocab_size": 7678, "compression_ratio": 1.1776209839028193, "example_words": [] }, { "step": 7679, "pair": [ "उईग़", "ु" ], "new_token": "उईग़ु", "frequency": 2, "vocab_size": 7961, "learned_vocab_size": 7679, "compression_ratio": 1.1776252746331848, "example_words": [] }, { "step": 7680, "pair": [ "उईग़ु", "र" ], "new_token": "उईग़ुर", "frequency": 2, "vocab_size": 7962, "learned_vocab_size": 7680, "compression_ratio": 1.1776252746331848, "example_words": [] }, { "step": 7681, "pair": [ "उ", "भरी" ], "new_token": "उभरी", "frequency": 2, "vocab_size": 7963, "learned_vocab_size": 7681, "compression_ratio": 1.1776295653948174, "example_words": [] }, { "step": 7682, "pair": [ "डी", "न" ], "new_token": "डीन", "frequency": 2, "vocab_size": 7964, "learned_vocab_size": 7682, "compression_ratio": 1.1776295653948174, "example_words": [] }, { "step": 7683, "pair": [ "भूमि", "हार" ], "new_token": "भूमिहार", "frequency": 2, "vocab_size": 7965, "learned_vocab_size": 7683, "compression_ratio": 1.1776338561877175, "example_words": [] }, { "step": 7684, "pair": [ "इंडोने", "शियाई" ], "new_token": "इंडोनेशियाई", "frequency": 2, "vocab_size": 7966, "learned_vocab_size": 7684, "compression_ratio": 1.1776338561877175, "example_words": [] }, { "step": 7685, "pair": [ "समाजसुधार", "क" ], "new_token": "समाजसुधारक", "frequency": 2, "vocab_size": 7967, "learned_vocab_size": 7685, "compression_ratio": 1.1776338561877175, "example_words": [] }, { "step": 7686, "pair": [ "बना", "कर" ], "new_token": "बनाकर", "frequency": 2, "vocab_size": 7968, "learned_vocab_size": 7686, "compression_ratio": 1.1776338561877175, "example_words": [] }, { "step": 7687, "pair": [ "जवा", "ब" ], "new_token": "जवाब", "frequency": 2, "vocab_size": 7969, "learned_vocab_size": 7687, "compression_ratio": 1.1776338561877175, "example_words": [] }, { "step": 7688, "pair": [ "अनू", "दित" ], "new_token": "अनूदित", "frequency": 2, "vocab_size": 7970, "learned_vocab_size": 7688, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 7689, "pair": [ "ह", "ंटर" ], "new_token": "हंटर", "frequency": 2, "vocab_size": 7971, "learned_vocab_size": 7689, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 7690, "pair": [ "क्रि", "स्टी" ], "new_token": "क्रिस्टी", "frequency": 2, "vocab_size": 7972, "learned_vocab_size": 7690, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 7691, "pair": [ "स", "भ" ], "new_token": "सभ", "frequency": 2, "vocab_size": 7973, "learned_vocab_size": 7691, "compression_ratio": 1.1776381470118855, "example_words": [] }, { "step": 7692, "pair": [ "सभ", "्यता" ], "new_token": "सभ्यता", "frequency": 2, "vocab_size": 7974, "learned_vocab_size": 7692, "compression_ratio": 1.176377990012666, "example_words": [] }, { "step": 7693, "pair": [ "मी", "मों" ], "new_token": "मीमों", "frequency": 2, "vocab_size": 7975, "learned_vocab_size": 7693, "compression_ratio": 1.176377990012666, "example_words": [] }, { "step": 7694, "pair": [ "सु", "श्री" ], "new_token": "सुश्री", "frequency": 2, "vocab_size": 7976, "learned_vocab_size": 7694, "compression_ratio": 1.176377990012666, "example_words": [] }, { "step": 7695, "pair": [ "ओनिस", "वान" ], "new_token": "ओनिसवान", "frequency": 2, "vocab_size": 7977, "learned_vocab_size": 7695, "compression_ratio": 1.176377990012666, "example_words": [] }, { "step": 7696, "pair": [ "कुसा", "पुर" ], "new_token": "कुसापुर", "frequency": 2, "vocab_size": 7978, "learned_vocab_size": 7696, "compression_ratio": 1.176377990012666, "example_words": [] }, { "step": 7697, "pair": [ "भु", "सका" ], "new_token": "भुसका", "frequency": 2, "vocab_size": 7979, "learned_vocab_size": 7697, "compression_ratio": 1.1763822716899548, "example_words": [] }, { "step": 7698, "pair": [ "मथुरा", "पुर" ], "new_token": "मथुरापुर", "frequency": 2, "vocab_size": 7980, "learned_vocab_size": 7698, "compression_ratio": 1.1763822716899548, "example_words": [] }, { "step": 7699, "pair": [ "मसु", "दनपुर" ], "new_token": "मसुदनपुर", "frequency": 2, "vocab_size": 7981, "learned_vocab_size": 7699, "compression_ratio": 1.1763865533984117, "example_words": [] }, { "step": 7700, "pair": [ "हा", "बी" ], "new_token": "हाबी", "frequency": 2, "vocab_size": 7982, "learned_vocab_size": 7700, "compression_ratio": 1.1763865533984117, "example_words": [] }, { "step": 7701, "pair": [ "वासिलि", "वेना" ], "new_token": "वासिलिवेना", "frequency": 2, "vocab_size": 7984, "learned_vocab_size": 7701, "compression_ratio": 1.176390835138037, "example_words": [ "वासिलिवेना" ] }, { "step": 7702, "pair": [ "महो", "त्सव" ], "new_token": "महोत्सव", "frequency": 2, "vocab_size": 7985, "learned_vocab_size": 7702, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7703, "pair": [ "प्रस्तो", "ता" ], "new_token": "प्रस्तोता", "frequency": 2, "vocab_size": 7986, "learned_vocab_size": 7703, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7704, "pair": [ "क्रास्", "नो" ], "new_token": "क्रास्नो", "frequency": 2, "vocab_size": 7987, "learned_vocab_size": 7704, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7705, "pair": [ "क्रास्नो", "डार" ], "new_token": "क्रास्नोडार", "frequency": 2, "vocab_size": 7988, "learned_vocab_size": 7705, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7706, "pair": [ "टु", "कड़ी" ], "new_token": "टुकड़ी", "frequency": 2, "vocab_size": 7989, "learned_vocab_size": 7706, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7707, "pair": [ "भूमिका", "एँ" ], "new_token": "भूमिकाएँ", "frequency": 2, "vocab_size": 7990, "learned_vocab_size": 7707, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7708, "pair": [ "निभाई", "ं" ], "new_token": "निभाईं", "frequency": 2, "vocab_size": 7991, "learned_vocab_size": 7708, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7709, "pair": [ "ए", "ज" ], "new_token": "एज", "frequency": 2, "vocab_size": 7992, "learned_vocab_size": 7709, "compression_ratio": 1.176390835138037, "example_words": [] }, { "step": 7710, "pair": [ "हरफ", "नमौला" ], "new_token": "हरफनमौला", "frequency": 2, "vocab_size": 7993, "learned_vocab_size": 7710, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 7711, "pair": [ "सोना", "ली" ], "new_token": "सोनाली", "frequency": 2, "vocab_size": 7994, "learned_vocab_size": 7711, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 7712, "pair": [ "गुल", "शन" ], "new_token": "गुलशन", "frequency": 2, "vocab_size": 7995, "learned_vocab_size": 7712, "compression_ratio": 1.1764058214721838, "example_words": [] }, { "step": 7713, "pair": [ "रोहि", "णी" ], "new_token": "रोहिणी", "frequency": 2, "vocab_size": 7996, "learned_vocab_size": 7713, "compression_ratio": 1.1764165262303494, "example_words": [] }, { "step": 7714, "pair": [ "गै", "विन" ], "new_token": "गैविन", "frequency": 2, "vocab_size": 7997, "learned_vocab_size": 7714, "compression_ratio": 1.1764208081881646, "example_words": [] }, { "step": 7715, "pair": [ "चंद्र", "शेखर" ], "new_token": "चंद्रशेखर", "frequency": 2, "vocab_size": 7998, "learned_vocab_size": 7715, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7716, "pair": [ "हि", "ंसा" ], "new_token": "हिंसा", "frequency": 2, "vocab_size": 7999, "learned_vocab_size": 7716, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7717, "pair": [ "व्यापारि", "यों" ], "new_token": "व्यापारियों", "frequency": 2, "vocab_size": 8000, "learned_vocab_size": 7717, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7718, "pair": [ "दस्ता", "वेज़" ], "new_token": "दस्तावेज़", "frequency": 2, "vocab_size": 8001, "learned_vocab_size": 7718, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7719, "pair": [ "तालि", "ब" ], "new_token": "तालिब", "frequency": 2, "vocab_size": 8002, "learned_vocab_size": 7719, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7720, "pair": [ "हदी", "स" ], "new_token": "हदीस", "frequency": 2, "vocab_size": 8003, "learned_vocab_size": 7720, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7721, "pair": [ "अभि", "जात" ], "new_token": "अभिजात", "frequency": 2, "vocab_size": 8004, "learned_vocab_size": 7721, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7722, "pair": [ "आठ", "वीं" ], "new_token": "आठवीं", "frequency": 2, "vocab_size": 8005, "learned_vocab_size": 7722, "compression_ratio": 1.1764250901771511, "example_words": [] }, { "step": 7723, "pair": [ "पो", "ते" ], "new_token": "पोते", "frequency": 2, "vocab_size": 8006, "learned_vocab_size": 7723, "compression_ratio": 1.1764293721973094, "example_words": [] }, { "step": 7724, "pair": [ "समा", "पन" ], "new_token": "समापन", "frequency": 2, "vocab_size": 8007, "learned_vocab_size": 7724, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7725, "pair": [ "पा", "ंडु" ], "new_token": "पांडु", "frequency": 2, "vocab_size": 8008, "learned_vocab_size": 7725, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7726, "pair": [ "पांडु", "लिपियों" ], "new_token": "पांडुलिपियों", "frequency": 2, "vocab_size": 8009, "learned_vocab_size": 7726, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7727, "pair": [ "लिख", "कर" ], "new_token": "लिखकर", "frequency": 2, "vocab_size": 8010, "learned_vocab_size": 7727, "compression_ratio": 1.1764336542486395, "example_words": [] }, { "step": 7728, "pair": [ "शौ", "श्तारी" ], "new_token": "शौश्तारी", "frequency": 2, "vocab_size": 8011, "learned_vocab_size": 7728, "compression_ratio": 1.1764379363311421, "example_words": [] }, { "step": 7729, "pair": [ "हरि", "औ" ], "new_token": "हरिऔ", "frequency": 2, "vocab_size": 8012, "learned_vocab_size": 7729, "compression_ratio": 1.1764379363311421, "example_words": [] }, { "step": 7730, "pair": [ "हरिऔ", "ध" ], "new_token": "हरिऔध", "frequency": 2, "vocab_size": 8013, "learned_vocab_size": 7730, "compression_ratio": 1.1764379363311421, "example_words": [] }, { "step": 7731, "pair": [ "अन", "ंत" ], "new_token": "अनंत", "frequency": 2, "vocab_size": 8014, "learned_vocab_size": 7731, "compression_ratio": 1.1764379363311421, "example_words": [] }, { "step": 7732, "pair": [ "र", "ंजन" ], "new_token": "रंजन", "frequency": 2, "vocab_size": 8015, "learned_vocab_size": 7732, "compression_ratio": 1.1764893237527392, "example_words": [] }, { "step": 7733, "pair": [ "इन्दि", "रा" ], "new_token": "इन्दिरा", "frequency": 2, "vocab_size": 8016, "learned_vocab_size": 7733, "compression_ratio": 1.1764893237527392, "example_words": [] }, { "step": 7734, "pair": [ "ध्रु", "व" ], "new_token": "ध्रुव", "frequency": 2, "vocab_size": 8017, "learned_vocab_size": 7734, "compression_ratio": 1.1764893237527392, "example_words": [] }, { "step": 7735, "pair": [ "हेने", "वी" ], "new_token": "हेनेवी", "frequency": 2, "vocab_size": 8018, "learned_vocab_size": 7735, "compression_ratio": 1.1764893237527392, "example_words": [] }, { "step": 7736, "pair": [ "मौ", "जी" ], "new_token": "मौजी", "frequency": 2, "vocab_size": 8019, "learned_vocab_size": 7736, "compression_ratio": 1.1764893237527392, "example_words": [] }, { "step": 7737, "pair": [ "हम्", "दी" ], "new_token": "हम्दी", "frequency": 2, "vocab_size": 8020, "learned_vocab_size": 7737, "compression_ratio": 1.1764936062405131, "example_words": [] }, { "step": 7738, "pair": [ "गा", "या" ], "new_token": "गाया", "frequency": 2, "vocab_size": 8021, "learned_vocab_size": 7738, "compression_ratio": 1.1764936062405131, "example_words": [] }, { "step": 7739, "pair": [ "सा", "मी" ], "new_token": "सामी", "frequency": 2, "vocab_size": 8022, "learned_vocab_size": 7739, "compression_ratio": 1.1764978887594641, "example_words": [] }, { "step": 7740, "pair": [ "पदोन्न", "त" ], "new_token": "पदोन्नत", "frequency": 2, "vocab_size": 8023, "learned_vocab_size": 7740, "compression_ratio": 1.1765021713095927, "example_words": [] }, { "step": 7741, "pair": [ "लॉन्", "च" ], "new_token": "लॉन्च", "frequency": 2, "vocab_size": 8024, "learned_vocab_size": 7741, "compression_ratio": 1.1765021713095927, "example_words": [] }, { "step": 7742, "pair": [ "उ", "म्" ], "new_token": "उम्", "frequency": 2, "vocab_size": 8025, "learned_vocab_size": 7742, "compression_ratio": 1.1765021713095927, "example_words": [] }, { "step": 7743, "pair": [ "शौ", "चालय" ], "new_token": "शौचालय", "frequency": 2, "vocab_size": 8026, "learned_vocab_size": 7743, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 7744, "pair": [ "बाँ", "ध" ], "new_token": "बाँध", "frequency": 2, "vocab_size": 8027, "learned_vocab_size": 7744, "compression_ratio": 1.1765278672651094, "example_words": [] }, { "step": 7745, "pair": [ "दो", "आ" ], "new_token": "दोआ", "frequency": 2, "vocab_size": 8028, "learned_vocab_size": 7745, "compression_ratio": 1.176538574244523, "example_words": [] }, { "step": 7746, "pair": [ "दोआ", "ब" ], "new_token": "दोआब", "frequency": 2, "vocab_size": 8029, "learned_vocab_size": 7746, "compression_ratio": 1.1765428570908543, "example_words": [] }, { "step": 7747, "pair": [ "गा", "था" ], "new_token": "गाथा", "frequency": 2, "vocab_size": 8030, "learned_vocab_size": 7747, "compression_ratio": 1.1765471399683665, "example_words": [] }, { "step": 7748, "pair": [ "कश्य", "प" ], "new_token": "कश्यप", "frequency": 2, "vocab_size": 8031, "learned_vocab_size": 7748, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7749, "pair": [ "पै", "ट्रोलियम" ], "new_token": "पैट्रोलियम", "frequency": 2, "vocab_size": 8032, "learned_vocab_size": 7749, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7750, "pair": [ "रोज़", "गार" ], "new_token": "रोज़गार", "frequency": 2, "vocab_size": 8033, "learned_vocab_size": 7750, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7751, "pair": [ "जहा", "ज़रानी" ], "new_token": "जहाज़रानी", "frequency": 2, "vocab_size": 8034, "learned_vocab_size": 7751, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7752, "pair": [ "उर्वर", "क" ], "new_token": "उर्वरक", "frequency": 2, "vocab_size": 8035, "learned_vocab_size": 7752, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7753, "pair": [ "मि", "ंगो" ], "new_token": "मिंगो", "frequency": 2, "vocab_size": 8036, "learned_vocab_size": 7753, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7754, "pair": [ "गुडि", "सन" ], "new_token": "गुडिसन", "frequency": 2, "vocab_size": 8037, "learned_vocab_size": 7754, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7755, "pair": [ "अनु", "भव" ], "new_token": "अनुभव", "frequency": 2, "vocab_size": 8038, "learned_vocab_size": 7755, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7756, "pair": [ "एफ", "ए" ], "new_token": "एफए", "frequency": 2, "vocab_size": 8039, "learned_vocab_size": 7756, "compression_ratio": 1.1765535643431002, "example_words": [] }, { "step": 7757, "pair": [ "उ", "ँग" ], "new_token": "उँग", "frequency": 2, "vocab_size": 8040, "learned_vocab_size": 7757, "compression_ratio": 1.176562130285215, "example_words": [] }, { "step": 7758, "pair": [ "उँग", "कु" ], "new_token": "उँगकु", "frequency": 2, "vocab_size": 8041, "learned_vocab_size": 7758, "compression_ratio": 1.1765664133030462, "example_words": [] }, { "step": 7759, "pair": [ "भारतप्रान्त", "गुजरात" ], "new_token": "भारतप्रान्तगुजरात", "frequency": 2, "vocab_size": 8042, "learned_vocab_size": 7759, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7760, "pair": [ "प्रचलित", "गुजराती" ], "new_token": "प्रचलितगुजराती", "frequency": 2, "vocab_size": 8043, "learned_vocab_size": 7760, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7761, "pair": [ "प्रचलितगुजराती", "समय" ], "new_token": "प्रचलितगुजरातीसमय", "frequency": 2, "vocab_size": 8044, "learned_vocab_size": 7761, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7762, "pair": [ "से", "म" ], "new_token": "सेम", "frequency": 2, "vocab_size": 8045, "learned_vocab_size": 7762, "compression_ratio": 1.1765706963520601, "example_words": [] }, { "step": 7763, "pair": [ "डी", "आरडी" ], "new_token": "डीआरडी", "frequency": 2, "vocab_size": 8046, "learned_vocab_size": 7763, "compression_ratio": 1.1765664133030462, "example_words": [] }, { "step": 7764, "pair": [ "डीआरडी", "ओ" ], "new_token": "डीआरडीओ", "frequency": 2, "vocab_size": 8047, "learned_vocab_size": 7764, "compression_ratio": 1.1765749794322575, "example_words": [] }, { "step": 7765, "pair": [ "चुनौ", "तियों" ], "new_token": "चुनौतियों", "frequency": 2, "vocab_size": 8048, "learned_vocab_size": 7765, "compression_ratio": 1.176583545686203, "example_words": [] }, { "step": 7766, "pair": [ "डी", "एफ" ], "new_token": "डीएफ", "frequency": 2, "vocab_size": 8049, "learned_vocab_size": 7766, "compression_ratio": 1.176583545686203, "example_words": [] }, { "step": 7767, "pair": [ "डीएफ", "आरएल" ], "new_token": "डीएफआरएल", "frequency": 2, "vocab_size": 8050, "learned_vocab_size": 7767, "compression_ratio": 1.1766220953726187, "example_words": [] }, { "step": 7768, "pair": [ "तत्वा", "वधान" ], "new_token": "तत्वावधान", "frequency": 2, "vocab_size": 8051, "learned_vocab_size": 7768, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 7769, "pair": [ "आई॰", "एस॰एन॰" ], "new_token": "आई॰एस॰एन॰", "frequency": 2, "vocab_size": 8052, "learned_vocab_size": 7769, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 7770, "pair": [ "आई॰एस॰एन॰", "आई॰" ], "new_token": "आई॰एस॰एन॰आई॰", "frequency": 2, "vocab_size": 8053, "learned_vocab_size": 7770, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 7771, "pair": [ "वी", "॰" ], "new_token": "वी॰", "frequency": 2, "vocab_size": 8054, "learned_vocab_size": 7771, "compression_ratio": 1.1766306623126517, "example_words": [] }, { "step": 7772, "pair": [ "वी॰", "आई॰" ], "new_token": "वी॰आई॰", "frequency": 2, "vocab_size": 8055, "learned_vocab_size": 7772, "compression_ratio": 1.17663494582945, "example_words": [] }, { "step": 7773, "pair": [ "वी॰आई॰", "एफ॰" ], "new_token": "वी॰आई॰एफ॰", "frequency": 2, "vocab_size": 8056, "learned_vocab_size": 7773, "compression_ratio": 1.1766392293774368, "example_words": [] }, { "step": 7774, "pair": [ "वी॰आई॰एफ॰", "ए॰" ], "new_token": "वी॰आई॰एफ॰ए॰", "frequency": 2, "vocab_size": 8057, "learned_vocab_size": 7774, "compression_ratio": 1.1766435129566122, "example_words": [] }, { "step": 7775, "pair": [ "वर्", "कर" ], "new_token": "वर्कर", "frequency": 2, "vocab_size": 8058, "learned_vocab_size": 7775, "compression_ratio": 1.1766477965669768, "example_words": [] }, { "step": 7776, "pair": [ "मु", "हैया" ], "new_token": "मुहैया", "frequency": 2, "vocab_size": 8059, "learned_vocab_size": 7776, "compression_ratio": 1.1766477965669768, "example_words": [] }, { "step": 7777, "pair": [ "सार्व", "भौमिक" ], "new_token": "सार्वभौमिक", "frequency": 2, "vocab_size": 8060, "learned_vocab_size": 7777, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 7778, "pair": [ "रति", "चित्रण" ], "new_token": "रतिचित्रण", "frequency": 2, "vocab_size": 8061, "learned_vocab_size": 7778, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 7779, "pair": [ "पोर्", "न" ], "new_token": "पोर्न", "frequency": 2, "vocab_size": 8062, "learned_vocab_size": 7779, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 7780, "pair": [ "संतु", "ष्टि" ], "new_token": "संतुष्टि", "frequency": 2, "vocab_size": 8063, "learned_vocab_size": 7780, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 7781, "pair": [ "ग्रा", "फी" ], "new_token": "ग्राफी", "frequency": 2, "vocab_size": 8064, "learned_vocab_size": 7781, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 7782, "pair": [ "गे", "म" ], "new_token": "गेम", "frequency": 2, "vocab_size": 8065, "learned_vocab_size": 7782, "compression_ratio": 1.1766520802085305, "example_words": [] }, { "step": 7783, "pair": [ "डिट", "मोर" ], "new_token": "डिटमोर", "frequency": 2, "vocab_size": 8066, "learned_vocab_size": 7783, "compression_ratio": 1.1766563638812741, "example_words": [] }, { "step": 7784, "pair": [ "हो", "प" ], "new_token": "होप", "frequency": 2, "vocab_size": 8067, "learned_vocab_size": 7784, "compression_ratio": 1.1766563638812741, "example_words": [] }, { "step": 7785, "pair": [ "पब्", "लिशिंग" ], "new_token": "पब्लिशिंग", "frequency": 2, "vocab_size": 8068, "learned_vocab_size": 7785, "compression_ratio": 1.17666707319959, "example_words": [] }, { "step": 7786, "pair": [ "दे", "नदार" ], "new_token": "देनदार", "frequency": 2, "vocab_size": 8069, "learned_vocab_size": 7786, "compression_ratio": 1.17666707319959, "example_words": [] }, { "step": 7787, "pair": [ "लु", "कास" ], "new_token": "लुकास", "frequency": 2, "vocab_size": 8070, "learned_vocab_size": 7787, "compression_ratio": 1.17666707319959, "example_words": [] }, { "step": 7788, "pair": [ "पा", "वेल" ], "new_token": "पावेल", "frequency": 2, "vocab_size": 8071, "learned_vocab_size": 7788, "compression_ratio": 1.176673498884152, "example_words": [] }, { "step": 7789, "pair": [ "ढा", "ंचा" ], "new_token": "ढांचा", "frequency": 2, "vocab_size": 8072, "learned_vocab_size": 7789, "compression_ratio": 1.1766777827128492, "example_words": [] }, { "step": 7790, "pair": [ "धातु", "ओं" ], "new_token": "धातुओं", "frequency": 2, "vocab_size": 8073, "learned_vocab_size": 7790, "compression_ratio": 1.1766777827128492, "example_words": [] }, { "step": 7791, "pair": [ "सै", "मु" ], "new_token": "सैमु", "frequency": 2, "vocab_size": 8074, "learned_vocab_size": 7791, "compression_ratio": 1.1766777827128492, "example_words": [] }, { "step": 7792, "pair": [ "सैमु", "अल" ], "new_token": "सैमुअल", "frequency": 2, "vocab_size": 8075, "learned_vocab_size": 7792, "compression_ratio": 1.1766820665727382, "example_words": [] }, { "step": 7793, "pair": [ "ऑ", "क्साइड" ], "new_token": "ऑक्साइड", "frequency": 2, "vocab_size": 8076, "learned_vocab_size": 7793, "compression_ratio": 1.1766863504638192, "example_words": [] }, { "step": 7794, "pair": [ "सल्फा", "इड" ], "new_token": "सल्फाइड", "frequency": 2, "vocab_size": 8077, "learned_vocab_size": 7794, "compression_ratio": 1.1766863504638192, "example_words": [] }, { "step": 7795, "pair": [ "गर्", "म" ], "new_token": "गर्म", "frequency": 2, "vocab_size": 8078, "learned_vocab_size": 7795, "compression_ratio": 1.1766863504638192, "example_words": [] }, { "step": 7796, "pair": [ "निर", "ंतर" ], "new_token": "निरंतर", "frequency": 2, "vocab_size": 8079, "learned_vocab_size": 7796, "compression_ratio": 1.1766863504638192, "example_words": [] }, { "step": 7797, "pair": [ "यो", "जक" ], "new_token": "योजक", "frequency": 2, "vocab_size": 8080, "learned_vocab_size": 7797, "compression_ratio": 1.1766863504638192, "example_words": [] }, { "step": 7798, "pair": [ "बे", "चराजी" ], "new_token": "बेचराजी", "frequency": 2, "vocab_size": 8081, "learned_vocab_size": 7798, "compression_ratio": 1.1766906343860926, "example_words": [] }, { "step": 7799, "pair": [ "महेसा", "णा" ], "new_token": "महेसाणा", "frequency": 2, "vocab_size": 8082, "learned_vocab_size": 7799, "compression_ratio": 1.1766906343860926, "example_words": [] }, { "step": 7800, "pair": [ "सु", "पथा" ], "new_token": "सुपथा", "frequency": 2, "vocab_size": 8083, "learned_vocab_size": 7800, "compression_ratio": 1.1766906343860926, "example_words": [] }, { "step": 7801, "pair": [ "४", "६" ], "new_token": "४६", "frequency": 2, "vocab_size": 8084, "learned_vocab_size": 7801, "compression_ratio": 1.1766906343860926, "example_words": [ "२४६", "४६" ] }, { "step": 7802, "pair": [ "वैभव", "पूर्ण" ], "new_token": "वैभवपूर्ण", "frequency": 2, "vocab_size": 8085, "learned_vocab_size": 7802, "compression_ratio": 1.176694918339559, "example_words": [] }, { "step": 7803, "pair": [ "रेखा", "ओं" ], "new_token": "रेखाओं", "frequency": 2, "vocab_size": 8086, "learned_vocab_size": 7803, "compression_ratio": 1.1766992023242182, "example_words": [] }, { "step": 7804, "pair": [ "दाई", "ं" ], "new_token": "दाईं", "frequency": 2, "vocab_size": 8087, "learned_vocab_size": 7804, "compression_ratio": 1.1767034863400712, "example_words": [] }, { "step": 7805, "pair": [ "अर्ध", "वृत्ता" ], "new_token": "अर्धवृत्ता", "frequency": 2, "vocab_size": 8088, "learned_vocab_size": 7805, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7806, "pair": [ "अर्धवृत्ता", "कार" ], "new_token": "अर्धवृत्ताकार", "frequency": 2, "vocab_size": 8089, "learned_vocab_size": 7806, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7807, "pair": [ "दीक्षा", "ंत" ], "new_token": "दीक्षांत", "frequency": 2, "vocab_size": 8090, "learned_vocab_size": 7807, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7808, "pair": [ "ट", "ंडन" ], "new_token": "टंडन", "frequency": 2, "vocab_size": 8091, "learned_vocab_size": 7808, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7809, "pair": [ "अर्", "शदीप" ], "new_token": "अर्शदीप", "frequency": 2, "vocab_size": 8092, "learned_vocab_size": 7809, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7810, "pair": [ "जानकारी", "जन्म" ], "new_token": "जानकारीजन्म", "frequency": 2, "vocab_size": 8093, "learned_vocab_size": 7810, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7811, "pair": [ "वर्ष", "टीम" ], "new_token": "वर्षटीम", "frequency": 2, "vocab_size": 8094, "learned_vocab_size": 7811, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7812, "pair": [ "इले", "वन" ], "new_token": "इलेवन", "frequency": 2, "vocab_size": 8095, "learned_vocab_size": 7812, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7813, "pair": [ "सरा", "हना" ], "new_token": "सराहना", "frequency": 2, "vocab_size": 8096, "learned_vocab_size": 7813, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7814, "pair": [ "जरि", "ए" ], "new_token": "जरिए", "frequency": 2, "vocab_size": 8097, "learned_vocab_size": 7814, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7815, "pair": [ "शाब्", "दिक" ], "new_token": "शाब्दिक", "frequency": 2, "vocab_size": 8098, "learned_vocab_size": 7815, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7816, "pair": [ "विश्ले", "षण" ], "new_token": "विश्लेषण", "frequency": 2, "vocab_size": 8099, "learned_vocab_size": 7816, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7817, "pair": [ "नि", "दान" ], "new_token": "निदान", "frequency": 2, "vocab_size": 8100, "learned_vocab_size": 7817, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7818, "pair": [ "बोर्डि", "ंग" ], "new_token": "बोर्डिंग", "frequency": 2, "vocab_size": 8101, "learned_vocab_size": 7818, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7819, "pair": [ "शोध", "कर्ताओं" ], "new_token": "शोधकर्ताओं", "frequency": 2, "vocab_size": 8102, "learned_vocab_size": 7819, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7820, "pair": [ "कंप्यू", "टिंग" ], "new_token": "कंप्यूटिंग", "frequency": 2, "vocab_size": 8103, "learned_vocab_size": 7820, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7821, "pair": [ "बढ़ा", "या" ], "new_token": "बढ़ाया", "frequency": 2, "vocab_size": 8104, "learned_vocab_size": 7821, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7822, "pair": [ "करना", "ल" ], "new_token": "करनाल", "frequency": 2, "vocab_size": 8105, "learned_vocab_size": 7822, "compression_ratio": 1.1767077703871176, "example_words": [] }, { "step": 7823, "pair": [ "रवि", "ंदर्" ], "new_token": "रविंदर्", "frequency": 2, "vocab_size": 8106, "learned_vocab_size": 7823, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7824, "pair": [ "मछ", "रौली" ], "new_token": "मछरौली", "frequency": 2, "vocab_size": 8107, "learned_vocab_size": 7824, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7825, "pair": [ "दू", "वैल" ], "new_token": "दूवैल", "frequency": 2, "vocab_size": 8108, "learned_vocab_size": 7825, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7826, "pair": [ "फ्रि", "मैन" ], "new_token": "फ्रिमैन", "frequency": 2, "vocab_size": 8109, "learned_vocab_size": 7826, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7827, "pair": [ "मै", "क" ], "new_token": "मैक", "frequency": 2, "vocab_size": 8110, "learned_vocab_size": 7827, "compression_ratio": 1.1767120544653584, "example_words": [] }, { "step": 7828, "pair": [ "ब्", "ले" ], "new_token": "ब्ले", "frequency": 2, "vocab_size": 8111, "learned_vocab_size": 7828, "compression_ratio": 1.1767291910902697, "example_words": [] }, { "step": 7829, "pair": [ "ब्ले", "यर" ], "new_token": "ब्लेयर", "frequency": 2, "vocab_size": 8112, "learned_vocab_size": 7829, "compression_ratio": 1.176737759589899, "example_words": [] }, { "step": 7830, "pair": [ "लकड़ी", "केतहत" ], "new_token": "लकड़ीकेतहत", "frequency": 2, "vocab_size": 8113, "learned_vocab_size": 7830, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7831, "pair": [ "स्कॉ", "ट" ], "new_token": "स्कॉट", "frequency": 2, "vocab_size": 8114, "learned_vocab_size": 7831, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7832, "pair": [ "कर्ट", "वुड" ], "new_token": "कर्टवुड", "frequency": 2, "vocab_size": 8115, "learned_vocab_size": 7832, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7833, "pair": [ "ड्री", "म" ], "new_token": "ड्रीम", "frequency": 2, "vocab_size": 8116, "learned_vocab_size": 7833, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7834, "pair": [ "अमेरिका", "भाषा" ], "new_token": "अमेरिकाभाषा", "frequency": 2, "vocab_size": 8117, "learned_vocab_size": 7834, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7835, "pair": [ "अंग्रेज़ी", "लागत" ], "new_token": "अंग्रेज़ीलागत", "frequency": 2, "vocab_size": 8118, "learned_vocab_size": 7835, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7836, "pair": [ "क", "कर" ], "new_token": "ककर", "frequency": 2, "vocab_size": 8119, "learned_vocab_size": 7836, "compression_ratio": 1.1767420438865082, "example_words": [] }, { "step": 7837, "pair": [ "साइ", "मन" ], "new_token": "साइमन", "frequency": 2, "vocab_size": 8120, "learned_vocab_size": 7837, "compression_ratio": 1.1767484703899163, "example_words": [] }, { "step": 7838, "pair": [ "गण", "वेश" ], "new_token": "गणवेश", "frequency": 2, "vocab_size": 8121, "learned_vocab_size": 7838, "compression_ratio": 1.1767527547645185, "example_words": [] }, { "step": 7839, "pair": [ "कु", "आ" ], "new_token": "कुआ", "frequency": 2, "vocab_size": 8122, "learned_vocab_size": 7839, "compression_ratio": 1.1767570391703182, "example_words": [] }, { "step": 7840, "pair": [ "ंघ", "म" ], "new_token": "ंघम", "frequency": 2, "vocab_size": 8123, "learned_vocab_size": 7840, "compression_ratio": 1.1767634658375143, "example_words": [] }, { "step": 7841, "pair": [ "फ़ा", "इनल" ], "new_token": "फ़ाइनल", "frequency": 2, "vocab_size": 8124, "learned_vocab_size": 7841, "compression_ratio": 1.1767677503213099, "example_words": [] }, { "step": 7842, "pair": [ "ऑ", "स्ट्रेलियन" ], "new_token": "ऑस्ट्रेलियन", "frequency": 2, "vocab_size": 8125, "learned_vocab_size": 7842, "compression_ratio": 1.1767677503213099, "example_words": [] }, { "step": 7843, "pair": [ "यू", "एस" ], "new_token": "यूएस", "frequency": 2, "vocab_size": 8126, "learned_vocab_size": 7843, "compression_ratio": 1.1767677503213099, "example_words": [] }, { "step": 7844, "pair": [ "प्रतिरो", "ध" ], "new_token": "प्रतिरोध", "frequency": 2, "vocab_size": 8127, "learned_vocab_size": 7844, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7845, "pair": [ "चे", "बिसे" ], "new_token": "चेबिसे", "frequency": 2, "vocab_size": 8128, "learned_vocab_size": 7845, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7846, "pair": [ "चेबिसे", "व" ], "new_token": "चेबिसेव", "frequency": 2, "vocab_size": 8129, "learned_vocab_size": 7846, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7847, "pair": [ "विकि", "फ़ा" ], "new_token": "विकिफ़ा", "frequency": 2, "vocab_size": 8130, "learned_vocab_size": 7847, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7848, "pair": [ "विकिफ़ा", "इ" ], "new_token": "विकिफ़ाइ", "frequency": 2, "vocab_size": 8131, "learned_vocab_size": 7848, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7849, "pair": [ "ले", "आउट" ], "new_token": "लेआउट", "frequency": 2, "vocab_size": 8132, "learned_vocab_size": 7849, "compression_ratio": 1.1767806039598914, "example_words": [] }, { "step": 7850, "pair": [ "मार्क", "अप" ], "new_token": "मार्कअप", "frequency": 2, "vocab_size": 8133, "learned_vocab_size": 7850, "compression_ratio": 1.1767848885684846, "example_words": [] }, { "step": 7851, "pair": [ "दो", "नो" ], "new_token": "दोनो", "frequency": 2, "vocab_size": 8134, "learned_vocab_size": 7851, "compression_ratio": 1.1767848885684846, "example_words": [] }, { "step": 7852, "pair": [ "रोज़", "मर्रा" ], "new_token": "रोज़मर्रा", "frequency": 2, "vocab_size": 8135, "learned_vocab_size": 7852, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 7853, "pair": [ "वस्तु", "एँ" ], "new_token": "वस्तुएँ", "frequency": 2, "vocab_size": 8136, "learned_vocab_size": 7853, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 7854, "pair": [ "लगा", "एँ" ], "new_token": "लगाएँ", "frequency": 2, "vocab_size": 8137, "learned_vocab_size": 7854, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 7855, "pair": [ "ज्ञान", "सन्दू" ], "new_token": "ज्ञानसन्दू", "frequency": 2, "vocab_size": 8138, "learned_vocab_size": 7855, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 7856, "pair": [ "ज्ञानसन्दू", "क" ], "new_token": "ज्ञानसन्दूक", "frequency": 2, "vocab_size": 8139, "learned_vocab_size": 7856, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 7857, "pair": [ "टै", "ग" ], "new_token": "टैग", "frequency": 2, "vocab_size": 8140, "learned_vocab_size": 7857, "compression_ratio": 1.1768620168587398, "example_words": [] }, { "step": 7858, "pair": [ "हटा", "एँ" ], "new_token": "हटाएँ", "frequency": 2, "vocab_size": 8141, "learned_vocab_size": 7858, "compression_ratio": 1.1768663020601964, "example_words": [] }, { "step": 7859, "pair": [ "अप्रति", "म" ], "new_token": "अप्रतिम", "frequency": 2, "vocab_size": 8142, "learned_vocab_size": 7859, "compression_ratio": 1.1768663020601964, "example_words": [] }, { "step": 7860, "pair": [ "द्रोणा", "चार्य" ], "new_token": "द्रोणाचार्य", "frequency": 2, "vocab_size": 8143, "learned_vocab_size": 7860, "compression_ratio": 1.1768663020601964, "example_words": [] }, { "step": 7861, "pair": [ "बी", "त" ], "new_token": "बीत", "frequency": 2, "vocab_size": 8144, "learned_vocab_size": 7861, "compression_ratio": 1.1768663020601964, "example_words": [] }, { "step": 7862, "pair": [ "१९", "०५" ], "new_token": "१९०५", "frequency": 2, "vocab_size": 8145, "learned_vocab_size": 7862, "compression_ratio": 1.17687058729286, "example_words": [] }, { "step": 7863, "pair": [ "भा", "ंति" ], "new_token": "भांति", "frequency": 2, "vocab_size": 8146, "learned_vocab_size": 7863, "compression_ratio": 1.1768748725567304, "example_words": [] }, { "step": 7864, "pair": [ "ला", "या" ], "new_token": "लाया", "frequency": 2, "vocab_size": 8147, "learned_vocab_size": 7864, "compression_ratio": 1.1768748725567304, "example_words": [] }, { "step": 7865, "pair": [ "बिस्", "मिल" ], "new_token": "बिस्मिल", "frequency": 2, "vocab_size": 8148, "learned_vocab_size": 7865, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 7866, "pair": [ "अंग्रे", "ज" ], "new_token": "अंग्रेज", "frequency": 2, "vocab_size": 8149, "learned_vocab_size": 7866, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 7867, "pair": [ "यु", "वक" ], "new_token": "युवक", "frequency": 2, "vocab_size": 8150, "learned_vocab_size": 7867, "compression_ratio": 1.1768813005110503, "example_words": [] }, { "step": 7868, "pair": [ "ता", "ंबर" ], "new_token": "तांबर", "frequency": 2, "vocab_size": 8151, "learned_vocab_size": 7868, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7869, "pair": [ "तांबर", "परानी" ], "new_token": "तांबरपरानी", "frequency": 2, "vocab_size": 8152, "learned_vocab_size": 7869, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7870, "pair": [ "क्षि", "प्रा" ], "new_token": "क्षिप्रा", "frequency": 2, "vocab_size": 8153, "learned_vocab_size": 7870, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7871, "pair": [ "ता", "म्र" ], "new_token": "ताम्र", "frequency": 2, "vocab_size": 8154, "learned_vocab_size": 7871, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7872, "pair": [ "ताम्र", "पर्" ], "new_token": "ताम्रपर्", "frequency": 2, "vocab_size": 8155, "learned_vocab_size": 7872, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7873, "pair": [ "ताम्रपर्", "णी" ], "new_token": "ताम्रपर्णी", "frequency": 2, "vocab_size": 8156, "learned_vocab_size": 7873, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7874, "pair": [ "फल्", "गू" ], "new_token": "फल्गू", "frequency": 2, "vocab_size": 8157, "learned_vocab_size": 7874, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7875, "pair": [ "बरा", "कर" ], "new_token": "बराकर", "frequency": 2, "vocab_size": 8158, "learned_vocab_size": 7875, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7876, "pair": [ "बाण", "गंगा" ], "new_token": "बाणगंगा", "frequency": 2, "vocab_size": 8159, "learned_vocab_size": 7876, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7877, "pair": [ "बै", "गाई" ], "new_token": "बैगाई", "frequency": 2, "vocab_size": 8160, "learned_vocab_size": 7877, "compression_ratio": 1.1768855858529401, "example_words": [] }, { "step": 7878, "pair": [ "बै", "गुल" ], "new_token": "बैगुल", "frequency": 2, "vocab_size": 8161, "learned_vocab_size": 7878, "compression_ratio": 1.176889871226038, "example_words": [] }, { "step": 7879, "pair": [ "ब्या", "स" ], "new_token": "ब्यास", "frequency": 2, "vocab_size": 8162, "learned_vocab_size": 7879, "compression_ratio": 1.1768941566303448, "example_words": [] }, { "step": 7880, "pair": [ "ब", "कुलाही" ], "new_token": "बकुलाही", "frequency": 2, "vocab_size": 8163, "learned_vocab_size": 7880, "compression_ratio": 1.1768941566303448, "example_words": [] }, { "step": 7881, "pair": [ "ला", "छु" ], "new_token": "लाछु", "frequency": 2, "vocab_size": 8164, "learned_vocab_size": 7881, "compression_ratio": 1.1768941566303448, "example_words": [] }, { "step": 7882, "pair": [ "लाछु", "ंग" ], "new_token": "लाछुंग", "frequency": 2, "vocab_size": 8165, "learned_vocab_size": 7882, "compression_ratio": 1.1768984420658604, "example_words": [] }, { "step": 7883, "pair": [ "लू", "नी" ], "new_token": "लूनी", "frequency": 2, "vocab_size": 8166, "learned_vocab_size": 7883, "compression_ratio": 1.1769027275325852, "example_words": [] }, { "step": 7884, "pair": [ "सतलु", "ज" ], "new_token": "सतलुज", "frequency": 2, "vocab_size": 8167, "learned_vocab_size": 7884, "compression_ratio": 1.17690701303052, "example_words": [] }, { "step": 7885, "pair": [ "सुवर्ण", "रेखा" ], "new_token": "सुवर्णरेखा", "frequency": 2, "vocab_size": 8168, "learned_vocab_size": 7885, "compression_ratio": 1.17690701303052, "example_words": [] }, { "step": 7886, "pair": [ "टि", "स्टा" ], "new_token": "टिस्टा", "frequency": 2, "vocab_size": 8169, "learned_vocab_size": 7886, "compression_ratio": 1.17690701303052, "example_words": [] }, { "step": 7887, "pair": [ "नदिया", "ं" ], "new_token": "नदियां", "frequency": 2, "vocab_size": 8170, "learned_vocab_size": 7887, "compression_ratio": 1.17690701303052, "example_words": [] }, { "step": 7888, "pair": [ "ल", "ई" ], "new_token": "लई", "frequency": 2, "vocab_size": 8171, "learned_vocab_size": 7888, "compression_ratio": 1.17690701303052, "example_words": [] }, { "step": 7889, "pair": [ "महा", "बलेश्वर" ], "new_token": "महाबलेश्वर", "frequency": 2, "vocab_size": 8172, "learned_vocab_size": 7889, "compression_ratio": 1.1769177269119007, "example_words": [] }, { "step": 7890, "pair": [ "गै", "प" ], "new_token": "गैप", "frequency": 2, "vocab_size": 8173, "learned_vocab_size": 7890, "compression_ratio": 1.1769177269119007, "example_words": [] }, { "step": 7891, "pair": [ "मु", "लै" ], "new_token": "मुलै", "frequency": 2, "vocab_size": 8174, "learned_vocab_size": 7891, "compression_ratio": 1.1769220125190718, "example_words": [] }, { "step": 7892, "pair": [ "बेल्", "गाव" ], "new_token": "बेल्गाव", "frequency": 2, "vocab_size": 8175, "learned_vocab_size": 7892, "compression_ratio": 1.176926298157454, "example_words": [] }, { "step": 7893, "pair": [ "विविध", "ता" ], "new_token": "विविधता", "frequency": 2, "vocab_size": 8176, "learned_vocab_size": 7893, "compression_ratio": 1.176926298157454, "example_words": [] }, { "step": 7894, "pair": [ "नौ", "ग" ], "new_token": "नौग", "frequency": 2, "vocab_size": 8177, "learned_vocab_size": 7894, "compression_ratio": 1.176926298157454, "example_words": [] }, { "step": 7895, "pair": [ "नौग", "ट" ], "new_token": "नौगट", "frequency": 2, "vocab_size": 8178, "learned_vocab_size": 7895, "compression_ratio": 1.176939155259871, "example_words": [] }, { "step": 7896, "pair": [ "सं", "पादित" ], "new_token": "संपादित", "frequency": 2, "vocab_size": 8179, "learned_vocab_size": 7896, "compression_ratio": 1.1769455839164213, "example_words": [] }, { "step": 7897, "pair": [ "अनु", "चित" ], "new_token": "अनुचित", "frequency": 2, "vocab_size": 8180, "learned_vocab_size": 7897, "compression_ratio": 1.1769455839164213, "example_words": [] }, { "step": 7898, "pair": [ "प्रि", "स्टिना" ], "new_token": "प्रिस्टिना", "frequency": 2, "vocab_size": 8181, "learned_vocab_size": 7898, "compression_ratio": 1.1769455839164213, "example_words": [] }, { "step": 7899, "pair": [ "जि", "यस" ], "new_token": "जियस", "frequency": 2, "vocab_size": 8182, "learned_vocab_size": 7899, "compression_ratio": 1.1769455839164213, "example_words": [] }, { "step": 7900, "pair": [ "ग्", "वे" ], "new_token": "ग्वे", "frequency": 2, "vocab_size": 8183, "learned_vocab_size": 7900, "compression_ratio": 1.176949869726471, "example_words": [] }, { "step": 7901, "pair": [ "ग्री", "स" ], "new_token": "ग्रीस", "frequency": 2, "vocab_size": 8184, "learned_vocab_size": 7901, "compression_ratio": 1.1769584414402112, "example_words": [ "ग्रीस" ] }, { "step": 7902, "pair": [ "स्ट", "डीज" ], "new_token": "स्टडीज", "frequency": 2, "vocab_size": 8185, "learned_vocab_size": 7902, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 7903, "pair": [ "बेल्", "जि" ], "new_token": "बेल्जि", "frequency": 2, "vocab_size": 8186, "learned_vocab_size": 7903, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 7904, "pair": [ "बेल्जि", "यम" ], "new_token": "बेल्जियम", "frequency": 2, "vocab_size": 8187, "learned_vocab_size": 7904, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 7905, "pair": [ "मेन", "न" ], "new_token": "मेनन", "frequency": 2, "vocab_size": 8188, "learned_vocab_size": 7905, "compression_ratio": 1.1769627273439023, "example_words": [] }, { "step": 7906, "pair": [ "मा", "मू" ], "new_token": "मामू", "frequency": 2, "vocab_size": 8189, "learned_vocab_size": 7906, "compression_ratio": 1.1769734422396936, "example_words": [] }, { "step": 7907, "pair": [ "मामू", "ट्टी" ], "new_token": "मामूट्टी", "frequency": 2, "vocab_size": 8190, "learned_vocab_size": 7907, "compression_ratio": 1.1769841573305804, "example_words": [] }, { "step": 7908, "pair": [ "मे", "जर" ], "new_token": "मेजर", "frequency": 2, "vocab_size": 8191, "learned_vocab_size": 7908, "compression_ratio": 1.1769841573305804, "example_words": [] }, { "step": 7909, "pair": [ "पै", "र" ], "new_token": "पैर", "frequency": 2, "vocab_size": 8192, "learned_vocab_size": 7909, "compression_ratio": 1.176988443421563, "example_words": [] }, { "step": 7910, "pair": [ "शू", "टिंग" ], "new_token": "शूटिंग", "frequency": 2, "vocab_size": 8193, "learned_vocab_size": 7910, "compression_ratio": 1.1769455839164213, "example_words": [] }, { "step": 7911, "pair": [ "खो", "ने" ], "new_token": "खोने", "frequency": 2, "vocab_size": 8194, "learned_vocab_size": 7911, "compression_ratio": 1.176949869726471, "example_words": [] }, { "step": 7912, "pair": [ "पी", "ना" ], "new_token": "पीना", "frequency": 2, "vocab_size": 8195, "learned_vocab_size": 7912, "compression_ratio": 1.1769541555677343, "example_words": [] }, { "step": 7913, "pair": [ "सी", "खने" ], "new_token": "सीखने", "frequency": 2, "vocab_size": 8196, "learned_vocab_size": 7913, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 7914, "pair": [ "जीवन", "शैली" ], "new_token": "जीवनशैली", "frequency": 2, "vocab_size": 8197, "learned_vocab_size": 7914, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 7915, "pair": [ "देवासं", "मध्य" ], "new_token": "देवासंमध्य", "frequency": 2, "vocab_size": 8198, "learned_vocab_size": 7915, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 7916, "pair": [ "दिग्", "विजय" ], "new_token": "दिग्विजय", "frequency": 2, "vocab_size": 8199, "learned_vocab_size": 7916, "compression_ratio": 1.1769584414402112, "example_words": [] }, { "step": 7917, "pair": [ "मह", "ंत" ], "new_token": "महंत", "frequency": 2, "vocab_size": 8200, "learned_vocab_size": 7917, "compression_ratio": 1.1769670132788077, "example_words": [] }, { "step": 7918, "pair": [ "निम्", "मू" ], "new_token": "निम्मू", "frequency": 2, "vocab_size": 8201, "learned_vocab_size": 7918, "compression_ratio": 1.1769712992449277, "example_words": [] }, { "step": 7919, "pair": [ "ले", "ह" ], "new_token": "लेह", "frequency": 2, "vocab_size": 8202, "learned_vocab_size": 7919, "compression_ratio": 1.1769777282526366, "example_words": [] }, { "step": 7920, "pair": [ "ज़", "ंस्कार" ], "new_token": "ज़ंस्कार", "frequency": 2, "vocab_size": 8203, "learned_vocab_size": 7920, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7921, "pair": [ "तिरु", "वल्" ], "new_token": "तिरुवल्", "frequency": 2, "vocab_size": 8204, "learned_vocab_size": 7921, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7922, "pair": [ "तिरुवन्", "मि" ], "new_token": "तिरुवन्मि", "frequency": 2, "vocab_size": 8205, "learned_vocab_size": 7922, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7923, "pair": [ "तिरुवन्मि", "यूर" ], "new_token": "तिरुवन्मियूर", "frequency": 2, "vocab_size": 8206, "learned_vocab_size": 7923, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7924, "pair": [ "पट्ट", "बिराम" ], "new_token": "पट्टबिराम", "frequency": 2, "vocab_size": 8207, "learned_vocab_size": 7924, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7925, "pair": [ "ब", "क्कम" ], "new_token": "बक्कम", "frequency": 2, "vocab_size": 8208, "learned_vocab_size": 7925, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7926, "pair": [ "पैरी", "ज़" ], "new_token": "पैरीज़", "frequency": 2, "vocab_size": 8209, "learned_vocab_size": 7926, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7927, "pair": [ "वेटरि", "नरी" ], "new_token": "वेटरिनरी", "frequency": 2, "vocab_size": 8210, "learned_vocab_size": 7927, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7928, "pair": [ "इंस्टी", "ट्यूट" ], "new_token": "इंस्टीट्यूट", "frequency": 2, "vocab_size": 8211, "learned_vocab_size": 7928, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7929, "pair": [ "मै", "टिक" ], "new_token": "मैटिक", "frequency": 2, "vocab_size": 8212, "learned_vocab_size": 7929, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7930, "pair": [ "यातायात", "चेन्नई" ], "new_token": "यातायातचेन्नई", "frequency": 2, "vocab_size": 8213, "learned_vocab_size": 7930, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7931, "pair": [ "इ", "को" ], "new_token": "इको", "frequency": 2, "vocab_size": 8214, "learned_vocab_size": 7931, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7932, "pair": [ "कोय", "ंबटूर" ], "new_token": "कोयंबटूर", "frequency": 2, "vocab_size": 8215, "learned_vocab_size": 7932, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 7933, "pair": [ "ट्रा", "ंजि" ], "new_token": "ट्रांजि", "frequency": 2, "vocab_size": 8216, "learned_vocab_size": 7933, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 7934, "pair": [ "ट्रांजि", "ट" ], "new_token": "ट्रांजिट", "frequency": 2, "vocab_size": 8217, "learned_vocab_size": 7934, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 7935, "pair": [ "आर", "टी" ], "new_token": "आरटी", "frequency": 2, "vocab_size": 8218, "learned_vocab_size": 7935, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 7936, "pair": [ "निर्माणा", "धीन" ], "new_token": "निर्माणाधीन", "frequency": 2, "vocab_size": 8219, "learned_vocab_size": 7936, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 7937, "pair": [ "बड़ा", "गाँव" ], "new_token": "बड़ागाँव", "frequency": 2, "vocab_size": 8220, "learned_vocab_size": 7937, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 7938, "pair": [ "मंग", "दपुर" ], "new_token": "मंगदपुर", "frequency": 2, "vocab_size": 8221, "learned_vocab_size": 7938, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 7939, "pair": [ "बल्", "लू" ], "new_token": "बल्लू", "frequency": 2, "vocab_size": 8222, "learned_vocab_size": 7939, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 7940, "pair": [ "भा", "ऊ" ], "new_token": "भाऊ", "frequency": 2, "vocab_size": 8223, "learned_vocab_size": 7940, "compression_ratio": 1.1770141606230164, "example_words": [] }, { "step": 7941, "pair": [ "भाऊ", "पुरा" ], "new_token": "भाऊपुरा", "frequency": 2, "vocab_size": 8224, "learned_vocab_size": 7941, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7942, "pair": [ "भी", "कमपुर" ], "new_token": "भीकमपुर", "frequency": 2, "vocab_size": 8225, "learned_vocab_size": 7942, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7943, "pair": [ "लालसहा", "य" ], "new_token": "लालसहाय", "frequency": 2, "vocab_size": 8226, "learned_vocab_size": 7943, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7944, "pair": [ "अमो", "गपुर" ], "new_token": "अमोगपुर", "frequency": 2, "vocab_size": 8227, "learned_vocab_size": 7944, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7945, "pair": [ "अंग", "दपुर" ], "new_token": "अंगदपुर", "frequency": 2, "vocab_size": 8228, "learned_vocab_size": 7945, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7946, "pair": [ "सि", "मर" ], "new_token": "सिमर", "frequency": 2, "vocab_size": 8229, "learned_vocab_size": 7946, "compression_ratio": 1.1770184469325216, "example_words": [] }, { "step": 7947, "pair": [ "बी", "ज" ], "new_token": "बीज", "frequency": 2, "vocab_size": 8230, "learned_vocab_size": 7947, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7948, "pair": [ "दु", "इया" ], "new_token": "दुइया", "frequency": 2, "vocab_size": 8231, "learned_vocab_size": 7948, "compression_ratio": 1.1769712992449277, "example_words": [] }, { "step": 7949, "pair": [ "भि", "र" ], "new_token": "भिर", "frequency": 2, "vocab_size": 8232, "learned_vocab_size": 7949, "compression_ratio": 1.176975585242263, "example_words": [] }, { "step": 7950, "pair": [ "कलु", "आपुर" ], "new_token": "कलुआपुर", "frequency": 2, "vocab_size": 8233, "learned_vocab_size": 7950, "compression_ratio": 1.1769777282526366, "example_words": [] }, { "step": 7951, "pair": [ "कू", "ल्" ], "new_token": "कूल्", "frequency": 2, "vocab_size": 8234, "learned_vocab_size": 7951, "compression_ratio": 1.1769777282526366, "example_words": [] }, { "step": 7952, "pair": [ "कूल्", "हापुर" ], "new_token": "कूल्हापुर", "frequency": 2, "vocab_size": 8235, "learned_vocab_size": 7952, "compression_ratio": 1.176982014296795, "example_words": [] }, { "step": 7953, "pair": [ "एप्", "लिकेशन" ], "new_token": "एप्लिकेशन", "frequency": 2, "vocab_size": 8236, "learned_vocab_size": 7953, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7954, "pair": [ "डि", "वाइस" ], "new_token": "डिवाइस", "frequency": 2, "vocab_size": 8237, "learned_vocab_size": 7954, "compression_ratio": 1.1769863003721697, "example_words": [] }, { "step": 7955, "pair": [ "हैंड", "सेट" ], "new_token": "हैंडसेट", "frequency": 2, "vocab_size": 8238, "learned_vocab_size": 7955, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7956, "pair": [ "तरी", "का" ], "new_token": "तरीका", "frequency": 2, "vocab_size": 8239, "learned_vocab_size": 7956, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7957, "pair": [ "ब", "कंडा" ], "new_token": "बकंडा", "frequency": 2, "vocab_size": 8240, "learned_vocab_size": 7957, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7958, "pair": [ "गो", "बरा" ], "new_token": "गोबरा", "frequency": 2, "vocab_size": 8241, "learned_vocab_size": 7958, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7959, "pair": [ "चौ", "मा" ], "new_token": "चौमा", "frequency": 2, "vocab_size": 8242, "learned_vocab_size": 7959, "compression_ratio": 1.1769905864787604, "example_words": [] }, { "step": 7960, "pair": [ "दौलता", "बाद" ], "new_token": "दौलताबाद", "frequency": 2, "vocab_size": 8243, "learned_vocab_size": 7960, "compression_ratio": 1.1769948726165678, "example_words": [] }, { "step": 7961, "pair": [ "न", "नऊ" ], "new_token": "ननऊ", "frequency": 2, "vocab_size": 8244, "learned_vocab_size": 7961, "compression_ratio": 1.1769948726165678, "example_words": [] }, { "step": 7962, "pair": [ "बै", "रा" ], "new_token": "बैरा", "frequency": 2, "vocab_size": 8245, "learned_vocab_size": 7962, "compression_ratio": 1.1769991587855924, "example_words": [] }, { "step": 7963, "pair": [ "लो", "ह" ], "new_token": "लोह", "frequency": 2, "vocab_size": 8246, "learned_vocab_size": 7963, "compression_ratio": 1.177003444985834, "example_words": [] }, { "step": 7964, "pair": [ "रिया", "ं" ], "new_token": "रियां", "frequency": 2, "vocab_size": 8247, "learned_vocab_size": 7964, "compression_ratio": 1.176992729543762, "example_words": [] }, { "step": 7965, "pair": [ "सीमा", "ओं" ], "new_token": "सीमाओं", "frequency": 2, "vocab_size": 8248, "learned_vocab_size": 7965, "compression_ratio": 1.176992729543762, "example_words": [] }, { "step": 7966, "pair": [ "भ्र", "ष्ट" ], "new_token": "भ्रष्ट", "frequency": 2, "vocab_size": 8249, "learned_vocab_size": 7966, "compression_ratio": 1.1769970156971779, "example_words": [] }, { "step": 7967, "pair": [ "फ", "ंसे" ], "new_token": "फंसे", "frequency": 2, "vocab_size": 8250, "learned_vocab_size": 7967, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7968, "pair": [ "भ्रष्टा", "चार" ], "new_token": "भ्रष्टाचार", "frequency": 2, "vocab_size": 8251, "learned_vocab_size": 7968, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7969, "pair": [ "सी", "नेटर" ], "new_token": "सीनेटर", "frequency": 2, "vocab_size": 8252, "learned_vocab_size": 7969, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7970, "pair": [ "वो", "ट" ], "new_token": "वोट", "frequency": 2, "vocab_size": 8253, "learned_vocab_size": 7970, "compression_ratio": 1.1770055880976615, "example_words": [] }, { "step": 7971, "pair": [ "सी", "नेट" ], "new_token": "सीनेट", "frequency": 2, "vocab_size": 8254, "learned_vocab_size": 7971, "compression_ratio": 1.177012017479971, "example_words": [] }, { "step": 7972, "pair": [ "रि", "प्रे" ], "new_token": "रिप्रे", "frequency": 2, "vocab_size": 8255, "learned_vocab_size": 7972, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 7973, "pair": [ "काउ", "ंटी" ], "new_token": "काउंटी", "frequency": 2, "vocab_size": 8256, "learned_vocab_size": 7973, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 7974, "pair": [ "अटॉर्", "नी" ], "new_token": "अटॉर्नी", "frequency": 2, "vocab_size": 8257, "learned_vocab_size": 7974, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 7975, "pair": [ "धनो", "आ" ], "new_token": "धनोआ", "frequency": 2, "vocab_size": 8258, "learned_vocab_size": 7975, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 7976, "pair": [ "प्रिय", "ंका" ], "new_token": "प्रियंका", "frequency": 2, "vocab_size": 8259, "learned_vocab_size": 7976, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 7977, "pair": [ "डै", "नी" ], "new_token": "डैनी", "frequency": 2, "vocab_size": 8260, "learned_vocab_size": 7977, "compression_ratio": 1.177020590098981, "example_words": [] }, { "step": 7978, "pair": [ "फरी", "दा" ], "new_token": "फरीदा", "frequency": 2, "vocab_size": 8261, "learned_vocab_size": 7978, "compression_ratio": 1.1770248764553146, "example_words": [] }, { "step": 7979, "pair": [ "शह", "बाज़" ], "new_token": "शहबाज़", "frequency": 2, "vocab_size": 8262, "learned_vocab_size": 7979, "compression_ratio": 1.1770248764553146, "example_words": [] }, { "step": 7980, "pair": [ "सु", "हा" ], "new_token": "सुहा", "frequency": 2, "vocab_size": 8263, "learned_vocab_size": 7980, "compression_ratio": 1.1770248764553146, "example_words": [] }, { "step": 7981, "pair": [ "सुहा", "सिनी" ], "new_token": "सुहासिनी", "frequency": 2, "vocab_size": 8264, "learned_vocab_size": 7981, "compression_ratio": 1.1770291628428673, "example_words": [] }, { "step": 7982, "pair": [ "वि", "ंग" ], "new_token": "विंग", "frequency": 2, "vocab_size": 8265, "learned_vocab_size": 7982, "compression_ratio": 1.1770291628428673, "example_words": [] }, { "step": 7983, "pair": [ "उत्कृष्ट", "ता" ], "new_token": "उत्कृष्टता", "frequency": 2, "vocab_size": 8266, "learned_vocab_size": 7983, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7984, "pair": [ "सहा", "य" ], "new_token": "सहाय", "frequency": 2, "vocab_size": 8267, "learned_vocab_size": 7984, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7985, "pair": [ "स्वरूप", "गंज" ], "new_token": "स्वरूपगंज", "frequency": 2, "vocab_size": 8268, "learned_vocab_size": 7985, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7986, "pair": [ "नदी", "शीर्ष" ], "new_token": "नदीशीर्ष", "frequency": 2, "vocab_size": 8269, "learned_vocab_size": 7986, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7987, "pair": [ "निर्", "देशांक" ], "new_token": "निर्देशांक", "frequency": 2, "vocab_size": 8270, "learned_vocab_size": 7987, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7988, "pair": [ "बह", "कर" ], "new_token": "बहकर", "frequency": 2, "vocab_size": 8271, "learned_vocab_size": 7988, "compression_ratio": 1.1770334492616399, "example_words": [] }, { "step": 7989, "pair": [ "आर्", "द्र" ], "new_token": "आर्द्र", "frequency": 2, "vocab_size": 8272, "learned_vocab_size": 7989, "compression_ratio": 1.1770377357116324, "example_words": [] }, { "step": 7990, "pair": [ "इस", "पर" ], "new_token": "इसपर", "frequency": 2, "vocab_size": 8273, "learned_vocab_size": 7990, "compression_ratio": 1.1770377357116324, "example_words": [] }, { "step": 7991, "pair": [ "कैथरी", "न" ], "new_token": "कैथरीन", "frequency": 2, "vocab_size": 8274, "learned_vocab_size": 7991, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7992, "pair": [ "कनाडा", "ई" ], "new_token": "कनाडाई", "frequency": 2, "vocab_size": 8275, "learned_vocab_size": 7992, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7993, "pair": [ "ग", "हरे" ], "new_token": "गहरे", "frequency": 2, "vocab_size": 8276, "learned_vocab_size": 7993, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7994, "pair": [ "अन्", "वे" ], "new_token": "अन्वे", "frequency": 2, "vocab_size": 8277, "learned_vocab_size": 7994, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7995, "pair": [ "अन्वे", "षक" ], "new_token": "अन्वेषक", "frequency": 2, "vocab_size": 8278, "learned_vocab_size": 7995, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7996, "pair": [ "ऑफि", "स" ], "new_token": "ऑफिस", "frequency": 2, "vocab_size": 8279, "learned_vocab_size": 7996, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7997, "pair": [ "क्रम", "श" ], "new_token": "क्रमश", "frequency": 2, "vocab_size": 8280, "learned_vocab_size": 7997, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7998, "pair": [ "क्रमश", "ः" ], "new_token": "क्रमशः", "frequency": 2, "vocab_size": 8281, "learned_vocab_size": 7998, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 7999, "pair": [ "बि", "एन" ], "new_token": "बिएन", "frequency": 2, "vocab_size": 8282, "learned_vocab_size": 7999, "compression_ratio": 1.1770420221928455, "example_words": [] }, { "step": 8000, "pair": [ "सैंतिया", "गो" ], "new_token": "सैंतियागो", "frequency": 2, "vocab_size": 8283, "learned_vocab_size": 8000, "compression_ratio": 1.1770463087052792, "example_words": [] }, { "step": 8001, "pair": [ "ऍ", "बे" ], "new_token": "ऍबे", "frequency": 2, "vocab_size": 8284, "learned_vocab_size": 8001, "compression_ratio": 1.1770463087052792, "example_words": [ "ऍबे" ] }, { "step": 8002, "pair": [ "तॉ", "र" ], "new_token": "तॉर", "frequency": 2, "vocab_size": 8285, "learned_vocab_size": 8002, "compression_ratio": 1.1770505952489339, "example_words": [] }, { "step": 8003, "pair": [ "श", "यल्ला" ], "new_token": "शयल्ला", "frequency": 2, "vocab_size": 8286, "learned_vocab_size": 8003, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8004, "pair": [ "राजधानी", "और" ], "new_token": "राजधानीऔर", "frequency": 2, "vocab_size": 8287, "learned_vocab_size": 8004, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8005, "pair": [ "प्रा", "क्" ], "new_token": "प्राक्", "frequency": 2, "vocab_size": 8288, "learned_vocab_size": 8005, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8006, "pair": [ "प्राक्", "कलन" ], "new_token": "प्राक्कलन", "frequency": 2, "vocab_size": 8289, "learned_vocab_size": 8006, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8007, "pair": [ "दिना", "ंक" ], "new_token": "दिनांक", "frequency": 2, "vocab_size": 8290, "learned_vocab_size": 8007, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8008, "pair": [ "टी", "एलडी" ], "new_token": "टीएलडी", "frequency": 2, "vocab_size": 8291, "learned_vocab_size": 8008, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8009, "pair": [ "का", "फ़ी" ], "new_token": "काफ़ी", "frequency": 2, "vocab_size": 8292, "learned_vocab_size": 8009, "compression_ratio": 1.17705488182381, "example_words": [] }, { "step": 8010, "pair": [ "९", "३" ], "new_token": "९३", "frequency": 2, "vocab_size": 8293, "learned_vocab_size": 8010, "compression_ratio": 1.1770591684299079, "example_words": [] }, { "step": 8011, "pair": [ "स", "घन" ], "new_token": "सघन", "frequency": 2, "vocab_size": 8294, "learned_vocab_size": 8011, "compression_ratio": 1.177063455067228, "example_words": [] }, { "step": 8012, "pair": [ "सी", "रियल" ], "new_token": "सीरियल", "frequency": 2, "vocab_size": 8295, "learned_vocab_size": 8012, "compression_ratio": 1.1770677417357704, "example_words": [] }, { "step": 8013, "pair": [ "की", "रतपुर" ], "new_token": "कीरतपुर", "frequency": 2, "vocab_size": 8296, "learned_vocab_size": 8013, "compression_ratio": 1.1770720284355356, "example_words": [] }, { "step": 8014, "pair": [ "खेरि", "आ" ], "new_token": "खेरिआ", "frequency": 2, "vocab_size": 8297, "learned_vocab_size": 8014, "compression_ratio": 1.1770720284355356, "example_words": [] }, { "step": 8015, "pair": [ "फ", "गो" ], "new_token": "फगो", "frequency": 2, "vocab_size": 8298, "learned_vocab_size": 8015, "compression_ratio": 1.1770720284355356, "example_words": [] }, { "step": 8016, "pair": [ "फगो", "ई" ], "new_token": "फगोई", "frequency": 2, "vocab_size": 8299, "learned_vocab_size": 8016, "compression_ratio": 1.177076315166524, "example_words": [] }, { "step": 8017, "pair": [ "जट", "पुरा" ], "new_token": "जटपुरा", "frequency": 2, "vocab_size": 8300, "learned_vocab_size": 8017, "compression_ratio": 1.1770806019287359, "example_words": [] }, { "step": 8018, "pair": [ "देव", "सैनी" ], "new_token": "देवसैनी", "frequency": 2, "vocab_size": 8301, "learned_vocab_size": 8018, "compression_ratio": 1.1770806019287359, "example_words": [] }, { "step": 8019, "pair": [ "ध", "ौर्रा" ], "new_token": "धौर्रा", "frequency": 2, "vocab_size": 8302, "learned_vocab_size": 8019, "compression_ratio": 1.1770806019287359, "example_words": [] }, { "step": 8020, "pair": [ "झा", "ऊ" ], "new_token": "झाऊ", "frequency": 2, "vocab_size": 8303, "learned_vocab_size": 8020, "compression_ratio": 1.1770806019287359, "example_words": [] }, { "step": 8021, "pair": [ "बे", "ग" ], "new_token": "बेग", "frequency": 2, "vocab_size": 8304, "learned_vocab_size": 8021, "compression_ratio": 1.1770848887221714, "example_words": [] }, { "step": 8022, "pair": [ "क", "तपुर" ], "new_token": "कतपुर", "frequency": 2, "vocab_size": 8305, "learned_vocab_size": 8022, "compression_ratio": 1.177074171797127, "example_words": [] }, { "step": 8023, "pair": [ "भ", "त" ], "new_token": "भत", "frequency": 2, "vocab_size": 8306, "learned_vocab_size": 8023, "compression_ratio": 1.177078458543727, "example_words": [] }, { "step": 8024, "pair": [ "मदर", "क" ], "new_token": "मदरक", "frequency": 2, "vocab_size": 8307, "learned_vocab_size": 8024, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 8025, "pair": [ "मू", "सपुर" ], "new_token": "मूसपुर", "frequency": 2, "vocab_size": 8308, "learned_vocab_size": 8025, "compression_ratio": 1.1770827453215507, "example_words": [] }, { "step": 8026, "pair": [ "स", "लै" ], "new_token": "सलै", "frequency": 2, "vocab_size": 8309, "learned_vocab_size": 8026, "compression_ratio": 1.1770870321305982, "example_words": [] }, { "step": 8027, "pair": [ "सलै", "मपुर" ], "new_token": "सलैमपुर", "frequency": 2, "vocab_size": 8310, "learned_vocab_size": 8027, "compression_ratio": 1.1770913189708703, "example_words": [] }, { "step": 8028, "pair": [ "सु", "खरावाली" ], "new_token": "सुखरावाली", "frequency": 2, "vocab_size": 8311, "learned_vocab_size": 8028, "compression_ratio": 1.1770956058423667, "example_words": [] }, { "step": 8029, "pair": [ "हि", "ंगो" ], "new_token": "हिंगो", "frequency": 2, "vocab_size": 8312, "learned_vocab_size": 8029, "compression_ratio": 1.1770956058423667, "example_words": [] }, { "step": 8030, "pair": [ "अ", "दमपुर" ], "new_token": "अदमपुर", "frequency": 2, "vocab_size": 8313, "learned_vocab_size": 8030, "compression_ratio": 1.1770956058423667, "example_words": [] }, { "step": 8031, "pair": [ "उ", "मेद" ], "new_token": "उमेद", "frequency": 2, "vocab_size": 8314, "learned_vocab_size": 8031, "compression_ratio": 1.1770956058423667, "example_words": [] }, { "step": 8032, "pair": [ "करी", "म" ], "new_token": "करीम", "frequency": 2, "vocab_size": 8315, "learned_vocab_size": 8032, "compression_ratio": 1.1770998927450884, "example_words": [] }, { "step": 8033, "pair": [ "खर", "गपुर" ], "new_token": "खरगपुर", "frequency": 2, "vocab_size": 8316, "learned_vocab_size": 8033, "compression_ratio": 1.1770998927450884, "example_words": [] }, { "step": 8034, "pair": [ "सरा", "पुर" ], "new_token": "सरापुर", "frequency": 2, "vocab_size": 8317, "learned_vocab_size": 8034, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 8035, "pair": [ "सिया", "ं" ], "new_token": "सियां", "frequency": 2, "vocab_size": 8318, "learned_vocab_size": 8035, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 8036, "pair": [ "व", "जह" ], "new_token": "वजह", "frequency": 2, "vocab_size": 8319, "learned_vocab_size": 8036, "compression_ratio": 1.1771041796790354, "example_words": [] }, { "step": 8037, "pair": [ "१९९", "७" ], "new_token": "१९९७", "frequency": 2, "vocab_size": 8320, "learned_vocab_size": 8037, "compression_ratio": 1.177108466644208, "example_words": [] }, { "step": 8038, "pair": [ "९", "६" ], "new_token": "९६", "frequency": 2, "vocab_size": 8321, "learned_vocab_size": 8038, "compression_ratio": 1.1771127536406065, "example_words": [] }, { "step": 8039, "pair": [ "शह", "डो" ], "new_token": "शहडो", "frequency": 2, "vocab_size": 8322, "learned_vocab_size": 8039, "compression_ratio": 1.1771170406682314, "example_words": [] }, { "step": 8040, "pair": [ "शहडो", "ल" ], "new_token": "शहडोल", "frequency": 2, "vocab_size": 8323, "learned_vocab_size": 8040, "compression_ratio": 1.177121327727083, "example_words": [] }, { "step": 8041, "pair": [ "घर", "घो" ], "new_token": "घरघो", "frequency": 2, "vocab_size": 8324, "learned_vocab_size": 8041, "compression_ratio": 1.1771256148171618, "example_words": [] }, { "step": 8042, "pair": [ "घरघो", "डा" ], "new_token": "घरघोडा", "frequency": 2, "vocab_size": 8325, "learned_vocab_size": 8042, "compression_ratio": 1.177129901938468, "example_words": [] }, { "step": 8043, "pair": [ "छत्तीस", "गढ" ], "new_token": "छत्तीसगढ", "frequency": 2, "vocab_size": 8326, "learned_vocab_size": 8043, "compression_ratio": 1.1771341890910019, "example_words": [] }, { "step": 8044, "pair": [ "जनजातिया", "ं" ], "new_token": "जनजातियां", "frequency": 2, "vocab_size": 8327, "learned_vocab_size": 8044, "compression_ratio": 1.1771341890910019, "example_words": [] }, { "step": 8045, "pair": [ "लोक", "गीत" ], "new_token": "लोकगीत", "frequency": 2, "vocab_size": 8328, "learned_vocab_size": 8045, "compression_ratio": 1.1771341890910019, "example_words": [] }, { "step": 8046, "pair": [ "प्रपात", "दर्शनीय" ], "new_token": "प्रपातदर्शनीय", "frequency": 2, "vocab_size": 8329, "learned_vocab_size": 8046, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8047, "pair": [ "संरक्षित", "जिले" ], "new_token": "संरक्षितजिले", "frequency": 2, "vocab_size": 8330, "learned_vocab_size": 8047, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8048, "pair": [ "कबीर", "धाम" ], "new_token": "कबीरधाम", "frequency": 2, "vocab_size": 8331, "learned_vocab_size": 8048, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8049, "pair": [ "ज", "शपुर" ], "new_token": "जशपुर", "frequency": 2, "vocab_size": 8332, "learned_vocab_size": 8049, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8050, "pair": [ "दन्ते", "वाड़ा" ], "new_token": "दन्तेवाड़ा", "frequency": 2, "vocab_size": 8333, "learned_vocab_size": 8050, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8051, "pair": [ "ध", "मतरी" ], "new_token": "धमतरी", "frequency": 2, "vocab_size": 8334, "learned_vocab_size": 8051, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8052, "pair": [ "महा", "समुन्द" ], "new_token": "महासमुन्द", "frequency": 2, "vocab_size": 8335, "learned_vocab_size": 8052, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8053, "pair": [ "राजना", "ंदगाँव" ], "new_token": "राजनांदगाँव", "frequency": 2, "vocab_size": 8336, "learned_vocab_size": 8053, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8054, "pair": [ "सरगु", "जा" ], "new_token": "सरगुजा", "frequency": 2, "vocab_size": 8337, "learned_vocab_size": 8054, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8055, "pair": [ "बालो", "द" ], "new_token": "बालोद", "frequency": 2, "vocab_size": 8338, "learned_vocab_size": 8055, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8056, "pair": [ "बलौ", "दा" ], "new_token": "बलौदा", "frequency": 2, "vocab_size": 8339, "learned_vocab_size": 8056, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8057, "pair": [ "बे", "मे" ], "new_token": "बेमे", "frequency": 2, "vocab_size": 8340, "learned_vocab_size": 8057, "compression_ratio": 1.1771384762747636, "example_words": [] }, { "step": 8058, "pair": [ "बेमे", "तरा" ], "new_token": "बेमेतरा", "frequency": 2, "vocab_size": 8341, "learned_vocab_size": 8058, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8059, "pair": [ "कोंडा", "गाँव" ], "new_token": "कोंडागाँव", "frequency": 2, "vocab_size": 8342, "learned_vocab_size": 8059, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8060, "pair": [ "मुंगे", "ली" ], "new_token": "मुंगेली", "frequency": 2, "vocab_size": 8343, "learned_vocab_size": 8060, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8061, "pair": [ "सु", "कमा" ], "new_token": "सुकमा", "frequency": 2, "vocab_size": 8344, "learned_vocab_size": 8061, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8062, "pair": [ "द्वि", "पक्षी" ], "new_token": "द्विपक्षी", "frequency": 2, "vocab_size": 8345, "learned_vocab_size": 8062, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8063, "pair": [ "द्विपक्षी", "य" ], "new_token": "द्विपक्षीय", "frequency": 2, "vocab_size": 8346, "learned_vocab_size": 8063, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8064, "pair": [ "गे", "न" ], "new_token": "गेन", "frequency": 2, "vocab_size": 8347, "learned_vocab_size": 8064, "compression_ratio": 1.177142763489754, "example_words": [] }, { "step": 8065, "pair": [ "गोसाई", "ं" ], "new_token": "गोसाईं", "frequency": 2, "vocab_size": 8348, "learned_vocab_size": 8065, "compression_ratio": 1.1771491943707935, "example_words": [] }, { "step": 8066, "pair": [ "बर्ष", "ों" ], "new_token": "बर्षों", "frequency": 2, "vocab_size": 8349, "learned_vocab_size": 8066, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 8067, "pair": [ "धु", "न" ], "new_token": "धुन", "frequency": 2, "vocab_size": 8350, "learned_vocab_size": 8067, "compression_ratio": 1.1771556253220987, "example_words": [] }, { "step": 8068, "pair": [ "मुत्ता", "हि" ], "new_token": "मुत्ताहि", "frequency": 2, "vocab_size": 8351, "learned_vocab_size": 8068, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 8069, "pair": [ "मुत्ताहि", "दा" ], "new_token": "मुत्ताहिदा", "frequency": 2, "vocab_size": 8352, "learned_vocab_size": 8069, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 8070, "pair": [ "तर", "क़्" ], "new_token": "तरक़्", "frequency": 2, "vocab_size": 8353, "learned_vocab_size": 8070, "compression_ratio": 1.1771642000331435, "example_words": [] }, { "step": 8071, "pair": [ "तरक़्", "क़" ], "new_token": "तरक़्क़", "frequency": 2, "vocab_size": 8354, "learned_vocab_size": 8071, "compression_ratio": 1.1771684874355113, "example_words": [] }, { "step": 8072, "pair": [ "तरक़्क़", "ी" ], "new_token": "तरक़्क़ी", "frequency": 2, "vocab_size": 8355, "learned_vocab_size": 8072, "compression_ratio": 1.1771727748691099, "example_words": [] }, { "step": 8073, "pair": [ "म", "जदूर" ], "new_token": "मजदूर", "frequency": 2, "vocab_size": 8356, "learned_vocab_size": 8073, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 8074, "pair": [ "जन्न", "त" ], "new_token": "जन्नत", "frequency": 2, "vocab_size": 8357, "learned_vocab_size": 8074, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 8075, "pair": [ "बलो", "च" ], "new_token": "बलोच", "frequency": 2, "vocab_size": 8358, "learned_vocab_size": 8075, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 8076, "pair": [ "जमी", "यत" ], "new_token": "जमीयत", "frequency": 2, "vocab_size": 8359, "learned_vocab_size": 8076, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 8077, "pair": [ "मु", "हा" ], "new_token": "मुहा", "frequency": 2, "vocab_size": 8360, "learned_vocab_size": 8077, "compression_ratio": 1.1771770623339397, "example_words": [] }, { "step": 8078, "pair": [ "मुहा", "जिर" ], "new_token": "मुहाजिर", "frequency": 2, "vocab_size": 8361, "learned_vocab_size": 8078, "compression_ratio": 1.1771877811326528, "example_words": [] }, { "step": 8079, "pair": [ "क्रि", "स्" ], "new_token": "क्रिस्", "frequency": 2, "vocab_size": 8362, "learned_vocab_size": 8079, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 8080, "pair": [ "क्रिस्", "चियन" ], "new_token": "क्रिस्चियन", "frequency": 2, "vocab_size": 8363, "learned_vocab_size": 8080, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 8081, "pair": [ "म", "ज़" ], "new_token": "मज़", "frequency": 2, "vocab_size": 8364, "learned_vocab_size": 8081, "compression_ratio": 1.1771920687067943, "example_words": [] }, { "step": 8082, "pair": [ "लाभ", "कारी" ], "new_token": "लाभकारी", "frequency": 2, "vocab_size": 8365, "learned_vocab_size": 8082, "compression_ratio": 1.1772006439487754, "example_words": [] }, { "step": 8083, "pair": [ "एल", "॰" ], "new_token": "एल॰", "frequency": 2, "vocab_size": 8366, "learned_vocab_size": 8083, "compression_ratio": 1.1772006439487754, "example_words": [] }, { "step": 8084, "pair": [ "कार्य", "पालक" ], "new_token": "कार्यपालक", "frequency": 2, "vocab_size": 8367, "learned_vocab_size": 8084, "compression_ratio": 1.177204931616616, "example_words": [] }, { "step": 8085, "pair": [ "ओ", "सी" ], "new_token": "ओसी", "frequency": 2, "vocab_size": 8368, "learned_vocab_size": 8085, "compression_ratio": 1.177204931616616, "example_words": [] }, { "step": 8086, "pair": [ "ओसी", "एलसी" ], "new_token": "ओसीएलसी", "frequency": 2, "vocab_size": 8369, "learned_vocab_size": 8086, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 8087, "pair": [ "ओ", "हा" ], "new_token": "ओहा", "frequency": 2, "vocab_size": 8370, "learned_vocab_size": 8087, "compression_ratio": 1.1772135070459984, "example_words": [] }, { "step": 8088, "pair": [ "ओहा", "यो" ], "new_token": "ओहायो", "frequency": 2, "vocab_size": 8371, "learned_vocab_size": 8088, "compression_ratio": 1.1772199387000253, "example_words": [] }, { "step": 8089, "pair": [ "उपा", "ध्यक्ष" ], "new_token": "उपाध्यक्ष", "frequency": 2, "vocab_size": 8372, "learned_vocab_size": 8089, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 8090, "pair": [ "उपाध्यक्ष", "ों" ], "new_token": "उपाध्यक्षों", "frequency": 2, "vocab_size": 8373, "learned_vocab_size": 8090, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 8091, "pair": [ "लाइब्रेरि", "यन" ], "new_token": "लाइब्रेरियन", "frequency": 2, "vocab_size": 8374, "learned_vocab_size": 8091, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 8092, "pair": [ "सा", "झे" ], "new_token": "साझे", "frequency": 2, "vocab_size": 8375, "learned_vocab_size": 8092, "compression_ratio": 1.1772263704243306, "example_words": [] }, { "step": 8093, "pair": [ "त्रि", "गुणाती" ], "new_token": "त्रिगुणाती", "frequency": 2, "vocab_size": 8376, "learned_vocab_size": 8093, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 8094, "pair": [ "त्रिगुणाती", "तानन्द" ], "new_token": "त्रिगुणातीतानन्द", "frequency": 2, "vocab_size": 8377, "learned_vocab_size": 8094, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 8095, "pair": [ "नै", "ट्स" ], "new_token": "नैट्स", "frequency": 2, "vocab_size": 8378, "learned_vocab_size": 8095, "compression_ratio": 1.1772306582795784, "example_words": [] }, { "step": 8096, "pair": [ "संभ", "ल" ], "new_token": "संभल", "frequency": 2, "vocab_size": 8379, "learned_vocab_size": 8096, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 8097, "pair": [ "अक़ा", "बा" ], "new_token": "अक़ाबा", "frequency": 2, "vocab_size": 8380, "learned_vocab_size": 8097, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 8098, "pair": [ "१९६", "७" ], "new_token": "१९६७", "frequency": 2, "vocab_size": 8381, "learned_vocab_size": 8098, "compression_ratio": 1.177234946166062, "example_words": [] }, { "step": 8099, "pair": [ "१९७", "३" ], "new_token": "१९७३", "frequency": 2, "vocab_size": 8382, "learned_vocab_size": 8099, "compression_ratio": 1.1772392340837816, "example_words": [] }, { "step": 8100, "pair": [ "८", "२" ], "new_token": "८२", "frequency": 2, "vocab_size": 8383, "learned_vocab_size": 8100, "compression_ratio": 1.1772478100129304, "example_words": [] } ], "base_vocab_stats": { "vyanjan": 33, "swar": 11, "matras": 10, "special": 5, "total": 59 }, "training_stats": { "total_merges": 8100, "vocab_size": 8383, "learned_vocab_size": 8100 } }