{ "cells": [ { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "# Import text from dataset.txt\n", "with open('dataset.txt', 'r') as file:\n", " text = file.read()" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'बहुचर्चित एचएएल एम्प्लॉईज सहकारी सोसायटीच्या २००१ ते २०११ या कालावधीत लेखा परीक्षण करताना कसूर केल्याच्या कारणावरून सहकार विभागाने लेखा परीक्षकांना कारणे दाखवा नोटीस बजावली आहे. या संदर्भात सोसायटीच्या सभासदांनी तीन वार्षिक सर्वसाधारण सभांत ठराव मंजूर करून लेखा परीक्षकांवर गुन्हे दाखल करण्याची मागणी सहकार खात्याकडे केली होती. एचएएल सोसायटीत २००१ ते २०१२ या काळात कोटय़वधी रुपयांचा गैरव्यवहार झाल्याचे निष्पन्न झाले आहे. या कार्यकाळात लेखा परीक्षकांनी कायद्याप्रमाणे लेखा परीक्षण करून वेळीच कारवाई केली असती तर भ्रष्टाचार झाला नसता आणि सोसायटी वाचली असती, असे सभासदांचे म्हणणे आहे. सभासदांनी लेखा परीक्षकांवर गुन्हे दाखल करण्याच्या केलेल्या ठरावाची अंमलबजावणी करावी यासाठी एचएएल सोसायटी नवनिर्माण कृती समितीचे समन्वयक प्रवीण तिदमे यांच्या नेतृत्वाखाली नोव्हेंबर महिन्यात जिल्हा उपनिबंधक कार्यालयासमोर उपोषणही केले होते. त्यानंतर जिल्हा विशेष लेखा परीक्षक वर्ग १ सहकारी संस्था यांनी लेखा परीक्षण अहवालाची छाननी केली. त्या पाश्र्वभूमीवर, तुषार बाजीराव पगार (नाशिक), डी. एम. बारस्कर (अहमदनगर), जयंत व्ही. कोळपकर अॅण्ड कंपनी (पुणे), बिपीन जैन (धुळे), सतीष बन्सीलाल संघवी (नाशिक) आणि एस. आर. करवा अॅण्ड कंपनी (नाशिकरोड) यांना कारणे दाखवा नोटिसा बजावल्या आहेत. याची माहिती कृती समितीने दिली. संबंधितांना पाठविलेल्या नोटिसीत लेखा परीक्षण छाननी अहवालात समोर आलेल्या गंभीर मुद्दय़ांचा उल्लेख सहकार विभागाने केला आहे. संचालक मंडळाने २००६ ते ११ या कालावधीत २६.२५ कोटी रुपयांची रक्कम पूर्वपरवानगी न घेता बँक ऑफ महाराष्ट्रमध्ये केलेल्या मुदतठेव गुंतवणुकीत १७ कोटींची अफरातफर व गैरव्यवहाराच्या आक्षेपावर लेखा परीक्षकांनी त्यांच्या अहवाल वर्षांत गुंतवणूक वा मुदत ठेव नूतनीकरणाबाबत कोणतेही शेरे नमूद नाहीत. २११.०१ लाख भागभांडवल परत केले. मात्र भागमूल्यांकनानुसार रक्कम परत करण्याबाबत शेरे नमूद नाहीत, लेखा परीक्षकांनी लेखा परीक्षणावेळी योग्यरीत्या तपासणी करून गुंतवणुकीची खात्री केली नाही, लेखा परीक्षणात तेरीजपत्रक जोडले नसल्याने किती भागभांडवल परत केले आहे याची रक्कम नमूद करता येत नाही अशा विविध बाबी नोटिसीत नमूद करण्यात आल्या आहेत. जिल्हा उपनिबंधकांनी लेखा परीक्षकांना नोटीस बजावत कारवाई सुरू केल्यामुळे सभासदांनी तिचे स्वागत केले आहे. पाच हजार कुटुंबांचा आर्थिक आधार असणारी सोसायटी पुनरुजीवित होईपर्यंत आमचा लढा सुरू राहणार असल्याचे सोसायटी नवनिर्माण कृती समितीने म्हटले आहे.\\n\\nट्युनिस : उत्तर आफ्रिकेतील ट्युनिशिया देशाची राजधानी. लोकसंख्या ६,८५,००० (१९६६). प्राचीन कार्थेजपासून सु.१५ किमी., भूमध्य समुद्राकाठी मोक्याच्या जागी, काहीशा उंच संयोगभूमीवर वसलेले हे शहर सु. १० किमी.वरील हल्क-अल् वाडी (ला गूलेट) या त्याच्या बंदराशी ७ मी. खोल खाडीने जोडलेले आहे. येथील हवामान भूमध्यसामुद्री असून वार्षिक सरासरी तपमान व पर्जन्य अनुक्रमे १७·७° से. व ३७·५ सेंमी. आहे. जुने ट्युनिस कसबा किल्ल्यापासून टेकडीच्या उतारावर वसले असून मदीना हा त्याचा मुख्य भाग आहे. आधुनिक ट्युनिस टेकडी व ट्युनिस सरोवर यांमधील सखल भागावर वसले आहे. येथे प्रशस्त रस्ते, हवेशीर घरे, उंच इमारती व आधुनिक सुखसोयी आहेत. जुन्या भागात अरुंद बोळ, एकमजली बिनखिडक्यांची चौकोनी घरे, \\'सुक\\' नावाचे छपरबंद बाजार, अझ झैतूनासारख्या प्राचीन मशिदी, जुने मुस्लिम विद्यापीठ इ. आहेत. रोमन वास्तुशैलीची स्नानगृहे प्रसिद्ध आहेत. लोकवस्ती फ्रेंच, इटालियन आणि मुस्लिम अशी संमिश्र आहे. ट्युनिसभोवती ऑलिव्ह व इतर भूमध्यसामुद्री फळे व धान्ये पिकतात. गावात पीठगिरण्या, साबण, ऑलिव्ह तेल, फळे डबाबंद करणे, टिकविणे, व सुकविणे, मद्ये, कापड, गालिचे, सिमेंट, बांधकाम साहित्य, धातुशुद्धी, सुपरफॉस्फेटसारखे रासायनिक पदार्थ, खाणीसाठी स्फोटके, यंत्रे, अत्तरे, पादत्राणे, विणलेले कपडे, रेल्वे कर्मशाळा, वीजउद्योग, औष्णिक वीजकेंद्रे इ. कारखाने व उद्योग आहेत. ट्युनिसहून फॉस्फेट, लोहधातुके, फळे, खजूर, ऑलिव्ह तेल, कागदासाठी एस्पार्टो गवत, स्पंज, स्थानिक गालिचे, मातीची भांडी इ. निर्यात होतात. येथे आंतरराष्ट्रीय विमानतळ असून, हे देशातील व शेजारी देशांतील शहरांशी लोहमार्गांनी व सडकांनी जोडलेले आहे. दवाखाने, रुग्णालये, सांस्कृतिक केंद्रे, शाळा, ट्युनिस विद्यापीठ (१९१६), नगरपालिका इ. सोयी आहेत. येथील पर्यटन व्यवसाय वाढत आहे.\\n\\nएखाद्याची अक्कल काढायची असल्यास, त्याची अक्कल घुटण्यात आहे काय? एखाद्याची अक्कल काढायची असल्यास, त्याची अक्कल घुटण्यात आहे काय? असा शब्दप्रयोग सर्रास केला जातो किंवा कुणाला शरणागती पत्करण्यास भाग पाडले तरी \\'त्याला गुडघे टेकायला लावले\\', असे आम्ही मोठ्या अभिमानाने सांगत असतो. तर असा हा \\'घुटणा\\' म्हणजेच गुडघा मानवी शरीरातील अत्यंत महत्त्वाचा भाग. गुडघा निकामी झाला की माणसाचे चालणेच थांबते. अशा वेळी मग कृत्रिम गुडघा बसविण्याशिवाय दुसरा पर्याय त्याच्याकडे नसतो. एरवी या गुडघ्याच्या प्रत्यारोपणाचा अवाढव्य खर्च आणि रुग्णांची होणारी लुटमार बघितली की मग कुणाच्याही घुटण्यात आल्याशिवाय राहत नाही. मात्र यापुढे तशी गरज पडणार नाही. कारण केंद्र शासनाने आता गुडघे प्रत्यारोपण शस्त्रक्रियेसाठीच्या दरांवर नियंत्रण आणण्याचा निर्णय घेतला आहे. त्यामुळे या शस्त्रक्रियेवरील खर्च जवळपास ७० टक्क्यांनी कमी होण्याची शक्यता असून, समस्त गुडघाग्रस्तांसाठी ही आनंदाची वार्ता आहे. राष्टÑीय औषध दर नियंत्रण प्राधिकरणाने (एनपीपीए) गुडघ्यांच्या शस्त्रक्रियेमध्ये रुग्णांची होणारी लुबाडणूक थांबविण्याकरिता रुग्णालये, वितरक तसेच आयातदारांच्या नफेखोरीचे आकडे गेल्या आठवड्यात उघडकीस आणले होते. या शस्त्रक्रियेत तब्बल ३०० टक्क्यांहून अधिक नफा कमावला जात असल्याचे एनपीपीएने लक्षात आणून दिले आहे. मुख्य म्हणजे पंतप्रधान नरेंद्र मोदी यांनी स्वातंत्र्यदिनाच्या आपल्या भाषणात हृदयरुग्णांसाठीच्या स्टेंटस्प्रमाणे गुडघा प्रत्यारोपण शस्त्रक्रिया स्वस्त करण्याचा मुद्दा मांडला होता. त्यानंतर हालचालींना वेग आला. हा निर्णय निश्चितच स्वागतार्ह आणि रुग्णांना मोठा दिलासा देणारा आहे. अपघात, बदलती जीवनशैली, व्यायामाचा अभाव आदी कारणांमुळे आज अस्थिरोग आणि प्रामुख्याने गुडघ्यांचे आजार प्रचंड वाढले आहेत. देशात आजमितीस दीड ते दोन कोटी लोकांना गुडघा प्रत्यारोपणाची गरज आहे. परंतु केवळ सव्वा ते दीड लाखच शस्त्रक्रिया होत असतात. कारण यासाठी चार ते पाच लाख रुपये खर्च येत असल्याने अनेकदा रुग्णांना ते आर्थिकदृष्ट्या परवडत नसते. परंतु आता किमती घसरल्याने ते शक्य होणार आहे. केंद्र शासनाने यावर्षीच्या प्रारंभी नवे आरोग्य धोरण जाहीर केले होते. या धोरणात ज्या महत्त्वाच्या पैलूंवर लक्ष केंद्रित करण्यात आले त्यात जनतेला आरोग्यसेवेवर कराव्या लागणाºया खर्चात कपात प्रमुख होती. त्यादिशेने वाटचाल सुरू झाली आहे, असे समजण्यास हरकत नाही.\\n\\nनागपूरः राज्याचे विद्यमान अन्न व औषधी प्रशासन मंत्री संजय राठोड हे भाजप-शिवसेना सरकारमध्ये महसूल राज्यमंत्री असताना त्यांनी वाशिम जिल्ह्यातील कारंजा लाड येथील गायरानाची २५ कोटी रुपये किमतीची तब्बल १० एकर जमीन दोन व्यक्तींना वाटप केल्याचे नवे प्रकरण समोर आले. तत्कालीन जिल्हाधिकारी लक्ष्मीनारायण मिश्रा यांनी या जमिनीच्या प्रकरणात बनावट कागदपत्रे सादर करणाऱ्या व्यक्तींविरुद्ध फौजदारी गुन्हे दाखल करावेत आणि ही जमीन सरकारजमा करावी असे सुस्पष्ट आदेश दिले होते; पण ते डावलून राठोड यांनी काळी कारंजामधील पाच एकर जमीन ही युनूस अय्युब अन्सारी यांना, तर पाच एकर जमीन ही रोहित राधेश्याम लाहोटी यांना दिली. दोन्ही आदेश त्यांनी एकाच दिवशी म्हणजे ७ ऑगस्ट २०१९ रोजी पारित केले. \\'लोकमत\\'ने मंगळवारी सावरगावची ५ एकर जमीन खासगी व्यक्तीच्या नावे केल्याचे प्रकरण उघडकीस आणले. या प्रकरणावर संजय राठोड यांचे दोन्ही मोबाइल स्विच ऑफ होते. मंत्रिमहोदयांची प्रकृती बरी नसल्याचे त्यांचे स्वीय सचिव म्हणाले. - बेकायदा जमीन वाटपप्रकरणी सोमवारी कामकाज रोखून धरणाऱ्या विरोधकांनी मंगळवारी मात्र या मुद्द्यावर मौन बाळगल्याने आश्चर्य व्यक्त केले जात आहे. - कृषिमंत्री अब्दुल सत्तार सभागृहात असूनही विरोधी पक्षाने त्यांच्या राजीनाम्याच्या मागणीला स्पर्श केला नाही. सत्तापक्ष आणि विरोधक यांच्यात या विषयावर काही समझौता तर झाला नाही ना, अशी चर्चाही विधानभवन परिसरात रंगली होती. सर्व ठळक बातम्यांसाठी जरूर वाचा महाराष्ट्रातील अव्वल मराठी वेबसाईट \"लोकमत डॉट कॉम\"\\n\\nसोलापूर : निर्यातक्षम केळी तोडणे, ती व्यवस्थित ठेवणे आणि कंटेनरमध्ये भरणे आदी कामांमध्ये पश्चिम बंगालच्या मजुरांचे कौशल्य असून कोरोना साथीमुळे गावी गेलेल्या या मजुरांना जिल्ह्यात परत येण्यासाठी परवानगी द्यावी, अशी मागणी करमाळा येथील केळी निर्यातदारांनी केली आहे. हे कामगार राज्यात परत गेल्याने स्थानिक कामगारांना हे काम देण्यात आले; पण त्यांच्याकडून निर्यातक्षम प्रत राखण्यात अडचणी येत असल्याची कैफियत या निर्यातदारांनी व्हिडिओ कॉन्फरन्सद्वारे जिल्हाधिकाºयापुढे मांडली आहे. कोरोनाचा प्रादुर्भाव सुरू झाल्यानंतर करमाळा तालुक्यातील कंदर, माळशिरस व माढा तालुक्यातील परराज्यातील कामगार रेल्वेची सुविधा उपलब्ध झाल्यानंतर आपल्या राज्यात परत गेले आहेत. परंतु कोरोना प्रादुर्भावाच्या सुरुवातीच्या टप्प्यामध्ये सोलापूरमधून अफगाणिस्थान, इराण, ओमान, सौदीअरेबिया व नेदरलॅण्ड या देशांमध्ये ५३८ मे. टनपर्यंत केळीची निर्यात झालेली आहे. परराज्यातील कामगार स्थलांतरित झाल्यानंतर स्थानिक कामगारांना निर्यात साखळीमध्ये घेऊन काम पुढे सुरू ठेवण्याचा प्रयत्न स्थानिक निर्यातदारांनी केलेला आहे. पण स्थानिक कामगारांकडून निर्यातक्षम प्रत राखण्यात अडचणी येत असल्याने निर्यातीवर परिणाम होत असल्याची तक्रार निर्यातदारांनी केली आहे. या पार्श्वभूमीवर जिल्हाधिकारी मिलिंद शंभरकर यांनी केळी निर्यातदारांशी व्हिडिओ कॉन्फरन्सद्वारे चर्चा केली. यामध्ये अजहर पठाण, अजित ओतारी, नीलेश काळे, किरण डोके, विष्णू पोळ या प्रतिनिधींनी भाग घेतला. निर्यातीमध्ये केळी काढणीपासून ते कंटेनरमध्ये भरेपर्यंत शक्यतो पश्चिम बंगालमधील कामगारांमार्फत सर्व प्रक्रिया पूर्ण केली जात होती. यामध्ये केळी झाडावरून उतरविणे, ती साफ करणे, केळीच्या फण्या वेगळ्या करणे, डंपिंग करणे, परत स्वच्छ करणे व हवाबंद प्लास्टिक बॅगमध्ये पॅक करून ती कर्टन बॉक्समध्ये ठेवणे व कंटेनरमध्ये भरणे अशी संपूर्ण प्रक्रिया करण्यास त्यांना दीड रुपया प्रति किलो मजुरी दिली जाते. हे कामगार दरवर्षी सणांदरम्यान मूळगावी परतात. त्यांच्या एका समूहामध्ये २० लोक असतात. प्रतिकिलोप्रमाणे मजुरी असल्याने पहाटेपासून केळीचे घड उतरविण्यापासून ते कंटेनरमध्ये भरण्यापर्यंत काम करण्याची त्यांची तयारी असते. पण स्थानिक कामगारांना वेळेचे बंधन व अंगावर घेऊन काम करण्याची तयारी नसल्याची अडचण होत असल्याच्या तक्रारी मांडल्या. त्यामुळे पश्चिम बंगालमधील कर्मचाºयांना परत बोलावण्यास परवानगी द्यावी, अशी मागणी केली. स्थानिक कामगार केळी निर्यात साखळीमध्ये काम करण्यास अकुशल आहेत. त्यांच्या कामाचे तास सकाळी १० ते सायंकाळी ६ पर्यंतच आहे. त्यांना प्रशिक्षित केल्यानंतर इतर निर्यातदारांकडे कामासाठी जाण्याचे प्रमाण जास्त आहे. प्रति किलोमागे मजुरी दरामध्ये वाढ करावी, अशी अपेक्षा असल्याने उत्पादन खर्चात वाढ होत आहे. कोरोना प्रादुर्भावामुळे पुणे-मुंबईसारख्या शहरातील परत आलेले कामगार या साखळीत काम करीत आहेत. कोरोना प्रादुर्भाव संपल्यानंतर पश्चिम बंगालचे कामगार कामावर येण्याची शक्यता आहे. स्थानिक कामगारांमार्फत निर्यातक्षम केळीची प्रत निर्यात साखळीमध्ये राखली जात नाही, असे व्यापाºयांचे म्हणणे आहे. जिल्ह्यातील केळी लागवडीच्या पट्ट्यामध्ये प्रगतिशील शेतकºयांच्या माध्यमातून स्थानिक कामगारांना प्रशिक्षित करण्याचे नियोजन आहे. सध्या परराज्याच्या कामगारांना परत केळी निर्यात पट्ट्यामध्ये आणून त्यांच्या समूहामध्ये स्थानिक कामगारांचा समावेश करण्यात येणार आहे. - रवींद्र माने,\\n'" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "text" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "tokens = text.encode(\"utf-8\") # raw bytes\n", "tokens = list(map(int, tokens)) # convert to a list of integers in range 0..255 for convenience" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "tokens length: 27038\n", "ids length: 3776\n", "compression ratio: 7.16X\n" ] } ], "source": [ "def get_stats(ids: list[int]) -> dict[tuple[int, int], int]:\n", " \"\"\"\n", " Get the frequency of each pair of tokens in the list\n", " :param ids: list of integers\n", " :return: dictionary of pairs and their frequencies\n", " \"\"\"\n", " counts = {}\n", " for pair in zip(ids, ids[1:]):\n", " counts[pair] = counts.get(pair, 0) + 1\n", " return counts\n", "\n", "\n", "def merge(ids: list[int], pair: tuple[int, int], idx: int) -> list[int]:\n", " \"\"\"\n", " Merge the pair of tokens into a new token\n", " :param ids: list of integers\n", " :param pair: tuple of integers\n", " :param idx: integer\n", " :return: list of integers\n", " \"\"\"\n", " newids = []\n", " i = 0\n", " \n", " while i < len(ids):\n", " if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:\n", " newids.append(idx)\n", " i += 2\n", " else:\n", " newids.append(ids[i])\n", " i += 1\n", " return newids\n", "\n", "# ---\n", "vocab_size = 1000 # the desired final vocabulary size\n", "num_merges = vocab_size - 256\n", "ids = list(tokens) # copy so we don't destroy the original list\n", "\n", "merges = {} # (int, int) -> int\n", "for i in range(num_merges):\n", " stats = get_stats(ids)\n", " pair = max(stats, key=stats.get)\n", " idx = 256 + i\n", " # print(f\"merging {pair} into a new token {idx}\")\n", " ids = merge(ids, pair, idx)\n", " merges[pair] = idx\n", "\n", "print(\"tokens length:\", len(tokens))\n", "print(\"ids length:\", len(ids))\n", "print(f\"compression ratio: {len(tokens) / len(ids):.2f}X\")" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "def encode(text):\n", " # given a string, return list of integers (the tokens)\n", " tokens = list(text.encode(\"utf-8\"))\n", " while len(tokens) >= 2:\n", " stats = get_stats(tokens)\n", " pair = min(stats, key=lambda p: merges.get(p, float(\"inf\")))\n", " if pair not in merges:\n", " break # nothing else can be merged\n", " idx = merges[pair]\n", " tokens = merge(tokens, pair, idx)\n", " return tokens\n", "\n", "vocab = {idx: bytes([idx]) for idx in range(256)}\n", "for (p0, p1), idx in merges.items():\n", " vocab[idx] = vocab[p0] + vocab[p1]\n", "\n", "def decode(ids):\n", " # given ids (list of integers), return Python string\n", " tokens = b\"\".join(vocab[idx] for idx in ids)\n", " text = tokens.decode(\"utf-8\", errors=\"replace\")\n", " return text\n" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "True\n" ] } ], "source": [ "text2 = decode(encode(text))\n", "print(text2 == text)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0: \u0000\n", "1: \u0001\n", "2: \u0002\n", "3: \u0003\n", "4: \u0004\n", "5: \u0005\n", "6: \u0006\n", "7: \u0007\n", "8:\n", "9: \t\n", "10: \n", "\n", "11: \u000b\n", "12: \f\n", "13: \n", "14: \u000e\n", "15: \u000f\n", "16: \u0010\n", "17: \u0011\n", "18: \u0012\n", "19: \u0013\n", "20: \u0014\n", "21: \u0015\n", "22: \u0016\n", "23: \u0017\n", "24: \u0018\n", "25: \u0019\n", "26: \u001a\n", "27: \u001b\n", "28: \u001c\n", "29: \u001d\n", "30: \u001e\n", "31: \u001f\n", "32: \n", "33: !\n", "34: \"\n", "35: #\n", "36: $\n", "37: %\n", "38: &\n", "39: '\n", "40: (\n", "41: )\n", "42: *\n", "43: +\n", "44: ,\n", "45: -\n", "46: .\n", "47: /\n", "48: 0\n", "49: 1\n", "50: 2\n", "51: 3\n", "52: 4\n", "53: 5\n", "54: 6\n", "55: 7\n", "56: 8\n", "57: 9\n", "58: :\n", "59: ;\n", "60: <\n", "61: =\n", "62: >\n", "63: ?\n", "64: @\n", "65: A\n", "66: B\n", "67: C\n", "68: D\n", "69: E\n", "70: F\n", "71: G\n", "72: H\n", "73: I\n", "74: J\n", "75: K\n", "76: L\n", "77: M\n", "78: N\n", "79: O\n", "80: P\n", "81: Q\n", "82: R\n", "83: S\n", "84: T\n", "85: U\n", "86: V\n", "87: W\n", "88: X\n", "89: Y\n", "90: Z\n", "91: [\n", "92: \\\n", "93: ]\n", "94: ^\n", "95: _\n", "96: `\n", "97: a\n", "98: b\n", "99: c\n", "100: d\n", "101: e\n", "102: f\n", "103: g\n", "104: h\n", "105: i\n", "106: j\n", "107: k\n", "108: l\n", "109: m\n", "110: n\n", "111: o\n", "112: p\n", "113: q\n", "114: r\n", "115: s\n", "116: t\n", "117: u\n", "118: v\n", "119: w\n", "120: x\n", "121: y\n", "122: z\n", "123: {\n", "124: |\n", "125: }\n", "126: ~\n", "127: \n", "128: �\n", "129: �\n", "130: �\n", "131: �\n", "132: �\n", "133: �\n", "134: �\n", "135: �\n", "136: �\n", "137: �\n", "138: �\n", "139: �\n", "140: �\n", "141: �\n", "142: �\n", "143: �\n", "144: �\n", "145: �\n", "146: �\n", "147: �\n", "148: �\n", "149: �\n", "150: �\n", "151: �\n", "152: �\n", "153: �\n", "154: �\n", "155: �\n", "156: �\n", "157: �\n", "158: �\n", "159: �\n", "160: �\n", "161: �\n", "162: �\n", "163: �\n", "164: �\n", "165: �\n", "166: �\n", "167: �\n", "168: �\n", "169: �\n", "170: �\n", "171: �\n", "172: �\n", "173: �\n", "174: �\n", "175: �\n", "176: �\n", "177: �\n", "178: �\n", "179: �\n", "180: �\n", "181: �\n", "182: �\n", "183: �\n", "184: �\n", "185: �\n", "186: �\n", "187: �\n", "188: �\n", "189: �\n", "190: �\n", "191: �\n", "192: �\n", "193: �\n", "194: �\n", "195: �\n", "196: �\n", "197: �\n", "198: �\n", "199: �\n", "200: �\n", "201: �\n", "202: �\n", "203: �\n", "204: �\n", "205: �\n", "206: �\n", "207: �\n", "208: �\n", "209: �\n", "210: �\n", "211: �\n", "212: �\n", "213: �\n", "214: �\n", "215: �\n", "216: �\n", "217: �\n", "218: �\n", "219: �\n", "220: �\n", "221: �\n", "222: �\n", "223: �\n", "224: �\n", "225: �\n", "226: �\n", "227: �\n", "228: �\n", "229: �\n", "230: �\n", "231: �\n", "232: �\n", "233: �\n", "234: �\n", "235: �\n", "236: �\n", "237: �\n", "238: �\n", "239: �\n", "240: �\n", "241: �\n", "242: �\n", "243: �\n", "244: �\n", "245: �\n", "246: �\n", "247: �\n", "248: �\n", "249: �\n", "250: �\n", "251: �\n", "252: �\n", "253: �\n", "254: �\n", "255: �\n", "256: �\n", "257: �\n", "258: �\n", "259: ा\n", "260: ा�\n", "261: ्\n", "262: ्�\n", "263: े\n", "264: ी\n", "265: र\n", "266: ्य\n", "267: ��\n", "268: ि\n", "269: ी �\n", "270: ा �\n", "271: ल\n", "272: त\n", "273: क\n", "274: े �\n", "275: ्या�\n", "276: ण\n", "277: ु\n", "278: ो\n", "279: क\n", "280: स\n", "281: न\n", "282: ार\n", "283: म\n", "284: ं�\n", "285: ्र\n", "286: व\n", "287: ां�\n", "288: ह\n", "289: . �\n", "290: , �\n", "291: े�\n", "292: ु�\n", "293: ्या �\n", "294: ध\n", "295: स\n", "296: य\n", "297: ू�\n", "298: �र\n", "299: ेल\n", "300: �ह\n", "301: ात\n", "302: च\n", "303: ो�\n", "304: �हे\n", "305: �्र\n", "306: ाव\n", "307: ान\n", "308: ाम\n", "309: र �\n", "310: क्�\n", "311: द\n", "312: ्यात\n", "313: त �\n", "314: ाल\n", "315: ांन\n", "316: रण\n", "317: ्याच\n", "318: िक\n", "319: ग\n", "320: �स\n", "321: श\n", "322: र्�\n", "323: ्ह\n", "324: ाच\n", "325: प\n", "326: ंत\n", "327: ज\n", "328: व\n", "329: ास\n", "330: ून\n", "331: क्ष\n", "332: ाग\n", "333: ड\n", "334: �\n", "335: ील\n", "336: ध्य\n", "337: �हे. �\n", "338: �ि\n", "339: ी क\n", "340: स्�\n", "341: आ\n", "342: े, �\n", "343: े क\n", "344: ाय\n", "345: ीच\n", "346: िल\n", "347: ०\n", "348: त\n", "349: �ा �\n", "350: म\n", "351: ी स\n", "352: �ो\n", "353: ्व\n", "354: ाह\n", "355: ्यां�\n", "356: र\n", "357: ब\n", "358: ुन\n", "359: �िर\n", "360: �िर्यात\n", "361: ा पर\n", "362: भ\n", "363: ाख\n", "364: ीन\n", "365: ्यान\n", "366: गार\n", "367: िम\n", "368: ध्ये �\n", "369: ट\n", "370: �े�\n", "371: ू\n", "372: ंद\n", "373: करण\n", "374: ांच\n", "375: ेळ\n", "376: ाठ\n", "377: ित\n", "378: घ\n", "379: ामगार\n", "380: �ेख\n", "381: ी म\n", "382: ी. �\n", "383: ्थ\n", "384: अ\n", "385: ळ\n", "386: १\n", "387: �ेखा पर\n", "388: �ेखा परी\n", "389: �ेखा परीक्ष\n", "390: केल\n", "391: प\n", "392: ांना �\n", "393: ाण\n", "394: ी व\n", "395: े स\n", "396: े. �\n", "397: ाज\n", "398: पर\n", "399: ब\n", "400: ोट\n", "401: ाळ\n", "402: ्ट\n", "403: ृ\n", "404: िय\n", "405: स्त\n", "406: कर\n", "407: ी त\n", "408: �ोत\n", "409: ष\n", "410: ी अ\n", "411: िस\n", "412: �हेत\n", "413: �ु�\n", "414: ग\n", "415: ्यांच\n", "416: ुर\n", "417: �सल\n", "418: ेश\n", "419: क्र\n", "420: े आ\n", "421: ुड\n", "422: ुडघ\n", "423: कामगार\n", "424: ए\n", "425: २\n", "426: े द\n", "427: ीच्या �\n", "428: ार �\n", "429: �ाल\n", "430: ी, �\n", "431: ी न\n", "432: ज\n", "433: (\n", "434: आण\n", "435: �हेत. �\n", "436: फ\n", "437: ह\n", "438: त्�\n", "439: ोन\n", "440: ्थान\n", "441: ्थानिक\n", "442: श\n", "443: मध्ये �\n", "444: या �\n", "445: ा क\n", "446: िल्ह\n", "447: य\n", "448: क्क\n", "449: ेव\n", "450: न\n", "451: �ाग\n", "452: िव\n", "453: दार\n", "454: ाद\n", "455: ्ण\n", "456: ाढ\n", "457: द\n", "458: ा प्र\n", "459: ंग\n", "460: केळ\n", "461: र्च\n", "462: ॉ\n", "463: साय\n", "464: ्याच्या �\n", "465: �ेखा परीक्षक\n", "466: ै\n", "467: ्याचे �\n", "468: न्�\n", "469: े आहे. �\n", "470: कार\n", "471: े म\n", "472: ी य\n", "473: प्र\n", "474: ोड\n", "475: ोग\n", "476: वि\n", "477: ्युन\n", "478: ोक\n", "479: ख\n", "480: ंत्र\n", "481: ी ज\n", "482: ्यास\n", "483: क्रिय\n", "484: ्थानिक कामगार\n", "485: ए\n", "486: ोसाय\n", "487: ोसायट\n", "488: २०\n", "489: ार्�\n", "490: ाध\n", "491: ून �\n", "492: ीत\n", "493: ी र\n", "494: �सत\n", "495: ता �\n", "496: ृत\n", "497: ी केल\n", "498: ्यानंत\n", "499: �ि\n", "500: १\n", "501: ुक\n", "502: ाब\n", "503: मू�\n", "504: ले �\n", "505: ा स\n", "506: �हे.\n", "507: ्युनिस\n", "508: �े\n", "509: ंद्र\n", "510: ुग\n", "511: ुग्ण\n", "512: �ुडघ\n", "513: कार\n", "514: �ेखा परीक्षण\n", "515: ूर\n", "516: ा न\n", "517: ीस\n", "518: ंज\n", "519: १�\n", "520: ्हण\n", "521: ेल्या �\n", "522: र ज\n", "523: ाश\n", "524: ूम\n", "525: , स\n", "526: आणि\n", "527: ठ\n", "528: ्यांच्या �\n", "529: करण\n", "530: को\n", "531: ांड\n", "532: ेत �\n", "533: ुट\n", "534: ्यंत\n", "535: त्त\n", "536: ाड\n", "537: ेथ\n", "538: �सून\n", "539: �्युनिस\n", "540: आहे. �\n", "541: ौ\n", "542: े व\n", "543: े प\n", "544: विण\n", "545: ाप\n", "546: ेंद्र\n", "547: ी ल\n", "548: ण्यात\n", "549: �श\n", "550: �ण\n", "551: स्त्र\n", "552: स्त्रक्रिय\n", "553: श्�\n", "554: श्च\n", "555: ्यातील\n", "556: मीन\n", "557: �िर्यातदार\n", "558: ित �\n", "559: ारण\n", "560: ावर\n", "561: वि\n", "562: े दाख\n", "563: ावल\n", "564: र्भ\n", "565: राव\n", "566: �र �\n", "567: ागण\n", "568: �ड\n", "569: कोट\n", "570: ुप\n", "571: ुपय\n", "572: झाल\n", "573: ात �\n", "574: ांनी �\n", "575: ाठी �\n", "576: नि\n", "577: ेत\n", "578: ें�\n", "579: ा उ\n", "580: ीव\n", "581: ी.\n", "582: ॅ\n", "583: ंप\n", "584: �ुद\n", "585: ्द\n", "586: ा आहे. �\n", "587: घ\n", "588: ाष\n", "589: ीं�\n", "590: र व\n", "591: ल\n", "592: भाग\n", "593: सल\n", "594: ा व\n", "595: ुरू\n", "596: उ\n", "597: िश\n", "598: ुद\n", "599: ख\n", "600: �ेथ\n", "601: ्याप\n", "602: ा त\n", "603: ांम\n", "604: े,\n", "605: ी द\n", "606: ्याची अ\n", "607: त्या�\n", "608: ेच\n", "609: ्यांन\n", "610: ्याने �\n", "611: º\n", "612: ºय\n", "613: �्रकरण\n", "614: जुर\n", "615: कोर\n", "616: कोरोन\n", "617: काम\n", "618: ्प\n", "619: सह\n", "620: सहकार\n", "621: ्या\n", "622: ते\n", "623: ीत �\n", "624: ी आहे. �\n", "625: सोसायट\n", "626: भास\n", "627: भासद\n", "628: र्व\n", "629: ांत\n", "630: करण्याच\n", "631: े केल\n", "632: �ोती. �\n", "633: ़\n", "634: रव\n", "635: ्यव\n", "636: �्रम\n", "637: �्रमाण\n", "638: ी असत\n", "639: र्म\n", "640: ी सम\n", "641: �ह\n", "642: िन\n", "643: ंध\n", "644: �ोते. �\n", "645: , त\n", "646: ), �\n", "647: ी (\n", "648: ुण\n", "649: न्स\n", "650: र आ\n", "651: ६\n", "652: ५\n", "653: पर\n", "654: ानग\n", "655: ाष्ट\n", "656: ७\n", "657: रात\n", "658: ाच्या �\n", "659: �ेव\n", "660: ी श\n", "661: मूद\n", "662: ात्र\n", "663: पास\n", "664: ीची �\n", "665: �ाह\n", "666: आल\n", "667: �िल्ह\n", "668: �ुळ\n", "669: िच\n", "670: णार\n", "671: ी प\n", "672: णार �\n", "673: \n", "\n", "\n", "674: ा द\n", "675: ोल\n", "676: लेल\n", "677: सर\n", "678: धील\n", "679: डक\n", "680: '\n", "681: शि\n", "682: ्ध\n", "683: ात. �\n", "684: द्य\n", "685: �ुग्ण\n", "686: केंद्र\n", "687: ्याची अक्क\n", "688: ्याची अक्कल\n", "689: गुडघ\n", "690: ाचा �\n", "691: त्यार\n", "692: त्यारो�\n", "693: त्यारोपण\n", "694: ी ग\n", "695: ण्याच\n", "696: र्ण\n", "697: क्य\n", "698: ाधिक\n", "699: पी\n", "700: �ोत �\n", "701: ाºय\n", "702: ाट\n", "703: एक\n", "704: एकर ज\n", "705: एकर जमीन\n", "706: ्यक्�\n", "707: ्यक्त\n", "708: ्याम\n", "709: �िर्यातक्ष\n", "710: �िर्यातक्षम\n", "711: ंटे\n", "712: ंटेन\n", "713: ंटेनर\n", "714: ंटेनरमध्ये �\n", "715: ंटेनरमध्ये भ\n", "716: श्चिम\n", "717: श्चिम ब\n", "718: श्चिम बंग\n", "719: श्चिम बंगाल\n", "720: परत �\n", "721: �िर्यातदारांन\n", "722: े कामगार\n", "723: ्थानिक कामगारांना �\n", "724: ा प्राद\n", "725: ा प्रादु\n", "726: ा प्रादुर्भ\n", "727: ा प्रादुर्भाव\n", "728: ाखळ\n", "729: ून त\n", "730: �र्च\n", "731: �च\n", "732: �चए\n", "733: �चएए\n", "734: �चएएल\n", "735: ्ल\n", "736: २००\n", "737: या क\n", "738: ्याच्या क\n", "739: भाग\n", "740: ाने �\n", "741: ांनी त\n", "742: ांवर �\n", "743: ुन्ह\n", "744: ुन्हे दाख\n", "745: ुन्हे दाखल\n", "746: ी मागण\n", "747: ्याकड\n", "748: ी रुपय\n", "749: ांनी क\n", "750: ाई\n", "751: ष्ट\n", "752: �ण\n", "753: �से स\n", "754: ासाठी �\n", "755: ी नव\n", "756: कृत\n", "757: ी समित\n", "758: ण त\n", "759: ांच्या �\n", "760: ोव\n", "761: जिल्ह\n", "762: ा उप\n", "763: मो\n", "764: हव\n", "765: हवाल\n", "766: भूम\n", "767: भूमीव\n", "768: नाश\n", "769: नाशिक\n", "770: अ\n", "771: ोळ\n", "772: ॅण\n", "773: ॅण्�\n", "774: ॅण्ड\n", "775: ुळ\n", "776: ोटिस\n", "777: ी. स\n", "778: ंब\n", "779: ंभ\n", "780: �ुद्द\n", "781: ंच\n", "782: क्कम\n", "783: वानग\n", "784: ऑ\n", "785: ाष्ट्र\n", "786: मध्य\n", "787: गु\n", "788: गुंत\n", "789: गुंतव\n", "790: गुंतवण\n", "791: ावर �\n", "792: र्ष\n", "793: े न\n", "794: नाह\n", "795: लाख\n", "796: परत\n", "797: सार\n", "798: ोग्य\n", "799: री\n", "800: त्र\n", "801: केले �\n", "802: करण्यात\n", "803: सुरू\n", "804: ्यामुळ\n", "805: ागत\n", "806: ा ल\n", "807: �सल्याच\n", "808: ट\n", "809: धान\n", "810: ००\n", "811: १९\n", "812: �ूम\n", "813: �ूमध्य\n", "814: ुद्र\n", "815: १०\n", "816: ी �\n", "817: �ेथील\n", "818: मान\n", "819: ७�\n", "820: �ुन\n", "821: �ेक\n", "822: े प्र\n", "823: इ\n", "824: ुख\n", "825: �क\n", "826: ली �\n", "827: ी घ\n", "828: ाचे �\n", "829: ुस्�\n", "830: ीठ\n", "831: ोम\n", "832: न व\n", "833: ुश\n", "834: ैल\n", "835: आहेत. �\n", "836: �ल\n", "837: �लिव\n", "838: �लिव्ह\n", "839: �ळ\n", "840: विणे, �\n", "841: ा, �\n", "842: �ष\n", "843: ोह\n", "844: ीय\n", "845: ांस\n", "846: वाढ\n", "847: ी असल\n", "848: ुटण्यात\n", "849: ा ज\n", "850: . त\n", "851: म्हण\n", "852: खर्च\n", "853: ांची �\n", "854: ुढ\n", "855: ासन\n", "856: शस्त्रक्रिय\n", "857: �र\n", "858: �िय\n", "859: �स्त्रक्रिय\n", "860: रक\n", "861: वड\n", "862: ्यानंतर �\n", "863: ींन\n", "864: स्व\n", "865: �ाम\n", "866: ीड\n", "867: �रंत\n", "868: �रंतु\n", "869: �सल्याने �\n", "870: कराव\n", "871: ण्यास\n", "872: राज\n", "873: राठ\n", "874: राठोड\n", "875: वार\n", "876: -\n", "877: रो\n", "878: रोध\n", "879: �्यांच्या �\n", "880: कॉ\n", "881: ि क\n", "882: ंटेनरमध्ये भरण\n", "883: ्यात परत �\n", "884: ी, अश\n", "885: केळी �\n", "886: �िर्यातदारांनी केल\n", "887: े काम\n", "888: �ाख\n", "889: डच\n", "890: डचण\n", "891: राज\n", "892: कोरोना प्रादुर्भाव\n", "893: ्यामध्ये �\n", "894: स्थानिक कामगारांना �\n", "895: �िर्यात स\n", "896: �िर्यात साखळ\n", "897: �िर्यात साखळी\n", "898: होत �\n", "899: �्रत\n", "900: ई\n", "901: सहकारी स\n", "902: २००१\n", "903: २००१ ते\n", "904: २००१ ते २०\n", "905: ११\n", "906: या काल\n", "907: या कालाव\n", "908: या कालावध\n", "909: ीत लेखा परीक्षण\n", "910: सहकार वि\n", "911: सहकार विभाग\n", "912: �ेखा परीक्षकांना �\n", "913: �ारण\n", "914: �ारणे दाख\n", "915: �ारणे दाखव\n", "916: �ारणे दाखवा न\n", "917: ोटीस\n", "918: ोटीस ब\n", "919: ोटीस बज\n", "920: ी आहे. या �\n", "921: ीच्या स\n", "922: भासदांनी त\n", "923: वार्�\n", "924: वार्ष\n", "925: वार्षिक\n", "926: सर्व\n", "927: ठ\n", "928: �ेखा परीक्षकांवर �\n", "929: �ेखा परीक्षकांवर ग\n", "930: �ेखा परीक्षकांवर गुन्हे दाखल\n", "931: �चएएल सोसायट\n", "932: य़\n", "933: ी रुपयांच\n", "934: ा ग\n", "935: ैरव\n", "936: ैरव्यव\n", "937: ैरव्यवह\n", "938: ार झाल\n", "939: न्न\n", "940: काळ\n", "941: ायद\n", "942: �्रमाणे �\n", "943: कारव\n", "944: कारवाई\n", "945: �णि\n", "946: ांचे म\n", "947: ांचे म्हण\n", "948: ांचे म्हणण\n", "949: ांचे म्हणणे आहे. �\n", "950: ेलेल्या �\n", "951: ंम\n", "952: लब\n", "953: णी क\n", "954: ी नवनि\n", "955: ी नवनिर्म\n", "956: ी नवनिर्माण\n", "957: ी नवनिर्माण कृत\n", "958: ी नवनिर्माण कृती समित\n", "959: वी\n", "960: िद\n", "961: े य\n", "962: ांच्या न\n", "963: ा उपनि\n", "964: ा उपनिब\n", "965: ा उपनिबंध\n", "966: ा उपनिबंधक\n", "967: र जिल्ह\n", "968: ा य\n", "969: ा यांनी �\n", "970: �ान\n", "971: �ानन\n", "972: ्वभूमीव\n", "973: ार ब\n", "974: �र\n", "975: गर\n", "976: �ॅण्ड\n", "977: �ॅण्ड क\n", "978: �ॅण्ड कंप\n", "979: �ॅण्ड कंपन\n", "980: �ॅण्ड कंपनी (\n", "981: ुणे\n", "982: सं�\n", "983: �र\n", "984: ा ब\n", "985: ्या आहेत. �\n", "986: ाहित\n", "987: समो\n", "988: समोर आ\n", "989: समोर आल\n", "990: ीर �\n", "991: ल्�\n", "992: ंड\n", "993: ाने\n", "994: ५ कोट\n", "995: ी रक्कम\n", "996: ऑफ\n", "997: मह\n", "998: ाराष्ट्र\n", "999: गुंतवणुक\n" ] } ], "source": [ "for token_id in vocab:\n", " print(f\"{token_id}: {vocab[token_id].decode('utf-8', errors='replace')}\")\n" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0: \u0000\n", "1: \u0001\n", "2: \u0002\n", "3: \u0003\n", "4: \u0004\n", "5: \u0005\n", "6: \u0006\n", "7: \u0007\n", "8:\n", "9: \t\n", "10: \n", "\n", "11: \u000b\n", "12: \f\n", "13: \n", "14: \u000e\n", "15: \u000f\n", "16: \u0010\n", "17: \u0011\n", "18: \u0012\n", "19: \u0013\n", "20: \u0014\n", "21: \u0015\n", "22: \u0016\n", "23: \u0017\n", "24: \u0018\n", "25: \u0019\n", "26: \u001a\n", "27: \u001b\n", "28: \u001c\n", "29: \u001d\n", "30: \u001e\n", "31: \u001f\n", "32: \n", "33: !\n", "34: \"\n", "35: #\n", "36: $\n", "37: %\n", "38: &\n", "39: '\n", "40: (\n", "41: )\n", "42: *\n", "43: +\n", "44: ,\n", "45: -\n", "46: .\n", "47: /\n", "48: 0\n", "49: 1\n", "50: 2\n", "51: 3\n", "52: 4\n", "53: 5\n", "54: 6\n", "55: 7\n", "56: 8\n", "57: 9\n", "58: :\n", "59: ;\n", "60: <\n", "61: =\n", "62: >\n", "63: ?\n", "64: @\n", "65: A\n", "66: B\n", "67: C\n", "68: D\n", "69: E\n", "70: F\n", "71: G\n", "72: H\n", "73: I\n", "74: J\n", "75: K\n", "76: L\n", "77: M\n", "78: N\n", "79: O\n", "80: P\n", "81: Q\n", "82: R\n", "83: S\n", "84: T\n", "85: U\n", "86: V\n", "87: W\n", "88: X\n", "89: Y\n", "90: Z\n", "91: [\n", "92: \\\n", "93: ]\n", "94: ^\n", "95: _\n", "96: `\n", "97: a\n", "98: b\n", "99: c\n", "100: d\n", "101: e\n", "102: f\n", "103: g\n", "104: h\n", "105: i\n", "106: j\n", "107: k\n", "108: l\n", "109: m\n", "110: n\n", "111: o\n", "112: p\n", "113: q\n", "114: r\n", "115: s\n", "116: t\n", "117: u\n", "118: v\n", "119: w\n", "120: x\n", "121: y\n", "122: z\n", "123: {\n", "124: |\n", "125: }\n", "126: ~\n", "127: \n", "128: \n", "129: \n", "130: \n", "131: \n", "132: \n", "133: \n", "134: \n", "135: \n", "136: \n", "137: \n", "138: \n", "139: \n", "140: \n", "141: \n", "142: \n", "143: \n", "144: \n", "145: \n", "146: \n", "147: \n", "148: \n", "149: \n", "150: \n", "151: \n", "152: \n", "153: \n", "154: \n", "155: \n", "156: \n", "157: \n", "158: \n", "159: \n", "160: \n", "161: \n", "162: \n", "163: \n", "164: \n", "165: \n", "166: \n", "167: \n", "168: \n", "169: \n", "170: \n", "171: \n", "172: \n", "173: \n", "174: \n", "175: \n", "176: \n", "177: \n", "178: \n", "179: \n", "180: \n", "181: \n", "182: \n", "183: \n", "184: \n", "185: \n", "186: \n", "187: \n", "188: \n", "189: \n", "190: \n", "191: \n", "192: \n", "193: \n", "194: \n", "195: \n", "196: \n", "197: \n", "198: \n", "199: \n", "200: \n", "201: \n", "202: \n", "203: \n", "204: \n", "205: \n", "206: \n", "207: \n", "208: \n", "209: \n", "210: \n", "211: \n", "212: \n", "213: \n", "214: \n", "215: \n", "216: \n", "217: \n", "218: \n", "219: \n", "220: \n", "221: \n", "222: \n", "223: \n", "224: \n", "225: \n", "226: \n", "227: \n", "228: \n", "229: \n", "230: \n", "231: \n", "232: \n", "233: \n", "234: \n", "235: \n", "236: \n", "237: \n", "238: \n", "239: \n", "240: \n", "241: \n", "242: \n", "243: \n", "244: \n", "245: \n", "246: \n", "247: \n", "248: \n", "249: \n", "250: \n", "251: \n", "252: \n", "253: \n", "254: \n", "255: \n", "259: ा\n", "261: ्\n", "263: े\n", "264: ी\n", "265: र\n", "266: ्य\n", "268: ि\n", "271: ल\n", "272: त\n", "273: क\n", "276: ण\n", "277: ु\n", "278: ो\n", "279: क\n", "280: स\n", "281: न\n", "282: ार\n", "283: म\n", "285: ्र\n", "286: व\n", "288: ह\n", "294: ध\n", "295: स\n", "296: य\n", "299: ेल\n", "301: ात\n", "302: च\n", "306: ाव\n", "307: ान\n", "308: ाम\n", "311: द\n", "312: ्यात\n", "314: ाल\n", "315: ांन\n", "316: रण\n", "317: ्याच\n", "318: िक\n", "319: ग\n", "321: श\n", "323: ्ह\n", "324: ाच\n", "325: प\n", "326: ंत\n", "327: ज\n", "328: व\n", "329: ास\n", "330: ून\n", "331: क्ष\n", "332: ाग\n", "333: ड\n", "335: ील\n", "336: ध्य\n", "339: ी क\n", "341: आ\n", "343: े क\n", "344: ाय\n", "345: ीच\n", "346: िल\n", "347: ०\n", "348: त\n", "350: म\n", "351: ी स\n", "353: ्व\n", "354: ाह\n", "356: र\n", "357: ब\n", "358: ुन\n", "361: ा पर\n", "362: भ\n", "363: ाख\n", "364: ीन\n", "365: ्यान\n", "366: गार\n", "367: िम\n", "369: ट\n", "371: ू\n", "372: ंद\n", "373: करण\n", "374: ांच\n", "375: ेळ\n", "376: ाठ\n", "377: ित\n", "378: घ\n", "379: ामगार\n", "381: ी म\n", "383: ्थ\n", "384: अ\n", "385: ळ\n", "386: १\n", "390: केल\n", "391: प\n", "393: ाण\n", "394: ी व\n", "395: े स\n", "397: ाज\n", "398: पर\n", "399: ब\n", "400: ोट\n", "401: ाळ\n", "402: ्ट\n", "403: ृ\n", "404: िय\n", "405: स्त\n", "406: कर\n", "407: ी त\n", "409: ष\n", "410: ी अ\n", "411: िस\n", "414: ग\n", "415: ्यांच\n", "416: ुर\n", "418: ेश\n", "419: क्र\n", "420: े आ\n", "421: ुड\n", "422: ुडघ\n", "423: कामगार\n", "424: ए\n", "425: २\n", "426: े द\n", "431: ी न\n", "432: ज\n", "433: (\n", "434: आण\n", "436: फ\n", "437: ह\n", "439: ोन\n", "440: ्थान\n", "441: ्थानिक\n", "442: श\n", "445: ा क\n", "446: िल्ह\n", "447: य\n", "448: क्क\n", "449: ेव\n", "450: न\n", "452: िव\n", "453: दार\n", "454: ाद\n", "455: ्ण\n", "456: ाढ\n", "457: द\n", "458: ा प्र\n", "459: ंग\n", "460: केळ\n", "461: र्च\n", "462: ॉ\n", "463: साय\n", "466: ै\n", "470: कार\n", "471: े म\n", "472: ी य\n", "473: प्र\n", "474: ोड\n", "475: ोग\n", "476: वि\n", "477: ्युन\n", "478: ोक\n", "479: ख\n", "480: ंत्र\n", "481: ी ज\n", "482: ्यास\n", "483: क्रिय\n", "484: ्थानिक कामगार\n", "485: ए\n", "486: ोसाय\n", "487: ोसायट\n", "488: २०\n", "490: ाध\n", "492: ीत\n", "493: ी र\n", "496: ृत\n", "497: ी केल\n", "498: ्यानंत\n", "500: १\n", "501: ुक\n", "502: ाब\n", "505: ा स\n", "507: ्युनिस\n", "509: ंद्र\n", "510: ुग\n", "511: ुग्ण\n", "513: कार\n", "515: ूर\n", "516: ा न\n", "517: ीस\n", "518: ंज\n", "520: ्हण\n", "522: र ज\n", "523: ाश\n", "524: ूम\n", "525: , स\n", "526: आणि\n", "527: ठ\n", "529: करण\n", "530: को\n", "531: ांड\n", "533: ुट\n", "534: ्यंत\n", "535: त्त\n", "536: ाड\n", "537: ेथ\n", "541: ौ\n", "542: े व\n", "543: े प\n", "544: विण\n", "545: ाप\n", "546: ेंद्र\n", "547: ी ल\n", "548: ण्यात\n", "551: स्त्र\n", "552: स्त्रक्रिय\n", "554: श्च\n", "555: ्यातील\n", "556: मीन\n", "559: ारण\n", "560: ावर\n", "561: वि\n", "562: े दाख\n", "563: ावल\n", "564: र्भ\n", "565: राव\n", "567: ागण\n", "569: कोट\n", "570: ुप\n", "571: ुपय\n", "572: झाल\n", "576: नि\n", "577: ेत\n", "579: ा उ\n", "580: ीव\n", "581: ी.\n", "582: ॅ\n", "583: ंप\n", "585: ्द\n", "587: घ\n", "588: ाष\n", "590: र व\n", "591: ल\n", "592: भाग\n", "593: सल\n", "594: ा व\n", "595: ुरू\n", "596: उ\n", "597: िश\n", "598: ुद\n", "599: ख\n", "601: ्याप\n", "602: ा त\n", "603: ांम\n", "604: े,\n", "605: ी द\n", "606: ्याची अ\n", "608: ेच\n", "609: ्यांन\n", "611: º\n", "612: ºय\n", "614: जुर\n", "615: कोर\n", "616: कोरोन\n", "617: काम\n", "618: ्प\n", "619: सह\n", "620: सहकार\n", "621: ्या\n", "622: ते\n", "625: सोसायट\n", "626: भास\n", "627: भासद\n", "628: र्व\n", "629: ांत\n", "630: करण्याच\n", "631: े केल\n", "633: ़\n", "634: रव\n", "635: ्यव\n", "638: ी असत\n", "639: र्म\n", "640: ी सम\n", "642: िन\n", "643: ंध\n", "645: , त\n", "647: ी (\n", "648: ुण\n", "649: न्स\n", "650: र आ\n", "651: ६\n", "652: ५\n", "653: पर\n", "654: ानग\n", "655: ाष्ट\n", "656: ७\n", "657: रात\n", "660: ी श\n", "661: मूद\n", "662: ात्र\n", "663: पास\n", "666: आल\n", "669: िच\n", "670: णार\n", "671: ी प\n", "673: \n", "\n", "\n", "674: ा द\n", "675: ोल\n", "676: लेल\n", "677: सर\n", "678: धील\n", "679: डक\n", "680: '\n", "681: शि\n", "682: ्ध\n", "684: द्य\n", "686: केंद्र\n", "687: ्याची अक्क\n", "688: ्याची अक्कल\n", "689: गुडघ\n", "691: त्यार\n", "693: त्यारोपण\n", "694: ी ग\n", "695: ण्याच\n", "696: र्ण\n", "697: क्य\n", "698: ाधिक\n", "699: पी\n", "701: ाºय\n", "702: ाट\n", "703: एक\n", "704: एकर ज\n", "705: एकर जमीन\n", "707: ्यक्त\n", "708: ्याम\n", "711: ंटे\n", "712: ंटेन\n", "713: ंटेनर\n", "715: ंटेनरमध्ये भ\n", "716: श्चिम\n", "717: श्चिम ब\n", "718: श्चिम बंग\n", "719: श्चिम बंगाल\n", "722: े कामगार\n", "724: ा प्राद\n", "725: ा प्रादु\n", "726: ा प्रादुर्भ\n", "727: ा प्रादुर्भाव\n", "728: ाखळ\n", "729: ून त\n", "735: ्ल\n", "736: २००\n", "737: या क\n", "738: ्याच्या क\n", "739: भाग\n", "741: ांनी त\n", "743: ुन्ह\n", "744: ुन्हे दाख\n", "745: ुन्हे दाखल\n", "746: ी मागण\n", "747: ्याकड\n", "748: ी रुपय\n", "749: ांनी क\n", "750: ाई\n", "751: ष्ट\n", "755: ी नव\n", "756: कृत\n", "757: ी समित\n", "758: ण त\n", "760: ोव\n", "761: जिल्ह\n", "762: ा उप\n", "763: मो\n", "764: हव\n", "765: हवाल\n", "766: भूम\n", "767: भूमीव\n", "768: नाश\n", "769: नाशिक\n", "770: अ\n", "771: ोळ\n", "772: ॅण\n", "774: ॅण्ड\n", "775: ुळ\n", "776: ोटिस\n", "777: ी. स\n", "778: ंब\n", "779: ंभ\n", "781: ंच\n", "782: क्कम\n", "783: वानग\n", "784: ऑ\n", "785: ाष्ट्र\n", "786: मध्य\n", "787: गु\n", "788: गुंत\n", "789: गुंतव\n", "790: गुंतवण\n", "792: र्ष\n", "793: े न\n", "794: नाह\n", "795: लाख\n", "796: परत\n", "797: सार\n", "798: ोग्य\n", "799: री\n", "800: त्र\n", "802: करण्यात\n", "803: सुरू\n", "804: ्यामुळ\n", "805: ागत\n", "806: ा ल\n", "808: ट\n", "809: धान\n", "810: ००\n", "811: १९\n", "814: ुद्र\n", "815: १०\n", "818: मान\n", "822: े प्र\n", "823: इ\n", "824: ुख\n", "827: ी घ\n", "830: ीठ\n", "831: ोम\n", "832: न व\n", "833: ुश\n", "834: ैल\n", "843: ोह\n", "844: ीय\n", "845: ांस\n", "846: वाढ\n", "847: ी असल\n", "848: ुटण्यात\n", "849: ा ज\n", "850: . त\n", "851: म्हण\n", "852: खर्च\n", "854: ुढ\n", "855: ासन\n", "856: शस्त्रक्रिय\n", "860: रक\n", "861: वड\n", "863: ींन\n", "864: स्व\n", "866: ीड\n", "870: कराव\n", "871: ण्यास\n", "872: राज\n", "873: राठ\n", "874: राठोड\n", "875: वार\n", "876: -\n", "877: रो\n", "878: रोध\n", "880: कॉ\n", "881: ि क\n", "882: ंटेनरमध्ये भरण\n", "884: ी, अश\n", "887: े काम\n", "889: डच\n", "890: डचण\n", "891: राज\n", "892: कोरोना प्रादुर्भाव\n", "900: ई\n", "901: सहकारी स\n", "902: २००१\n", "903: २००१ ते\n", "904: २००१ ते २०\n", "905: ११\n", "906: या काल\n", "907: या कालाव\n", "908: या कालावध\n", "909: ीत लेखा परीक्षण\n", "910: सहकार वि\n", "911: सहकार विभाग\n", "917: ोटीस\n", "918: ोटीस ब\n", "919: ोटीस बज\n", "921: ीच्या स\n", "922: भासदांनी त\n", "924: वार्ष\n", "925: वार्षिक\n", "926: सर्व\n", "927: ठ\n", "932: य़\n", "933: ी रुपयांच\n", "934: ा ग\n", "935: ैरव\n", "936: ैरव्यव\n", "937: ैरव्यवह\n", "938: ार झाल\n", "939: न्न\n", "940: काळ\n", "941: ायद\n", "943: कारव\n", "944: कारवाई\n", "946: ांचे म\n", "947: ांचे म्हण\n", "948: ांचे म्हणण\n", "951: ंम\n", "952: लब\n", "953: णी क\n", "954: ी नवनि\n", "955: ी नवनिर्म\n", "956: ी नवनिर्माण\n", "957: ी नवनिर्माण कृत\n", "958: ी नवनिर्माण कृती समित\n", "959: वी\n", "960: िद\n", "961: े य\n", "962: ांच्या न\n", "963: ा उपनि\n", "964: ा उपनिब\n", "965: ा उपनिबंध\n", "966: ा उपनिबंधक\n", "967: र जिल्ह\n", "968: ा य\n", "972: ्वभूमीव\n", "973: ार ब\n", "975: गर\n", "981: ुणे\n", "984: ा ब\n", "986: ाहित\n", "987: समो\n", "988: समोर आ\n", "989: समोर आल\n", "992: ंड\n", "993: ाने\n", "994: ५ कोट\n", "995: ी रक्कम\n", "996: ऑफ\n", "997: मह\n", "998: ाराष्ट्र\n", "999: गुंतवणुक\n" ] } ], "source": [ "# Print the vocab's values in devanagari\n", "for idx, value in vocab.items():\n", " try:\n", " print(f\"{idx}: {value.decode('utf-8')}\")\n", " except UnicodeDecodeError:\n", " # Handle single bytes that aren't valid UTF-8\n", " if len(value) == 1:\n", " print(f\"{idx}: \")" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.11" } }, "nbformat": 4, "nbformat_minor": 2 }