In [1]:
# Import text from dataset.txt
with open('dataset.txt', 'r') as file:
 text = file.read()

In [2]:
text

'बहुचर्चित एचएएल एम्प्लॉईज सहकारी सोसायटीच्या २००१ ते २०११ या कालावधीत लेखा परीक्षण करताना कसूर केल्याच्या कारणावरून सहकार विभागाने लेखा परीक्षकांना कारणे दाखवा नोटीस बजावली आहे. या संदर्भात सोसायटीच्या सभासदांनी तीन वार्षिक सर्वसाधारण सभांत ठराव मंजूर करून लेखा परीक्षकांवर गुन्हे दाखल करण्याची मागणी सहकार खात्याकडे केली होती. एचएएल सोसायटीत २००१ ते २०१२ या काळात कोटय़वधी रुपयांचा गैरव्यवहार झाल्याचे निष्पन्न झाले आहे. या कार्यकाळात लेखा परीक्षकांनी कायद्याप्रमाणे लेखा परीक्षण करून वेळीच कारवाई केली असती तर भ्रष्टाचार झाला नसता आणि सोसायटी वाचली असती, असे सभासदांचे म्हणणे आहे. सभासदांनी लेखा परीक्षकांवर गुन्हे दाखल करण्याच्या केलेल्या ठरावाची अंमलबजावणी करावी यासाठी एचएएल सोसायटी नवनिर्माण कृती समितीचे समन्वयक प्रवीण तिदमे यांच्या नेतृत्वाखाली नोव्हेंबर महिन्यात जिल्हा उपनिबंधक कार्यालयासमोर उपोषणही केले होते. त्यानंतर जिल्हा विशेष लेखा परीक्षक वर्ग १ सहकारी संस्था यांनी लेखा परीक्षण अहवालाची छाननी केली. त्या पाश्र्वभूमीवर, तुषार बाजीराव पगार (नाशिक), डी. एम. बारस्कर (अहमदनगर), जयंत व्

In [3]:
tokens = text.encode("utf-8") # raw bytes
tokens = list(map(int, tokens)) # convert to a list of integers in range 0..255 for convenience

In [4]:
def get_stats(ids: list[int]) -> dict[tuple[int, int], int]:
 """
 Get the frequency of each pair of tokens in the list
 :param ids: list of integers
 :return: dictionary of pairs and their frequencies
 """
 counts = {}
 for pair in zip(ids, ids[1:]):
 counts[pair] = counts.get(pair, 0) + 1
 return counts


def merge(ids: list[int], pair: tuple[int, int], idx: int) -> list[int]:
 """
 Merge the pair of tokens into a new token
 :param ids: list of integers
 :param pair: tuple of integers
 :param idx: integer
 :return: list of integers
 """
 newids = []
 i = 0
 
 while i < len(ids):
 if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
 newids.append(idx)
 i += 2
 else:
 newids.append(ids[i])
 i += 1
 return newids

# ---
vocab_size = 1000 # the desired final vocabulary size
num_merges = vocab_size - 256
ids = list(tokens) # copy so we don't destroy the original list

merges = {} # (int, int) -> int
for i in range(num_merges):
 stats = get_stats(ids)
 pair = max(stats, key=stats.get)
 idx = 256 + i
 # print(f"merging {pair} into a new token {idx}")
 ids = merge(ids, pair, idx)
 merges[pair] = idx

print("tokens length:", len(tokens))
print("ids length:", len(ids))
print(f"compression ratio: {len(tokens) / len(ids):.2f}X")

tokens length: 27038
ids length: 3776
compression ratio: 7.16X


In [5]:
def encode(text):
 # given a string, return list of integers (the tokens)
 tokens = list(text.encode("utf-8"))
 while len(tokens) >= 2:
 stats = get_stats(tokens)
 pair = min(stats, key=lambda p: merges.get(p, float("inf")))
 if pair not in merges:
 break # nothing else can be merged
 idx = merges[pair]
 tokens = merge(tokens, pair, idx)
 return tokens

vocab = {idx: bytes([idx]) for idx in range(256)}
for (p0, p1), idx in merges.items():
 vocab[idx] = vocab[p0] + vocab[p1]

def decode(ids):
 # given ids (list of integers), return Python string
 tokens = b"".join(vocab[idx] for idx in ids)
 text = tokens.decode("utf-8", errors="replace")
 return text


In [6]:
text2 = decode(encode(text))
print(text2 == text)

True


In [7]:
for token_id in vocab:
 print(f"{token_id}: {vocab[token_id].decode('utf-8', errors='replace')}")


0:  
1: 
2: 
3: 
4: 
5: 
6: 
7: 
8:
9: 	
10: 

11: 
12: 
13: 
14: 
15: 
16: 
17: 
18: 
19: 
20: 
21: 
22: 
23: 
24: 
25: 
26: 
27: 
28: 
29: 
30: 
31: 
32: 
33: !
34: "
35: #
36: $
37: %
38: &
39: '
40: (
41: )
42: *
43: +
44: ,
45: -
46: .
47: /
48: 0
49: 1
50: 2
51: 3
52: 4
53: 5
54: 6
55: 7
56: 8
57: 9
58: :
59: ;
60: <
61: =
62: >
63: ?
64: @
65: A
66: B
67: C
68: D
69: E
70: F
71: G
72: H
73: I
74: J
75: K
76: L
77: M
78: N
79: O
80: P
81: Q
82: R
83: S
84: T
85: U
86: V
87: W
88: X
89: Y
90: Z
91: [
92: \
93: ]
94: ^
95: _
96: `
97: a
98: b
99: c
100: d
101: e
102: f
103: g
104: h
105: i
106: j
107: k
108: l
109: m
110: n
111: o
112: p
113: q
114: r
115: s
116: t
117: u
118: v
119: w
120: x
121: y
122: z
123: {
124: |
125: }
126: ~
127: 
128: �
129: �
130: �
131: �
132: �
133: �
134: �
135: �
136: �
137: �
138: �
139: �
140: �
141: �
142: �
143: �
144: �
145: �
146: �
147: �
148: �
149: �
150: �
151: �
152: �
153: �
154: �
155: �
156: �
157: �
158: �
15

In [8]:
# Print the vocab's values in devanagari
for idx, value in vocab.items():
 try:
 print(f"{idx}: {value.decode('utf-8')}")
 except UnicodeDecodeError:
 # Handle single bytes that aren't valid UTF-8
 if len(value) == 1:
 print(f"{idx}: ")

0:  
1: 
2: 
3: 
4: 
5: 
6: 
7: 
8:
9: 	
10: 

11: 
12: 
13: 
14: 
15: 
16: 
17: 
18: 
19: 
20: 
21: 
22: 
23: 
24: 
25: 
26: 
27: 
28: 
29: 
30: 
31: 
32: 
33: !
34: "
35: #
36: $
37: %
38: &
39: '
40: (
41: )
42: *
43: +
44: ,
45: -
46: .
47: /
48: 0
49: 1
50: 2
51: 3
52: 4
53: 5
54: 6
55: 7
56: 8
57: 9
58: :
59: ;
60: <
61: =
62: >
63: ?
64: @
65: A
66: B
67: C
68: D
69: E
70: F
71: G
72: H
73: I
74: J
75: K
76: L
77: M
78: N
79: O
80: P
81: Q
82: R
83: S
84: T
85: U
86: V
87: W
88: X
89: Y
90: Z
91: [
92: \
93: ]
94: ^
95: _
96: `
97: a
98: b
99: c
100: d
101: e
102: f
103: g
104: h
105: i
106: j
107: k
108: l
109: m
110: n
111: o
112: p
113: q
114: r
115: s
116: t
117: u
118: v
119: w
120: x
121: y
122: z
123: {
124: |
125: }
126: ~
127: 
128: 
129: 
130: 
131: 
132: 
133: 
134: 
135: 
136: 
137: 
138: 
139: 
140: 
141: 
142: 
143: 
144: 
145: 
146: 
147: 
148: 
149: 
150: 
151: 
152: 
153: 
154: 
155: 
156: 
157: 
158: 
159: 
160: 
161: 
162: 
163: 
164