saihtaungkham
/

BurmeseRoBERTa

Model card Files Files and versions Community

saihtaungkham commited on Dec 13, 2023

Commit

dd7f5ac

·

1 Parent(s): a8cd25a

Update README.md

Adding the Tokenizer usage.

Files changed (1) hide show

README.md +20 -0

README.md CHANGED Viewed

@@ -57,6 +57,26 @@ print(fill_mask("ရန်ကုန်သည် မြန်မာနိုင
   'sequence': 'ရန်ကုန်သည် မြန်မာနိုင်ငံ၏ အရှေ့ပိုင်း ဖြစ်သည်။'}]
 ```
 ## Extract text embedding from the sentence
 ```python
 import torch

   'sequence': 'ရန်ကုန်သည် မြန်မာနိုင်ငံ၏ အရှေ့ပိုင်း ဖြစ်သည်။'}]
 ```
+## How to use only the trained tokenizer for Burmese sentences
+```python
+from transformers import AutoTokenizer
+model_name = "saihtaungkham/BurmeseRoBERTa"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+text = "သဘာဝဟာသဘာဝပါ။"
+# Tokenized words
+print(tokenizer.tokenize(text))
+# Expected Output
+# ['▁', 'သဘာဝ', 'ဟာ', 'သဘာဝ', 'ပါ။']
+# Tokenized IDs for training other models
+print(tokenizer.encode(text))
+# Expected Output
+# [1, 3, 1003, 30, 1003, 62, 2]
+```
 ## Extract text embedding from the sentence
 ```python
 import torch