rjzevallos commited on
Commit
4091c68
·
1 Parent(s): ed62ffd

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +43 -0
README.md ADDED
@@ -0,0 +1,43 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # LlamaRoBERTa
2
+
3
+ LlamaRoBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con 5M de tokens del quechua sureño (Collao y Chanka).
4
+
5
+ El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras.
6
+
7
+ ## Usabilidad
8
+ Una vez descargado los pesos y el tokenizador en la seccion de arriba es necesario adjuntarlo en un sola carpeta, en este caso fue `quechuaBERT`.
9
+
10
+ ```python
11
+ from transformers import pipeline
12
+
13
+ fill_mask = pipeline(
14
+ "fill-mask",
15
+ model="./LlamaRoBERTa",
16
+ tokenizer="./LlamaRoBERTa"
17
+ )
18
+ ```
19
+ Se hace la prueba, la cual esta en fases de mejoras.
20
+
21
+ ```python
22
+ fill_mask("allinllachu <mask> allinlla huk wasipita.")
23
+ ```
24
+ [{'score': 0.23992203176021576,
25
+ 'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
26
+ 'token': 334,
27
+ 'token_str': ' nisqaqa'},
28
+ {'score': 0.061005301773548126,
29
+ 'sequence': 'allinllachu, allinlla huk wasipita.',
30
+ 'token': 16,
31
+ 'token_str': ','},
32
+ {'score': 0.028720015659928322,
33
+ 'sequence': "allinllachu' allinlla huk wasipita.",
34
+ 'token': 11,
35
+ 'token_str': "'"},
36
+ {'score': 0.012927944771945477,
37
+ 'sequence': 'allinllachu kay allinlla huk wasipita.',
38
+ 'token': 377,
39
+ 'token_str': ' kay'},
40
+ {'score': 0.01230092253535986,
41
+ 'sequence': 'allinllachu. allinlla huk wasipita.',
42
+ 'token': 18,
43
+ 'token_str': '.'}]