procesaur commited on
Commit
54e4405
·
verified ·
1 Parent(s): 5914592

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +27 -9
README.md CHANGED
@@ -19,7 +19,8 @@ tags:
19
  <i class="highlight-container"><b class="highlight">jerteh-125</b></i> —
20
  BERT model specijalno obučen za srpski jezik.</h4>
21
 
22
- <img src="cover.png" style="width:100%">
 
23
 
24
  <div id="zastava">
25
  <div class="grb">
@@ -59,17 +60,34 @@ kao i korpus [PDRS 1.0](https://www.clarin.si/repository/xmlui/handle/11356/1752
59
  ## Upotreba - vektorizacija
60
 
61
  ```python
62
- >>> from transformers import pipeline
63
- >>> generator = pipeline('fill-mask', model='jerteh/jerteh-125')
64
- >>> unmasker("Kada bi čovek znao gde će pasti on bi<mask>.")
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
65
  ```
66
 
67
  ```
68
- [{'score': 0.16073498129844666, 'token': 11379, 'token_str': ' pao', 'sequence': 'Kada bi čovek znao gde će pasti on bi pao.'},
69
- {'score': 0.14656540751457214, 'token': 10799, 'token_str': ' umro', 'sequence': 'Kada bi čovek znao gde će pasti on bi umro.'},
70
- {'score': 0.11459200084209442, 'token': 7797, 'token_str': ' otišao', 'sequence': 'Kada bi čovek znao gde će pasti on bi otišao.'},
71
- {'score': 0.061787571758031845, 'token': 7103, 'token_str': ' znao', 'sequence': 'Kada bi čovek znao gde će pasti on bi znao.'},
72
- {'score': 0.0532902330160141, 'token': 998, 'token_str': ' rekao', 'sequence': 'Kada bi čovek znao gde će pasti on bi rekao.'}]
73
  ```
74
 
75
  <h4>U slučaju potrebe za većim modelom, pogledajte <a href="https://huggingface.co/jerteh/jerteh-355" class="highlight-container">
 
19
  <i class="highlight-container"><b class="highlight">jerteh-125</b></i> —
20
  BERT model specijalno obučen za srpski jezik.</h4>
21
 
22
+ <img src="cover.png" style="width:100%"
23
+ >
24
 
25
  <div id="zastava">
26
  <div class="grb">
 
60
  ## Upotreba - vektorizacija
61
 
62
  ```python
63
+ >>> from transformers import AutoTokenizer, AutoModelForMaskedLM
64
+ >>> from torch import LongTensor, no_grad
65
+ >>> from scipy import spatial
66
+
67
+ >>> tokenizer = AutoTokenizer.from_pretrained('bert modeli/bertovic-base')
68
+ >>> model = AutoModelForMaskedLM.from_pretrained('bert modeli/bertovic-base', output_hidden_states=True)
69
+
70
+ >>> x = " pas"
71
+ >>> y = " mačka"
72
+ >>> z = " svemir"
73
+
74
+ >>> tensor_x = LongTensor(tokenizer.encode(x, add_special_tokens=False)).unsqueeze(0)
75
+ >>> tensor_y = LongTensor(tokenizer.encode(y, add_special_tokens=False)).unsqueeze(0)
76
+ >>> tensor_z = LongTensor(tokenizer.encode(z, add_special_tokens=False)).unsqueeze(0)
77
+
78
+ >>> model.eval()
79
+ >>> with no_grad():
80
+ >>> vektor_x = model(input_ids=tensor_x).hidden_states[-1].squeeze()
81
+ >>> vektor_y = model(input_ids=tensor_y).hidden_states[-1].squeeze()
82
+ >>> vektor_z = model(input_ids=tensor_z).hidden_states[-1].squeeze()
83
+
84
+ >>> print(spatial.distance.cosine(vektor_x, vektor_y))
85
+ >>> print(spatial.distance.cosine(vektor_x, vektor_z))
86
  ```
87
 
88
  ```
89
+ 0.09954947233200073
90
+ 0.21845555305480957
 
 
 
91
  ```
92
 
93
  <h4>U slučaju potrebe za većim modelom, pogledajte <a href="https://huggingface.co/jerteh/jerteh-355" class="highlight-container">