Update README.md
Browse files
README.md
CHANGED
@@ -19,7 +19,8 @@ tags:
|
|
19 |
<i class="highlight-container"><b class="highlight">jerteh-125</b></i> —
|
20 |
BERT model specijalno obučen za srpski jezik.</h4>
|
21 |
|
22 |
-
<img src="cover.png" style="width:100%"
|
|
|
23 |
|
24 |
<div id="zastava">
|
25 |
<div class="grb">
|
@@ -59,17 +60,34 @@ kao i korpus [PDRS 1.0](https://www.clarin.si/repository/xmlui/handle/11356/1752
|
|
59 |
## Upotreba - vektorizacija
|
60 |
|
61 |
```python
|
62 |
-
>>> from transformers import
|
63 |
-
>>>
|
64 |
-
>>>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
65 |
```
|
66 |
|
67 |
```
|
68 |
-
|
69 |
-
|
70 |
-
{'score': 0.11459200084209442, 'token': 7797, 'token_str': ' otišao', 'sequence': 'Kada bi čovek znao gde će pasti on bi otišao.'},
|
71 |
-
{'score': 0.061787571758031845, 'token': 7103, 'token_str': ' znao', 'sequence': 'Kada bi čovek znao gde će pasti on bi znao.'},
|
72 |
-
{'score': 0.0532902330160141, 'token': 998, 'token_str': ' rekao', 'sequence': 'Kada bi čovek znao gde će pasti on bi rekao.'}]
|
73 |
```
|
74 |
|
75 |
<h4>U slučaju potrebe za većim modelom, pogledajte <a href="https://huggingface.co/jerteh/jerteh-355" class="highlight-container">
|
|
|
19 |
<i class="highlight-container"><b class="highlight">jerteh-125</b></i> —
|
20 |
BERT model specijalno obučen za srpski jezik.</h4>
|
21 |
|
22 |
+
<img src="cover.png" style="width:100%"
|
23 |
+
>
|
24 |
|
25 |
<div id="zastava">
|
26 |
<div class="grb">
|
|
|
60 |
## Upotreba - vektorizacija
|
61 |
|
62 |
```python
|
63 |
+
>>> from transformers import AutoTokenizer, AutoModelForMaskedLM
|
64 |
+
>>> from torch import LongTensor, no_grad
|
65 |
+
>>> from scipy import spatial
|
66 |
+
|
67 |
+
>>> tokenizer = AutoTokenizer.from_pretrained('bert modeli/bertovic-base')
|
68 |
+
>>> model = AutoModelForMaskedLM.from_pretrained('bert modeli/bertovic-base', output_hidden_states=True)
|
69 |
+
|
70 |
+
>>> x = " pas"
|
71 |
+
>>> y = " mačka"
|
72 |
+
>>> z = " svemir"
|
73 |
+
|
74 |
+
>>> tensor_x = LongTensor(tokenizer.encode(x, add_special_tokens=False)).unsqueeze(0)
|
75 |
+
>>> tensor_y = LongTensor(tokenizer.encode(y, add_special_tokens=False)).unsqueeze(0)
|
76 |
+
>>> tensor_z = LongTensor(tokenizer.encode(z, add_special_tokens=False)).unsqueeze(0)
|
77 |
+
|
78 |
+
>>> model.eval()
|
79 |
+
>>> with no_grad():
|
80 |
+
>>> vektor_x = model(input_ids=tensor_x).hidden_states[-1].squeeze()
|
81 |
+
>>> vektor_y = model(input_ids=tensor_y).hidden_states[-1].squeeze()
|
82 |
+
>>> vektor_z = model(input_ids=tensor_z).hidden_states[-1].squeeze()
|
83 |
+
|
84 |
+
>>> print(spatial.distance.cosine(vektor_x, vektor_y))
|
85 |
+
>>> print(spatial.distance.cosine(vektor_x, vektor_z))
|
86 |
```
|
87 |
|
88 |
```
|
89 |
+
0.09954947233200073
|
90 |
+
0.21845555305480957
|
|
|
|
|
|
|
91 |
```
|
92 |
|
93 |
<h4>U slučaju potrebe za većim modelom, pogledajte <a href="https://huggingface.co/jerteh/jerteh-355" class="highlight-container">
|