language: | |
- vi | |
tags: | |
- sentiment | |
- classification | |
license: mit | |
widget: | |
- text: "Không thể nào đẹp hơn" | |
- text: "Quá phí tiền, mà không đẹp" | |
- text: "Cái này giá ổn không nhỉ?" | |
[**GitHub Homepage**](https://github.com/wonrax/phobert-base-vietnamese-sentiment) | |
A model fine-tuned for sentiment analysis based on [vinai/phobert-base](https://huggingface.co/vinai/phobert-base). | |
Labels: | |
- NEG: Negative | |
- POS: Positive | |
- NEU: Neutral | |
Dataset: [30K e-commerce reviews](https://www.kaggle.com/datasets/linhlpv/vietnamese-sentiment-analyst) | |
## Usage | |
```python | |
import torch | |
from transformers import RobertaForSequenceClassification, AutoTokenizer | |
model = RobertaForSequenceClassification.from_pretrained("wonrax/phobert-base-vietnamese-sentiment") | |
tokenizer = AutoTokenizer.from_pretrained("wonrax/phobert-base-vietnamese-sentiment", use_fast=False) | |
# Just like PhoBERT: INPUT TEXT MUST BE ALREADY WORD-SEGMENTED! | |
sentence = 'Đây là mô_hình rất hay , phù_hợp với điều_kiện và như cầu của nhiều người .' | |
input_ids = torch.tensor([tokenizer.encode(sentence)]) | |
with torch.no_grad(): | |
out = model(input_ids) | |
print(out.logits.softmax(dim=-1).tolist()) | |
# Output: | |
# [[0.002, 0.988, 0.01]] | |
# ^ ^ ^ | |
# NEG POS NEU | |
``` | |