Commit
·
ee30b9f
1
Parent(s):
8ebae91
Update README.md
Browse files
README.md
CHANGED
@@ -10,7 +10,7 @@ co2_eq_emissions: 710
|
|
10 |
|
11 |
QUOKKA is our first generative pre-trained transformer (GPT) model for Portuguese from Portugal (PT-PT).
|
12 |
Our model is a fine-tuned version of [Phoenix](https://huggingface.co/FreedomIntelligence/phoenix-inst-chat-7b) that was released on 04/08/2023.
|
13 |
-
The backbone of Phoenix is [BLOOMZ](https://huggingface.co/bigscience/bloomz-7b1), which was fine-tuned using a vast dataset consisting of 267k samples of instructions and 189k samples of conversations.
|
14 |
|
15 |
## Intended uses & limitations
|
16 |
|
@@ -38,7 +38,7 @@ Follows some examples of the capabilities of our model:
|
|
38 |
```python
|
39 |
prompt = "Quero que ajas como um sumarizador de texto e me ajudes a criar um sumário conciso do seguinte texto apresentado, realçando apenas os pontos essenciais do texto original: Rabo de Peixe, internacionalmente conhecida como Turn of the Tide, foi criada por Augusto Fraga e Patrícia Cerqueira; e produzida para a Netflix pela Ukbar Filmes. A história é protagonizada por um grupo de amigos numa freguesia da ilha de São Miguel e foi inspirada no surgimento, em 2001, de toneladas de cocaína na costa açoriana após ter sido largada no Oceano Atlântico por traficantes. \"Quando um barco carregado de cocaína naufraga na sua ilha natal, Eduardo vê uma oportunidade arriscada, mas empolgante, de ganhar dinheiro e realizar sonhos impossíveis\", diz a sinopse apresentada pela Netflix."
|
40 |
|
41 |
-
generator(f"<human>{prompt}<bot>")
|
42 |
|
43 |
>> Turn of the Tide é uma série de televisão portuguesa criada por Augusto Fraga e Patrícia Cerqueira para a Netflix. A história é ambientada em uma freguesia da ilha de São Miguel e segue um grupo de amigos que se envolvem em um mistério envolvendo a cocaína que foi largada no Oceano Atlântico em 2001. A série é inspirada em um evento real que ocorreu na costa açoriana.
|
44 |
```
|
@@ -49,7 +49,7 @@ generator(f"<human>{prompt}<bot>")
|
|
49 |
```python
|
50 |
prompt = "Lê o seguinte texto: Rabo de Peixe, internacionalmente conhecida como Turn of the Tide, foi criada por Augusto Fraga e Patrícia Cerqueira; e produzida para a Netflix pela Ukbar Filmes. A história é protagonizada por um grupo de amigos numa freguesia da ilha de São Miguel e foi inspirada no surgimento, em 2001, de toneladas de cocaína na costa açoriana após ter sido largada no Oceano Atlântico por traficantes. \"Quando um barco carregado de cocaína naufraga na sua ilha natal, Eduardo vê uma oportunidade arriscada, mas empolgante, de ganhar dinheiro e realizar sonhos impossíveis\", diz a sinopse apresentada pela Netflix. \n\n Onde foi filmada a série Rabo de Peixe?"
|
51 |
|
52 |
-
generator(f"<human>{prompt}<bot>")
|
53 |
|
54 |
>> A série Rabo de Peixe foi filmada na ilha de São Miguel, nos Açores.
|
55 |
```
|
@@ -59,7 +59,7 @@ generator(f"<human>{prompt}<bot>")
|
|
59 |
```python
|
60 |
prompt = "Gera uma frase semelhante à seguinte frase: Bom dia, em que posso ser útil?"
|
61 |
|
62 |
-
generator(f"<human>{prompt}<bot>")
|
63 |
|
64 |
>> Bom dia, como posso ajudá-lo?
|
65 |
```
|
@@ -78,7 +78,7 @@ We did notice that the model avoids answering questions of religious or politica
|
|
78 |
````python
|
79 |
prompt = "Que partido político é que apoias?"
|
80 |
|
81 |
-
generator(f"<human>{prompt}<bot>")
|
82 |
|
83 |
>> Como uma IA, não tenho preferências políticas.
|
84 |
````
|
@@ -108,6 +108,18 @@ This fine-tuning approach allowed us to significantly reduce memory usage and co
|
|
108 |
|
109 |
## Evaluation results
|
110 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
111 |
## Environmental impact
|
112 |
|
113 |
Carbon emissions were estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact/#compute)
|
|
|
10 |
|
11 |
QUOKKA is our first generative pre-trained transformer (GPT) model for Portuguese from Portugal (PT-PT).
|
12 |
Our model is a fine-tuned version of [Phoenix](https://huggingface.co/FreedomIntelligence/phoenix-inst-chat-7b) that was released on 04/08/2023.
|
13 |
+
The backbone of Phoenix is [BLOOMZ](https://huggingface.co/bigscience/bloomz-7b1-mt), which was fine-tuned using a vast dataset consisting of 267k samples of instructions and 189k samples of conversations.
|
14 |
|
15 |
## Intended uses & limitations
|
16 |
|
|
|
38 |
```python
|
39 |
prompt = "Quero que ajas como um sumarizador de texto e me ajudes a criar um sumário conciso do seguinte texto apresentado, realçando apenas os pontos essenciais do texto original: Rabo de Peixe, internacionalmente conhecida como Turn of the Tide, foi criada por Augusto Fraga e Patrícia Cerqueira; e produzida para a Netflix pela Ukbar Filmes. A história é protagonizada por um grupo de amigos numa freguesia da ilha de São Miguel e foi inspirada no surgimento, em 2001, de toneladas de cocaína na costa açoriana após ter sido largada no Oceano Atlântico por traficantes. \"Quando um barco carregado de cocaína naufraga na sua ilha natal, Eduardo vê uma oportunidade arriscada, mas empolgante, de ganhar dinheiro e realizar sonhos impossíveis\", diz a sinopse apresentada pela Netflix."
|
40 |
|
41 |
+
generator(f"<human>{prompt}<bot>", max_new_tokens=512, temperature=0.0)
|
42 |
|
43 |
>> Turn of the Tide é uma série de televisão portuguesa criada por Augusto Fraga e Patrícia Cerqueira para a Netflix. A história é ambientada em uma freguesia da ilha de São Miguel e segue um grupo de amigos que se envolvem em um mistério envolvendo a cocaína que foi largada no Oceano Atlântico em 2001. A série é inspirada em um evento real que ocorreu na costa açoriana.
|
44 |
```
|
|
|
49 |
```python
|
50 |
prompt = "Lê o seguinte texto: Rabo de Peixe, internacionalmente conhecida como Turn of the Tide, foi criada por Augusto Fraga e Patrícia Cerqueira; e produzida para a Netflix pela Ukbar Filmes. A história é protagonizada por um grupo de amigos numa freguesia da ilha de São Miguel e foi inspirada no surgimento, em 2001, de toneladas de cocaína na costa açoriana após ter sido largada no Oceano Atlântico por traficantes. \"Quando um barco carregado de cocaína naufraga na sua ilha natal, Eduardo vê uma oportunidade arriscada, mas empolgante, de ganhar dinheiro e realizar sonhos impossíveis\", diz a sinopse apresentada pela Netflix. \n\n Onde foi filmada a série Rabo de Peixe?"
|
51 |
|
52 |
+
generator(f"<human>{prompt}<bot>", max_new_tokens=512, temperature=0.0)
|
53 |
|
54 |
>> A série Rabo de Peixe foi filmada na ilha de São Miguel, nos Açores.
|
55 |
```
|
|
|
59 |
```python
|
60 |
prompt = "Gera uma frase semelhante à seguinte frase: Bom dia, em que posso ser útil?"
|
61 |
|
62 |
+
generator(f"<human>{prompt}<bot>", max_new_tokens=512, temperature=0.0)
|
63 |
|
64 |
>> Bom dia, como posso ajudá-lo?
|
65 |
```
|
|
|
78 |
````python
|
79 |
prompt = "Que partido político é que apoias?"
|
80 |
|
81 |
+
generator(f"<human>{prompt}<bot>", max_new_tokens=512, temperature=0.0)
|
82 |
|
83 |
>> Como uma IA, não tenho preferências políticas.
|
84 |
````
|
|
|
108 |
|
109 |
## Evaluation results
|
110 |
|
111 |
+
To evaluate the performance of our model, we translated [70 questions](https://github.com/FreedomIntelligence/LLMZoo/blob/main/llmzoo/eval/questions/questions-en.jsonl), which were originally used to assess the capabilities of the Phoenix model, from English to Portuguese.
|
112 |
+
We then conducted their [automatic evaluation](https://github.com/FreedomIntelligence/LLMZoo) using GTP-3.5 as an evaluator and the general prompt as the metric evaluation prompt.
|
113 |
+
This prompt was designed to elicit assessments of answers in terms of helpfulness, relevance, accuracy, and level of detail.
|
114 |
+
[Additional prompts](https://github.com/FreedomIntelligence/LLMZoo/blob/main/llmzoo/eval/prompts/order/prompt_all.json) are provided for assessing overall performance on different perspectives.
|
115 |
+
|
116 |
+
Follows the results against GPT-3.5 and our base model, Phoenix:
|
117 |
+
|
118 |
+
| | **Lose** | **Tie** | **Win** |
|
119 |
+
|------------------------|----------|---------|---------|
|
120 |
+
| QUOKKA vs. **GPT-3.5** | 63.8% | 10.1% | 26.1% |
|
121 |
+
| QUOKKA vs. **Phoenix** | | | |
|
122 |
+
|
123 |
## Environmental impact
|
124 |
|
125 |
Carbon emissions were estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact/#compute)
|