|
--- |
|
library_name: transformers |
|
license: mit |
|
base_model: neuralmind/bert-base-portuguese-cased |
|
tags: |
|
- generated_from_trainer |
|
metrics: |
|
- accuracy |
|
- f1 |
|
- recall |
|
- precision |
|
model-index: |
|
- name: neuralmind/bert-base-portuguese-cased |
|
results: [] |
|
--- |
|
|
|
<!-- This model card has been generated automatically according to the information the Trainer had access to. You |
|
should probably proofread and complete it, then remove this comment. --> |
|
|
|
# neuralmind/bert-base-portuguese-cased |
|
|
|
## Descrição do Modelo |
|
|
|
Este modelo é uma versão ajustada do modelo pré-treinado neuralmind/bert-base-portuguese-cased. Ele foi especificamente adaptado para classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres, com base no conteúdo de seus resumos (ementa) e texto completo (inteiro teor). O objetivo do modelo é compreender as nuances dos impactos de gênero em contextos jurídicos. |
|
O modelo utiliza a arquitetura BERT, projetada para tarefas de compreensão de linguagem natural. Seu uso nesta tarefa especializada permite ao modelo identificar padrões e terminologias indicativas de como um projeto de lei se alinha aos direitos das mulheres. |
|
|
|
## Usos e Limitações |
|
|
|
Uso Primário: Classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres. |
|
|
|
Público-Alvo: Este modelo é destinado a cientistas políticos, jornalistas, profissionais do direito, defensores da igualdade de gênero e pesquisadores que analisam textos legislativos, além de sistemas automatizados que categorizam documentos jurídicos com base em considerações de equidade de gênero. |
|
|
|
Áreas de Aplicação: |
|
|
|
Análise legislativa |
|
Defesa da igualdade de gênero |
|
Pesquisa política e jurídica |
|
Classificação automatizada de documentos jurídicos |
|
|
|
## Dados de treinamento e avaliação |
|
O modelo foi ajustado utilizando um [conjunto de dados personalizado](https://huggingface.co/datasets/azmina/ementas_anotadas_inteiroteor) de propostas legislativas (PLs) do Brasil, com foco específico em temas relacionados aos direitos das mulheres. O conjunto contém tanto as ementas quanto os inteiro teor dos PLs. |
|
|
|
| | Precision | Recall | F1-Score | Support | |
|
|---------------|-----------|--------|----------|---------| |
|
| Class 0 | 0.94 | 0.53 | 0.67 | 114 | |
|
| Class 1 | 0.35 | 0.88 | 0.50 | 33 | |
|
| Accuracy | | | 0.61 | 147 | |
|
| Macro Avg | 0.64 | 0.70 | 0.59 | 147 | |
|
| Weighted Avg | 0.81 | 0.61 | 0.64 | 147 | |
|
|
|
Para mais informações sobre a avaliação do modelo, confira o [repositório do projeto](https://github.com/institutoazmina/ia-feminista-elas-no-congresso). |
|
|
|
### Hiperparâmetros de Treinamento |
|
Os seguintes hiperparâmetros foram utilizados durante o treinamento: |
|
|
|
learning_rate: 1e-05 |
|
train_batch_size: 64 |
|
eval_batch_size: 64 |
|
seed: 5151 |
|
optimizer: AdamW (PyTorch) com betas=(0.9, 0.999) e epsilon=1e-08 (sem argumentos adicionais para o otimizador). |
|
lr_scheduler_type: Linear |
|
lr_scheduler_warmup_steps: 150 |
|
num_epochs: 19 |
|
|
|
### Resultados do Treinamento |
|
|
|
| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 | Recall | Precision | |
|
|:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|:------:|:---------:| |
|
| 0.0801 | 1.0 | 18 | 0.0769 | 0.7411 | 0.4256 | 0.5 | 0.3705 | |
|
| 0.0691 | 2.0 | 36 | 0.0709 | 0.75 | 0.4612 | 0.5172 | 0.8739 | |
|
| 0.0647 | 3.0 | 54 | 0.0661 | 0.75 | 0.4612 | 0.5172 | 0.8739 | |
|
| 0.0644 | 4.0 | 72 | 0.0648 | 0.6518 | 0.5774 | 0.5856 | 0.5753 | |
|
| 0.0621 | 5.0 | 90 | 0.0632 | 0.7054 | 0.6424 | 0.6554 | 0.6367 | |
|
| 0.0621 | 6.0 | 108 | 0.0627 | 0.7232 | 0.6265 | 0.6226 | 0.6319 | |
|
| 0.0586 | 7.0 | 126 | 0.0595 | 0.75 | 0.6937 | 0.7079 | 0.6857 | |
|
| 0.0547 | 8.0 | 144 | 0.0582 | 0.7768 | 0.7338 | 0.7597 | 0.7223 | |
|
| 0.0509 | 9.0 | 162 | 0.0554 | 0.7768 | 0.7338 | 0.7597 | 0.7223 | |
|
| 0.0462 | 10.0 | 180 | 0.0557 | 0.75 | 0.7091 | 0.7416 | 0.6998 | |
|
| 0.0437 | 11.0 | 198 | 0.0532 | 0.7768 | 0.7382 | 0.7709 | 0.7264 | |
|
| 0.0415 | 12.0 | 216 | 0.0515 | 0.7857 | 0.7466 | 0.7769 | 0.7341 | |
|
| 0.0356 | 13.0 | 234 | 0.0545 | 0.8036 | 0.7547 | 0.7665 | 0.7461 | |
|
| 0.0301 | 14.0 | 252 | 0.0543 | 0.8214 | 0.7770 | 0.7898 | 0.7675 | |
|
| 0.0262 | 15.0 | 270 | 0.0541 | 0.8036 | 0.7594 | 0.7777 | 0.7481 | |
|
| 0.0248 | 16.0 | 288 | 0.0583 | 0.8125 | 0.7584 | 0.7613 | 0.7557 | |
|
| 0.0232 | 17.0 | 306 | 0.0593 | 0.8125 | 0.7635 | 0.7725 | 0.7562 | |
|
|
|
|
|
### Versões dos Frameworks |
|
Transformers: 4.47.0 |
|
PyTorch: 2.5.1+cu121 |
|
Datasets: 3.2.0 |
|
Tokenizers: 0.21.0 |
|
|
|
### Considerações Éticas |
|
Este modelo foi projetado para classificar textos legislativos, o que pode ter implicações sociais e políticas significativas. Portanto, é essencial considerar cuidadosamente como as saídas do modelo são interpretadas e utilizadas, especialmente em contextos sensíveis. |
|
|
|
O conjunto de dados utilizado para treinar o modelo deve ser revisado e atualizado periodicamente para garantir que reflita a linguagem legislativa atual e os padrões de entendimento e luta por igualdade de gênero. |