belisards's picture
Update README.md
2a8d631 verified
---
library_name: transformers
license: mit
base_model: neuralmind/bert-base-portuguese-cased
tags:
- generated_from_trainer
metrics:
- accuracy
- f1
- recall
- precision
model-index:
- name: neuralmind/bert-base-portuguese-cased
results: []
---
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->
# neuralmind/bert-base-portuguese-cased
## Descrição do Modelo
Este modelo é uma versão ajustada do modelo pré-treinado neuralmind/bert-base-portuguese-cased. Ele foi especificamente adaptado para classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres, com base no conteúdo de seus resumos (ementa) e texto completo (inteiro teor). O objetivo do modelo é compreender as nuances dos impactos de gênero em contextos jurídicos.
O modelo utiliza a arquitetura BERT, projetada para tarefas de compreensão de linguagem natural. Seu uso nesta tarefa especializada permite ao modelo identificar padrões e terminologias indicativas de como um projeto de lei se alinha aos direitos das mulheres.
## Usos e Limitações
Uso Primário: Classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres.
Público-Alvo: Este modelo é destinado a cientistas políticos, jornalistas, profissionais do direito, defensores da igualdade de gênero e pesquisadores que analisam textos legislativos, além de sistemas automatizados que categorizam documentos jurídicos com base em considerações de equidade de gênero.
Áreas de Aplicação:
Análise legislativa
Defesa da igualdade de gênero
Pesquisa política e jurídica
Classificação automatizada de documentos jurídicos
## Dados de treinamento e avaliação
O modelo foi ajustado utilizando um [conjunto de dados personalizado](https://huggingface.co/datasets/azmina/ementas_anotadas_inteiroteor) de propostas legislativas (PLs) do Brasil, com foco específico em temas relacionados aos direitos das mulheres. O conjunto contém tanto as ementas quanto os inteiro teor dos PLs.
| | Precision | Recall | F1-Score | Support |
|---------------|-----------|--------|----------|---------|
| Class 0 | 0.94 | 0.53 | 0.67 | 114 |
| Class 1 | 0.35 | 0.88 | 0.50 | 33 |
| Accuracy | | | 0.61 | 147 |
| Macro Avg | 0.64 | 0.70 | 0.59 | 147 |
| Weighted Avg | 0.81 | 0.61 | 0.64 | 147 |
Para mais informações sobre a avaliação do modelo, confira o [repositório do projeto](https://github.com/institutoazmina/ia-feminista-elas-no-congresso).
### Hiperparâmetros de Treinamento
Os seguintes hiperparâmetros foram utilizados durante o treinamento:
learning_rate: 1e-05
train_batch_size: 64
eval_batch_size: 64
seed: 5151
optimizer: AdamW (PyTorch) com betas=(0.9, 0.999) e epsilon=1e-08 (sem argumentos adicionais para o otimizador).
lr_scheduler_type: Linear
lr_scheduler_warmup_steps: 150
num_epochs: 19
### Resultados do Treinamento
| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 | Recall | Precision |
|:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|:------:|:---------:|
| 0.0801 | 1.0 | 18 | 0.0769 | 0.7411 | 0.4256 | 0.5 | 0.3705 |
| 0.0691 | 2.0 | 36 | 0.0709 | 0.75 | 0.4612 | 0.5172 | 0.8739 |
| 0.0647 | 3.0 | 54 | 0.0661 | 0.75 | 0.4612 | 0.5172 | 0.8739 |
| 0.0644 | 4.0 | 72 | 0.0648 | 0.6518 | 0.5774 | 0.5856 | 0.5753 |
| 0.0621 | 5.0 | 90 | 0.0632 | 0.7054 | 0.6424 | 0.6554 | 0.6367 |
| 0.0621 | 6.0 | 108 | 0.0627 | 0.7232 | 0.6265 | 0.6226 | 0.6319 |
| 0.0586 | 7.0 | 126 | 0.0595 | 0.75 | 0.6937 | 0.7079 | 0.6857 |
| 0.0547 | 8.0 | 144 | 0.0582 | 0.7768 | 0.7338 | 0.7597 | 0.7223 |
| 0.0509 | 9.0 | 162 | 0.0554 | 0.7768 | 0.7338 | 0.7597 | 0.7223 |
| 0.0462 | 10.0 | 180 | 0.0557 | 0.75 | 0.7091 | 0.7416 | 0.6998 |
| 0.0437 | 11.0 | 198 | 0.0532 | 0.7768 | 0.7382 | 0.7709 | 0.7264 |
| 0.0415 | 12.0 | 216 | 0.0515 | 0.7857 | 0.7466 | 0.7769 | 0.7341 |
| 0.0356 | 13.0 | 234 | 0.0545 | 0.8036 | 0.7547 | 0.7665 | 0.7461 |
| 0.0301 | 14.0 | 252 | 0.0543 | 0.8214 | 0.7770 | 0.7898 | 0.7675 |
| 0.0262 | 15.0 | 270 | 0.0541 | 0.8036 | 0.7594 | 0.7777 | 0.7481 |
| 0.0248 | 16.0 | 288 | 0.0583 | 0.8125 | 0.7584 | 0.7613 | 0.7557 |
| 0.0232 | 17.0 | 306 | 0.0593 | 0.8125 | 0.7635 | 0.7725 | 0.7562 |
### Versões dos Frameworks
Transformers: 4.47.0
PyTorch: 2.5.1+cu121
Datasets: 3.2.0
Tokenizers: 0.21.0
### Considerações Éticas
Este modelo foi projetado para classificar textos legislativos, o que pode ter implicações sociais e políticas significativas. Portanto, é essencial considerar cuidadosamente como as saídas do modelo são interpretadas e utilizadas, especialmente em contextos sensíveis.
O conjunto de dados utilizado para treinar o modelo deve ser revisado e atualizado periodicamente para garantir que reflita a linguagem legislativa atual e os padrões de entendimento e luta por igualdade de gênero.