Update README.md

2a8d631 verified 28 days ago

5.54 kB

	---
	library_name: transformers
	license: mit
	base_model: neuralmind/bert-base-portuguese-cased
	tags:
	- generated_from_trainer
	metrics:
	- accuracy
	- f1
	- recall
	- precision
	model-index:
	- name: neuralmind/bert-base-portuguese-cased
	results: []
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# neuralmind/bert-base-portuguese-cased

	## Descrição do Modelo

	Este modelo é uma versão ajustada do modelo pré-treinado neuralmind/bert-base-portuguese-cased. Ele foi especificamente adaptado para classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres, com base no conteúdo de seus resumos (ementa) e texto completo (inteiro teor). O objetivo do modelo é compreender as nuances dos impactos de gênero em contextos jurídicos.
	O modelo utiliza a arquitetura BERT, projetada para tarefas de compreensão de linguagem natural. Seu uso nesta tarefa especializada permite ao modelo identificar padrões e terminologias indicativas de como um projeto de lei se alinha aos direitos das mulheres.

	## Usos e Limitações

	Uso Primário: Classificar propostas legislativas brasileiras (PLs) como favoráveis ou desfavoráveis aos direitos das mulheres.

	Público-Alvo: Este modelo é destinado a cientistas políticos, jornalistas, profissionais do direito, defensores da igualdade de gênero e pesquisadores que analisam textos legislativos, além de sistemas automatizados que categorizam documentos jurídicos com base em considerações de equidade de gênero.

	Áreas de Aplicação:

	Análise legislativa
	Defesa da igualdade de gênero
	Pesquisa política e jurídica
	Classificação automatizada de documentos jurídicos

	## Dados de treinamento e avaliação
	O modelo foi ajustado utilizando um [conjunto de dados personalizado](https://huggingface.co/datasets/azmina/ementas_anotadas_inteiroteor) de propostas legislativas (PLs) do Brasil, com foco específico em temas relacionados aos direitos das mulheres. O conjunto contém tanto as ementas quanto os inteiro teor dos PLs.

	\| \| Precision \| Recall \| F1-Score \| Support \|
	\|---------------\|-----------\|--------\|----------\|---------\|
	\| Class 0 \| 0.94 \| 0.53 \| 0.67 \| 114 \|
	\| Class 1 \| 0.35 \| 0.88 \| 0.50 \| 33 \|
	\| Accuracy \| \| \| 0.61 \| 147 \|
	\| Macro Avg \| 0.64 \| 0.70 \| 0.59 \| 147 \|
	\| Weighted Avg \| 0.81 \| 0.61 \| 0.64 \| 147 \|

	Para mais informações sobre a avaliação do modelo, confira o [repositório do projeto](https://github.com/institutoazmina/ia-feminista-elas-no-congresso).

	### Hiperparâmetros de Treinamento
	Os seguintes hiperparâmetros foram utilizados durante o treinamento:

	learning_rate: 1e-05
	train_batch_size: 64
	eval_batch_size: 64
	seed: 5151
	optimizer: AdamW (PyTorch) com betas=(0.9, 0.999) e epsilon=1e-08 (sem argumentos adicionais para o otimizador).
	lr_scheduler_type: Linear
	lr_scheduler_warmup_steps: 150
	num_epochs: 19

	### Resultados do Treinamento

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Accuracy \| F1 \| Recall \| Precision \|
	\|:-------------:\|:-----:\|:----:\|:---------------:\|:--------:\|:------:\|:------:\|:---------:\|
	\| 0.0801 \| 1.0 \| 18 \| 0.0769 \| 0.7411 \| 0.4256 \| 0.5 \| 0.3705 \|
	\| 0.0691 \| 2.0 \| 36 \| 0.0709 \| 0.75 \| 0.4612 \| 0.5172 \| 0.8739 \|
	\| 0.0647 \| 3.0 \| 54 \| 0.0661 \| 0.75 \| 0.4612 \| 0.5172 \| 0.8739 \|
	\| 0.0644 \| 4.0 \| 72 \| 0.0648 \| 0.6518 \| 0.5774 \| 0.5856 \| 0.5753 \|
	\| 0.0621 \| 5.0 \| 90 \| 0.0632 \| 0.7054 \| 0.6424 \| 0.6554 \| 0.6367 \|
	\| 0.0621 \| 6.0 \| 108 \| 0.0627 \| 0.7232 \| 0.6265 \| 0.6226 \| 0.6319 \|
	\| 0.0586 \| 7.0 \| 126 \| 0.0595 \| 0.75 \| 0.6937 \| 0.7079 \| 0.6857 \|
	\| 0.0547 \| 8.0 \| 144 \| 0.0582 \| 0.7768 \| 0.7338 \| 0.7597 \| 0.7223 \|
	\| 0.0509 \| 9.0 \| 162 \| 0.0554 \| 0.7768 \| 0.7338 \| 0.7597 \| 0.7223 \|
	\| 0.0462 \| 10.0 \| 180 \| 0.0557 \| 0.75 \| 0.7091 \| 0.7416 \| 0.6998 \|
	\| 0.0437 \| 11.0 \| 198 \| 0.0532 \| 0.7768 \| 0.7382 \| 0.7709 \| 0.7264 \|
	\| 0.0415 \| 12.0 \| 216 \| 0.0515 \| 0.7857 \| 0.7466 \| 0.7769 \| 0.7341 \|
	\| 0.0356 \| 13.0 \| 234 \| 0.0545 \| 0.8036 \| 0.7547 \| 0.7665 \| 0.7461 \|
	\| 0.0301 \| 14.0 \| 252 \| 0.0543 \| 0.8214 \| 0.7770 \| 0.7898 \| 0.7675 \|
	\| 0.0262 \| 15.0 \| 270 \| 0.0541 \| 0.8036 \| 0.7594 \| 0.7777 \| 0.7481 \|
	\| 0.0248 \| 16.0 \| 288 \| 0.0583 \| 0.8125 \| 0.7584 \| 0.7613 \| 0.7557 \|
	\| 0.0232 \| 17.0 \| 306 \| 0.0593 \| 0.8125 \| 0.7635 \| 0.7725 \| 0.7562 \|


	### Versões dos Frameworks
	Transformers: 4.47.0
	PyTorch: 2.5.1+cu121
	Datasets: 3.2.0
	Tokenizers: 0.21.0

	### Considerações Éticas
	Este modelo foi projetado para classificar textos legislativos, o que pode ter implicações sociais e políticas significativas. Portanto, é essencial considerar cuidadosamente como as saídas do modelo são interpretadas e utilizadas, especialmente em contextos sensíveis.

	O conjunto de dados utilizado para treinar o modelo deve ser revisado e atualizado periodicamente para garantir que reflita a linguagem legislativa atual e os padrões de entendimento e luta por igualdade de gênero.