|
|
|
# |
|
# Model Card for t5_small Summarization Model |
|
|
|
## Model Details |
|
모델의 목적은 |
|
1. 입력 뉴스/기사 대해 |
|
2. 요약된 내용을 생성합니다. |
|
|
|
따라서 모델의 input/output은 다음과 같습니다. |
|
- input : 뉴스/기사 ( = N tokens ) |
|
- output : 감정 라벨 ( = M tokens ) |
|
|
|
## Training Data |
|
[CNN/Daily mail](https://github.com/abisee/cnn-dailymail): CNN과 Daily Mail의 저널리스트가 작성한 300,000개가 넘는 고유한 뉴스 기사가 포함된 영어 dataset. |
|
* 본 데이터의 1.0.0 버전은 Apache-2.0 License를 따르며, 데이터 생성을 위한 코드는 MIT License를 따른다. |
|
|
|
CNN/Daily mail dataset에는 2가지 데이터가 존재합니다. |
|
- article : 뉴스/기사 |
|
- highlights : 요약 |
|
|
|
## Training Procedure |
|
* Seq2SeqTrainingArguments로 학습인자 설정 |
|
* DataCollatorForSeq2Seq로 data collator 설정 |
|
* Seq2SeqTrainer로 trainer 설정 및 학습. |
|
|
|
## How to Use |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-small") |
|
model = AutoModelForSeq2SeqLM.from_pretrained("google-t5/t5-small") |
|
|
|
train_dataset = load_dataset("cnn_dailymail", "3.0.0", split='train[:1%]') |
|
valid_dataset = load_dataset("cnn_dailymail", "3.0.0", split='validation[:1%]') |
|
|
|
## Evaluation |
|
모델이 "문장을 얼마나 잘 요약하는" |
|
- ROUGE Score와 BLEU Score를 통해 성능을 확인합니다. |
|
- Pipeline과 search strategy로 확장된 예측 결과를 확인합니다. |
|
- ROUGE, BLEU score를 계산하는 compute_metric function을 정의합니다. |
|
|
|
## Limitations |
|
ROUGE score가 높지 않음. |
|
## Ethical Considerations |
|
|
|
|