hwkhw's picture
init commit
bf07749

Dataset Card for Custom Text Dataset

Dataset Name

[CNN/Daily mail]

Overview

(https://github.com/abisee/cnn-dailymail): CNN과 Daily Mail의 저널리스트가 작성한 300,000개가 넘는 고유한 뉴스 기사가 포함된 영어 dataset.

  • 본 데이터의 1.0.0 버전은 Apache-2.0 License를 따르며, 데이터 생성을 위한 코드는 MIT License를 따른다.

Composition

CNN/Daily mail dataset에는 2가지 데이터가 존재합니다.

  • article : 뉴스/기사
  • highlights : 요약

Collection Process

CNN과 Daily Mail의 저널리스트가 작성한 300,000개가 넘는 고유한 뉴스 기사

Preprocessing

특별한 전처리 없음

How to Use

  python evaluation.py

Evaluation

모델이 "문장을 얼마나 잘 요약하는"

  • ROUGE Score와 BLEU Score를 통해 성능을 확인합니다.
  • Pipeline과 search strategy로 확장된 예측 결과를 확인합니다.
  • ROUGE, BLEU score를 계산하는 compute_metric function을 정의합니다.

Limitations

Ethical Considerations