hwkhw commited on
Commit
bf07749
·
1 Parent(s): 62b4b29

init commit

Browse files
README.md ADDED
@@ -0,0 +1,39 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ # Dataset Card for Custom Text Dataset
3
+
4
+ ## Dataset Name
5
+ [CNN/Daily mail]
6
+
7
+ ## Overview
8
+ (https://github.com/abisee/cnn-dailymail): CNN과 Daily Mail의 저널리스트가 작성한 300,000개가 넘는 고유한 뉴스 기사가 포함된 영어 dataset.
9
+ * 본 데이터의 1.0.0 버전은 Apache-2.0 License를 따르며, 데이터 생성을 위한 코드는 MIT License를 따른다.
10
+
11
+ ## Composition
12
+ CNN/Daily mail dataset에는 2가지 데이터가 존재합니다.
13
+ - article : 뉴스/기사
14
+ - highlights : 요약
15
+
16
+ ## Collection Process
17
+ CNN과 Daily Mail의 저널리스트가 작성한 300,000개가 넘는 고유한 뉴스 기사
18
+
19
+ ## Preprocessing
20
+ 특별한 전처리 없음
21
+
22
+ ## How to Use
23
+ ```python train.py
24
+ python evaluation.py
25
+
26
+
27
+ ```
28
+
29
+ ## Evaluation
30
+ 모델이 "문장을 얼마나 잘 요약하는"
31
+ - ROUGE Score와 BLEU Score를 통해 성능을 확인합니다.
32
+ - Pipeline과 search strategy로 확장된 예측 결과를 확인합니다.
33
+ - ROUGE, BLEU score를 계산하는 compute_metric function을 정의합니다.
34
+
35
+ ## Limitations
36
+
37
+
38
+ ## Ethical Considerations
39
+
test/dataset_dict.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"splits": ["test"]}
test/test/data-00000-of-00001.arrow ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1e6aa13a3e10a33624931f6c220c9618528323886bd7b7ac334af681b8dc0646
3
+ size 346576
test/test/dataset_info.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "citation": "",
3
+ "description": "",
4
+ "features": {
5
+ "sentence": {
6
+ "feature": {
7
+ "dtype": "string",
8
+ "_type": "Value"
9
+ },
10
+ "_type": "Sequence"
11
+ },
12
+ "labels": {
13
+ "feature": {
14
+ "dtype": "string",
15
+ "_type": "Value"
16
+ },
17
+ "_type": "Sequence"
18
+ }
19
+ },
20
+ "homepage": "",
21
+ "license": ""
22
+ }
test/test/state.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_data_files": [
3
+ {
4
+ "filename": "data-00000-of-00001.arrow"
5
+ }
6
+ ],
7
+ "_fingerprint": "a966e5e39a3a551f",
8
+ "_format_columns": null,
9
+ "_format_kwargs": {},
10
+ "_format_type": null,
11
+ "_output_all_columns": false,
12
+ "_split": null
13
+ }
train/dataset_dict.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"splits": ["train"]}
train/train/data-00000-of-00001.arrow ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c3b84a293ed7afd9641f578c760558feab774e12174775ffef3bd6d130873903
3
+ size 1400
train/train/dataset_info.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "citation": "",
3
+ "description": "",
4
+ "features": {
5
+ "sentence": {
6
+ "dtype": "string",
7
+ "_type": "Value"
8
+ },
9
+ "labels": {
10
+ "dtype": "string",
11
+ "_type": "Value"
12
+ }
13
+ },
14
+ "homepage": "",
15
+ "license": ""
16
+ }
train/train/state.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_data_files": [
3
+ {
4
+ "filename": "data-00000-of-00001.arrow"
5
+ }
6
+ ],
7
+ "_fingerprint": "a1df46296853828f",
8
+ "_format_columns": null,
9
+ "_format_kwargs": {},
10
+ "_format_type": null,
11
+ "_output_all_columns": false,
12
+ "_split": null
13
+ }