heegyu commited on
Commit
222ce3f
1 Parent(s): 6465cc6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +28 -28
README.md CHANGED
@@ -1,9 +1,16 @@
1
  ---
2
  license: mit
3
  widget:
4
- - text: 오늘 아침 정부는 발표를 통해
5
- - text: |
6
- 아 배고프다
 
 
 
 
 
 
 
7
  ---
8
 
9
  ## 모델 구성
@@ -14,48 +21,41 @@ widget:
14
 
15
  ## 학습 환경 및 하이퍼파라미터
16
  - TPU V2-8
17
- - Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
18
  - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
19
- - Training Steps: 625000 (3 epoch)
20
- - 학습 토큰 수: 19.22B (625000step * 1024seq * 8dev * 4batch / 1024^3)
21
- - 학습 기간: 2022/12/21 ~ 2022/12/25
22
-
23
  ## 학습에 사용한 데이터
24
- - AIHub SNS 대화(747MB)
25
- - AIHub 구어체(435MB)
26
  - AIHub 도서(1.6MB)
27
- - AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
28
- - 한국어 위키(773MB)
29
- - 나무위키(5.8GB)
30
  - 국립국어원 메신저 대화(21MB)
31
- - 국립국어원 일상대화 말뭉치(29.5MB)
32
- - 국립국어원 문어 말뭉치(2.91GB)
33
  - 국립국어원 구어 말뭉치(1.1GB)
34
- - 청와대 국민청원(651.8MB)
35
- - KcBERT Pre-Training Corpus(11.86GB)
36
 
37
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
38
- 총 토큰 수는 약 6.4B
39
-
40
  ## 사용 예시
41
  ```python
42
  from transformers import pipeline
43
-
44
  model_name = "heegyu/kogpt-j-base-24L"
45
  pipe = pipeline('text-generation', model=model_name)
46
-
47
  print(pipe("안녕하세요", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
48
  print(pipe("오늘 정부 발표에 따르면, ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
49
  print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128, min_length=64))
50
  ```
51
  결과
52
  ```bash
53
- [{'generated_text': '안녕하세요. 고등학교 3학년인데요, 최근 수능이 끝나고 친구들과 만나서 이야기 중에 제가 (이름)를 너무 좋아하고 정말 잘하고 있는 같아서 기분이 좋아졌습니다. 그런데 아직 시간이 됐는데도 불구하고 친구들이 외모를 놀려대서 되게 마음이 불편했습니다. 그래서 솔직히 저도 그때 고민이 많았는데 그 당시에는 친구한테 말을 잘못해서 그런 건 아니잖아요? 하하... 이런 상황에서 어떻게 대처해야할지 몰랐는데 친구들 중에서 아무도 나서지 않아 당황스러웠고 저는 아무 말도 하지 못한 그냥 멍하니 서있고 말았습니다. 그리고 그렇게 한참을 있었는데 친구가 저에게 지금 뭐하고 있을까? 이렇게 물어보길래 너무 슬픈 나머지 울 뻔 했습니다.. -(3번) -1 나-'}]
54
- [{'generated_text': '오늘 정부 발표에 따르면, 제조업, 내수 모두 하락했다.미 상무부는 지난달 미국의 제조업 수주가 전월대비 0.5% 감소했다고 22일 밝혔다. 이는 직전월과 같은 수치다. 서비스업지수도 0.3% 후퇴하며 증가세를 견인하고 있다. 미국 제조업 수주도 전월에 비해 1포인트 저하한 수준이다.미중 무역전쟁에 따른 불안감이 지속되면서 뉴욕증시가 6 연속 하락하면서 투자 심리를 악화시켰다.미국 연방준비제도(연준)의 9·12 양적완화(qe) 결정으로 6년반 만에 사상 최대로 늘어난 자금이 시장에 유입되고 있다는 분석이다'}]
55
- [{'generated_text': '싸늘하다. 가슴에 비수가 날아와 꽂힌다. \n“내, 정말 된다고? 알았어! 그럼 다시 또...”라며 혼잣말을 한다 (103화) “넌 나에게 있어서 그저 소모품이야.”(110~111화) 그리고 ‘도망치는 나니까’, ”너를 지켜볼 뿐이고 나는 잃었을 뿐이다’라는 메시지가 나온다.(212번째) 도리어 내뱉는 말이 가관이다.. 자신의 행동에 대해 사과를 해야지 아무 말도 안한 나한테 사과하라면서 화풀이를 하는가...(504회)‘정말로 너 때문에 내가 죽어야 되냐?!’(758번) 이런 식의 대화가 계속된다……. 하지만'}]
56
  ```
57
- ## Issues
58
- - [ ] 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정
59
-
60
  ## 주의사항
61
- 이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함되어있으며, 별로의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.
 
1
  ---
2
  license: mit
3
  widget:
4
+ - text: 오늘 아침 정부는 발표를 통해
5
+ - text: |
6
+ 아 배고프다
7
+ datasets:
8
+ - heegyu/korean-petitions
9
+ - heegyu/namuwiki-extracted
10
+ - heegyu/kowikitext
11
+ language:
12
+ - ko
13
+ pipeline_tag: text-generation
14
  ---
15
 
16
  ## 모델 구성
 
21
 
22
  ## 학습 환경 및 하이퍼파라미터
23
  - TPU V2-8
24
+ - Learning Rate: 3e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
25
  - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
26
+ - Training Steps: 43247 (3 epoch)
27
+ - 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
28
+ - 학습 기간: 2023/1/25 ~ 2023/1/29
 
29
  ## 학습에 사용한 데이터
30
+ - AIHub SNS 대화(730MB)
31
+ - AIHub 구어체(422MB)
32
  - AIHub 도서(1.6MB)
33
+ - AIHub 대규모 웹데이터 기반 한국어 말뭉치(12GB)
34
+ - 한국어 위키(867MB)
35
+ - 나무위키(6.4GB)
36
  - 국립국어원 메신저 대화(21MB)
37
+ - 국립국어원 일상대화 말뭉치(23MB)
38
+ - 국립국어원 문어 말뭉치(3.2GB)
39
  - 국립국어원 구어 말뭉치(1.1GB)
40
+ - 국립국어원 신문 말뭉치(~2022, 17GB)
41
+ - 청와대 국민청원(525MB)
42
 
43
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
44
+ 총 토큰 수는 약 7B
 
45
  ## 사용 예시
46
  ```python
47
  from transformers import pipeline
 
48
  model_name = "heegyu/kogpt-j-base-24L"
49
  pipe = pipeline('text-generation', model=model_name)
 
50
  print(pipe("안녕하세요", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
51
  print(pipe("오늘 정부 발표에 따르면, ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
52
  print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128, min_length=64))
53
  ```
54
  결과
55
  ```bash
56
+ [{'generated_text': '안녕하세요?\n우선은\n네.\n뭐~ 이런 부분들이\n네.\n좀 어~ 영향을 많이 받는같다는 생각이 듭니다.\n네.\n네.\n어~ 우리 윤종천 교수님께서 먼저 정리를 해주셨잖아요.\n네.\n어~ 사실은 인제 아까 교수님 말씀하신 것처럼 좀 이런 그~\n사실은\n네.\n그~ 가지 문제가 있는데 그~ 어~ 인제\n음\n이제 아까 이혜정 선생님이 말씀하신 것처럼 이제 어떤 부분에 대한 어~ 그런 저~ 그런 어~ 인제 그~ 이런 부분들이 있는 같구요.\n네.\n그래서 어떤 부분에 이제'}]
57
+ [{'generated_text': '오늘 정부 발표에 따르면, ㎡당 평균 분양가는 1천215만4천원으로, 1천209만8천원에 해당하는 서울시 강동구 둔촌주공을 재건축하는 둔촌주공 아파트가 재건축 최고가를 기록했다.\n동부준공 임대의 경우 분양가가 1천262만5천원이며, 2천만~3천600만원에 달하는 강남구 개포동 개포 주공아파트(옛 개포 주공2단지)의 경우는 1천208만6천원으로 1천208만7천원인 대치동 은마아파트(개포시영아파트)의 절반에도 미치지 못했다.\n반면 개포동 '}]
58
+ [{'generated_text': '싸늘하다. 가슴에 비수가 날아와 꽂힌다. 詩人은 시커멓고 불길하다.\n詩는 중의 꽃\n詩人은 꽃은 시커멓고 불길하다.\n詩人은 시커멀고 불길하다.\n詩無詩無詩無詩無\n詩無詩無詩無詩無\n(고은, 「서정에서 시로」)\n서정에 대한 시비, 시에 대한 시비, 시에 대한 시비가 있는데, 시비가 시인이 시인지 아닌지 시비인지 아닌지 판가름하는 잣대를 지녔다.\n나는 시인의 속에서 시인들의 삶과 시를 바라보며 시인이 무엇을 추구'}]
59
  ```
 
 
 
60
  ## 주의사항
61
+ 이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함됐을 있으며, 별도의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.