Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,65 @@
|
|
1 |
---
|
2 |
license: mit
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: mit
|
3 |
+
widget:
|
4 |
+
- text: 오늘 아침 정부는 발표를 통해
|
5 |
+
- text: |
|
6 |
+
아 배고프다
|
7 |
+
datasets:
|
8 |
+
- heegyu/korean-petitions
|
9 |
+
- heegyu/namuwiki-extracted
|
10 |
+
- heegyu/kowikitext
|
11 |
+
language:
|
12 |
+
- ko
|
13 |
+
pipeline_tag: text-generation
|
14 |
---
|
15 |
+
|
16 |
+
## 모델 구성
|
17 |
+
- GPT2(Flax, Pytorch)
|
18 |
+
- 12 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
|
19 |
+
- 1024 max_seq_len
|
20 |
+
- 파라미터 수: 125M
|
21 |
+
|
22 |
+
## 학습 환경 및 하이퍼파라미터
|
23 |
+
- TPU V2-8
|
24 |
+
- Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
|
25 |
+
- Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
|
26 |
+
- Training Steps: 43247 (3 epoch)
|
27 |
+
- 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
|
28 |
+
- 학습 기간: 2023/1/17 ~ 2023/1/19 (2일 6시간)
|
29 |
+
- 학습 코드: https://github.com/HeegyuKim/language-model
|
30 |
+
|
31 |
+
## 학습에 사용한 데이터
|
32 |
+
- AIHub SNS 대화(730MB)
|
33 |
+
- AIHub 구어체(422MB)
|
34 |
+
- AIHub 도서(1.6MB)
|
35 |
+
- AIHub 대규모 웹데이터 기반 한국어 말뭉치(12GB)
|
36 |
+
- 한국어 위키(867MB)
|
37 |
+
- 나무위키(6.4GB)
|
38 |
+
- 국립국어원 메신저 대화(21MB)
|
39 |
+
- 국립국어원 일상대화 말뭉치(23MB)
|
40 |
+
- 국립국어원 문어 말뭉치(3.2GB)
|
41 |
+
- 국립국어원 구어 말뭉치(1.1GB)
|
42 |
+
- 국립국어원 신문 말뭉치(~2022, 17GB)
|
43 |
+
- 청와대 국민청원(525MB)
|
44 |
+
|
45 |
+
데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
|
46 |
+
총 토큰 수는 약 7B임
|
47 |
+
|
48 |
+
## 사용 예시
|
49 |
+
```python
|
50 |
+
from transformers import pipeline
|
51 |
+
model_name = "heegyu/ajoublue-gpt2-base"
|
52 |
+
pipe = pipeline('text-generation', model=model_name)
|
53 |
+
print(pipe("안녕하세요", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
|
54 |
+
print(pipe("오늘 정부 발표에 따르면, ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
|
55 |
+
print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128, min_length=64))
|
56 |
+
```
|
57 |
+
결과
|
58 |
+
```bash
|
59 |
+
[{'generated_text': '안녕하세요 안 좋은 기억 많이 남으셨을 것 같아요.\n아니 이렇게까지 제가 말씀을 드렸었는데 또 이런 거였어요? 왜 하필이면 저는 어렸을 때 그~ 중학교 1학년 일 학기 때부터 저를 막 이렇게 쳐다보는 그런 모습이 습관이 됐고, 그러면서 점점 그때부터는 굉장히 내성적으로 변하게 됐어요. 저도 되게 내성적이고 그래서 처음에는 막 말을 하고 가만히 있어도 너무 웃다가 갑자기 그러면은 계속 얼굴이 빨개지면서 막 그런 모습이었거든요. 그래가지고 이제 그때부터 내성적인 성격이 조금 바뀌게 되면은 사실 어~ 항상 뭔가 좀 그렇게 말 할 때 안 웃는 거예요. 그러다 보니까 인제 막 어~ 화를 내서 막 다 풀어가지고 막 웃고 있는데 그냥 그게 나중에'}]
|
60 |
+
[{'generated_text': '오늘 정부 발표에 따르면, 車·조선 등 기간산업체들의 올해 1분기(1~3월) 생산자물가지수(ppi)는 전년 동기 대비 7.6% 상승했다. 4월 소비자물가는 전년 동기 대비 2.2%, 농수산물이 5.5% 올랐다.. 수입상품지수는 5월 3년 이상 장류를 제외한 채품 기준 전 품목을 대상으로 작성되며 이달 말 공표예정이다..'}]
|
61 |
+
[{'generated_text': '싸늘하다. 가슴에 비수가 날아와 꽂힌다. 改의 경우, 아군이 적군일 경우에 사용 가능한 스킬.\n초기의 경우, 리젠이 없고 공격력도 크게 떨어진다. 1:1에 특화된 캐릭터나 다른 스킬들처럼 대미지가 높지 않다. 그러나 2타 히트 시 타격판정이 있어서 2히트 후에는 평타 판정과 함께 추가타가 가능해, 공격력이 좀 더 높아진다. 3타를 맞으면 바로 4타로 이어진다. 따라서 이 기술을 맞고 도망칠 수 있으며 만약 2타에서 2번을 맞고도 반격하면 도망친다(...), 그래도 공격력 자체는 매우 높고 리치는 짧아 잡기 쉽다. 딜레이가 없는 대신 연타가 가능하기에 잡기전에서'}]```
|
62 |
+
```
|
63 |
+
|
64 |
+
## 주의사항
|
65 |
+
이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함됐을 수 있으며, 별도의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.
|