File size: 4,255 Bytes
e12d1a6 a6d4417 e12d1a6 7ac904c e12d1a6 929fd3b e12d1a6 929fd3b e12d1a6 929fd3b e12d1a6 929fd3b e12d1a6 3590369 1ed4798 3590369 1ed4798 3590369 e12d1a6 1224bc0 e12d1a6 44ca3e1 483657c 44ca3e1 483657c 44ca3e1 e12d1a6 929fd3b e12d1a6 1224bc0 e12d1a6 1224bc0 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 |
---
library_name: transformers
license: mit
language:
- ko
base_model:
- google/gemma-2-2b-it
pipeline_tag: text-generation
---
# Model Card for Model ID
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ v0.2.0
## Model Description
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ๋ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ฅผ ํ์ค์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ํ์ค์ด๋ฅผ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ก ๋ณํํ๋ ํ๋ก์ ํธ์ ์ผํ์ผ๋ก ๊ฐ๋ฐ๋ ๋ชจ๋ธ์
๋๋ค.
ํด๋น ๋ชจ๋ธ์ Gemma2 2b it ๋ชจ๋ธ์ QLoRa ๊ธฐ๋ฒ์ผ๋ก ํ์ธํ๋ํ์ฌ ์ ์ํ์์ต๋๋ค.
## Uses
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฐฉ์ธ์ ํ์ค ํ๊ตญ์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ๊ทธ ๋ฐ๋๋ก ๋ฒ์ญํ๋ ๋ฐ ์ง์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์์ฑ ์ธ์ ๋ฐ ๋ฒ์ญ ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ๋ ๊ต์ก์, ์ธ์ดํ์, ๊ธฐ์ ๊ฐ๋ฐ์์๊ฒ ์ ์ฉํ ์ ์์ต๋๋ค.
### ์์
| ์
๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ |
|:--------------------------|:----------------------------------------------------------:|:------------------------------------------:|
| ๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋ฉ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ |
| ์
๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ์์ด ํด์ ๋
์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค | ํ์ค์ด: ์ฌ ํ์ ๋ญ์ด์ด ๋ง ๋ ๊ฑฐ ๋ณด๋, ์ถ์ด ๋ชจ์์ด๋ค |
|:--------------------------|:----------------------------------------------------------:|:-------------------------------------:|
| ๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ์ค ํ์ ๋ญ์ด์ด ๋ง์ด ๋ ๊ฑฐ ๋ณด๋๊น ์ถ์ด ๋ชจ์์
๋๋ค | ๋ฐฉ์ธ: ์ฌ ํด์ ๋
์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค |
## Bias, Risks, and Limitations
์ด ๋ชจ๋ธ์ ํ์ฌ์ ์ฃผ ๋ฐฉ์ธ์ ์ด์ ์ ๋ง์ถ ํน์ ๋ฐ์ดํฐ ์ธํธ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ๋์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ฐฉ์ธ์ด๋ ์ธ์ด์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
## How to Get Started with the Model
```
import transformers
import torch
model_id = "sjbaek/gemma2-2b-it-korean-dialect"
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True)
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
torch_dtype=torch.float16,
device_map="auto",
max_new_tokens = 512,
)
def dialect_to_standard(text, dialect_type):
return [
{
"role":"user",
"content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text)
}
]
def standard_to_dialect(text, dialect_type):
return [
{
"role":"user",
"content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text)
}
]
outputs = pipeline(
dialect_to_standard("์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๋ฏธ๊นก ํ์นด๋ถ๋ ๋ด๋ ค์๋น ๋ชป ํ๋", "์ ์ฃผ๋"),
do_sample=True,
temperature=0.1,
top_p=0.90,
add_special_tokens=True
)
print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๊ทค ํ๊ณ ์๋ค๊ฐ ๋ชป ํ๋๊น'}
outputs = pipeline(
standard_to_dialect("๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ", "์ ์ฃผ๋"),
do_sample=True,
temperature=0.1,
top_p=0.90,
add_special_tokens=True
)
print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ'}
```
### Training Data
[AI_HUB ์คยท๋
ธ๋
์ธต ํ๊ตญ์ด ๋ฐฉ์ธ ๋ฐ์ดํฐ (์ถฉ์ฒญ๋, ์ ๋ผ๋, ์ ์ฃผ๋)](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71558)
## TODO
- ์ถฉ์ฒญ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.3.0)
- ์ ๋ผ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.4.0)
- ๊ฒฝ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.5.0)
- ๊ฐ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v1.0.0) |