|
--- |
|
library_name: transformers |
|
license: mit |
|
language: |
|
- ko |
|
base_model: |
|
- google/gemma-2-2b-it |
|
pipeline_tag: text-generation |
|
--- |
|
|
|
# Model Card for Model ID |
|
|
|
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ v0.2.0 |
|
|
|
## Model Description |
|
|
|
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ๋ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ฅผ ํ์ค์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ํ์ค์ด๋ฅผ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ก ๋ณํํ๋ ํ๋ก์ ํธ์ ์ผํ์ผ๋ก ๊ฐ๋ฐ๋ ๋ชจ๋ธ์
๋๋ค. |
|
|
|
ํด๋น ๋ชจ๋ธ์ Gemma2 2b it ๋ชจ๋ธ์ QLoRa ๊ธฐ๋ฒ์ผ๋ก ํ์ธํ๋ํ์ฌ ์ ์ํ์์ต๋๋ค. |
|
|
|
## Uses |
|
|
|
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฐฉ์ธ์ ํ์ค ํ๊ตญ์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ๊ทธ ๋ฐ๋๋ก ๋ฒ์ญํ๋ ๋ฐ ์ง์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์์ฑ ์ธ์ ๋ฐ ๋ฒ์ญ ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ๋ ๊ต์ก์, ์ธ์ดํ์, ๊ธฐ์ ๊ฐ๋ฐ์์๊ฒ ์ ์ฉํ ์ ์์ต๋๋ค. |
|
|
|
### ์์ |
|
|
|
| ์
๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ | |
|
|:--------------------------|:----------------------------------------------------------:|:------------------------------------------:| |
|
| ๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋ฉ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ | |
|
|
|
|
|
| ์
๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ์์ด ํด์ ๋
์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค | ํ์ค์ด: ์ฌ ํ์ ๋ญ์ด์ด ๋ง ๋ ๊ฑฐ ๋ณด๋, ์ถ์ด ๋ชจ์์ด๋ค | |
|
|:--------------------------|:----------------------------------------------------------:|:-------------------------------------:| |
|
| ๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ์ค ํ์ ๋ญ์ด์ด ๋ง์ด ๋ ๊ฑฐ ๋ณด๋๊น ์ถ์ด ๋ชจ์์
๋๋ค | ๋ฐฉ์ธ: ์ฌ ํด์ ๋
์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค | |
|
|
|
|
|
|
|
|
|
## Bias, Risks, and Limitations |
|
|
|
์ด ๋ชจ๋ธ์ ํ์ฌ์ ์ฃผ ๋ฐฉ์ธ์ ์ด์ ์ ๋ง์ถ ํน์ ๋ฐ์ดํฐ ์ธํธ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ๋์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ฐฉ์ธ์ด๋ ์ธ์ด์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. |
|
|
|
## How to Get Started with the Model |
|
|
|
``` |
|
import transformers |
|
import torch |
|
|
|
model_id = "sjbaek/gemma2-2b-it-korean-dialect" |
|
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True) |
|
|
|
pipeline = transformers.pipeline( |
|
"text-generation", |
|
model=model_id, |
|
tokenizer=tokenizer, |
|
torch_dtype=torch.float16, |
|
device_map="auto", |
|
max_new_tokens = 512, |
|
) |
|
|
|
|
|
def dialect_to_standard(text, dialect_type): |
|
return [ |
|
{ |
|
"role":"user", |
|
"content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text) |
|
} |
|
] |
|
|
|
|
|
def standard_to_dialect(text, dialect_type): |
|
return [ |
|
{ |
|
"role":"user", |
|
"content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text) |
|
} |
|
] |
|
|
|
outputs = pipeline( |
|
dialect_to_standard("์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๋ฏธ๊นก ํ์นด๋ถ๋ ๋ด๋ ค์๋น ๋ชป ํ๋", "์ ์ฃผ๋"), |
|
do_sample=True, |
|
temperature=0.1, |
|
top_p=0.90, |
|
add_special_tokens=True |
|
) |
|
|
|
print(outputs[0]["generated_text"][-1]) |
|
# {'role': 'assistant', 'content': '์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๊ทค ํ๊ณ ์๋ค๊ฐ ๋ชป ํ๋๊น'} |
|
|
|
outputs = pipeline( |
|
standard_to_dialect("๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ", "์ ์ฃผ๋"), |
|
do_sample=True, |
|
temperature=0.1, |
|
top_p=0.90, |
|
add_special_tokens=True |
|
) |
|
|
|
print(outputs[0]["generated_text"][-1]) |
|
# {'role': 'assistant', 'content': '๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ'} |
|
``` |
|
|
|
### Training Data |
|
|
|
[AI_HUB ์คยท๋
ธ๋
์ธต ํ๊ตญ์ด ๋ฐฉ์ธ ๋ฐ์ดํฐ (์ถฉ์ฒญ๋, ์ ๋ผ๋, ์ ์ฃผ๋)](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71558) |
|
|
|
## TODO |
|
|
|
- ์ถฉ์ฒญ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.3.0) |
|
- ์ ๋ผ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.4.0) |
|
- ๊ฒฝ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.5.0) |
|
- ๊ฐ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v1.0.0) |