library_name: transformers
license: mit
language:
- ko
base_model:
- google/gemma-2-2b-it
pipeline_tag: text-generation
Model Card for Model ID
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ v0.2.0
Model Description
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ๋ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ฅผ ํ์ค์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ํ์ค์ด๋ฅผ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ก ๋ณํํ๋ ํ๋ก์ ํธ์ ์ผํ์ผ๋ก ๊ฐ๋ฐ๋ ๋ชจ๋ธ์ ๋๋ค.
ํด๋น ๋ชจ๋ธ์ Gemma2 2b it ๋ชจ๋ธ์ QLoRa ๊ธฐ๋ฒ์ผ๋ก ํ์ธํ๋ํ์ฌ ์ ์ํ์์ต๋๋ค.
Uses
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฐฉ์ธ์ ํ์ค ํ๊ตญ์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ๊ทธ ๋ฐ๋๋ก ๋ฒ์ญํ๋ ๋ฐ ์ง์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์์ฑ ์ธ์ ๋ฐ ๋ฒ์ญ ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ๋ ๊ต์ก์, ์ธ์ดํ์, ๊ธฐ์ ๊ฐ๋ฐ์์๊ฒ ์ ์ฉํ ์ ์์ต๋๋ค.
์์
์ ๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ |
---|---|---|
๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋ฉ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ |
์ ๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ์์ด ํด์ ๋ ์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค | ํ์ค์ด: ์ฌ ํ์ ๋ญ์ด์ด ๋ง ๋ ๊ฑฐ ๋ณด๋, ์ถ์ด ๋ชจ์์ด๋ค |
---|---|---|
๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ์ค ํ์ ๋ญ์ด์ด ๋ง์ด ๋ ๊ฑฐ ๋ณด๋๊น ์ถ์ด ๋ชจ์์ ๋๋ค | ๋ฐฉ์ธ: ์ฌ ํด์ ๋ ์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค |
Bias, Risks, and Limitations
์ด ๋ชจ๋ธ์ ํ์ฌ์ ์ฃผ ๋ฐฉ์ธ์ ์ด์ ์ ๋ง์ถ ํน์ ๋ฐ์ดํฐ ์ธํธ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ๋์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ฐฉ์ธ์ด๋ ์ธ์ด์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
How to Get Started with the Model
import transformers
import torch
model_id = "sjbaek/gemma2-2b-it-korean-dialect"
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True)
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
torch_dtype=torch.float16,
device_map="auto",
max_new_tokens = 512,
)
def dialect_to_standard(text, dialect_type):
return [
{
"role":"user",
"content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text)
}
]
def standard_to_dialect(text, dialect_type):
return [
{
"role":"user",
"content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text)
}
]
outputs = pipeline(
dialect_to_standard("์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๋ฏธ๊นก ํ์นด๋ถ๋ ๋ด๋ ค์๋น ๋ชป ํ๋", "์ ์ฃผ๋"),
do_sample=True,
temperature=0.1,
top_p=0.90,
add_special_tokens=True
)
print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๊ทค ํ๊ณ ์๋ค๊ฐ ๋ชป ํ๋๊น'}
outputs = pipeline(
standard_to_dialect("๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ", "์ ์ฃผ๋"),
do_sample=True,
temperature=0.1,
top_p=0.90,
add_special_tokens=True
)
print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ'}
Training Data
AI_HUB ์คยท๋ ธ๋ ์ธต ํ๊ตญ์ด ๋ฐฉ์ธ ๋ฐ์ดํฐ (์ถฉ์ฒญ๋, ์ ๋ผ๋, ์ ์ฃผ๋)
TODO
- ์ถฉ์ฒญ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.3.0)
- ์ ๋ผ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.4.0)
- ๊ฒฝ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.5.0)
- ๊ฐ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v1.0.0)