File size: 4,255 Bytes

---
library_name: transformers
license: mit
language:
- ko
base_model:
- google/gemma-2-2b-it
pipeline_tag: text-generation
---

# Model Card for Model ID

Gemma2 2b 한국어 방언 통역기 v0.2.0

## Model Description

Gemma2 2b 한국어 방언 통역기는 한국어 사투리를 표준어로 번역하거나 표준어를 한국어 사투리로 변환하는 프로젝트의 일환으로 개발된 모델입니다. 

해당 모델은 Gemma2 2b it 모델을 QLoRa 기법으로 파인튜닝하여 제작하였습니다.

## Uses

이 모델은 한국어 방언을 표준 한국어로 번역하거나 그 반대로 번역하는 데 직접 사용할 수 있습니다. 음성 인식 및 번역 도구를 개발하는 교육자, 언어학자, 기술 개발자에게 유용할 수 있습니다.

### 예시 

| 입력 문장                  | 방언: 게난 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건디 | 표준어: 그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데 |
|:--------------------------|:----------------------------------------------------------:|:------------------------------------------:|
| 방언 통역기 출력             | 표준어: 그러니까 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데            | 방언:  게난 저 어멍 더 나이 먹어가기 전에 여기 와야 될 건디 |


| 입력 문장                  | 방언: 자이 폴에 독솔 막 난 거 보난 언 생이우다 | 표준어: 재 팔에 닭살이 막 난 거 보니, 추운 모양이다 |
|:--------------------------|:----------------------------------------------------------:|:-------------------------------------:|
| 방언 통역기 출력                 | 표준어: 쟤 팔에 닭살이 많이 난 거 보니까 추운 모양입니다            | 방언: 재 폴에 독솔 막 난 거 보난 언 생이우다 |




## Bias, Risks, and Limitations

이 모델은 현재제주 방언에 초점을 맞춘 특정 데이터 세트에 맞춰 미세 조정되었기 때문에 다른 방언이나 언어에 대한 성능이 제한될 수 있습니다.

## How to Get Started with the Model

```
import transformers
import torch

model_id = "sjbaek/gemma2-2b-it-korean-dialect"
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True)

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.float16,
    device_map="auto",
    max_new_tokens = 512,
)


def dialect_to_standard(text, dialect_type):
        return [
            {
                "role":"user", 
                "content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text)
            }
        ]


def standard_to_dialect(text, dialect_type):
        return [
            {
                "role":"user", 
                "content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text)
            }
        ]

outputs = pipeline(
    dialect_to_standard("우리 동생도 요번에 월요일날 미깡 타카부댄 내려왔당 못 타난", "제주도"),
    do_sample=True,
    temperature=0.1,
    top_p=0.90,
    add_special_tokens=True
)

print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '우리 동생도 요번에 월요일날 귤 타고 왔다가 못 타니까'}

outputs = pipeline(
    standard_to_dialect("그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데", "제주도"),
    do_sample=True,
    temperature=0.1,
    top_p=0.90,
    add_special_tokens=True
)

print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데'}
```

### Training Data

[AI_HUB 중·노년층 한국어 방언 데이터 (충청도, 전라도, 제주도)](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71558)

## TODO

- 충청도 방언 변환 기능 (v0.3.0)
- 전라도 방언 변환 기능 (v0.4.0)
- 경상도 방언 변환 기능 (v0.5.0)
- 강원도 방언 변환 기능 (v1.0.0)