Update README.md

1ed4798 verified 2 months ago

4.26 kB

	---
	library_name: transformers
	license: mit
	language:
	- ko
	base_model:
	- google/gemma-2-2b-it
	pipeline_tag: text-generation
	---

	# Model Card for Model ID

	Gemma2 2b 한국어 방언 통역기 v0.2.0

	## Model Description

	Gemma2 2b 한국어 방언 통역기는 한국어 사투리를 표준어로 번역하거나 표준어를 한국어 사투리로 변환하는 프로젝트의 일환으로 개발된 모델입니다.

	해당 모델은 Gemma2 2b it 모델을 QLoRa 기법으로 파인튜닝하여 제작하였습니다.

	## Uses

	이 모델은 한국어 방언을 표준 한국어로 번역하거나 그 반대로 번역하는 데 직접 사용할 수 있습니다. 음성 인식 및 번역 도구를 개발하는 교육자, 언어학자, 기술 개발자에게 유용할 수 있습니다.

	### 예시

	\| 입력 문장 \| 방언: 게난 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건디 \| 표준어: 그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데 \|
	\|:--------------------------\|:----------------------------------------------------------:\|:------------------------------------------:\|
	\| 방언 통역기 출력 \| 표준어: 그러니까 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데 \| 방언: 게난 저 어멍 더 나이 먹어가기 전에 여기 와야 될 건디 \|


	\| 입력 문장 \| 방언: 자이 폴에 독솔 막 난 거 보난 언 생이우다 \| 표준어: 재 팔에 닭살이 막 난 거 보니, 추운 모양이다 \|
	\|:--------------------------\|:----------------------------------------------------------:\|:-------------------------------------:\|
	\| 방언 통역기 출력 \| 표준어: 쟤 팔에 닭살이 많이 난 거 보니까 추운 모양입니다 \| 방언: 재 폴에 독솔 막 난 거 보난 언 생이우다 \|




	## Bias, Risks, and Limitations

	이 모델은 현재제주 방언에 초점을 맞춘 특정 데이터 세트에 맞춰 미세 조정되었기 때문에 다른 방언이나 언어에 대한 성능이 제한될 수 있습니다.

	## How to Get Started with the Model

	```
	import transformers
	import torch

	model_id = "sjbaek/gemma2-2b-it-korean-dialect"
	tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True)

	pipeline = transformers.pipeline(
	"text-generation",
	model=model_id,
	tokenizer=tokenizer,
	torch_dtype=torch.float16,
	device_map="auto",
	max_new_tokens = 512,
	)


	def dialect_to_standard(text, dialect_type):
	return [
	{
	"role":"user",
	"content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text)
	}
	]


	def standard_to_dialect(text, dialect_type):
	return [
	{
	"role":"user",
	"content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text)
	}
	]

	outputs = pipeline(
	dialect_to_standard("우리 동생도 요번에 월요일날 미깡 타카부댄 내려왔당 못 타난", "제주도"),
	do_sample=True,
	temperature=0.1,
	top_p=0.90,
	add_special_tokens=True
	)

	print(outputs[0]["generated_text"][-1])
	# {'role': 'assistant', 'content': '우리 동생도 요번에 월요일날 귤 타고 왔다가 못 타니까'}

	outputs = pipeline(
	standard_to_dialect("그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데", "제주도"),
	do_sample=True,
	temperature=0.1,
	top_p=0.90,
	add_special_tokens=True
	)

	print(outputs[0]["generated_text"][-1])
	# {'role': 'assistant', 'content': '그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데'}
	```

	### Training Data

	[AI_HUB 중·노년층 한국어 방언 데이터 (충청도, 전라도, 제주도)](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71558)

	## TODO

	- 충청도 방언 변환 기능 (v0.3.0)
	- 전라도 방언 변환 기능 (v0.4.0)
	- 경상도 방언 변환 기능 (v0.5.0)
	- 강원도 방언 변환 기능 (v1.0.0)