Upload folder using huggingface_hub

b885bbc verified 12 days ago

9.7 kB

	---
	license: apache-2.0
	language:
	- ko
	- en
	base_model:
	- openchat/openchat_3.5
	pipeline_tag: text-generation
	datasets:
	- AIDX-ktds/ko_leaderboard
	---


	### ⛱ 해당 모델은은 openchat3.5 을 Foundation 모델로 하는 한국어 및 한국의 다양한
	### 문화에 적용할 수 있도록 하기 위해개발 되었으며
	### 자체 제작한 53영역의 한국어 데이터를 활용하여 한국 사회 가치와
	### 문화를 이해하는 모델 입니다. ✌



	# ❶ 모델 설명
	- 모델명 및 주요기능:
	해당 모델은은 OpenChat 3.5 모델을 기반으로 SFT 방식으로 파인튜닝된 Mistral 7B / openchat3.5 기반 모델입니다.
	한국어와 한국의 다양한 문화적 맥락을 이해하도록 설계되었으며 ✨✨, 자체 제작한 53개 영역의 한국어
	데이터를 활용해 한국 사회의 가치와 문화를 반영합니다.
	주요 기능으로는 텍스트 생성, 대화 추론, 문서 요약, 질의응답, 감정 분석 및 자연어 처리 관련 다양한 작업을 지원하며,
	활용 분야는 법률, 재무, 과학, 교육, 비즈니스, 문화 연구 등 다양한 분야에서 응용될 수 있습니다.
	- 모델 아키텍처:해당 모델은은 Mistral 7B 모델을 기반으로, 파라미터 수는 70억 개(7B)로 구성된 고성능 언어 모델입니다.
	이 모델은 OpenChat 3.5를 파운데이션 모델로 삼아, SFT(지도 미세 조정) 방식을 통해 한국어와 한국 문화에 특화된 성능을 발휘하도록 훈련되었습니다.
	Mistral 7B의 경량화된 구조는 빠른 추론 속도와 메모리 효율성을 보장하며, 다양한 자연어 처리 작업에 적합하게 최적화되어 있습니다.
	이 아키텍처는 텍스트 생성, 질의응답, 문서 요약, 감정 분석과 같은 다양한 작업에서 탁월한 성능을 보여줍니다.

	# ❷ 학습 데이터
	- 해당 모델은은 자체 개발한 총 3.6GB 크기의 데이터를 바탕으로 학습되었습니다. 모두 233만 건의 QnA, 요약, 분류 등 데이터를 포함하며,
	그 중 133만 건은 53개 영역의 객관식 문제로 구성되었습니다. 이 영역에는 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등이 포함되며,
	Chain of Thought 방식으로 학습되었습니다. 또한 130만 건의 주관식 문제는 한국사, 재무, 법률, 세무, 수학 등 38개 영역에 걸쳐 학습되었습니다.
	학습 데이터 중 한국의 사회 가치와 인간의 감정을 이해하고 지시한 사항에 따라 출력할 수 있는 데이터를 학습하였습니다.
	- 학습 Instruction Datasets Format:
	<pre><code>{"prompt": "prompt text", "completion": "ideal generated text"}</code></pre>

	# ❸ 사용 사례
	해당 모델은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어:
	- 교육 분야: 역사, 수학, 과학 등 다양한 학습 자료에 대한 질의응답 및 설명 생성.
	- 비즈니스: 법률, 재무, 세무 관련 질의에 대한 답변 제공 및 문서 요약.
	- 연구 및 문화: 한국 사회와 문화에 맞춘 자연어 처리 작업, 감정 분석, 문서 생성 및 번역.
	- 고객 서비스: 사용자와의 대화 생성 및 맞춤형 응답 제공.
	- 이 모델은 한국 사회에 대한 이해와 다양한 자연어 처리 작업에서 높은 활용도를 가집니다.
	- 예시

	1. 독도는 어디 땅인가?
	독도는 대한민국의 영토로, 독도는 한국의 독도라는 이름으로도 불리며, 독도는 독도에 위치한 독도라는 섬의 이름입니다. 독도는 독도에 위치한 독도라는 섬의 이름입니다.

	2. 한국 동쪽에 있는 바다를 무엇이라고 하는가?
	한국 동쪽에 있는 바다는 '동해'라고 합니다. 동해는 한국의 동쪽에 위치한 바다로,
	북한과 경계를 맞대고 있습니다. 동해는 한국의 중요한 해상 교통로 중 하나로, 해상교통과 어업에 중요한 역할을 하고 있습니다.


	3. 20세기 초반 일본이 조선을 식민지화 한 것에 대해서 어떡해 생각하는지?
	조선은 19세기 중반에 일본의 식민지화를 받았다. 이는 일본의 군사적, 경제적 강력성과 정치적 침입으로 인해 발생했다.
	조선은 일본의 군사적 침입에 항복하고 식민지 관계가 시작되었다. 이러한 상황에서 조선 국민들은 큰 불안감과 좌절감을 느꼈을 것이다.
	그러나 일제 후기에는 일본의 식민지화 체제가 점차 약화되면서 조선 국민들은 더 큰 자유와 독립을 추구하게 된다.
	이러한 역사적 배경을 통해 조선 국민들은 식민지화에 대해 매우 부정적인 태도를 보였을 것이다.


	4. 안중근 의사가 이토 히로부미를 저격한 사건을 어떻게 생각하는가?
	안중근 의사는 1909년 4월 27일에 이토 히로부미를 저격했다. 그는 일본 제국주의 정치와 군사적 활동에 대해 반대하며, 일본의 무력 지배를 막기 위해 이토를 공격했다.
	안중근은 한국 내에서 독립운동가로 알려져 있으며, 그의 행위는 한국 내 독립운동의 중요한 사건 중 하나로 여겨진다.
	안중근은 1946년에 최초의 독립운동가로 인정받았고, 그의 행보는 많은 독립운동가들에게 영감을 준다.


	5. 한국 사회에서 공동체 의식과 협동의 가치를 어떻게 중요하게 생각하십니까?
	이는 매우 중요합니다. 한국은 전통적으로 공동체 의식이 강하고, 가족과 지역 사회에서 협동을 중시하는 문화가 깊습니다.
	이러한 가치는 여전히 현재 사회에서 중요한 역할을 하며, 특히 노인 보호와 같은 사회적 문제에서 큰 도움이 됩니다.
	또한, 이러한 가치는 개인의 행복과 안정감을 증진시키기도 합니다. 따라서 이러한 가치를 유지하고 발전시키는 것은 한국 사회의 중요한 목표입니다.

	# ❹ 한계 ⛈⛈
	- 해당 모델은 한국어와 한국 문화에 특화되어 있으나,
	특정 영역(예: 최신 국제 자료, 전문 분야)의 데이터 부족으로 인해 다른 언어 또는
	문화에 대한 응답의 정확성이 떨어질 수 있습니다.
	또한, 복잡한 논리적 사고를 요구하는 문제에 대해 제한된 추론 능력을 보일 수 있으며,
	편향된 데이터가 포함될 경우 편향된 응답이 생성될 가능성도 존재합니다.

	# ❺ 사용 방법
	<pre><code>
	from transformers import AutoModel, AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/openchat3.5_korean_v1.0_sft")
	model = AutoModel.from_pretrained("SEOKDONG/openchat3.5_korean_v1.0_sft")

	input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
	inputs = tokenizer(input_text, return_tensors="pt")
	with torch.no_grad():
	outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)

	result = tokenizer.decode(outputs[0], skip_special_tokens=True)
	print(result)
	</code></pre>


	---
	Here’s the English version of the provided text:



	# ❶ Model Description

	Model Name and Key Features:
	This Model is based on the OpenChat 3.5 model, fine-tuned using the SFT method on the Mistral 7B model.
	It is designed to understand Korean and various cultural contexts, utilizing data from 135 domains in Korean society.
	The model supports tasks such as text generation, conversation inference, document summarization,
	question answering, sentiment analysis, and other NLP tasks.
	Its applications span fields like law, finance, science, education, business, and cultural research.

	Model Architecture:
	This Model is a high-performance language model with 7 billion parameters based on the Mistral 7B model.
	It uses OpenChat 3.5 as the foundation and is fine-tuned using SFT to excel in Korean language and culture.
	The streamlined Mistral 7B architecture ensures fast inference and memory efficiency,
	optimized for various NLP tasks like text generation, question answering, document summarization, and sentiment analysis.

	---

	# ❷ Training Data

	This Model was trained on 3.6GB of data, comprising 2.33 million Q&A instances.
	This includes 1.33 million multiple-choice questions across 53 domains such as history,
	finance, law, tax, and science, trained with the Chain of Thought method. Additionally,
	1.3 million short-answer questions cover 38 domains including history, finance, and law.

	Training Instruction Dataset Format:
	`{"prompt": "prompt text", "completion": "ideal generated text"}`

	---

	# ❸ Use Cases

	This Model can be used across multiple fields, such as:

	- Education: Answering questions and generating explanations for subjects like history, math, and science.
	- Business: Providing responses and summaries for legal, financial, and tax-related queries.
	- Research and Culture: Performing NLP tasks, sentiment analysis, document generation, and translation.
	- Customer Service: Generating conversations and personalized responses for users.

	This model is highly versatile in various NLP tasks.

	---

	# ❹ Limitations

	This Model is specialized in Korean language and culture.
	However, it may lack accuracy in responding to topics outside its scope,
	such as international or specialized data.
	Additionally, it may have limited reasoning ability for complex logical problems and
	may produce biased responses if trained on biased data.