Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

.gitattributes +1 -0
README.md +153 -0
openchat3.5_korean_v1.0_sft.Q4_0.gguf +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+openchat3.5_korean_v1.0_sft.Q4_0.gguf filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,153 @@

+---
+license: apache-2.0
+language:
+- ko
+- en
+base_model:
+- openchat/openchat_3.5
+pipeline_tag: text-generation
+datasets:
+- AIDX-ktds/ko_leaderboard
+---
+### ⛱   해당 모델은은 openchat3.5 을 Foundation 모델로 하는 한국어 및 한국의 다양한
+### 문화에 적용할 수 있도록 하기 위해개발 되었으며
+### 자체 제작한 53영역의 한국어 데이터를 활용하여 한국 사회 가치와
+### 문화를 이해하는 모델 입니다. ✌
+# ❶ 모델 설명
+- 모델명 및 주요기능:
+  해당 모델은은 OpenChat 3.5 모델을 기반으로 SFT 방식으로 파인튜닝된 Mistral 7B / openchat3.5 기반 모델입니다.
+  한국어와 한국의 다양한 문화적 맥락을 이해하도록 설계되었으며 ✨✨, 자체 제작한 53개 영역의 한국어
+  데이터를 활용해 한국 사회의 가치와 문화를 반영합니다.
+  주요 기능으로는 텍스트 생성, 대화 추론, 문서 요약, 질의응답, 감정 분석 및 자연어 처리 관련 다양한 작업을 지원하며,
+  활용 분야는 법률, 재무, 과학, 교육, 비즈니스, 문화 연구 등 다양한 분야에서 응용될 수 있습니다.
+- 모델 아키텍처:해당 모델은은 Mistral 7B 모델을 기반으로, 파라미터 수는 70억 개(7B)로 구성된 고성능 언어 모델입니다.
+  이 모델은 OpenChat 3.5를 파운데이션 모델로 삼아, SFT(지도 미세 조정) 방식을 통해 한국어와 한국 문화에 특화된 성능을 발휘하도록 훈련되었습니다.
+  Mistral 7B의 경량화된 구조는 빠른 추론 속도와 메모리 효율성을 보장하며, 다양한 자연어 처리 작업에 적합하게 최적화되어 있습니다.
+  이 아키텍처는 텍스트 생성, 질의응답, 문서 요약, 감정 분석과 같은 다양한 작업에서 탁월한 성능을 보여줍니다.
+# ❷ 학습 데이터
+- 해당 모델은은 자체 개발한 총 3.6GB 크기의 데이터를 바탕으로 학습되었습니다. 모두 233만 건의 QnA, 요약, 분류 등 데이터를 포함하며,
+  그 중 133만 건은 53개 영역의 객관식 문제로 구성되었습니다. 이 영역에는 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등이 포함되며,
+  Chain of Thought 방식으로 학습되었습니다. 또한 130만 건의 주관식 문제는 한국사, 재무, 법률, 세무, 수학 등 38개 영역에 걸쳐 학습되었습니다.
+  학습 데이터 중 한국의 사회 가치와 인간의 감정을 이해하고 지시한 사항에 따라 출력할 수 있는 데이터를 학습하였습니다.
+- 학습 Instruction Datasets Format:
+  <pre><code>{"prompt": "prompt text", "completion": "ideal generated text"}</code></pre>
+# ❸ 사용 사례
+  해당 모델은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어:
+- 교육 분야: 역사, 수학, 과학 등 다양한 학습 자료에 대한 질의응답 및 설명 생성.
+- 비즈니스: 법률, 재무, 세무 관련 질의에 대한 답변 제공 및 문서 요약.
+- 연구 및 문화: 한국 사회와 문화에 맞춘 자연어 처리 작업, 감정 분석, 문서 생성 및 번역.
+- 고객 서비스: 사용자와의 대화 생성 및 맞춤형 응답 제공.
+- 이 모델은 한국 사회에 대한 이해와 다양한 자연어 처리 작업에서 높은 활용도를 가집니다.
+- 예시
+1.  독도는 어디 땅인가?
+독도는 대한민국의 영토로, 독도는 한국의 독도라는 이름으로도 불리며, 독도는 독도에 위치한 독도라는 섬의 이름입니다. 독도는 독도에 위치한 독도라는 섬의 이름입니다.
+2. 한국 동쪽에 있는 바다를 무엇이라고 하는가?
+한국 동쪽에 있는 바다는 '동해'라고 합니다. 동해는 한국의 동쪽에 위치한 바다로,
+북한과 경계를 맞대고 있습니다. 동해는 한국의 중요한 해상 교통로 중 하나로, 해상교통과 어업에 중요한 역할을 하고 있습니다.
+3. 20세기 초반 일본이 조선을 식민지화 한 것에 대해서 어떡해 생각하는지?
+조선은 19세기 중반에 일본의 식민지화를 받았다. 이는 일본의 군사적, 경제적 강력성과 정치적 침입으로 인해 발생했다.
+조선은 일본의 군사적 침입에 항복하고 식민지 관계가 시작되었다. 이러한 상황에서 조선 국민들은 큰 불안감과 좌절감을 느꼈을 것이다.
+그러나 일제 후기에는 일본의 식민지화 체제가 점차 약화되면서 조선 국민들은 더 큰 자유와 독립을 추구하게 된다.
+이러한 역사적 배경을 통해 조선 국민들은 식민지화에 대해 매우 부정적인 태도를 보였을 것이다.
+4. 안중근 의사가 이토 히로부미를 저격한 사건을 어떻게 생각하는가?
+안중근 의사는 1909년 4월 27일에 이토 히로부미를 저격했다. 그는 일본 제국주의 정치와 군사적 활동에 대해 반대하며, 일본의 무력 지배를 막기 위해 이토를 공격했다.
+안중근은 한국 내에서 독립운동가로 알려져 있으며, 그의 행위는 한국 내 독립운동의 중요한 사건 중 하나로 여겨진다.
+안중근은 1946년에 최초의 독립운동가로 인정받았고, 그의 행보는 많은 독립운동가들에게 영감을 준다.
+5. 한국 사회에서 공동체 의식과 협동의 가치를 어떻게 중요하게 생각하십니까?
+이는 매우 중요합니다. 한국은 전통적으로 공동체 의식이 강하고, 가족과 지역 사회에서 협동을 중시하는 문화가 깊습니다.
+이러한 가치는 여전히 현재 사회에서 중요한 역할을 하며, 특히 노인 보호와 같은 사회적 문제에서 큰 도움이 됩니다.
+또한, 이러한 가치는 개인의 행복과 안정감을 증진시키기도 합니다. 따라서 이러한 가치를 유지하고 발전시키는 것은 한국 사회의 중요한 목표입니다.
+# ❹ 한계 ⛈⛈
+- 해당 모델은 한국어와 한국 문화에 특화되어 있으나,
+  특정 영역(예: 최신 국제 자료, 전문 분야)의 데이터 부족으로 인해 다른 언어 또는
+  문화에 대한 응답의 정확성이 떨어질 수 있습니다.
+  또한, 복잡한 논리적 사고를 요구하는 문제에 대해 제한된 추론 능력을 보일 수 있으며,
+  편향된 데이터가 포함될 경우 편향된 응답이 생성될 가능성도 존재합니다.
+# ❺ 사용 방법
+  <pre><code>
+  from transformers import AutoModel, AutoTokenizer
+  tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/openchat3.5_korean_v1.0_sft")
+  model = AutoModel.from_pretrained("SEOKDONG/openchat3.5_korean_v1.0_sft")
+    input_text =  """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
+    inputs = tokenizer(input_text, return_tensors="pt")
+  with torch.no_grad():
+        outputs = model.generate(**inputs, max_length=1024,  temperature=0.5, do_sample=True, repetition_penalty=1.15)
+  result = tokenizer.decode(outputs[0], skip_special_tokens=True)
+  print(result)
+</code></pre>
+---
+Here’s the English version of the provided text:
+# ❶ Model Description
+**Model Name and Key Features**:
+This Model is based on the OpenChat 3.5 model, fine-tuned using the SFT method on the Mistral 7B model.
+It is designed to understand Korean and various cultural contexts, utilizing data from 135 domains in Korean society.
+The model supports tasks such as text generation, conversation inference, document summarization,
+question answering, sentiment analysis, and other NLP tasks.
+Its applications span fields like law, finance, science, education, business, and cultural research.
+**Model Architecture**:
+This Model is a high-performance language model with 7 billion parameters based on the Mistral 7B model.
+It uses OpenChat 3.5 as the foundation and is fine-tuned using SFT to excel in Korean language and culture.
+The streamlined Mistral 7B architecture ensures fast inference and memory efficiency,
+optimized for various NLP tasks like text generation, question answering, document summarization, and sentiment analysis.
+---
+# ❷ Training Data
+This Model was trained on 3.6GB of data, comprising 2.33 million Q&A instances.
+This includes 1.33 million multiple-choice questions across 53 domains such as history,
+finance, law, tax, and science, trained with the Chain of Thought method. Additionally,
+1.3 million short-answer questions cover 38 domains including history, finance, and law.
+**Training Instruction Dataset Format**:
+`{"prompt": "prompt text", "completion": "ideal generated text"}`
+---
+# ❸ Use Cases
+This Model can be used across multiple fields, such as:
+- **Education**: Answering questions and generating explanations for subjects like history, math, and science.
+- **Business**: Providing responses and summaries for legal, financial, and tax-related queries.
+- **Research and Culture**: Performing NLP tasks, sentiment analysis, document generation, and translation.
+- **Customer Service**: Generating conversations and personalized responses for users.
+This model is highly versatile in various NLP tasks.
+---
+# ❹ Limitations
+This Model is specialized in Korean language and culture.
+However, it may lack accuracy in responding to topics outside its scope,
+such as international or specialized data.
+Additionally, it may have limited reasoning ability for complex logical problems and
+may produce biased responses if trained on biased data.

openchat3.5_korean_v1.0_sft.Q4_0.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b15a21d2d316881a6833082967818f115cc548557beb6e6ad1f39a2a5e41c18d
+size 4108928864