AIDX-ktds
/

ktdsbaseLM-v0.11-based-on-openchat3.5

@@ -12,7 +12,7 @@ pipeline_tag: text-generation
-❶ 모델 설명
 - 모델명 및 주요기능:
   KTDSbaseLM v0.11은 OpenChat 3.5 모델을 기반으로 SFT 방식으로 파인튜닝된 Mistral 7B / openchat3.5 기반 모델입니다.
   한국어와 한국의 다양한 문화적 맥락을 이해하도록 설계되었으며 ✨✨, 자체 제작한 135개 영역의 한국어
@@ -24,14 +24,14 @@ pipeline_tag: text-generation
   Mistral 7B의 경량화된 구조는 빠른 추론 속도와 메모리 효율성을 보장하며, 다양한 자연어 처리 작업에 적합하게 최적화되어 있습니다.
   이 아키텍처는 텍스트 생성, 질의응답, 문서 요약, 감정 분석과 같은 다양한 작업에서 탁월한 성능을 보여줍니다.
-❷ 학습 데이터
 - ktdsbaseLM v0.11은 총 3.6GB 크기의 데이터를 바탕으로 학습되었습니다. 총 233만 건의 QnA 데이터를 포함하며,
   그 중 133만 건은 135개 영역의 객관식 문제로 구성되었습니다. 이 영역에는 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등이 포함되며,
   Chain of Thought 방식으로 학습되었습니다. 또한 130만 건의 주관식 문제는 한국사, 재무, 법률, 세무, 수학 등 100개 영역에 걸쳐 학습되었습니다.
 - 학습 Instruction Datasets Format:
   <pre><code>{"prompt": "prompt text", "completion": "ideal generated text"}</code></pre>
-❸ 사용 사례
   ktdsbaseLM v0.11은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어:
 - 교육 분야: 역사, 수학, 과학 등 다양한 학습 자료에 대한 질의응답 및 설명 생성.
 - 비즈니스: 법률, 재무, 세무 관련 질의에 대한 답변 제공 및 문서 요약.
@@ -39,14 +39,14 @@ pipeline_tag: text-generation
 - 고객 서비스: 사용자와의 대화 생성 및 맞춤형 응답 제공.
 - 이 모델은 다양한 자연어 처리 작업에서 높은 활용도를 가집니다.
-❹ 한계 ⛈⛈
 - ktdsBaseLM v0.11은 한국어와 한국 문화에 특화되어 있으나,
   특정 영역(예: 최신 국제 자료, 전문 분야)의 데이터 부족으로 인해 다른 언어 또는
   문화에 대한 응답의 정확성이 떨어질 수 있습니다.
   또한, 복잡한 논리적 사고를 요구하는 문제에 대해 제한된 추론 능력을 보일 수 있으며,
   편향된 데이터가 포함될 경우 편향된 응답이 생성될 가능성도 존재합니다.
-❺ 사용 방법
   <pre><code>
   from transformers import AutoModel, AutoTokenizer
@@ -62,7 +62,7 @@ Here’s the English version of the provided text:
 ---
-## ❶ Model Description
 **Model Name and Key Features**:
 KTDSbaseLM v0.11 is based on the OpenChat 3.5 model, fine-tuned using the SFT method on the Mistral 7B model.
@@ -79,7 +79,7 @@ optimized for various NLP tasks like text generation, question answering, docume
 ---
-## ❷ Training Data
 KTDSbaseLM v0.11 was trained on 3.6GB of data, comprising 2.33 million Q&A instances.
 This includes 1.33 million multiple-choice questions across 135 domains such as history,
@@ -91,7 +91,7 @@ finance, law, tax, and science, trained with the Chain of Thought method. Additi
 ---
-## ❸ Use Cases
 KTDSbaseLM v0.11 can be used across multiple fields, such as:
@@ -104,7 +104,7 @@ This model is highly versatile in various NLP tasks.
 ---
-## ❹ Limitations
 KTDSBaseLM v0.11 is specialized in Korean language and culture.
 However, it may lack accuracy in responding to topics outside its scope,
@@ -114,7 +114,7 @@ may produce biased responses if trained on biased data.
 ---
-## ❺ Usage Instructions
 <pre><code>
   from transformers import AutoModel, AutoTokenizer

+# ❶ 모델 설명
 - 모델명 및 주요기능:
   KTDSbaseLM v0.11은 OpenChat 3.5 모델을 기반으로 SFT 방식으로 파인튜닝된 Mistral 7B / openchat3.5 기반 모델입니다.
   한국어와 한국의 다양한 문화적 맥락을 이해하도록 설계되었으며 ✨✨, 자체 제작한 135개 영역의 한국어
   Mistral 7B의 경량화된 구조는 빠른 추론 속도와 메모리 효율성을 보장하며, 다양한 자연어 처리 작업에 적합하게 최적화되어 있습니다.
   이 아키텍처는 텍스트 생성, 질의응답, 문서 요약, 감정 분석과 같은 다양한 작업에서 탁월한 성능을 보여줍니다.
+# ❷ 학습 데이터
 - ktdsbaseLM v0.11은 총 3.6GB 크기의 데이터를 바탕으로 학습되었습니다. 총 233만 건의 QnA 데이터를 포함하며,
   그 중 133만 건은 135개 영역의 객관식 문제로 구성되었습니다. 이 영역에는 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등이 포함되며,
   Chain of Thought 방식으로 학습되었습니다. 또한 130만 건의 주관식 문제는 한국사, 재무, 법률, 세무, 수학 등 100개 영역에 걸쳐 학습되었습니다.
 - 학습 Instruction Datasets Format:
   <pre><code>{"prompt": "prompt text", "completion": "ideal generated text"}</code></pre>
+# ❸ 사용 사례
   ktdsbaseLM v0.11은 다양한 응용 분야에서 사용될 수 있습니다. 예를 들어:
 - 교육 분야: 역사, 수학, 과학 등 다양한 학습 자료에 대한 질의응답 및 설명 생성.
 - 비즈니스: 법률, 재무, 세무 관련 질의에 대한 답변 제공 및 문서 요약.
 - 고객 서비스: 사용자와의 대화 생성 및 맞춤형 응답 제공.
 - 이 모델은 다양한 자연어 처리 작업에서 높은 활용도를 가집니다.
+# ❹ 한계 ⛈⛈
 - ktdsBaseLM v0.11은 한국어와 한국 문화에 특화되어 있으나,
   특정 영역(예: 최신 국제 자료, 전문 분야)의 데이터 부족으로 인해 다른 언어 또는
   문화에 대한 응답의 정확성이 떨어질 수 있습니다.
   또한, 복잡한 논리적 사고를 요구하는 문제에 대해 제한된 추론 능력을 보일 수 있으며,
   편향된 데이터가 포함될 경우 편향된 응답이 생성될 가능성도 존재합니다.
+# ❺ 사용 방법
   <pre><code>
   from transformers import AutoModel, AutoTokenizer
 ---
+# ❶ Model Description
 **Model Name and Key Features**:
 KTDSbaseLM v0.11 is based on the OpenChat 3.5 model, fine-tuned using the SFT method on the Mistral 7B model.
 ---
+# ❷ Training Data
 KTDSbaseLM v0.11 was trained on 3.6GB of data, comprising 2.33 million Q&A instances.
 This includes 1.33 million multiple-choice questions across 135 domains such as history,
 ---
+# ❸ Use Cases
 KTDSbaseLM v0.11 can be used across multiple fields, such as:
 ---
+# ❹ Limitations
 KTDSBaseLM v0.11 is specialized in Korean language and culture.
 However, it may lack accuracy in responding to topics outside its scope,
 ---
+# ❺ Usage Instructions
 <pre><code>
   from transformers import AutoModel, AutoTokenizer