--- license: mit language: - ko base_model: - openchat/openchat_3.5 pipeline_tag: text-generation --- ktdsBaseLM v0.11은 openchat3.5를 Foundation 모델로 하는 한국어 및 한국의 다양한 문화에 적용할 수 있도록 하기 위해 개발 되었으며 자체 제작한 135영역의 한국어 데이터를 활용하여 한국 사회 가치와 문화를 이해하는 모델 입니다. 1. 모델설명 - 모델명 및 주요기능: KTDSBaseLM v0.11은 OpenChat 3.5 모델을 기반으로 SFT 방식으로 파인튜닝된 LLaMA 3.0 기반 모델입니다. 한국어와 한국의 다양한 문화적 맥락을 이해하도록 설계되었으며, 자체 제작한 135개 영역의 한국어 데이터를 활용해 한국 사회의 가치와 문화를 반영합니다. 주요 기능으로는 텍스트 생성, 대화 추론, 문서 요약, 질의응답, 감정 분석 및 자연어 처리 관련 다양한 작업을 지원하며, 법률, 재무, 과학, 교육, 비즈니스, 문화 연구 등 다양한 분야에서 응용될 수 있습니다. - 모델 아키텍처: KTDSBaseLM v0.11은 Mistral 7B 모델을 기반으로, 파라미터 수는 70억 개(7B)로 구성된 고성능 언어 모델입니다. 이 모델은 OpenChat 3.5를 파운데이션 모델로 삼아, SFT(지도 미세 조정) 방식을 통해 한국어와 한국 문화에 특화된 성능을 발휘하도록 훈련되었습니다. Mistral 7B의 경량화된 구조는 빠른 추론 속도와 메모리 효율성을 보장하며, 다양한 자연어 처리 작업에 적합하게 최적화되어 있습니다. 이 아키텍처는 텍스트 생성, 질의응답, 문서 요약, 감정 분석과 같은 다양한 작업에서 탁월한 성능을 보여줍니다. 2. 학습 데이터 KTDSBaseLM v0.11은 총 3.6GB 크기의 데이터를 바탕으로 학습되었습니다. 총 233만 건의 QnA 데이터를 포함하며, 그 중 133만 건은 135개 영역의 객관식 문제로 구성되었습니다. 이 영역에는 한국사, 사회, 재무, 법률, 세무, 수학, 생물, 물리, 화학 등이 포함되며, Chain of Thought 방식으로 학습되었습니다. 또한 130만 건의 주관식 문제는 한국사, 재무, 법률, 세무, 수학 등 100개 영역에 걸쳐 학습되었습니다.