heegyu/ko-ultrafeedback-binarized-1.3b

Base Model: 42dot/42dot_LLM-SFT-1.3B
maywell/ko_Ultrafeedback_binarized을 95:5 비율로 나뉜 뒤, 95%를 학습에 사용하고 5%는 평가에 사용

load_dataset("maywell/ko_Ultrafeedback_binarized", split="train").train_test_split(0.05, seed=42)

Test 정확도: 74.44

Hyperparameters:

Batch: 128
Learning Rate: 1e-5 -> 1e-6 (Linear Decay)
Optimizer: AdamW (beta1 = 0.9, beta2 = 0.999)
Epoch: 2

Usage

기존 42dot SFT 모델의 대화 템플릿을 사용.
사용자의 발화는 <user>:\n로 시작
Bot의 발화는 <bot>:\n으로 시작

from transformers import pipeline

pipe = pipeline("text-classification", model="heegyu/1124-ko-ultrafeedback-binarized-1.3b-128-1e-5")

pipe("""<human>:
안녕하세요
<bot>:
안녕하세요! 오늘 날씨가 정말 좋아요 ^^ 나들이 다녀오시는건 어떨까요? 
<human>:
놀러갈만한 곳 추천해줄 수 있어요?
<bot>:
그냥 집에 있으세요 <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.03477790951728821}]

pipe("""<human>:
안녕하세요
<bot>:
안녕하세요! 오늘 날씨가 정말 좋아요 ^^ 나들이 다녀오시는건 어떨까요? 
<human>:
놀러갈만한 곳 추천해줄 수 있어요?
<bot>:
북한산 등산은 어떠신가요? 맑은 날 상쾌한 공기를 마시면서 높은 곳에서 서울의 도시 풍경을 감상하실 수 있습니다. <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.262986958026886}]

heegyu
/

ko-ultrafeedback-binarized-1.3b

Hyperparameters:

Usage

Dataset used to train heegyu/ko-ultrafeedback-binarized-1.3b

Collection including heegyu/ko-ultrafeedback-binarized-1.3b

Korean Reward Modeling