Korean Reward Modeling
Collection
Korean Datasets, Reward Models for RLHF
•
16 items
•
Updated
•
3
load_dataset("maywell/ko_Ultrafeedback_binarized", split="train").train_test_split(0.05, seed=42)
<user>:\n
로 시작<bot>:\n
으로 시작from transformers import pipeline
pipe = pipeline("text-classification", model="heegyu/1124-ko-ultrafeedback-binarized-1.3b-128-1e-5")
pipe("""<human>:
안녕하세요
<bot>:
안녕하세요! 오늘 날씨가 정말 좋아요 ^^ 나들이 다녀오시는건 어떨까요?
<human>:
놀러갈만한 곳 추천해줄 수 있어요?
<bot>:
그냥 집에 있으세요 <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.03477790951728821}]
pipe("""<human>:
안녕하세요
<bot>:
안녕하세요! 오늘 날씨가 정말 좋아요 ^^ 나들이 다녀오시는건 어떨까요?
<human>:
놀러갈만한 곳 추천해줄 수 있어요?
<bot>:
북한산 등산은 어떠신가요? 맑은 날 상쾌한 공기를 마시면서 높은 곳에서 서울의 도시 풍경을 감상하실 수 있습니다. <|endoftext|>""")
# [{'label': 'LABEL_0', 'score': 0.262986958026886}]