AjouBlue GPTs
Collection
AjouBlue-GPT: Small Korean Generative Language Models with 125M, 355M parameters
•
9 items
•
Updated
데이터셋 크기는 전처리한 jsonl파일을 기준으로 함. 총 토큰 수는 약 7B임
from transformers import pipeline
model_name = "heegyu/kogpt-j-base"
pipe = pipeline('text-generation', model=model_name)
print(pipe("안녕하세요", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
print(pipe("오늘 정부 발표에 따르면, ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128))
print(pipe("싸늘하다. 가슴에 비수가 날아와 꽂힌다. ", repetition_penalty=1.2, do_sample=True, eos_token_id=1, early_stopping=True, max_new_tokens=128, min_length=64))
결과
[{'generated_text': "안녕하세요'라는 제목의 영상에서 (이름)는 '10년, 한 달 전쯤 kbs 9시 뉴스와 11시에 뉴스를 하면서 '아침에는 어떤 내용이고 아침이 왜 안 됐냐', '내가 뭘 잘못했느냐' 이런 이야기를 했다. 그런데 kbs '뉴스9'에 나와서 방송국에 사과해야 하는 게 아니냐고 하더라'고 말했다.. 이어'sns 활동을 하면서 이런 질문을 할 정도로 (진정성 없는 사람이라면 방송을 그만 뒀어야 했다)'며 '당시에는 '나도 방송인이 됐는데 왜 나에게 이런 질문과 비판을 하는가'라고 생각했고, 내가 무슨 잘못을 했다고 이렇게 이야기하냐 했다. 그러나 지금 생각해보면 그때 제가"}]
[{'generated_text': '오늘 정부 발표에 따르면, 美 제조업, 내수 모두 하락했다.미 상무부는 지난달 미국의 제조업 수주가 전월대비 0.5% 감소했다고 22일 밝혔다. 이는 직전월과 같은 수치다. 서비스업지수도 0.3% 후퇴하며 증가세를 견인하고 있다. 미국 제조업 수주도 전월에 비해 1포인트 저하한 수준이다.미중 무역전쟁에 따른 불안감이 지속되면서 뉴욕증시가 6주 연속 하락하면서 투자 심리를 악화시켰다.미국 연방준비제도(연준)의 9·12 양적완화(qe) 결정으로 6년반 만에 사상 최대로 늘어난 자금이 시장에 유입되고 있다는 분석이다'}]
[{'generated_text': "싸늘하다. 가슴에 비수가 날아와 꽂힌다. 救國者, 이것이 바로 한비자다, 그대의 용사다」\n『太平御覽』 「答薩於蕭金可書記事大會(太平朝覽)」.\n'아타시메시(Triasmehi…)'라고 하는 이 말은 일본어 '하츠네테키'(ハートとキルス)에 더 가까운 말이다. 일본의 역사학자 다카야마 세이시가 쓴 『토쿠이 테루오미(徳井奥義三)』에서 '도적'"}]
이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함됐을 수 있으며, 별로의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.