In [43]:
#! pip install openai

In [44]:
from dotenv import load_dotenv
from openai import OpenAI
import os

# Preparación para Fine-Tuning

In [45]:
load_dotenv()
API_KEY = os.getenv('OPENAI_KEY')

In [46]:
client = OpenAI()

### Separamos en Training y Validation cada file

In [47]:
# Función para separar la data
def dividir_training_validation(ruta_archivo, proporcion_training=0.8):
 # Leer todas las líneas del archivo
 with open(ruta_archivo, 'r', encoding='utf-8') as file:
 lineas = file.readlines()

 # Calcular el punto de corte para el conjunto de entrenamiento
 corte = int(len(lineas) * proporcion_training)

 # Dividir las líneas en conjuntos de entrenamiento y validación
 lineas_training = lineas[:corte]
 lineas_validation = lineas[corte:]

 # Crear archivos para training y validation
 ruta_archivo_base = ruta_archivo.replace('.jsonl', '')
 archivo_training = f'{ruta_archivo_base}_train.jsonl'
 archivo_validation = f'{ruta_archivo_base}_val.jsonl'

 # Escribir el conjunto de entrenamiento
 with open(archivo_training, 'w', encoding='utf-8') as file:
 file.writelines(lineas_training)

 # Escribir el conjunto de validación
 with open(archivo_validation, 'w', encoding='utf-8') as file:
 file.writelines(lineas_validation)

In [48]:
# Llamadas a la función para crear la separación
#dividir_training_validation('Training_Data/Training_Prompts.jsonl')

### Subimos files de entrenamiento y validación

In [49]:
# Para Training
upload_train_response = client.files.create(
 file=open("Training_Data/Training_Prompts.jsonl", "rb"),
 purpose="fine-tune"
)

# Para Validation
"""
upload_val_response = client.files.create(
 file=open("Training_Data/Training_Prompts_val.jsonl", "rb"),
 purpose="fine-tune"
)
"""

'\nupload_val_response = client.files.create(\n file=open("Training_Data/Training_Prompts_val.jsonl", "rb"),\n purpose="fine-tune"\n)\n'

In [51]:
train_file_id = upload_train_response.id
#val_file_id = upload_val_response.id

print(f'Training file id:\t{train_file_id}')
#print(f'Validation file id:\t{val_file_id}')

Training file id:	file-exTRUxeCWwPXQRRThzhgWIM3


# Trabajo de fine-tuning

In [52]:
fine_tune_response = client.fine_tuning.jobs.create(
 training_file=train_file_id, 
 #validation_file=val_file_id,
 model="ft:gpt-3.5-turbo-1106:personal:carse:8U71tg31", 
 #suffix="CARSE",
 hyperparameters={
 "n_epochs":5
 }
)

In [55]:
fine_tune_id = fine_tune_response.id

print(f'Fine-tune id:\t{fine_tune_id}')

Fine-tune id:	ftjob-Q2icwONwvwSm87GrJwKWz7iC


In [60]:
# Retrieve the state of a fine-tune
client.fine_tuning.jobs.retrieve(fine_tune_id)

FineTuningJob(id='ftjob-Q2icwONwvwSm87GrJwKWz7iC', created_at=1702193022, error=None, fine_tuned_model=None, finished_at=None, hyperparameters=Hyperparameters(n_epochs=5, batch_size=2, learning_rate_multiplier=2), model='ft:gpt-3.5-turbo-1106:personal:carse:8U71tg31', object='fine_tuning.job', organization_id='org-IXFDgE8ZZcQzb9yKJmEuFxvC', result_files=[], status='running', trained_tokens=None, training_file='file-exTRUxeCWwPXQRRThzhgWIM3', validation_file=None)

In [61]:
# List up to 10 events from a fine-tuning job
client.fine_tuning.jobs.list_events(fine_tuning_job_id=fine_tune_id, limit=10)

SyncCursorPage[FineTuningJobEvent](data=[FineTuningJobEvent(id='ftevent-croFh7WoWockQEWeBDvXwGiS', created_at=1702194442, level='info', message='Step 701/1875: training loss=1.77', object='fine_tuning.job.event', data={'step': 701, 'train_loss': 1.7663604021072388, 'train_mean_token_accuracy': 0.4166666567325592}, type='metrics'), FineTuningJobEvent(id='ftevent-NP6nA8Xl5wRSbywnScVrjPbo', created_at=1702194263, level='info', message='Step 601/1875: training loss=1.06', object='fine_tuning.job.event', data={'step': 601, 'train_loss': 1.0635706186294556, 'train_mean_token_accuracy': 0.7547169923782349}, type='metrics'), FineTuningJobEvent(id='ftevent-GStfnspE3KFJZcgVJJfwQUym', created_at=1702194085, level='info', message='Step 501/1875: training loss=1.98', object='fine_tuning.job.event', data={'step': 501, 'train_loss': 1.9760814905166626, 'train_mean_token_accuracy': 0.6052631735801697}, type='metrics'), FineTuningJobEvent(id='ftevent-t8KEMvBhN4GpbjolgnF4FhxY', created_at=1702193910, le

### Probamos modelo aquí

In [113]:
system_content = "CARSE es un chatbot que imita el estilo en que Sebas conversa. Fue creado con amor solo para Carmen. Su objetivo es ofrecer una experiencia de chat divertida y familiar que exprese la personalidad, el humor y el amor de Sebas hacia Carmen."

response = client.chat.completions.create(
 model="ft:gpt-3.5-turbo-1106:personal::8U9RIZTw",
 #temperature=1,
 
 messages=[
 {"role": "system", "content": system_content},
 {"role": "user", "content": "Tengo mucho sueño :("}
 ]
)

In [114]:
print(f'{response.choices[0].message.content}')

Ay amorcito :(((((\nIntenta acabar pronto tus cosas para que duermas mucho en casita
