Spaces:

quchenyuan
/

360x_dataset_query

Sleeping

Henry Qu commited on Apr 2

Commit

bb448d0

•

1 Parent(s): f42f51d

1

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,11 +2,12 @@ import gradio as gr
 import os
 from huggingface_hub import hf_hub_download
 from pathlib import Path
-from transformers import GPT2Config, GPT2LMHeadModel, GPT2Tokenizer
 import json
 model = GPT2LMHeadModel.from_pretrained('gpt2')
-tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
 logits_dict = {}
@@ -15,14 +16,14 @@ with open(json_file, 'r') as file:
     data = json.load(file)
 for key, value in data.items():
     text_description = value['text_description']
-    inputs = tokenizer(text_description, return_tensors="pt")
     outputs = model(**inputs, labels=inputs["input_ids"])
     logits = outputs.logits
     logits_dict[key] = logits
 def search_index(query):
-    inputs = tokenizer(query, return_tensors="pt")
     outputs = model(**inputs, labels=inputs["input_ids"])
     max_similarity = float('-inf')

 import os
 from huggingface_hub import hf_hub_download
 from pathlib import Path
+from transformers import GPT2Config, GPT2LMHeadModel, GPT2TokenizerFast
 import json
 model = GPT2LMHeadModel.from_pretrained('gpt2')
+tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")
+tokenizer.pad_token = tokenizer.eos_token
 logits_dict = {}
     data = json.load(file)
 for key, value in data.items():
     text_description = value['text_description']
+    inputs = tokenizer(text_description, return_tensors="pt", padding="max_length", max_length=128, truncation=True)
     outputs = model(**inputs, labels=inputs["input_ids"])
     logits = outputs.logits
     logits_dict[key] = logits
 def search_index(query):
+    inputs = tokenizer(query, return_tensors="pt", padding="max_length", max_length=128, truncation=True)
     outputs = model(**inputs, labels=inputs["input_ids"])
     max_similarity = float('-inf')