LongWriter

Running

bys0318 commited on Aug 17

Commit

a0a9e18

•

1 Parent(s): 5412729

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,5 @@
 import subprocess
-# Installing flash_attn
-subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"},
-               shell=True)
 from threading import Thread
 import spaces
 import gradio as gr
@@ -65,7 +61,9 @@ def predict(history, prompt, max_length, top_p, temperature):
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     for new_token in streamer:
-        if new_token and '<|user|>' not in new_token:
             history[-1][1] += new_token
         yield history

 import subprocess
 from threading import Thread
 import spaces
 import gradio as gr
     t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     for new_token in streamer:
+        if new_token and '<|user|>' in new_token:
+            new_token = new_token.split('<|user|>')[0]
+        if new_token:
             history[-1][1] += new_token
         yield history