second-state
/

Phi-3-medium-128k-instruct-GGUF

Text Generation

Inference Endpoints

Model card Files Files and versions Community

apepkuss79 commited on May 26

Commit

2c40964

•

1 Parent(s): 107f96d

Update README.md

Files changed (1) hide show

README.md +5 -7

README.md CHANGED Viewed

@@ -30,9 +30,7 @@ tags:
 ## Run with LlamaEdge
-<!-- - LlamaEdge version: [v0.10.2](https://github.com/LlamaEdge/LlamaEdge/releases/tag/0.10.2) and above -->
-- LlamaEdge version: coming soon
 - Prompt template
@@ -54,13 +52,13 @@ tags:
 - Context size: `128000`
-<!-- - Run as LlamaEdge service
   ```bash
   wasmedge --dir .:. --nn-preload default:GGML:AUTO:Phi-3-medium-128k-instruct-Q5_K_M.gguf \
     llama-api-server.wasm \
     --prompt-template phi-3-chat \
-    --ctx-size 5120 \
     --model-name phi-3-medium-128k
   ```
@@ -70,9 +68,9 @@ tags:
   wasmedge --dir .:. --nn-preload default:GGML:AUTO:Phi-3-medium-128k-instruct-Q5_K_M.gguf \
     llama-chat.wasm \
     --prompt-template phi-3-chat \
-    --ctx-size 5120
   ```
- -->
 ## Quantized GGUF Models
 | Name | Quant method | Bits | Size | Use case |

 ## Run with LlamaEdge
+- LlamaEdge version: [v0.11.2](https://github.com/LlamaEdge/LlamaEdge/releases/tag/0.11.2) and above
 - Prompt template
 - Context size: `128000`
+- Run as LlamaEdge service
   ```bash
   wasmedge --dir .:. --nn-preload default:GGML:AUTO:Phi-3-medium-128k-instruct-Q5_K_M.gguf \
     llama-api-server.wasm \
     --prompt-template phi-3-chat \
+    --ctx-size 128000 \
     --model-name phi-3-medium-128k
   ```
   wasmedge --dir .:. --nn-preload default:GGML:AUTO:Phi-3-medium-128k-instruct-Q5_K_M.gguf \
     llama-chat.wasm \
     --prompt-template phi-3-chat \
+    --ctx-size 128000
   ```
 ## Quantized GGUF Models
 | Name | Quant method | Bits | Size | Use case |