Decode bytes input to utf-8 string before passing to vllm engine (#57)

rmccorm4 · web-flow · commit 2e292140ebe8 · 2023-10-05T14:15:51.000-07:00
diff --git a/Quick_Deploy/vLLM/model_repository/vllm/1/model.py b/Quick_Deploy/vLLM/model_repository/vllm/1/model.py
@@ -167,6 +167,8 @@ async def generate(self, request):
         try:
             request_id = random_uuid()
             prompt = pb_utils.get_input_tensor_by_name(request, "PROMPT").as_numpy()[0]
+            if isinstance(prompt, bytes):
+                prompt = prompt.decode("utf-8")
             stream = pb_utils.get_input_tensor_by_name(request, "STREAM").as_numpy()[0]
 
             # Request parameters are not yet supported via
@@ -184,7 +186,7 @@ async def generate(self, request):
 
             last_output = None
             async for output in self.llm_engine.generate(
-                str(prompt), sampling_params, request_id
+                prompt, sampling_params, request_id
             ):
                 if stream:
                     response_sender.send(self.create_response(output))