fix: fix parameter name in run-vllm (#93)

belldandyxtq · web-flow · commit 03db7c4310c6 · 2025-07-09T13:01:16.000+09:00
diff --git a/run-vllm.py b/run-vllm.py
@@ -33,8 +33,8 @@ def __call__(
                 m = params["_max_tokens"]
                 kwargs["max_num_batched_tokens"] = m
                 kwargs["max_model_len"] = min(m, model_max_tokens or m, model_seq_length or m)
-            if kwargs["tensor_parallel_size"] > 0:
-                tensor_parallel_size = kwargs["tensor_parallel_size"]
+            if params["tensor_parallel_size"] > 0:
+                tensor_parallel_size = params["tensor_parallel_size"]
             else:
                 tensor_parallel_size = math.gcd(
                     torch.cuda.device_count(),