apps: fix llamastack and adapt agent

frzifus · frzifus · commit 14be0ec3b9e2 · 2025-05-29T18:39:47.000+02:00
diff --git a/clusters/homelab/apps/llm/llama-stack/agent/agent.py b/clusters/homelab/apps/llm/llama-stack/agent/agent.py
@@ -192,59 +192,6 @@ def get_models():
         data=[ModelInfo(id=alias) for alias in MODEL_ALIAS_MAP.keys()]
     )
 
-@app.post("/v1/completions")
-def completions(request: CompletionRequest):
-    internal_model = MODEL_ALIAS_MAP.get(request.model)
-    if not internal_model:
-        raise HTTPException(status_code=404, detail="Model not found")
-
-    if internal_model != MODEL_ID or not AGENT_INSTANCE or not AGENT_SESSION_ID:
-        raise HTTPException(status_code=500, detail="Agent not initialized")
-
-    messages = request.prompt if isinstance(request.prompt, list) else [request.prompt]
-
-    response = AGENT_INSTANCE.create_turn(
-        messages=[{"role": "user", "content": m} for m in messages],
-        session_id=AGENT_SESSION_ID,
-        stream=False,
-    )
-
-    print(f"Response from agent: {response}")
-    content = ""
-
-    try:
-        if hasattr(response, "output_message"):
-            content = response.output_message.content
-        elif hasattr(response, "steps") and len(response.steps) > 0:
-            step = response.steps[0]
-            if hasattr(step, "api_model_response"):
-                content = step.api_model_response.content
-
-        if not content:
-            raise HTTPException(status_code=500, detail="No assistant response received")
-
-    except Exception as e:
-        print(f"Error while processing the log: {e}")
-        raise HTTPException(status_code=500, detail="Error processing the log")
-
-    if not content:
-        raise HTTPException(status_code=500, detail="No assistant response received")
-
-    return {
-        "id": "cmpl-1234",
-        "object": "text_completion",
-        "created": int(time.time()),
-        "model": MODEL_ID,
-        "choices": [
-            {
-                "text": content.strip(),
-                "index": 0,
-                "logprobs": None,
-                "finish_reason": "stop"
-            }
-        ]
-    }
-
 @app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
 def chat_completions(request: ChatCompletionRequest, raw_request: Request):
     with tracer.start_as_current_span("agent.chat_completions") as span:
@@ -260,10 +207,19 @@ def chat_completions(request: ChatCompletionRequest, raw_request: Request):
             raise HTTPException(status_code=500, detail="Agent not initialized")
 
         try:
+            logger.info(f"All incoming messages: {[msg.dict() for msg in request.messages]}")
+            agent_messages = [
+                {"role": "user", "content": msg.content}
+                for msg in request.messages
+                if msg.role == "user"
+            ]
+
+            if not agent_messages:
+                raise HTTPException(status_code=400, detail="No user message found.")
             # Trace the agent's create_turn method
             with tracer.start_as_current_span("agent.create_turn"):
                 response = AGENT_INSTANCE.create_turn(
-                    messages=[msg.dict() for msg in request.messages],
+                    messages=agent_messages,
                     session_id=AGENT_SESSION_ID,
                     stream=False,
                 )
diff --git a/clusters/homelab/apps/llm/llama-stack/agent/cm-agent.yaml b/clusters/homelab/apps/llm/llama-stack/agent/cm-agent.yaml
@@ -195,59 +195,6 @@ data:
             data=[ModelInfo(id=alias) for alias in MODEL_ALIAS_MAP.keys()]
         )
 
-    @app.post("/v1/completions")
-    def completions(request: CompletionRequest):
-        internal_model = MODEL_ALIAS_MAP.get(request.model)
-        if not internal_model:
-            raise HTTPException(status_code=404, detail="Model not found")
-
-        if internal_model != MODEL_ID or not AGENT_INSTANCE or not AGENT_SESSION_ID:
-            raise HTTPException(status_code=500, detail="Agent not initialized")
-
-        messages = request.prompt if isinstance(request.prompt, list) else [request.prompt]
-
-        response = AGENT_INSTANCE.create_turn(
-            messages=[{"role": "user", "content": m} for m in messages],
-            session_id=AGENT_SESSION_ID,
-            stream=False,
-        )
-
-        print(f"Response from agent: {response}")
-        content = ""
-
-        try:
-            if hasattr(response, "output_message"):
-                content = response.output_message.content
-            elif hasattr(response, "steps") and len(response.steps) > 0:
-                step = response.steps[0]
-                if hasattr(step, "api_model_response"):
-                    content = step.api_model_response.content
-
-            if not content:
-                raise HTTPException(status_code=500, detail="No assistant response received")
-
-        except Exception as e:
-            print(f"Error while processing the log: {e}")
-            raise HTTPException(status_code=500, detail="Error processing the log")
-
-        if not content:
-            raise HTTPException(status_code=500, detail="No assistant response received")
-
-        return {
-            "id": "cmpl-1234",
-            "object": "text_completion",
-            "created": int(time.time()),
-            "model": MODEL_ID,
-            "choices": [
-                {
-                    "text": content.strip(),
-                    "index": 0,
-                    "logprobs": None,
-                    "finish_reason": "stop"
-                }
-            ]
-        }
-
     @app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
     def chat_completions(request: ChatCompletionRequest, raw_request: Request):
         with tracer.start_as_current_span("agent.chat_completions") as span:
@@ -263,10 +210,19 @@ data:
                 raise HTTPException(status_code=500, detail="Agent not initialized")
 
             try:
+                logger.info(f"All incoming messages: {[msg.dict() for msg in request.messages]}")
+                agent_messages = [
+                    {"role": "user", "content": msg.content}
+                    for msg in request.messages
+                    if msg.role == "user"
+                ]
+
+                if not agent_messages:
+                    raise HTTPException(status_code=400, detail="No user message found.")
                 # Trace the agent's create_turn method
                 with tracer.start_as_current_span("agent.create_turn"):
                     response = AGENT_INSTANCE.create_turn(
-                        messages=[msg.dict() for msg in request.messages],
+                        messages=agent_messages,
                         session_id=AGENT_SESSION_ID,
                         stream=False,
                     )
diff --git a/clusters/homelab/apps/llm/llama-stack/agent/deployment.yaml b/clusters/homelab/apps/llm/llama-stack/agent/deployment.yaml
@@ -25,7 +25,7 @@ spec:
           - -c
           - |
             pip install \
-              uvicorn llama-stack-client fastapi pydantic\
+              uvicorn llama-stack-client fire fastapi pydantic\
               opentelemetry-instrumentation-fastapi \
               'opentelemetry-sdk>=1.26.0,<1.27.0' \
               'opentelemetry-api>=1.26.0,<1.27.0' \
diff --git a/clusters/homelab/apps/llm/llama-stack/configmap.yaml b/clusters/homelab/apps/llm/llama-stack/configmap.yaml
@@ -27,7 +27,7 @@ data:
           url: ${env.VLLM_URL:http://localhost:8000/v1}
           max_tokens: ${env.VLLM_MAX_TOKENS:2048}
           api_token: ${env.VLLM_API_TOKEN:fake}
-          tls_verify: ${env.VLLM_TLS_VERIFY:true}
+          tls_verify: false
       - provider_id: sentence-transformers
         provider_type: inline::sentence-transformers
         config: {}
@@ -52,6 +52,10 @@ data:
             type: sqlite
             namespace: null
             db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/remote-vllm}/agents_store.db
+          responses_store:
+            type: sqlite
+            namespace: null
+            db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/remote-vllm}/responses_store.db
       eval:
       - provider_id: meta-reference
         provider_type: inline::meta-reference
@@ -140,5 +144,9 @@ data:
       provider_id: rag-runtime
     - toolgroup_id: builtin::wolfram_alpha
       provider_id: wolfram-alpha
+    - toolgroup_id: mcp::opentelemetry
+      provider_id: model-context-protocol
+      mcp_endpoint:
+        uri: "http://mcp-otel-operator:8000/sse"
     server:
       port: 8321
diff --git a/clusters/homelab/apps/llm/llama-stack/deployment.yaml b/clusters/homelab/apps/llm/llama-stack/deployment.yaml
@@ -34,8 +34,6 @@ spec:
           terminationMessagePath: /dev/termination-log
           name: llamastack
           env:
-            - name: VLLM_TLS_VERIFY
-              value: 'false'
             - name: VLLM_MAX_TOKENS
               value: '2048'
             - name: VLLM_URL