Spaces:

HGKo
/

vision_llm_agent

Running

App Files Files Community

sunheycho commited on 24 days ago

Commit

ddb7f6a

1 Parent(s): d7ccb89

feat(lora-compare): add SSE endpoints for LLaMA LoRA comparison; wire frontend component; build and copy static assets

Browse files

Files changed (2) hide show

api.py +146 -0
frontend/package-lock.json +5 -4

api.py CHANGED Viewed

@@ -1253,6 +1253,152 @@ def stream_product_comparison(session_id):
         }
     )
 @app.route('/api/search-similar-objects', methods=['POST'])
 @require_auth()
 def search_similar_objects():

         }
     )
+# ============================
+# LLM LoRA Compare Endpoints
+# ============================
+# Simple in-memory session store for LoRA compare
+lora_sessions = {}
+def lora_add_message(session_id, message, msg_type="info"):
+    sess = lora_sessions.get(session_id)
+    if not sess:
+        return
+    ts = time.strftime('%Y-%m-%d %H:%M:%S')
+    sess['messages'].append({
+        'message': message,
+        'type': msg_type,
+        'timestamp': ts
+    })
+@app.route('/api/llama/compare/start', methods=['POST'])
+@require_auth()
+def start_llama_lora_compare():
+    """Start a LoRA-vs-Base comparison session (text or image+text prompt)."""
+    session_id = request.form.get('session_id') or str(uuid.uuid4())
+    prompt = request.form.get('prompt', '')
+    base_model_id = request.form.get('baseModel', 'meta-llama/Llama-3.1-8B-Instruct')
+    lora_path = request.form.get('loraPath', '')
+    image_b64 = None
+    if 'image' in request.files:
+        try:
+            img = Image.open(request.files['image'].stream).convert('RGB')
+            buffer = BytesIO()
+            img.save(buffer, format='PNG')
+            image_b64 = base64.b64encode(buffer.getvalue()).decode('utf-8')
+        except Exception as _e:
+            pass
+    # Initialize session
+    lora_sessions[session_id] = {
+        'status': 'processing',
+        'messages': [],
+        'result': None,
+    }
+    lora_add_message(session_id, 'LoRA comparison started', 'system')
+    def worker():
+        try:
+            lora_add_message(session_id, f"Base model: {base_model_id}")
+            if lora_path:
+                lora_add_message(session_id, f"LoRA adapter: {lora_path}")
+            else:
+                lora_add_message(session_id, "No LoRA adapter provided; using mock output.")
+            # Prepare prompt
+            full_prompt = prompt or 'Describe the content.'
+            if image_b64:
+                lora_add_message(session_id, 'Image provided; running vision+language prompt.')
+            # Run base inference (best-effort)
+            start_base = time.time()
+            base_output = None
+            try:
+                if llm_model is not None and llm_tokenizer is not None:
+                    inputs = llm_tokenizer(full_prompt, return_tensors='pt').to(device)
+                    with torch.no_grad():
+                        out = llm_model.generate(**inputs, max_new_tokens=128, temperature=0.7, top_p=0.9)
+                    text = llm_tokenizer.decode(out[0], skip_special_tokens=True)
+                    # strip prompt prefix
+                    if text.startswith(full_prompt):
+                        text = text[len(full_prompt):].strip()
+                    base_output = text
+                else:
+                    base_output = f"[mock] Base response for: {full_prompt[:80]}..."
+            except Exception as e:
+                base_output = f"[error] Base inference failed: {e}"
+            base_latency = int((time.time() - start_base) * 1000)
+            lora_add_message(session_id, f"Base inference done in {base_latency} ms")
+            # Run LoRA inference (mock unless PEFT is integrated)
+            start_lora = time.time()
+            try:
+                if lora_path and llm_model is not None and llm_tokenizer is not None:
+                    # Placeholder: in real integration, load LoRA via PEFT and run generate
+                    lora_output = f"[mock-lora:{lora_path}] {base_output}"
+                else:
+                    lora_output = f"[mock] LoRA response (no adapter) for: {full_prompt[:80]}..."
+            except Exception as e:
+                lora_output = f"[error] LoRA inference failed: {e}"
+            lora_latency = int((time.time() - start_lora) * 1000)
+            lora_add_message(session_id, f"LoRA inference done in {lora_latency} ms")
+            lora_sessions[session_id]['result'] = {
+                'prompt': full_prompt,
+                'image': image_b64,
+                'base': { 'output': base_output, 'latency_ms': base_latency },
+                'lora': { 'output': lora_output, 'latency_ms': lora_latency },
+            }
+            lora_sessions[session_id]['status'] = 'completed'
+            lora_add_message(session_id, 'Comparison completed', 'system')
+        except Exception as e:
+            lora_sessions[session_id]['status'] = 'error'
+            lora_sessions[session_id]['result'] = {
+                'error': str(e)
+            }
+            lora_add_message(session_id, f"Error: {e}", 'error')
+    Thread(target=worker, daemon=True).start()
+    return jsonify({ 'session_id': session_id, 'status': 'processing' })
+@app.route('/api/llama/compare/stream/<session_id>', methods=['GET'])
+@require_auth()
+def stream_llama_lora_compare(session_id):
+    """SSE stream for LoRA comparison progress and final result."""
+    def generate():
+        last_idx = 0
+        retries = 0
+        max_retries = 300
+        while retries < max_retries:
+            sess = lora_sessions.get(session_id)
+            if not sess:
+                yield f"data: {json.dumps({'error': 'Session not found'})}\n\n"
+                break
+            msgs = sess['messages']
+            if len(msgs) > last_idx:
+                for m in msgs[last_idx:]:
+                    yield f"data: {json.dumps(m)}\n\n"
+                last_idx = len(msgs)
+            yield f"data: {json.dumps({'status': sess['status']})}\n\n"
+            if sess['status'] in ('completed', 'error'):
+                yield f"data: {json.dumps({'final_result': sess['result']})}\n\n"
+                break
+            time.sleep(1)
+            retries += 1
+        if retries >= max_retries:
+            yield f"data: {json.dumps({'error': 'Timeout waiting for results'})}\n\n"
+    return Response(
+        stream_with_context(generate()),
+        mimetype='text/event-stream',
+        headers={
+            'Cache-Control': 'no-cache',
+            'X-Accel-Buffering': 'no',
+            'Content-Type': 'text/event-stream',
+        }
+    )
 @app.route('/api/search-similar-objects', methods=['POST'])
 @require_auth()
 def search_similar_objects():

frontend/package-lock.json CHANGED Viewed

@@ -17497,16 +17497,17 @@
       "integrity": "sha512-/aCDEGatGvZ2BIk+HmLf4ifCJFwvKFNb9/JeZPMulfgFracn9QFcAf5GO8B/mweUjSoblS5In0cWhqpfs/5PQA=="
     },
     "node_modules/typescript": {
-      "version": "5.9.2",
-      "resolved": "https://registry.npmjs.org/typescript/-/typescript-5.9.2.tgz",
-      "integrity": "sha512-CWBzXQrc/qOkhidw1OzBTQuYRbfyxDXJMVJ1XNwUHGROVmuaeiEm3OslpZ1RV96d7SKKjZKrSJu3+t/xlw3R9A==",
       "peer": true,
       "bin": {
         "tsc": "bin/tsc",
         "tsserver": "bin/tsserver"
       },
       "engines": {
-        "node": ">=14.17"
       }
     },
     "node_modules/unbox-primitive": {

       "integrity": "sha512-/aCDEGatGvZ2BIk+HmLf4ifCJFwvKFNb9/JeZPMulfgFracn9QFcAf5GO8B/mweUjSoblS5In0cWhqpfs/5PQA=="
     },
     "node_modules/typescript": {
+      "version": "3.9.10",
+      "resolved": "https://registry.npmjs.org/typescript/-/typescript-3.9.10.tgz",
+      "integrity": "sha512-w6fIxVE/H1PkLKcCPsFqKE7Kv7QUwhU8qQY2MueZXWx5cPZdwFupLgKK3vntcK98BtNHZtAF4LA/yl2a7k8R6Q==",
+      "license": "Apache-2.0",
       "peer": true,
       "bin": {
         "tsc": "bin/tsc",
         "tsserver": "bin/tsserver"
       },
       "engines": {
+        "node": ">=4.2.0"
       }
     },
     "node_modules/unbox-primitive": {