Spaces:

rider-provider-777
/

training_bench

Sleeping

App Files Files Community

rider-provider-777 commited on 6 days ago

Commit

62aa251

verified ·

1 Parent(s): 4c78db1

Upload 4 files

Browse files

Files changed (4) hide show

app/services/github_service.py +44 -0
app/services/hf_service.py +18 -0
app/services/logger.py +15 -0
app/services/resource_manager.py +74 -0

app/services/github_service.py ADDED Viewed

	@@ -0,0 +1,44 @@

+import json
+import os
+from tenacity import retry, stop_after_attempt, wait_exponential
+from github import Github
+from app.services.logger import get_logger
+log = get_logger(__name__)
+class GitHubClient:
+    def __init__(self, token_env="GITHUB_TOKEN", repo_env="GITHUB_RESULTS_REPO", results_dir="experiment_logs"):
+        self.token = os.getenv(token_env)
+        self.repo_name = os.getenv(repo_env)
+        self.results_dir = results_dir
+        self.repo = None
+        if self.token and self.repo_name:
+            try:
+                g = Github(self.token)
+                self.repo = g.get_repo(self.repo_name)
+            except Exception as e:
+                log.error("GitHub init failed: %s", e)
+    def ready(self) -> bool:
+        return self.repo is not None
+    @retry(stop=stop_after_attempt(3), wait=wait_exponential(min=1, max=10))
+    def push_json(self, experiment_id: str, data: dict):
+        if not self.ready():
+            log.warning("GitHub not configured; skipping push")
+            return False
+        path = f"{self.results_dir}/{experiment_id}.json"
+        content = json.dumps(data, indent=2)
+        msg = f"Add/Update results for {experiment_id}"
+        try:
+            self.repo.create_file(path, msg, content)
+            log.info("Created %s", path)
+        except Exception:
+            try:
+                current = self.repo.get_contents(path)
+                self.repo.update_file(current.path, msg, content, current.sha)
+                log.info("Updated %s", path)
+            except Exception as e:
+                log.error("Failed to push results: %s", e)
+                raise
+        return True

app/services/hf_service.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from huggingface_hub import HfApi
+from huggingface_hub.errors import HfHubHTTPError
+from tenacity import retry, stop_after_attempt, wait_exponential
+from app.utils.validation import safe_dataset_id
+from app.services.logger import get_logger
+log = get_logger(__name__)
+api = HfApi()
+@retry(stop=stop_after_attempt(3), wait=wait_exponential(min=1, max=8))
+def dataset_exists(dataset_name: str) -> bool:
+    safe_dataset_id(dataset_name)
+    try:
+        api.dataset_info(dataset_name)
+    except HfHubHTTPError as e:
+        log.error(f"Hugging Face dataset lookup failed: {e}")
+        raise
+    return True

app/services/logger.py ADDED Viewed

	@@ -0,0 +1,15 @@

+import logging
+import os
+_LEVEL = os.getenv("LOG_LEVEL", "INFO").upper()
+def get_logger(name: str) -> logging.Logger:
+    logger = logging.getLogger(name)
+    if logger.handlers:
+        return logger
+    logger.setLevel(_LEVEL)
+    h = logging.StreamHandler()
+    fmt = logging.Formatter('%(asctime)s %(levelname)s %(name)s: %(message)s')
+    h.setFormatter(fmt)
+    logger.addHandler(h)
+    return logger

app/services/resource_manager.py ADDED Viewed

	@@ -0,0 +1,74 @@

+import os, shutil, time
+import tempfile
+import torch
+import threading
+from contextlib import contextmanager
+from app.services.logger import get_logger
+log = get_logger(__name__)
+# Concurrency
+_MAX_CONCURRENT = int(os.getenv("MAX_CONCURRENT_JOBS", "1"))
+_sema = threading.Semaphore(_MAX_CONCURRENT)
+# Retention policy (seconds)
+_RESULTS_RETENTION = int(os.getenv("RESULTS_RETENTION_SEC", str(60*60*24*7)))  # 7 days
+@contextmanager
+def job_slot(timeout_sec: int = 60*45):
+    acquired = _sema.acquire(timeout=5)
+    if not acquired:
+        raise RuntimeError("All runners busy; try later")
+    try:
+        yield
+    finally:
+        _sema.release()
+@contextmanager
+def temp_workdir(prefix: str = "job_"):
+    d = tempfile.mkdtemp(prefix=prefix)
+    try:
+        yield d
+    finally:
+        try:
+            shutil.rmtree(d, ignore_errors=True)
+        except Exception:
+            log.warning("Failed to rmtree %s", d)
+def check_gpu(mem_required_gb: float = 4.0) -> None:
+    if torch.cuda.is_available():
+        try:
+            props = torch.cuda.get_device_properties(0)
+            total_gb = props.total_memory / (1024**3)
+            log.info("Detected GPU with %.1f GB", total_gb)
+            if total_gb < mem_required_gb:
+                raise RuntimeError(f"GPU has {total_gb:.1f}GB < required {mem_required_gb}GB")
+        except Exception as e:
+            log.warning("GPU check failed: %s", e)
+    else:
+        log.info("CUDA not available; running on CPU")
+def prune_old_results(local_results_dir: str = "local_results"):
+    now = time.time()
+    if not os.path.isdir(local_results_dir):
+        return
+    for fname in os.listdir(local_results_dir):
+        path = os.path.join(local_results_dir, fname)
+        try:
+            if now - os.path.getmtime(path) > _RESULTS_RETENTION:
+                os.remove(path)
+                log.info("Pruned old result %s", path)
+        except Exception as e:
+            log.warning("Prune failed for %s: %s", path, e)
+# Heuristic OOM estimate (very rough)
+def suggest_batch_limit(model_size_mb: float = 400):
+    try:
+        if torch.cuda.is_available():
+            props = torch.cuda.get_device_properties(0)
+            free_gb = props.total_memory / (1024**3)
+            suggested = max(1, int((free_gb * 1024) / (model_size_mb)))
+            return suggested
+    except Exception:
+        pass
+    return 1