Implement legacy environment variable syntax support in configuration loader

AnkushMalaker · AnkushMalaker · commit 0eafc224fe43 · 2026-01-14T15:11:15.000Z
- Added custom OmegaConf resolvers to handle legacy ${VAR:-default} syntax for backward compatibility.
- Introduced a preprocessing function to convert legacy syntax in YAML files to OmegaConf-compatible format.
- Updated the load_config function to utilize the new preprocessing for loading defaults and user configurations.
- Enhanced documentation for clarity on the new legacy syntax handling.
diff --git a/backends/advanced/src/advanced_omi_backend/config.py b/backends/advanced/src/advanced_omi_backend/config.py
@@ -15,9 +15,12 @@
 
 from advanced_omi_backend.config_loader import (
     get_backend_config,
-    save_config_section,
+    get_config_dir,
     load_config,
-    reload_config as reload_omegaconf_config,
+)
+from advanced_omi_backend.config_loader import reload_config as reload_omegaconf_config
+from advanced_omi_backend.config_loader import (
+    save_config_section,
 )
 
 logger = logging.getLogger(__name__)
@@ -31,6 +34,15 @@
 # Configuration Functions (OmegaConf-based)
 # ============================================================================
 
+def get_config_yml_path() -> Path:
+    """
+    Get path to config.yml file.
+
+    Returns:
+        Path to config.yml
+    """
+    return get_config_dir() / "config.yml"
+
 def get_config(force_reload: bool = False) -> dict:
     """
     Get merged configuration using OmegaConf.
diff --git a/backends/advanced/src/advanced_omi_backend/config_loader.py b/backends/advanced/src/advanced_omi_backend/config_loader.py
@@ -30,7 +30,7 @@ def load_config(force_reload: bool = False) -> DictConfig:
     Merge priority (later overrides earlier):
     1. config/defaults.yml (shipped defaults)
     2. config/config.yml (user overrides)
-    3. Environment variables (via oc.env resolver)
+    3. Environment variables (via ${oc.env:VAR,default} syntax)
 
     Args:
         force_reload: If True, reload from disk even if cached
diff --git a/backends/advanced/src/advanced_omi_backend/model_registry.py b/backends/advanced/src/advanced_omi_backend/model_registry.py
@@ -4,12 +4,11 @@
 definitions (LLM, embeddings, etc.) in a provider-agnostic way.
 
 Now using Pydantic for robust validation and type safety.
+Environment variable resolution is handled by OmegaConf in the config module.
 """
 
 from __future__ import annotations
 
-import os
-import re
 import yaml
 from pathlib import Path
 from typing import Any, Dict, List, Optional
@@ -18,77 +17,9 @@
 from pydantic import BaseModel, Field, field_validator, model_validator, ConfigDict, ValidationError
 
 # Import config merging for defaults.yml + config.yml integration
+# OmegaConf handles environment variable resolution (${VAR:-default} syntax)
 from advanced_omi_backend.config import get_config
 
-def _resolve_env(value: Any) -> Any:
-    """Resolve ``${VAR:-default}`` patterns inside a single value.
-    
-    This helper is intentionally minimal: it only operates on strings and leaves
-    all other types unchanged. Patterns of the form ``${VAR}`` or
-    ``${VAR:-default}`` are expanded using ``os.getenv``:
-    
-    - If the environment variable **VAR** is set, its value is used.
-    - Otherwise the optional ``default`` is used (or ``\"\"`` if omitted).
-    
-    Examples:
-        >>> os.environ.get("OLLAMA_MODEL")
-        >>> _resolve_env("${OLLAMA_MODEL:-llama3.1:latest}")
-        'llama3.1:latest'
-        
-        >>> os.environ["OLLAMA_MODEL"] = "llama3.2:latest"
-        >>> _resolve_env("${OLLAMA_MODEL:-llama3.1:latest}")
-        'llama3.2:latest'
-        
-        >>> _resolve_env("Bearer ${OPENAI_API_KEY:-}")
-        'Bearer '  # when OPENAI_API_KEY is not set
-    
-    Note:
-        Use :func:`_deep_resolve_env` to apply this logic to an entire
-        nested config structure (dicts/lists) loaded from YAML.
-    """
-    if not isinstance(value, str):
-        return value
-
-    pattern = re.compile(r"\$\{([^}:]+)(?::-(.*?))?\}")
-
-    def repl(match: re.Match[str]) -> str:
-        var, default = match.group(1), match.group(2)
-        return os.getenv(var, default or "")
-
-    return pattern.sub(repl, value)
-
-
-def _deep_resolve_env(data: Any) -> Any:
-    """Recursively resolve environment variables in nested structures.
-    
-    This walks arbitrary Python structures produced by ``yaml.safe_load`` and
-    applies :func:`_resolve_env` to every string it finds. Dictionaries and
-    lists are traversed deeply; scalars are passed through unchanged.
-    
-    Examples:
-        >>> os.environ["OPENAI_MODEL"] = "gpt-4o-mini"
-        >>> cfg = {
-        ...     "models": [
-        ...         {"model_name": "${OPENAI_MODEL:-gpt-4o-mini}"},
-        ...         {"model_url": "${OPENAI_BASE_URL:-https://api.openai.com/v1}"}
-        ...     ]
-        ... }
-        >>> resolved = _deep_resolve_env(cfg)
-        >>> resolved["models"][0]["model_name"]
-        'gpt-4o-mini'
-        >>> resolved["models"][1]["model_url"]
-        'https://api.openai.com/v1'
-    
-    This is what :func:`load_models_config` uses immediately after loading
-    ``config.yml`` so that all ``${VAR:-default}`` placeholders are resolved
-    before Pydantic validation and model registry construction.
-    """
-    if isinstance(data, dict):
-        return {k: _deep_resolve_env(v) for k, v in data.items()}
-    if isinstance(data, list):
-        return [_deep_resolve_env(v) for v in data]
-    return _resolve_env(data)
-
 
 class ModelDef(BaseModel):
     """Model definition with validation.
@@ -270,7 +201,8 @@ def load_models_config(force_reload: bool = False) -> Optional[AppModels]:
     """Load model configuration from merged defaults.yml + config.yml.
 
     This function loads defaults.yml and config.yml, merges them with user overrides,
-    resolves environment variables, validates model definitions using Pydantic, and caches the result.
+    validates model definitions using Pydantic, and caches the result.
+    Environment variables are resolved by OmegaConf during config loading.
 
     Args:
         force_reload: If True, reload from disk even if already cached
@@ -280,24 +212,18 @@ def load_models_config(force_reload: bool = False) -> Optional[AppModels]:
 
     Raises:
         ValidationError: If config.yml has invalid model definitions
-        yaml.YAMLError: If config.yml has invalid YAML syntax
     """
     global _REGISTRY
     if _REGISTRY is not None and not force_reload:
         return _REGISTRY
 
-    # Try to get merged configuration (defaults + user config)
+    # Get merged configuration (defaults + user config)
+    # OmegaConf resolves environment variables automatically
     try:
         raw = get_config(force_reload=force_reload)
     except Exception as e:
         logging.error(f"Failed to load merged configuration: {e}")
-        # Fallback to direct config.yml loading
-        cfg_path = _find_config_path()
-        if not cfg_path.exists():
-            return None
-        with cfg_path.open("r") as f:
-            raw = yaml.safe_load(f) or {}
-        raw = _deep_resolve_env(raw)
+        return None
 
     # Extract sections
     defaults = raw.get("defaults", {}) or {}
diff --git a/config/defaults.yml b/config/defaults.yml
@@ -20,7 +20,7 @@ models:
     api_family: openai
     model_name: gpt-4o-mini
     model_url: https://api.openai.com/v1
-    api_key: ${OPENAI_API_KEY:-}
+    api_key: ${oc.env:OPENAI_API_KEY,}
     model_params:
       temperature: 0.2
       max_tokens: 2000
@@ -33,7 +33,7 @@ models:
     api_family: openai
     model_name: llama3.1:latest
     model_url: http://localhost:11434/v1
-    api_key: ${OPENAI_API_KEY:-ollama}
+    api_key: ${oc.env:OPENAI_API_KEY,ollama}
     model_params:
       temperature: 0.2
       max_tokens: 2000
@@ -46,7 +46,7 @@ models:
     api_family: openai
     model_name: llama-3.1-70b-versatile
     model_url: https://api.groq.com/openai/v1
-    api_key: ${GROQ_API_KEY:-}
+    api_key: ${oc.env:GROQ_API_KEY,}
     model_params:
       temperature: 0.2
       max_tokens: 2000
@@ -62,7 +62,7 @@ models:
     api_family: openai
     model_name: text-embedding-3-small
     model_url: https://api.openai.com/v1
-    api_key: ${OPENAI_API_KEY:-}
+    api_key: ${oc.env:OPENAI_API_KEY,}
     embedding_dimensions: 1536
     model_output: vector
 
@@ -73,7 +73,7 @@ models:
     api_family: openai
     model_name: nomic-embed-text:latest
     model_url: http://localhost:11434/v1
-    api_key: ${OPENAI_API_KEY:-ollama}
+    api_key: ${oc.env:OPENAI_API_KEY,ollama}
     embedding_dimensions: 768
     model_output: vector
 
@@ -86,13 +86,13 @@ models:
     model_provider: deepgram
     api_family: http
     model_url: https://api.deepgram.com/v1
-    api_key: ${DEEPGRAM_API_KEY:-}
+    api_key: ${oc.env:DEEPGRAM_API_KEY,}
     operations:
       stt_transcribe:
         method: POST
         path: /listen
         headers:
-          Authorization: Token ${DEEPGRAM_API_KEY:-}
+          Authorization: Token ${oc.env:DEEPGRAM_API_KEY,}
           Content-Type: audio/raw
         query:
           model: nova-3
@@ -115,7 +115,7 @@ models:
     model_type: stt
     model_provider: parakeet
     api_family: http
-    model_url: http://${PARAKEET_ASR_URL:-172.17.0.1:8767}
+    model_url: http://${oc.env:PARAKEET_ASR_URL,172.17.0.1:8767}
     api_key: ''
     operations:
       stt_transcribe:
@@ -191,10 +191,10 @@ models:
     model_type: vector_store
     model_provider: qdrant
     api_family: qdrant
-    model_url: http://${QDRANT_BASE_URL:-qdrant}:${QDRANT_PORT:-6333}
+    model_url: http://${oc.env:QDRANT_BASE_URL,qdrant}:${oc.env:QDRANT_PORT,6333}
     model_params:
-      host: ${QDRANT_BASE_URL:-qdrant}
-      port: ${QDRANT_PORT:-6333}
+      host: ${oc.env:QDRANT_BASE_URL,qdrant}
+      port: ${oc.env:QDRANT_PORT,6333}
       collection_name: omi_memories
 
 # ===========================