Add network aliases for speaker service in Docker Compose configuration

AnkushMalaker · AnkushMalaker · commit f1afd8b589ba · 2026-01-12T15:53:08.000Z
diff --git a/Docs/audio-pipeline-architecture.md b/Docs/audio-pipeline-architecture.md
@@ -497,9 +497,8 @@ Session Starts
 └─────────────┬───────────────────┘
               ↓ (when conversation ends)
 ┌─────────────────────────────────┐
-│ Post-Conversation Pipeline      │ ← Parallel batch jobs
+│ Post-Conversation Pipeline      │
 ├─────────────────────────────────┤
-│ • transcribe_full_audio_job     │
 │ • recognize_speakers_job        │
 │ • memory_extraction_job         │
 │ • generate_title_summary_job    │
@@ -597,32 +596,16 @@ Session Starts
 
 ### Post-Conversation Pipeline
 
-All jobs run **in parallel** after conversation completes:
+**Streaming conversations**: Use streaming transcript saved during conversation. No batch re-transcription.
 
-#### 1. Transcribe Full Audio Job
+**File uploads**: Batch transcription job runs first, then post-conversation jobs depend on it.
 
-**File**: `backends/advanced/src/advanced_omi_backend/workers/transcription_jobs.py`
-
-**Function**: `transcribe_full_audio_job()`
-
-**Input**: Audio file from disk (`data/chunks/*.wav`)
-
-**Process**:
-- Batch transcribes entire conversation audio
-- Validates meaningful speech
-- Marks conversation `deleted` if no speech detected
-- Stores transcript, segments, words in MongoDB
-
-**Container**: `rq-worker`
-
-#### 2. Recognize Speakers Job
+#### 1. Recognize Speakers Job
 
 **File**: `backends/advanced/src/advanced_omi_backend/workers/transcription_jobs.py`
 
 **Function**: `recognize_speakers_job()`
 
-**Prerequisite**: `transcribe_full_audio_job` completes
-
 **Process**:
 - Sends audio + segments to speaker recognition service
 - Identifies speakers using voice embeddings
@@ -634,13 +617,13 @@ All jobs run **in parallel** after conversation completes:
 
 **External Service**: `speaker-recognition` container (if enabled)
 
-#### 3. Memory Extraction Job
+#### 2. Memory Extraction Job
 
 **File**: `backends/advanced/src/advanced_omi_backend/workers/memory_jobs.py`
 
 **Function**: `memory_extraction_job()`
 
-**Prerequisite**: `transcribe_full_audio_job` completes
+**Prerequisite**: Speaker recognition job
 
 **Process**:
 - Uses LLM (OpenAI/Ollama) to extract semantic facts
@@ -654,32 +637,46 @@ All jobs run **in parallel** after conversation completes:
 - `ollama` or OpenAI API (LLM)
 - `qdrant` or OpenMemory MCP (vector storage)
 
-#### 4. Generate Title Summary Job
+#### 3. Generate Title Summary Job
 
 **File**: `backends/advanced/src/advanced_omi_backend/workers/conversation_jobs.py`
 
 **Function**: `generate_title_summary_job()`
 
-**Prerequisite**: `transcribe_full_audio_job` completes
+**Prerequisite**: Speaker recognition job
 
 **Process**:
-- Uses LLM to generate:
-  - Title (short summary)
-  - Summary (1-2 sentences)
-  - Detailed summary (paragraph)
+- Uses LLM to generate title, summary, detailed summary
 - Updates conversation document in MongoDB
 
 **Container**: `rq-worker`
 
-#### 5. Dispatch Conversation Complete Event
+#### 4. Dispatch Conversation Complete Event
 
 **File**: `backends/advanced/src/advanced_omi_backend/workers/conversation_jobs.py`
 
 **Function**: `dispatch_conversation_complete_event_job()`
 
 **Process**:
 - Triggers `conversation.complete` plugin event
-- Only runs for **file uploads** (not streaming sessions)
+
+**Container**: `rq-worker`
+
+#### Batch Transcription Job
+
+**File**: `backends/advanced/src/advanced_omi_backend/workers/transcription_jobs.py`
+
+**Function**: `transcribe_full_audio_job()`
+
+**When used**:
+- File uploads via `/api/process-audio-files`
+- Manual reprocessing via `/api/conversations/{id}/reprocess-transcript`
+- NOT used for streaming conversations
+
+**Process**:
+- Reconstructs audio from MongoDB chunks
+- Batch transcribes entire audio
+- Stores transcript with word-level timestamps
 
 **Container**: `rq-worker`
 
diff --git a/extras/speaker-recognition/docker-compose.yml b/extras/speaker-recognition/docker-compose.yml
@@ -33,6 +33,10 @@ services:
       interval: 30s
       timeout: 10s
       retries: 3
+    networks:
+      default:
+        aliases:
+          - speaker-service
 
   # GPU Profile Configuration
   speaker-service-gpu:
@@ -50,6 +54,10 @@ services:
             - driver: nvidia
               count: all
               capabilities: [gpu]
+    networks:
+      default:
+        aliases:
+          - speaker-service
   
   # React Web UI
   web-ui:
diff --git a/status.py b/status.py
@@ -43,8 +43,8 @@ def get_container_status(service_name: str) -> Dict[str, Any]:
 
     try:
         # Get container status using docker compose ps
-        # Use 'ps -a' to get all containers regardless of profile
-        cmd = ['docker', 'compose', 'ps', '-a', '--format', 'json']
+        # Only check containers from active profiles (excludes inactive profile services)
+        cmd = ['docker', 'compose', 'ps', '--format', 'json']
 
         result = subprocess.run(
             cmd,
diff --git a/wizard.py b/wizard.py
@@ -249,6 +249,9 @@ def run_service_setup(service_name, selected_services, https_enabled=False, serv
 
         # For speaker-recognition, pass HF_TOKEN from centralized configuration
         if service_name == 'speaker-recognition':
+            # Define the speaker env path
+            speaker_env_path = 'extras/speaker-recognition/.env'
+
             # HF Token should have been provided via setup_hf_token_if_needed()
             if hf_token:
                 cmd.extend(['--hf-token', hf_token])