feat: add Sub-Phase 9.1 results generation APIs with reusable RAGPipeline

2026-05-25 18:35:55 +08:00 · 2026-05-25 18:35:55 +08:00 · ac81df0704
parent 852430f1f1
commit ac81df0704
7 changed files with 1121 additions and 1 deletions
--- a/backend/app/main.py
+++ b/backend/app/main.py
@ -7,7 +7,7 @@ from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import FileResponse
-from app.routers import ingest, query, documents, prompts, history, chunks, video, ws_asr
+from app.routers import ingest, query, documents, prompts, history, chunks, video, ws_asr, test_generate
 from app.core.config import get_settings
 from app.core.sqlite_db import (
    get_prompts_db,
@ -58,6 +58,7 @@ app.include_router(history.router)
 app.include_router(chunks.router)
 app.include_router(video.router, prefix="/api/v1")
 app.include_router(ws_asr.router)
 app.include_router(test_generate.router, prefix="/api/v1")
 _prompts_conn = get_prompts_db()
 init_prompts_db(_prompts_conn)
--- a/backend/app/routers/test_generate.py
+++ b/backend/app/routers/test_generate.py
@ -0,0 +1,104 @@
 import io
 import logging
 from fastapi import APIRouter, File, Form, HTTPException, Query, UploadFile
 from app.core.config import get_settings
 from app.models.testing import GenerateTextRequest
 from app.services.prompt_service import PromptService
 from app.services.test_runner_service import TestRunnerService
 from app.services.test_storage_service import TestStorageService
 logger = logging.getLogger(__name__)
 router = APIRouter(tags=["test"])
 def _get_prompt_service() -> PromptService:
    settings = get_settings()
    return PromptService(db_path=settings.prompts_db_path)
 def _get_storage_service() -> TestStorageService:
    settings = get_settings()
    return TestStorageService(
        results_dir=settings.test_results_dir,
        evaluations_dir=settings.test_evaluations_dir,
    )
@router.post("/test/generate/text")
 async def generate_text(request: GenerateTextRequest):
    settings = get_settings()
    prompt_service = _get_prompt_service()
    runner = TestRunnerService(settings)
    result = await runner.run_text_test(
        question=request.question,
        profile=request.profile,
        prompt_service=prompt_service,
        label=request.label,
    )
    storage = _get_storage_service()
    storage.save_result(result)
    return result.model_dump()
@router.post("/test/generate/audio")
 async def generate_audio(
    audio_file: UploadFile = File(...),
    profile: str = Form(...),
    reference_transcript: str = Form(""),
    label: str = Form(""),
    language: str = Form("yue"),
 ):
    if profile not in ("A", "B", "C"):
        raise HTTPException(status_code=400, detail="profile must be A, B, or C")
    settings = get_settings()
    prompt_service = _get_prompt_service()
    audio_bytes = await audio_file.read()
    if not audio_bytes:
        raise HTTPException(status_code=400, detail="Audio file is empty")
    runner = TestRunnerService(settings)
    result = await runner.run_audio_test(
        audio_bytes=audio_bytes,
        reference_transcript=reference_transcript,
        profile=profile,
        prompt_service=prompt_service,
        language=language,
        label=label,
        audio_filename=audio_file.filename or "unknown",
    )
    storage = _get_storage_service()
    storage.save_result(result)
    return result.model_dump()
@router.get("/test/results")
 async def list_results(limit: int = Query(50, ge=1, le=200), offset: int = Query(0, ge=0)):
    storage = _get_storage_service()
    return storage.list_results(limit=limit, offset=offset)
@router.get("/test/results/{result_id}")
 async def get_result(result_id: str):
    storage = _get_storage_service()
    result = storage.load_result(result_id)
    if result is None:
        raise HTTPException(status_code=404, detail="Result not found")
    return result.model_dump()
@router.delete("/test/results/{result_id}")
 async def delete_result(result_id: str):
    storage = _get_storage_service()
    deleted = storage.delete_result(result_id)
    if not deleted:
        raise HTTPException(status_code=404, detail="Result not found")
    return {"status": "deleted", "result_id": result_id}
--- a/backend/app/services/rag_pipeline.py
+++ b/backend/app/services/rag_pipeline.py
@ -0,0 +1,289 @@
 import logging
 import time
 from dataclasses import dataclass, field
 from typing import Any, AsyncGenerator, Dict, List, Optional, Tuple
 from app.models.common import SourceMetadata
 from app.models.query import SubQuestionSources
 from app.services.query_decomposer import QueryDecomposer
 from app.services.relevance_filter import RelevanceFilter
 from app.services.rag import RAGService
 logger = logging.getLogger(__name__)
 NO_RESULTS_ANSWER = "I could not find any relevant information to answer your question."
@dataclass
 class PipelineSnapshot:
    """Complete snapshot at a given pipeline stage for accuracy testing capture."""
    phase: str
    question: str = ""
    # Stage 1: Decompose
    extracted_questions: List[str] = field(default_factory=list)
    decompose_prompt: str = ""
    decomposer_time_ms: int = 0
    # Stage 2: Retrieve
    retrieval_results: List[Tuple[str, List[Tuple[str, Dict[str, Any], float]]]] = field(
        default_factory=list
    )
    chunks_retrieved_count: int = 0
    retriever_time_ms: int = 0
    # Stage 3: Filter
    filter_prompt: str = ""
    filtered_by_subq: List[Tuple[str, List[Tuple[str, Dict[str, Any]]]]] = field(
        default_factory=list
    )
    chunks_filtered_count: int = 0
    filter_time_ms: int = 0
    # Stage 4: Generate
    generate_prompt: str = ""
    answer: str = ""
    sub_question_sources: List[SubQuestionSources] = field(default_factory=list)
    generator_time_ms: int = 0
    # Metadata
    total_time_ms: int = 0
    error_message: str = ""
 class RAGPipeline:
    """Reusable RAG pipeline: decompose → retrieve → filter → generate.
    Yields PipelineSnapshot at each stage boundary. No SSE or HTTP coupling.
    Use in streaming endpoints (wrap snapshots as SSE) or capture endpoints
    (collect snapshots into GenerateResult).
    Usage:
        pipeline = RAGPipeline(decomposer=..., rag=..., relevance_filter=..., settings=...)
        async for snap in pipeline.execute("question text"):
            if snap.phase == "completed":
                print(snap.answer)
    """
    def __init__(
        self,
        *,
        decomposer: QueryDecomposer,
        rag: RAGService,
        relevance_filter: RelevanceFilter,
        retrieval_n_results: int = 10,
        relevance_threshold: float = 7.0,
    ):
        self._decomposer = decomposer
        self._rag = rag
        self._relevance_filter = relevance_filter
        self._retrieval_n_results = retrieval_n_results
        self._relevance_threshold = relevance_threshold
    async def execute(
        self,
        question: str,
        stop_after_decompose: bool = False,
    ) -> AsyncGenerator[PipelineSnapshot, None]:
        """Execute the full pipeline, yielding one snapshot per stage."""
        overall_start = time.perf_counter()
        # --- Stage 1: Decompose ---
        stage_start = time.perf_counter()
        decompose_result = await self._decomposer.decompose(question)
        if isinstance(decompose_result, tuple):
            extracted_questions, decompose_prompt = decompose_result
        else:
            extracted_questions, decompose_prompt = decompose_result, ""
        decomposer_time_ms = int((time.perf_counter() - stage_start) * 1000)
        if not extracted_questions:
            extracted_questions = [question]
        yield PipelineSnapshot(
            phase="decomposed",
            question=question,
            extracted_questions=extracted_questions,
            decompose_prompt=decompose_prompt,
            decomposer_time_ms=decomposer_time_ms,
        )
        if stop_after_decompose:
            total_ms = int((time.perf_counter() - overall_start) * 1000)
            yield PipelineSnapshot(
                phase="completed",
                question=question,
                extracted_questions=extracted_questions,
                decompose_prompt=decompose_prompt,
                decomposer_time_ms=decomposer_time_ms,
                total_time_ms=total_ms,
            )
            return
        # --- Stage 2: Retrieve ---
        stage_start = time.perf_counter()
        retrieval_results = (
            self._rag.retrieve_per_subquestion(
                extracted_questions, n_results=self._retrieval_n_results
            )
            if extracted_questions
            else []
        )
        retriever_time_ms = int((time.perf_counter() - stage_start) * 1000)
        chunks_retrieved_count = sum(
            len(chunks) for _, chunks in retrieval_results
        )
        yield PipelineSnapshot(
            phase="retrieving",
            question=question,
            extracted_questions=extracted_questions,
            decompose_prompt=decompose_prompt,
            decomposer_time_ms=decomposer_time_ms,
            retrieval_results=retrieval_results,
            chunks_retrieved_count=chunks_retrieved_count,
            retriever_time_ms=retriever_time_ms,
        )
        if not any(chunks for _, chunks in retrieval_results):
            total_ms = int((time.perf_counter() - overall_start) * 1000)
            yield PipelineSnapshot(
                phase="completed",
                question=question,
                extracted_questions=extracted_questions,
                decompose_prompt=decompose_prompt,
                decomposer_time_ms=decomposer_time_ms,
                chunks_retrieved_count=0,
                retriever_time_ms=retriever_time_ms,
                answer=NO_RESULTS_ANSWER,
                total_time_ms=total_ms,
            )
            return
        # --- Stage 3: Filter ---
        stage_start = time.perf_counter()
        chunks_by_subq = [
            [(text, meta) for text, meta, _dist in chunks]
            for _, chunks in retrieval_results
        ]
        if extracted_questions and chunks_by_subq:
            filter_result = await self._relevance_filter.filter_per_subquestion(
                extracted_questions, chunks_by_subq, threshold=self._relevance_threshold
            )
        else:
            filter_result = ([], "")
        if isinstance(filter_result, tuple):
            filtered_by_subq, filter_prompt = filter_result
        else:
            filtered_by_subq, filter_prompt = filter_result, ""
        filter_time_ms = int((time.perf_counter() - stage_start) * 1000)
        chunks_filtered_count = sum(
            len(chunks) for _, chunks in filtered_by_subq
        )
        yield PipelineSnapshot(
            phase="filtering",
            question=question,
            extracted_questions=extracted_questions,
            decompose_prompt=decompose_prompt,
            decomposer_time_ms=decomposer_time_ms,
            retrieval_results=retrieval_results,
            chunks_retrieved_count=chunks_retrieved_count,
            retriever_time_ms=retriever_time_ms,
            filter_prompt=filter_prompt,
            filtered_by_subq=filtered_by_subq,
            chunks_filtered_count=chunks_filtered_count,
            filter_time_ms=filter_time_ms,
        )
        if not filtered_by_subq or not any(
            chunks for _, chunks in filtered_by_subq
        ):
            total_ms = int((time.perf_counter() - overall_start) * 1000)
            yield PipelineSnapshot(
                phase="completed",
                question=question,
                extracted_questions=extracted_questions,
                decomposer_time_ms=decomposer_time_ms,
                retriever_time_ms=retriever_time_ms,
                filter_time_ms=filter_time_ms,
                answer=NO_RESULTS_ANSWER,
                total_time_ms=total_ms,
            )
            return
        # --- Stage 4: Generate ---
        stage_start = time.perf_counter()
        sub_chunk_texts = []
        sub_chunk_metadata = []
        for _, filtered_chunks in filtered_by_subq:
            sub_chunk_texts.append([chunk for chunk, _meta in filtered_chunks])
            sub_chunk_metadata.append([meta for _chunk, meta in filtered_chunks])
        if extracted_questions and filtered_by_subq:
            gen_result = await self._rag.generate_response_per_subquestion(
                extracted_questions, sub_chunk_texts, sub_chunk_metadata
            )
        else:
            gen_result = ("", "", [])
        if isinstance(gen_result, tuple) and len(gen_result) == 3:
            answer, generate_prompt, grouped_sources_meta = gen_result
        else:
            answer, generate_prompt = (
                gen_result if isinstance(gen_result, tuple) else (gen_result, "")
            )
            grouped_sources_meta = []
        sub_question_sources = []
        for idx, (sub_q_text, sources_meta) in enumerate(
            zip(extracted_questions, grouped_sources_meta)
        ):
            sources = [
                SourceMetadata(
                    filename=meta.get("filename", "unknown"),
                    upload_date=meta.get("upload_date", ""),
                    content_summary=meta.get("content_summary", ""),
                    chunk_index=meta.get("chunk_index", 0),
                    page_number=meta.get("page_number"),
                    chunk_file_path=meta.get("chunk_file_path"),
                    document_id=meta.get("document_id"),
                )
                for meta in sources_meta
            ]
            sub_question_sources.append(
                SubQuestionSources(
                    sub_question_index=idx,
                    sub_question_text=sub_q_text,
                    sources=sources,
                )
            )
        generator_time_ms = int((time.perf_counter() - stage_start) * 1000)
        total_time_ms = int((time.perf_counter() - overall_start) * 1000)
        yield PipelineSnapshot(
            phase="completed",
            question=question,
            extracted_questions=extracted_questions,
            decompose_prompt=decompose_prompt,
            decomposer_time_ms=decomposer_time_ms,
            retrieval_results=retrieval_results,
            chunks_retrieved_count=chunks_retrieved_count,
            retriever_time_ms=retriever_time_ms,
            filter_prompt=filter_prompt,
            filtered_by_subq=filtered_by_subq,
            chunks_filtered_count=chunks_filtered_count,
            filter_time_ms=filter_time_ms,
            generate_prompt=generate_prompt,
            answer=answer,
            sub_question_sources=sub_question_sources,
            generator_time_ms=generator_time_ms,
            total_time_ms=total_time_ms,
        )
--- a/backend/app/services/test_runner_service.py
+++ b/backend/app/services/test_runner_service.py
@ -0,0 +1,220 @@
 import logging
 import uuid
 from typing import Optional
 from app.core.config import Settings
 from app.models.testing import (
    ChunkEntry,
    FilteredResult,
    GenerateResult,
    InputInfo,
    ResponseResult,
    RetrievalResult,
    SubQuestionChunks,
    TimingInfo,
 )
 from app.services.asr_client import ASRClient
 from app.services.llm_client import LLMClient
 from app.services.llm_client_dp import LLMClientDP
 from app.services.prompt_service import PromptService
 from app.services.query_decomposer import QueryDecomposer
 from app.services.rag_pipeline import RAGPipeline, PipelineSnapshot
 from app.services.rag import RAGService
 from app.services.relevance_filter import RelevanceFilter
 logger = logging.getLogger(__name__)
 class TestRunnerService:
    """Runs the full RAG pipeline and captures all intermediate data for accuracy testing."""
    def __init__(self, settings: Settings):
        self.settings = settings
    async def run_text_test(
        self,
        question: str,
        profile: str,
        prompt_service: PromptService,
        label: str = "",
    ) -> GenerateResult:
        result_id = uuid.uuid4().hex[:12]
        prompt_service.activate_profile(profile)
        active_profile = prompt_service.get_active_profile_name()
        llm_client_dp = LLMClientDP(self.settings)
        llm_client = LLMClient(self.settings)
        rag = RAGService(
            llm_client=llm_client,
            settings=self.settings,
            prompt_service=prompt_service,
        )
        decomposer = QueryDecomposer(llm_client_dp, prompt_service=prompt_service)
        relevance_filter = RelevanceFilter(
            llm_client, prompt_service=prompt_service
        )
        pipeline = RAGPipeline(
            decomposer=decomposer,
            rag=rag,
            relevance_filter=relevance_filter,
            retrieval_n_results=self.settings.retrieval_n_results,
            relevance_threshold=self.settings.relevance_threshold,
        )
        # Collect all snapshots — use the last "completed" one for the final result
        decomposed_snap = None
        retrieval_snap = None
        filtering_snap = None
        completed_snap = None
        async for snap in pipeline.execute(question):
            if snap.phase == "decomposed":
                decomposed_snap = snap
            elif snap.phase == "retrieving":
                retrieval_snap = snap
            elif snap.phase == "filtering":
                filtering_snap = snap
            elif snap.phase == "completed":
                completed_snap = snap
        if completed_snap is None:
            raise RuntimeError("Pipeline did not produce a completed snapshot")
        # Build retrieval result
        retrieval_per_subq = []
        if retrieval_snap and retrieval_snap.retrieval_results:
            for sq_idx, (sub_q_text, chunks) in enumerate(
                retrieval_snap.retrieval_results
            ):
                retrieval_per_subq.append(
                    SubQuestionChunks(
                        sub_question_index=sq_idx,
                        sub_question_text=sub_q_text,
                        chunks=[
                            ChunkEntry(
                                chunk_index=i,
                                text=text,
                                metadata=meta,
                                distance=distance,
                            )
                            for i, (text, meta, distance) in enumerate(chunks)
                        ],
                    )
                )
        # Build filtered result
        filtered_per_subq = []
        if filtering_snap and filtering_snap.filtered_by_subq:
            for sq_idx, (sub_q_text, chunks) in enumerate(
                filtering_snap.filtered_by_subq
            ):
                filtered_per_subq.append(
                    SubQuestionChunks(
                        sub_question_index=sq_idx,
                        sub_question_text=sub_q_text,
                        chunks=[
                            ChunkEntry(
                                chunk_index=i,
                                text=text,
                                metadata=meta,
                                distance=0.0,
                            )
                            for i, (text, meta) in enumerate(chunks)
                        ],
                    )
                )
        # Build response result — serialize through dicts to convert between
        # query.py SubQuestionSources and testing.py SubQuestionSources (same fields)
        response_result = ResponseResult(
            final_answer=completed_snap.answer,
            sub_question_sources=[
                {
                    "sub_question_index": sq.sub_question_index,
                    "sub_question_text": sq.sub_question_text,
                    "sources": [s.model_dump() for s in sq.sources],
                }
                for sq in completed_snap.sub_question_sources
            ],
            generate_time_ms=completed_snap.generator_time_ms,
        )
        return GenerateResult(
            result_id=result_id,
            input_type="text",
            profile=active_profile,
            label=label,
            input=InputInfo(text=question),
            extracted_key_questions=completed_snap.extracted_questions,
            retrieval=RetrievalResult(
                per_sub_question=retrieval_per_subq,
                total_chunks_retrieved=(
                    retrieval_snap.chunks_retrieved_count if retrieval_snap else 0
                ),
                retriever_time_ms=(
                    retrieval_snap.retriever_time_ms if retrieval_snap else 0
                ),
            ),
            filtered=FilteredResult(
                per_sub_question=filtered_per_subq,
                total_chunks_filtered=(
                    filtering_snap.chunks_filtered_count if filtering_snap else 0
                ),
                filter_time_ms=(
                    filtering_snap.filter_time_ms if filtering_snap else 0
                ),
            ),
            response=response_result,
            timing=TimingInfo(
                decomposer_time_ms=completed_snap.decomposer_time_ms,
                retriever_time_ms=(
                    retrieval_snap.retriever_time_ms if retrieval_snap else 0
                ),
                filter_time_ms=(
                    filtering_snap.filter_time_ms if filtering_snap else 0
                ),
                generator_time_ms=completed_snap.generator_time_ms,
                total_time_ms=completed_snap.total_time_ms,
            ),
        )
    async def run_audio_test(
        self,
        audio_bytes: bytes,
        reference_transcript: str,
        profile: str,
        prompt_service: PromptService,
        language: str = "yue",
        label: str = "",
        audio_filename: str = "",
    ) -> GenerateResult:
        result_id = uuid.uuid4().hex[:12]
        # Run ASR
        asr_client = ASRClient(self.settings)
        transcribed_text = await asr_client.transcribe_full(
            audio_bytes, language=language
        )
        # Run text test on transcribed text
        result = await self.run_text_test(
            question=transcribed_text,
            profile=profile,
            prompt_service=prompt_service,
            label=label,
        )
        # Override with audio-specific fields
        result.result_id = result_id
        result.input_type = "audio"
        result.input = InputInfo(
            text=transcribed_text,
            reference_transcript=reference_transcript,
            audio_filename=audio_filename,
            audio_duration_seconds=0.0,
            asr_language=language,
        )
        return result
--- a/backend/app/services/test_storage_service.py
+++ b/backend/app/services/test_storage_service.py
@ -0,0 +1,101 @@
 import json
 import logging
 import os
 from pathlib import Path
 from typing import List, Optional
 from app.models.testing import GenerateResult, EvaluationResult
 logger = logging.getLogger(__name__)
 class TestStorageService:
    def __init__(self, results_dir: str, evaluations_dir: str):
        self.results_dir = results_dir
        self.evaluations_dir = evaluations_dir
        Path(results_dir).mkdir(parents=True, exist_ok=True)
        Path(evaluations_dir).mkdir(parents=True, exist_ok=True)
    # --- Results ---
    def save_result(self, result: GenerateResult) -> str:
        filepath = os.path.join(self.results_dir, f"{result.result_id}.json")
        with open(filepath, "w", encoding="utf-8") as f:
            f.write(result.model_dump_json(indent=2))
        logger.info("Saved test result: %s", filepath)
        return filepath
    def load_result(self, result_id: str) -> Optional[GenerateResult]:
        filepath = os.path.join(self.results_dir, f"{result_id}.json")
        if not os.path.isfile(filepath):
            return None
        with open(filepath, "r", encoding="utf-8") as f:
            data = json.load(f)
        return GenerateResult.model_validate(data)
    def list_results(self, limit: int = 50, offset: int = 0) -> List[dict]:
        items = []
        try:
            for entry in sorted(
                Path(self.results_dir).iterdir(),
                key=lambda p: p.stat().st_mtime,
                reverse=True,
            ):
                if entry.suffix == ".json":
                    stat = entry.stat()
                    items.append({
                        "result_id": entry.stem,
                        "file_size_bytes": stat.st_size,
                    })
        except FileNotFoundError:
            return []
        return items[offset : offset + limit]
    def delete_result(self, result_id: str) -> bool:
        filepath = os.path.join(self.results_dir, f"{result_id}.json")
        if not os.path.isfile(filepath):
            return False
        os.remove(filepath)
        return True
    # --- Evaluations ---
    def save_evaluation(self, evaluation: EvaluationResult) -> str:
        filepath = os.path.join(self.evaluations_dir, f"{evaluation.evaluation_id}.json")
        with open(filepath, "w", encoding="utf-8") as f:
            f.write(evaluation.model_dump_json(indent=2))
        logger.info("Saved evaluation: %s", filepath)
        return filepath
    def load_evaluation(self, eval_id: str) -> Optional[EvaluationResult]:
        filepath = os.path.join(self.evaluations_dir, f"{eval_id}.json")
        if not os.path.isfile(filepath):
            return None
        with open(filepath, "r", encoding="utf-8") as f:
            data = json.load(f)
        return EvaluationResult.model_validate(data)
    def list_evaluations(self, limit: int = 50, offset: int = 0) -> List[dict]:
        items = []
        try:
            for entry in sorted(
                Path(self.evaluations_dir).iterdir(),
                key=lambda p: p.stat().st_mtime,
                reverse=True,
            ):
                if entry.suffix == ".json":
                    stat = entry.stat()
                    items.append({
                        "evaluation_id": entry.stem,
                        "file_size_bytes": stat.st_size,
                    })
        except FileNotFoundError:
            return []
        return items[offset : offset + limit]
    def delete_evaluation(self, eval_id: str) -> bool:
        filepath = os.path.join(self.evaluations_dir, f"{eval_id}.json")
        if not os.path.isfile(filepath):
            return False
        os.remove(filepath)
        return True
--- a/backend/app/test/test_phase9_generate_text.py
+++ b/backend/app/test/test_phase9_generate_text.py
@ -0,0 +1,173 @@
 """Phase 9 tests: Text generation endpoint integration (Sub-Phase 9.1).
 Covers:
 - POST /api/v1/test/generate/text with valid request returns 200
 - Response includes all pipeline stages (retrieval, filtered, response, timing)
 - Invalid profile returns validation error
 - Empty question returns validation error
 - GET /api/v1/test/results lists saved results
 - GET /api/v1/test/results/{id} retrieves specific result
 - DELETE /api/v1/test/results/{id} deletes result
 """
 import json
 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
 from fastapi import FastAPI
 from fastapi.testclient import TestClient
 from app.routers.test_generate import router
@pytest.fixture
 def client(tmp_path, monkeypatch):
    results_dir = str(tmp_path / "test_results")
    evals_dir = str(tmp_path / "test_evaluations")
    prompts_path = str(tmp_path / "prompts.db")
    history_path = str(tmp_path / "history.db")
    monkeypatch.setenv("TEST_RESULTS_DIR", results_dir)
    monkeypatch.setenv("TEST_EVALUATIONS_DIR", evals_dir)
    monkeypatch.setenv("PROMPTS_DB_PATH", prompts_path)
    monkeypatch.setenv("HISTORY_DB_PATH", history_path)
    monkeypatch.setenv("LLM_API_KEY", "test-key")
    monkeypatch.setenv("LLM_BASE_URL", "https://test.example.com/v1")
    monkeypatch.setenv("LLM_MODEL_NAME", "test-model")
    monkeypatch.setenv("DP_API_KEY", "test-dp-key")
    monkeypatch.setenv("EMBEDDING_MODEL", "test-embedding")
    from app.core.config import get_settings
    get_settings.cache_clear()
    from app.core.sqlite_db import _get_db, init_prompts_db, init_history_db, seed_default_profiles
    conn = _get_db(prompts_path)
    init_prompts_db(conn)
    seed_default_profiles(conn)
    conn.close()
    hconn = _get_db(history_path)
    init_history_db(hconn)
    hconn.close()
    test_app = FastAPI()
    test_app.include_router(router, prefix="/api/v1")
    yield TestClient(test_app)
    get_settings.cache_clear()
@pytest.fixture
 def mock_pipeline(monkeypatch):
    """Mock LLM and RAG to avoid real API calls."""
    async def _mock_decompose(self, question):
        return (["sub question 1", "sub question 2"], "mocked decompose prompt")
    def _mock_retrieve(self, sub_questions, n_results=10):
        return [
            (sq, [("chunk text content", {"filename": "test.pdf", "upload_date": "2026-01-01",
                                            "content_summary": "test chunk", "chunk_index": 0,
                                            "page_number": 1, "document_id": "doc-1"}, 0.15)])
            for sq in sub_questions
        ]
    async def _mock_filter(self, sub_questions, chunks_by_subq, threshold=7.0):
        result = [
            (sq, [(text, {**meta, "relevance_score": 8.5}) for text, meta in chunks])
            for sq, chunks in zip(sub_questions, chunks_by_subq)
        ]
        return (result, "mocked filter prompt")
    async def _mock_generate(self, sub_questions, sub_chunks, sub_metadata):
        answer = "## Sub-question 0: sub question 1\n\n- Test answer with citation [test.pdf, page 1]\n\n## Sub-question 1: sub question 2\n\n- More answer content"
        grouped_sources = [[meta_list[0]] for meta_list in sub_metadata] if sub_metadata else [[] for _ in sub_questions]
        return (answer, "mocked generate prompt", grouped_sources)
    monkeypatch.setattr("app.services.query_decomposer.QueryDecomposer.decompose", _mock_decompose)
    monkeypatch.setattr("app.services.rag.RAGService.retrieve_per_subquestion", _mock_retrieve)
    monkeypatch.setattr("app.services.relevance_filter.RelevanceFilter.filter_per_subquestion", _mock_filter)
    monkeypatch.setattr("app.services.rag.RAGService.generate_response_per_subquestion", _mock_generate)
@pytest.mark.usefixtures("mock_pipeline")
 class TestGenerateTextEndpoint:
    def test_valid_request_returns_200(self, client):
        resp = client.post("/api/v1/test/generate/text", json={
            "question": "test question",
            "profile": "A",
            "label": "my label",
        })
        assert resp.status_code == 200
        data = resp.json()
        assert data["input_type"] == "text"
        assert data["profile"] == "A"
        assert data["label"] == "my label"
        assert "result_id" in data
    def test_result_contains_all_stages(self, client):
        resp = client.post("/api/v1/test/generate/text", json={
            "question": "test",
            "profile": "B",
        })
        assert resp.status_code == 200
        data = resp.json()
        assert len(data["extracted_key_questions"]) == 2
        assert data["retrieval"]["total_chunks_retrieved"] > 0
        assert data["filtered"]["total_chunks_filtered"] > 0
        assert len(data["response"]["final_answer"]) > 0
        assert data["timing"]["total_time_ms"] >= 0
    def test_invalid_profile_rejected(self, client):
        resp = client.post("/api/v1/test/generate/text", json={
            "question": "test",
            "profile": "D",
        })
        assert resp.status_code == 422
    def test_empty_question_rejected(self, client):
        resp = client.post("/api/v1/test/generate/text", json={
            "question": "",
            "profile": "A",
        })
        assert resp.status_code == 422
    def test_result_saved_and_retrievable(self, client):
        resp = client.post("/api/v1/test/generate/text", json={
            "question": "save test",
            "profile": "A",
        })
        assert resp.status_code == 200
        result_id = resp.json()["result_id"]
        get_resp = client.get(f"/api/v1/test/results/{result_id}")
        assert get_resp.status_code == 200
        assert get_resp.json()["result_id"] == result_id
    def test_list_results(self, client):
        client.post("/api/v1/test/generate/text", json={
            "question": "list test 1", "profile": "A",
        })
        client.post("/api/v1/test/generate/text", json={
            "question": "list test 2", "profile": "B",
        })
        resp = client.get("/api/v1/test/results?limit=10")
        assert resp.status_code == 200
        data = resp.json()
        assert len(data) >= 2
    def test_get_nonexistent_result(self, client):
        resp = client.get("/api/v1/test/results/no-such-id")
        assert resp.status_code == 404
    def test_delete_result(self, client):
        resp = client.post("/api/v1/test/generate/text", json={
            "question": "delete test", "profile": "A",
        })
        result_id = resp.json()["result_id"]
        del_resp = client.delete(f"/api/v1/test/results/{result_id}")
        assert del_resp.status_code == 200
        get_resp = client.get(f"/api/v1/test/results/{result_id}")
        assert get_resp.status_code == 404
--- a/backend/app/test/test_phase9_results_storage.py
+++ b/backend/app/test/test_phase9_results_storage.py
@ -0,0 +1,232 @@
 """Phase 9 tests: Results storage service CRUD operations (Sub-Phase 9.1).
 Covers:
 - save_result writes JSON file and returns result_id
 - load_result reads and parses JSON file
 - list_results returns list of result metadata
 - delete_result removes file
 - Nonexistent result loading returns None
 - save_evaluation / load_evaluation / list_evaluations / delete_evaluation
 - Empty storage dirs don't error
 """
 import json
 import os
 from pathlib import Path
 import pytest
 from app.models.testing import (
    GenerateResult,
    InputInfo,
    TimingInfo,
    RetrievalResult,
    FilteredResult,
    ResponseResult,
    EvaluationResult,
    EvaluationTiming,
 )
@pytest.fixture
 def storage_dirs(tmp_path):
    results_dir = tmp_path / "test_results"
    evals_dir = tmp_path / "test_evaluations"
    results_dir.mkdir()
    evals_dir.mkdir()
    return str(results_dir), str(evals_dir)
@pytest.fixture
 def sample_result():
    return GenerateResult(
        result_id="test-001",
        input_type="text",
        profile="A",
        label="sample test",
        input=InputInfo(text="sample question"),
        extracted_key_questions=["key q1"],
        retrieval=RetrievalResult(
            per_sub_question=[],
            total_chunks_retrieved=0,
            retriever_time_ms=100,
        ),
        filtered=FilteredResult(
            per_sub_question=[],
            total_chunks_filtered=0,
            filter_time_ms=100,
        ),
        response=ResponseResult(
            final_answer="answer",
            sub_question_sources=[],
            generate_time_ms=100,
        ),
        timing=TimingInfo(
            decomposer_time_ms=100,
            retriever_time_ms=100,
            filter_time_ms=100,
            generator_time_ms=100,
            total_time_ms=400,
        ),
    )
 class TestResultStorage:
    def test_save_and_load(self, storage_dirs, sample_result, monkeypatch):
        results_dir, _ = storage_dirs
        monkeypatch.setenv("TEST_RESULTS_DIR", results_dir)
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        path = svc.save_result(sample_result)
        assert os.path.exists(path)
        loaded = svc.load_result(sample_result.result_id)
        assert loaded is not None
        assert loaded.result_id == sample_result.result_id
        assert loaded.input_type == "text"
        assert loaded.profile == "A"
    def test_load_nonexistent(self, storage_dirs):
        results_dir, _ = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        result = svc.load_result("nonexistent-id")
        assert result is None
    def test_list_results(self, storage_dirs, sample_result, monkeypatch):
        results_dir, _ = storage_dirs
        monkeypatch.setenv("TEST_RESULTS_DIR", results_dir)
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        svc.save_result(sample_result)
        items = svc.list_results()
        assert len(items) >= 1
        assert any(r["result_id"] == "test-001" for r in items)
    def test_list_results_with_limit_offset(self, storage_dirs, sample_result):
        results_dir, _ = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        for i in range(5):
            r = sample_result.model_copy(update={"result_id": f"test-{i:03d}"})
            svc.save_result(r)
        items = svc.list_results(limit=2, offset=1)
        assert len(items) == 2
    def test_delete_result(self, storage_dirs, sample_result):
        results_dir, _ = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        svc.save_result(sample_result)
        filepath = os.path.join(results_dir, f"{sample_result.result_id}.json")
        assert os.path.exists(filepath)
        result = svc.delete_result(sample_result.result_id)
        assert result is True
        assert not os.path.exists(filepath)
    def test_delete_nonexistent(self, storage_dirs):
        results_dir, _ = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        result = svc.delete_result("no-such-id")
        assert result is False
    def test_creates_dir_if_missing(self, storage_dirs):
        results_dir, evals_dir = storage_dirs
        new_results = os.path.join(results_dir, "auto_created")
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(new_results, evals_dir)
        assert os.path.isdir(new_results)
    def test_list_empty_dir(self, storage_dirs):
        results_dir, _ = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, results_dir)
        items = svc.list_results()
        assert items == []
 class TestEvaluationStorage:
    def test_save_and_load_eval(self, storage_dirs):
        results_dir, evals_dir = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, evals_dir)
        eval_result = EvaluationResult(
            evaluation_id="eval-001",
            result_id="result-001",
            status="completed",
            timing=EvaluationTiming(
                audio_evaluation_time_ms=10,
                key_questions_evaluation_time_ms=100,
                chunk_evaluation_time_ms=200,
                response_evaluation_time_ms=300,
                total_evaluation_time_ms=610,
            ),
        )
        path = svc.save_evaluation(eval_result)
        assert os.path.exists(path)
        loaded = svc.load_evaluation("eval-001")
        assert loaded is not None
        assert loaded.evaluation_id == "eval-001"
        assert loaded.status == "completed"
    def test_list_evaluations(self, storage_dirs):
        results_dir, evals_dir = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, evals_dir)
        eval_result = EvaluationResult(
            evaluation_id="eval-001",
            result_id="result-001",
            status="completed",
            timing=EvaluationTiming(
                audio_evaluation_time_ms=10,
                key_questions_evaluation_time_ms=100,
                chunk_evaluation_time_ms=200,
                response_evaluation_time_ms=300,
                total_evaluation_time_ms=610,
            ),
        )
        svc.save_evaluation(eval_result)
        items = svc.list_evaluations()
        assert len(items) >= 1
    def test_delete_evaluation(self, storage_dirs):
        results_dir, evals_dir = storage_dirs
        from app.services.test_storage_service import TestStorageService
        svc = TestStorageService(results_dir, evals_dir)
        eval_result = EvaluationResult(
            evaluation_id="eval-002",
            result_id="result-002",
            status="completed",
            timing=EvaluationTiming(
                audio_evaluation_time_ms=10,
                key_questions_evaluation_time_ms=100,
                chunk_evaluation_time_ms=200,
                response_evaluation_time_ms=300,
                total_evaluation_time_ms=610,
            ),
        )
        svc.save_evaluation(eval_result)
        filepath = os.path.join(evals_dir, "eval-002.json")
        assert os.path.exists(filepath)
        result = svc.delete_evaluation("eval-002")
        assert result is True
        assert not os.path.exists(filepath)