feat: add Sub-Phase 9.0 config and Pydantic models for accuracy testing

2026-05-25 18:27:51 +08:00 · 2026-05-25 18:27:51 +08:00 · 852430f1f1
parent 7dfd603bc8
commit 852430f1f1
5 changed files with 686 additions and 0 deletions
--- a/backend/.env.example
+++ b/backend/.env.example
@ -64,3 +64,13 @@ QA_MAX_CHUNK_TOKENS=3000
 QA_STRUCTURE_MODEL=
 QA_INCLUDE_INTERNAL_REFS=true
 QA_CACHE_VISION_RESULTS=true
 # Test results storage (Package 9)
 TEST_RESULTS_DIR=./data/test_results
 TEST_EVALUATIONS_DIR=./data/test_evaluations
 # Evaluation batching (Package 9)
 EVAL_CHUNK_BATCH_SIZE=10
 EVAL_MAX_CONCURRENT_BATCHES=10
 EVAL_BATCH_RETRY_COUNT=2
 EVAL_BATCH_RETRY_DELAY_MS=2000
--- a/backend/app/core/config.py
+++ b/backend/app/core/config.py
@ -52,6 +52,14 @@ class Settings(BaseSettings):
    qa_include_internal_refs: bool = True
    qa_cache_vision_results: bool = True
    # Accuracy testing & evaluation (Package 9)
    test_results_dir: str = "./data/test_results"
    test_evaluations_dir: str = "./data/test_evaluations"
    eval_chunk_batch_size: int = 10
    eval_max_concurrent_batches: int = 10
    eval_batch_retry_count: int = 2
    eval_batch_retry_delay_ms: int = 2000
    # ASR Configuration (Phase 2 + Phase 5)
    # Provider: "dashscope" (batch + realtime) or "openrouter" (batch-only)
    asr_provider: str = "dashscope"
--- a/backend/app/models/testing.py
+++ b/backend/app/models/testing.py
@ -0,0 +1,243 @@
 from datetime import datetime, timezone
 from typing import Any, Dict, List, Literal, Optional
 from pydantic import BaseModel, Field, model_validator
 from app.models.common import SourceMetadata
 # ---------------------------------------------------------------------------
 # Request models
 # ---------------------------------------------------------------------------
 class GenerateTextRequest(BaseModel):
    question: str = Field(..., min_length=1)
    profile: Literal["A", "B", "C"]
    label: str = ""
 class EvaluatorConfig(BaseModel):
    model_name: str
    base_url: str
    api_key_env: str
    enable_thinking: bool = False
 class EvaluationConfigRequest(BaseModel):
    key_questions_evaluators: List[EvaluatorConfig]
    chunk_evaluator: EvaluatorConfig
    response_evaluator: EvaluatorConfig
 class EvaluateRequest(BaseModel):
    result_id: str = ""
    results: Optional["GenerateResult"] = None
    evaluation_config: EvaluationConfigRequest
    @model_validator(mode="after")
    def _require_result_source(self) -> "EvaluateRequest":
        if not self.result_id and self.results is None:
            raise ValueError("Either result_id or inline results must be provided")
        return self
 # ---------------------------------------------------------------------------
 # Result models (output of generation endpoints)
 # ---------------------------------------------------------------------------
 class ChunkEntry(BaseModel):
    chunk_index: int
    text: str
    metadata: Dict[str, Any]
    distance: float = 0.0
 class SubQuestionChunks(BaseModel):
    sub_question_index: int
    sub_question_text: str
    chunks: List[ChunkEntry]
 class RetrievalResult(BaseModel):
    per_sub_question: List[SubQuestionChunks]
    total_chunks_retrieved: int
    retriever_time_ms: int
 class FilteredResult(BaseModel):
    per_sub_question: List[SubQuestionChunks]
    total_chunks_filtered: int
    filter_time_ms: int
 class SubQuestionSources(BaseModel):
    sub_question_index: int
    sub_question_text: str
    sources: List[SourceMetadata]
 class ResponseResult(BaseModel):
    final_answer: str
    sub_question_sources: List[SubQuestionSources]
    generate_time_ms: int
 class InputInfo(BaseModel):
    text: str
    reference_transcript: str = ""
    audio_filename: str = ""
    audio_duration_seconds: float = 0.0
    asr_language: str = ""
 class TimingInfo(BaseModel):
    decomposer_time_ms: int
    retriever_time_ms: int
    filter_time_ms: int
    generator_time_ms: int
    total_time_ms: int
    asr_time_ms: int = 0
 class GenerateResult(BaseModel):
    result_id: str
    input_type: Literal["text", "audio"]
    profile: str
    label: str = ""
    created_at: str = Field(default_factory=lambda: datetime.now(timezone.utc).isoformat())
    input: InputInfo
    extracted_key_questions: List[str]
    retrieval: RetrievalResult
    filtered: FilteredResult
    response: ResponseResult
    timing: TimingInfo
 # ---------------------------------------------------------------------------
 # Evaluation models
 # ---------------------------------------------------------------------------
 class DimensionScores(BaseModel):
    dimension_1_準確性: int = Field(ge=0, le=40)
    dimension_2_完整性: int = Field(ge=0, le=25)
    dimension_3_清晰度: int = Field(ge=0, le=20)
    dimension_4_簡潔性: int = Field(ge=0, le=15)
 class KeyQuestionsEvalEntry(BaseModel):
    model_name: str
    scores: DimensionScores
    total_score: int = Field(ge=0, le=100)
    max_score: int = 100
    comments: str
    thinking_trace: str
    time_ms: int
 class KeyQuestionsEvalResult(BaseModel):
    evaluations: List[KeyQuestionsEvalEntry]
    average_scores: DimensionScores
    average_total: float
 class AudioEvalResult(BaseModel):
    status: Literal["completed", "na"] = "completed"
    cer: Optional[float] = None
    wer: Optional[float] = None
    reference_length: int = 0
    transcribed_length: int = 0
    substitutions: int = 0
    deletions: int = 0
    insertions: int = 0
    hits: int = 0
 class ChunkAccuracy(BaseModel):
    precision: float
    recall: float
    f1: float
    pipeline_chunks: int
    relevant_in_pipeline: int
 class GroundTruthInfo(BaseModel):
    relevant_documents: List[str]
    relevant_chunks: List[Dict[str, Any]]
    total_relevant_chunks: int
    chunk_evaluation_time_ms: int
 class SubQuestionChunkEval(BaseModel):
    sub_question_index: int
    sub_question_text: str
    ground_truth: GroundTruthInfo
    unfiltered_accuracy: ChunkAccuracy
    filtered_accuracy: ChunkAccuracy
 class ChunkEvalResult(BaseModel):
    per_sub_question: List[SubQuestionChunkEval]
    overall_unfiltered: ChunkAccuracy
    overall_filtered: ChunkAccuracy
 class SubQuestionResponseEval(BaseModel):
    sub_question_index: int
    sub_question_text: str
    ground_truth_response: str
    pipeline_response_section: str
    completeness_score: float
    factual_accuracy_score: float
    comments: str
    ground_truth_generation_time_ms: int
    comparison_time_ms: int
 class ResponseEvalResult(BaseModel):
    per_sub_question: List[SubQuestionResponseEval]
    overall_completeness: float
    overall_factual_accuracy: float
 class EvaluationTiming(BaseModel):
    audio_evaluation_time_ms: int
    key_questions_evaluation_time_ms: int
    chunk_evaluation_time_ms: int
    response_evaluation_time_ms: int
    total_evaluation_time_ms: int
 class EvaluationResult(BaseModel):
    evaluation_id: str
    result_id: str
    created_at: str = Field(default_factory=lambda: datetime.now(timezone.utc).isoformat())
    status: Literal["completed", "partial", "failed"]
    audio_evaluation: Optional[AudioEvalResult] = None
    key_questions_evaluation: Optional[KeyQuestionsEvalResult] = None
    chunk_evaluation: Optional[ChunkEvalResult] = None
    response_evaluation: Optional[ResponseEvalResult] = None
    timing: EvaluationTiming
 # ---------------------------------------------------------------------------
 # Listing response models
 # ---------------------------------------------------------------------------
 class ListItemInfo(BaseModel):
    result_id: str
    input_type: str
    profile: str
    label: str
    created_at: str
    file_size_bytes: int
 LIST_RESULTS_RESPONSE = List[ListItemInfo]
 LIST_EVALUATIONS_RESPONSE = List[ListItemInfo]
 TABLE_RESULTS_RESPONSE = ListItemInfo
 TABLE_EVALUATIONS_RESPONSE = ListItemInfo
--- a/backend/app/test/test_phase9_config.py
+++ b/backend/app/test/test_phase9_config.py
@ -0,0 +1,74 @@
 """Phase 9 tests: Config settings for accuracy testing & evaluation (Sub-Phase 9.0).
 Covers:
 - test_results_dir and test_evaluations_dir default values
 - eval_chunk_batch_size = 10 (fixed)
 - eval_max_concurrent_batches = 10 (rate limiting)
 - eval_batch_retry_count = 2
 - eval_batch_retry_delay_ms = 2000
 - Env var overrides work correctly
 """
 from app.core.config import Settings
 class TestEvalConfigDefaults:
    """Default values for new Package 9 evaluation settings."""
    def test_default_results_dir(self):
        s = Settings()
        assert s.test_results_dir == "./data/test_results"
    def test_default_evaluations_dir(self):
        s = Settings()
        assert s.test_evaluations_dir == "./data/test_evaluations"
    def test_default_chunk_batch_size(self):
        s = Settings()
        assert s.eval_chunk_batch_size == 10
    def test_default_max_concurrent_batches(self):
        s = Settings()
        assert s.eval_max_concurrent_batches == 10
    def test_default_batch_retry_count(self):
        s = Settings()
        assert s.eval_batch_retry_count == 2
    def test_default_batch_retry_delay_ms(self):
        s = Settings()
        assert s.eval_batch_retry_delay_ms == 2000
 class TestEvalConfigEnvOverrides:
    """Environment variable overrides for evaluation settings."""
    def test_results_dir_from_env(self, monkeypatch):
        monkeypatch.setenv("TEST_RESULTS_DIR", "/tmp/test_results")
        s = Settings()
        assert s.test_results_dir == "/tmp/test_results"
    def test_evaluations_dir_from_env(self, monkeypatch):
        monkeypatch.setenv("TEST_EVALUATIONS_DIR", "/tmp/test_eval")
        s = Settings()
        assert s.test_evaluations_dir == "/tmp/test_eval"
    def test_chunk_batch_size_from_env(self, monkeypatch):
        monkeypatch.setenv("EVAL_CHUNK_BATCH_SIZE", "5")
        s = Settings()
        assert s.eval_chunk_batch_size == 5
    def test_max_concurrent_batches_from_env(self, monkeypatch):
        monkeypatch.setenv("EVAL_MAX_CONCURRENT_BATCHES", "5")
        s = Settings()
        assert s.eval_max_concurrent_batches == 5
    def test_batch_retry_count_from_env(self, monkeypatch):
        monkeypatch.setenv("EVAL_BATCH_RETRY_COUNT", "3")
        s = Settings()
        assert s.eval_batch_retry_count == 3
    def test_batch_retry_delay_ms_from_env(self, monkeypatch):
        monkeypatch.setenv("EVAL_BATCH_RETRY_DELAY_MS", "5000")
        s = Settings()
        assert s.eval_batch_retry_delay_ms == 5000
--- a/backend/app/test/test_phase9_models.py
+++ b/backend/app/test/test_phase9_models.py
@ -0,0 +1,351 @@
 """Phase 9 tests: Pydantic models for accuracy testing & evaluation (Sub-Phase 9.0).
 Covers:
 - GenerateTextRequest validation
 - EvaluateRequest validation (result_id vs inline results)
 - EvaluatorConfig model
 - Key questions scoring model (dimension_score_1 through dimension_score_4 with correct ranges)
 - EvaluationResult with all four evaluation types
 - Chunk evaluation models (precision/recall/F1 comparison)
 - JSON serialization round-trip
 """
 import json
 from typing import Optional
 import pytest
 from pydantic import ValidationError
 from app.models.testing import (
    GenerateTextRequest,
    EvaluateRequest,
    EvaluatorConfig,
    EvaluationConfigRequest,
    DimensionScores,
    GenerateResult,
    InputInfo,
    TimingInfo,
    RetrievalResult,
    FilteredResult,
    ResponseResult,
    SubQuestionChunks,
    SubQuestionSources,
    ChunkEntry,
    AudioEvalResult,
    KeyQuestionsEvalEntry,
    KeyQuestionsEvalResult,
    ChunkAccuracy,
    GroundTruthInfo,
    SubQuestionChunkEval,
    ChunkEvalResult,
    SubQuestionResponseEval,
    ResponseEvalResult,
    EvaluationTiming,
    EvaluationResult,
    LIST_RESULTS_RESPONSE,
    LIST_EVALUATIONS_RESPONSE,
    TABLE_RESULTS_RESPONSE,
    TABLE_EVALUATIONS_RESPONSE,
 )
 class TestTextGeneration:
    def test_valid_request(self):
        req = GenerateTextRequest(
            question="test question",
            profile="A",
        )
        assert req.question == "test question"
        assert req.profile == "A"
        assert req.label == ""
    def test_label_is_optional(self):
        req = GenerateTextRequest(
            question="test",
            profile="B",
            label="my label",
        )
        assert req.label == "my label"
    def test_invalid_profile_rejected(self):
        with pytest.raises(ValidationError) as exc_info:
            GenerateTextRequest(question="test", profile="D")
        errors = exc_info.value.errors()
        assert any("profile" in str(e.get("loc", [])) for e in errors)
    def test_empty_question_rejected(self):
        with pytest.raises(ValidationError):
            GenerateTextRequest(question="", profile="A")
 class TestEvaluatorConfig:
    def test_valid_evaluator(self):
        cfg = EvaluatorConfig(
            model_name="deepseek-v4-pro",
            base_url="https://api.deepseek.com",
            api_key_env="DP_API_KEY",
            enable_thinking=True,
        )
        assert cfg.model_name == "deepseek-v4-pro"
        assert cfg.enable_thinking is True
    def test_thinking_defaults_false(self):
        cfg = EvaluatorConfig(
            model_name="test-model",
            base_url="https://example.com",
            api_key_env="TEST_KEY",
        )
        assert cfg.enable_thinking is False
 class TestDimensionScores:
    def test_valid_scores(self):
        ds = DimensionScores(
            dimension_1_準確性=35,
            dimension_2_完整性=22,
            dimension_3_清晰度=18,
            dimension_4_簡潔性=13,
        )
        assert ds.dimension_1_準確性 == 35
        assert ds.dimension_2_完整性 == 22
    def test_準確性_exceeds_max_rejected(self):
        with pytest.raises(ValidationError):
            DimensionScores(
                dimension_1_準確性=41,
                dimension_2_完整性=22,
                dimension_3_清晰度=18,
                dimension_4_簡潔性=13,
            )
    def test_完整性_exceeds_max_rejected(self):
        with pytest.raises(ValidationError):
            DimensionScores(
                dimension_1_準確性=35,
                dimension_2_完整性=26,
                dimension_3_清晰度=18,
                dimension_4_簡潔性=13,
            )
    def test_negative_score_rejected(self):
        with pytest.raises(ValidationError):
            DimensionScores(
                dimension_1_準確性=-1,
                dimension_2_完整性=22,
                dimension_3_清晰度=18,
                dimension_4_簡潔性=13,
            )
    def test_serialization_preserves_chinese_keys(self):
        ds = DimensionScores(
            dimension_1_準確性=35,
            dimension_2_完整性=22,
            dimension_3_清晰度=18,
            dimension_4_簡潔性=13,
        )
        data = json.loads(ds.model_dump_json())
        assert data["dimension_1_準確性"] == 35
        assert data["dimension_3_清晰度"] == 18
 class TestEvaluationRequest:
    def test_with_result_id(self):
        req = EvaluateRequest(
            result_id="abc-123",
            evaluation_config=EvaluationConfigRequest(
                key_questions_evaluators=[
                    EvaluatorConfig(
                        model_name="deepseek-v4-pro",
                        base_url="https://api.deepseek.com",
                        api_key_env="DP_API_KEY",
                        enable_thinking=True,
                    ),
                    EvaluatorConfig(
                        model_name="qwen3-7b-max",
                        base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
                        api_key_env="DASHSCOPE_API_KEY",
                        enable_thinking=True,
                    ),
                ],
                chunk_evaluator=EvaluatorConfig(
                    model_name="qwen/qwen3.6-35b-a3b",
                    base_url="https://openrouter.ai/api/v1",
                    api_key_env="LLM_API_KEY",
                    enable_thinking=True,
                ),
                response_evaluator=EvaluatorConfig(
                    model_name="qwen/qwen3.6-35b-a3b",
                    base_url="https://openrouter.ai/api/v1",
                    api_key_env="LLM_API_KEY",
                    enable_thinking=True,
                ),
            ),
        )
        assert req.result_id == "abc-123"
    def test_without_keys_fails(self):
        with pytest.raises(ValidationError):
            EvaluateRequest(
                evaluation_config=EvaluationConfigRequest(
                    key_questions_evaluators=[],
                    chunk_evaluator=EvaluatorConfig(
                        model_name="test",
                        base_url="https://example.com",
                        api_key_env="TEST_KEY",
                    ),
                    response_evaluator=EvaluatorConfig(
                        model_name="test",
                        base_url="https://example.com",
                        api_key_env="TEST_KEY",
                    ),
                ),
            )
 class TestAudioEvalResult:
    def test_complete_cer_wer(self):
        aer = AudioEvalResult(
            cer=0.052,
            wer=0.083,
            reference_length=42,
            transcribed_length=40,
            substitutions=1,
            deletions=2,
            insertions=0,
            hits=39,
        )
        assert aer.cer == 0.052
        assert aer.status == "completed"
    def test_na_when_no_reference(self):
        aer = AudioEvalResult(status="na")
        assert aer.status == "na"
        assert aer.cer is None
        assert aer.wer is None
 class TestChunkAccuracy:
    def test_perfect_precision_recall(self):
        ca = ChunkAccuracy(
            precision=1.0,
            recall=1.0,
            f1=1.0,
            pipeline_chunks=3,
            relevant_in_pipeline=3,
        )
        assert ca.f1 == 1.0
    def test_zero_precision(self):
        ca = ChunkAccuracy(
            precision=0.0,
            recall=0.8,
            f1=0.0,
            pipeline_chunks=5,
            relevant_in_pipeline=0,
        )
        assert ca.precision == 0.0
        assert ca.f1 == 0.0
 class TestEvalResult:
    def test_completed_with_all_dimensions(self):
        result = EvaluationResult(
            evaluation_id="eval-001",
            result_id="result-001",
            status="completed",
            audio_evaluation=AudioEvalResult(
                cer=0.05,
                wer=0.08,
                reference_length=42,
                transcribed_length=40,
                substitutions=1,
                deletions=2,
                insertions=0,
                hits=39,
            ),
            key_questions_evaluation=KeyQuestionsEvalResult(
                evaluations=[
                    KeyQuestionsEvalEntry(
                        model_name="deepseek-v4-pro",
                        scores=DimensionScores(
                            dimension_1_準確性=35,
                            dimension_2_完整性=22,
                            dimension_3_清晰度=18,
                            dimension_4_簡潔性=13,
                        ),
                        total_score=88,
                        max_score=100,
                        comments="good",
                        thinking_trace="...",
                        time_ms=3000,
                    ),
                ],
                average_scores=DimensionScores(
                    dimension_1_準確性=35,
                    dimension_2_完整性=22,
                    dimension_3_清晰度=18,
                    dimension_4_簡潔性=13,
                ),
                average_total=88.0,
            ),
            chunk_evaluation=ChunkEvalResult(
                per_sub_question=[],
                overall_unfiltered=ChunkAccuracy(
                    precision=0.6, recall=1.0, f1=0.75,
                    pipeline_chunks=5, relevant_in_pipeline=3,
                ),
                overall_filtered=ChunkAccuracy(
                    precision=1.0, recall=1.0, f1=1.0,
                    pipeline_chunks=3, relevant_in_pipeline=3,
                ),
            ),
            response_evaluation=ResponseEvalResult(
                per_sub_question=[],
                overall_completeness=0.85,
                overall_factual_accuracy=0.92,
            ),
            timing=EvaluationTiming(
                audio_evaluation_time_ms=23,
                key_questions_evaluation_time_ms=6000,
                chunk_evaluation_time_ms=14000,
                response_evaluation_time_ms=7000,
                total_evaluation_time_ms=27000,
            ),
        )
        assert result.status == "completed"
        assert result.audio_evaluation is not None
        assert result.key_questions_evaluation is not None
    def test_failed_status(self):
        result = EvaluationResult(
            evaluation_id="eval-002",
            result_id="result-002",
            status="failed",
            timing=EvaluationTiming(
                audio_evaluation_time_ms=10,
                key_questions_evaluation_time_ms=0,
                chunk_evaluation_time_ms=0,
                response_evaluation_time_ms=0,
                total_evaluation_time_ms=10,
            ),
        )
        assert result.status == "failed"
    def test_serialization_roundtrip(self):
        result = EvaluationResult(
            evaluation_id="eval-003",
            result_id="result-003",
            status="completed",
            timing=EvaluationTiming(
                audio_evaluation_time_ms=10,
                key_questions_evaluation_time_ms=100,
                chunk_evaluation_time_ms=200,
                response_evaluation_time_ms=300,
                total_evaluation_time_ms=610,
            ),
        )
        data = json.loads(result.model_dump_json())
        assert data["evaluation_id"] == "eval-003"
        assert data["status"] == "completed"
        # Round-trip deserialization
        reloaded = EvaluationResult.model_validate(data)
        assert reloaded.evaluation_id == "eval-003"