Strattum Evals

Mede o contexto.
Não o LLM.

Evals avalia a qualidade do contexto que Strattum entrega para o agente — completude, precisão, relevância. Times de dados controlam o que podem controlar; o resto é com o LLM.

Como funciona ↓

Input

mesmo para todas as runs

PERGUNTA

"Qual o saldo de Maria Silva e o risco de churn no Q4?"

contextov17

suitegolden · 128 q.

matriz4 prompts × 4 LLMs

Strattum

Evals

8 restantes · run #1247

Claude

ChatGPT

Gemini

Grok

P1base

P2CoT

P3few-shot

P4self-ask

88%

RUN86%

81%

96%★

93%

91%

87%

92%

91%

89%

84%

89%

88%

85%

82%

★

Best run

mesma resposta, melhor combo

96%

faithfulness0.98

grounded0.96

recall0.95

precision0.94

P2 · CoTprompt

ClaudeLLM

CONCLUSÃO

Mesmo contexto, score sobe +12pp ao trocar o prompt — vs +1pp ao trocar o LLM.

Eval de LLM virou commodity.
Eval de contexto é onde IA enterprise ganha.

Completeness

O retrieval trouxe TUDO que era relevante? Faltou contrato ativo, ticket recente, NPS — Strattum mede.

Accuracy

A informação retornada está correta e atualizada? Strattum checa cada chunk contra ground-truth ou regras.

Relevance

O que voltou era relevante para a pergunta? Mede ruído no retrieval — chunks descartáveis caro pra LLM processar.

Diff entre estratégias

A/B teste: ontology v2 vs v3, embedding model A vs B, top_k 5 vs 10. Decisão data-driven.

De pergunta
a decisão baseada em dado.

Defina o golden set

Conjunto de perguntas + resposta esperada (ou regras de aprovação). Strattum cuida do resto.

UI para curadoria
Import de CSV
Versionado em Git

Eval roda automático

Cada PR de ontologia/Skill/transform dispara Evals. Reports antes do merge.

CI/CD integration
Threshold gates
Diff visual

Reports + alertas

Dashboards por dimensão. Regressão dispara alerta. Aprovação de PR baseada em score.

Dashboards por dimensão
Regression alerts
Approval gates

Eval framework completo
para contexto enterprise.

Recall + Precision

Métricas clássicas de IR adaptadas para retrieval enterprise.

LLM-as-judge

Avaliações qualitativas usando LLM como juiz, calibrado contra human ratings.

Trace por query

Cada eval mostra qual chunk veio, de qual fonte, com qual score.

A/B testing nativo

Compare 2 versões em paralelo. Decida com base no golden set.

Eval contínuo

Rotação periódica do golden set sobre tráfego real, anomalia detectada.

Audit-ready

Reports exportáveis para reguladores. Trilha de decisões.

Onde Evals
destrava decisão técnica.

Ontologia v2

Mudança de modelo de dados

Time quer migrar Customer entity de v1 para v2. Eval mostra se accuracy cai ou sobe.

Evals rodou 1200 queries: accuracy +3%, latency +12ms. Aprovado.

Embedding model

Atualização do vetor

Trocar bge-large por text-embedding-3? Eval mede impacto antes do rollout.

Relevance subiu 8%, custo caiu 30%. Migração aprovada em uma semana.

Skill regression

Skill nova quebrou query antiga?

Eval re-roda perguntas existentes. Catch regression antes do merge.

Nova Skill renomeou campo. 23 queries antigas falharam. Bloqueado no PR.

Evals mede
tudo que sai da plataforma.

Memory Graph

Eval mede qualidade do retrieval do grafo: entidades, relações, timeline.

Conheça Memory Graph →

Knowledge

Eval mede relevância de chunks, drift de embedding, hit rate.

Conheça Knowledge →

Skills

Cada Skill tem seu próprio eval suite. Regression detection.

Conheça Skills →

O que não é medido
vira excusa.

Ver documentação →

Mede o contexto.Não o LLM.

Eval de LLM virou commodity.Eval de contexto é onde IA enterprise ganha.