Anunciamos US$ 3,2M em rodada Seed · OneVC · Maya · Norte Ventures Leia →
Strattum Evals

Mede o contexto.
Não o LLM.

Evals avalia a qualidade do contexto que Strattum entrega para o agente — completude, precisão, relevância. Times de dados controlam o que podem controlar; o resto é com o LLM.

Input
mesmo para todas as runs
PERGUNTA
"Qual o saldo de Maria Silva e o risco de churn no Q4?"
contextov17
suitegolden · 128 q.
matriz4 prompts × 4 LLMs
Strattum
Evals
8 restantes · run #1247
Claude
Claude
ChatGPT
ChatGPT
Gemini
Gemini
Grok
Grok
P1base
P2CoT
P3few-shot
P4self-ask
88%
RUN86%
81%
96%
93%
91%
87%
92%
91%
89%
84%
89%
88%
85%
82%
Best run
mesma resposta, melhor combo
96%
faithfulness0.98
grounded0.96
recall0.95
precision0.94
P2 · CoTprompt
Claude
ClaudeLLM
CONCLUSÃO
Mesmo contexto, score sobe +12pp ao trocar o prompt — vs +1pp ao trocar o LLM.

Eval de LLM virou commodity.
Eval de contexto é onde IA enterprise ganha.

Completeness

O retrieval trouxe TUDO que era relevante? Faltou contrato ativo, ticket recente, NPS — Strattum mede.

Accuracy

A informação retornada está correta e atualizada? Strattum checa cada chunk contra ground-truth ou regras.

Relevance

O que voltou era relevante para a pergunta? Mede ruído no retrieval — chunks descartáveis caro pra LLM processar.

Diff entre estratégias

A/B teste: ontology v2 vs v3, embedding model A vs B, top_k 5 vs 10. Decisão data-driven.

De pergunta
a decisão baseada em dado.

1

Defina o golden set

Conjunto de perguntas + resposta esperada (ou regras de aprovação). Strattum cuida do resto.

  • UI para curadoria
  • Import de CSV
  • Versionado em Git
2

Eval roda automático

Cada PR de ontologia/Skill/transform dispara Evals. Reports antes do merge.

  • CI/CD integration
  • Threshold gates
  • Diff visual
3

Reports + alertas

Dashboards por dimensão. Regressão dispara alerta. Aprovação de PR baseada em score.

  • Dashboards por dimensão
  • Regression alerts
  • Approval gates

Eval framework completo
para contexto enterprise.

Recall + Precision

Métricas clássicas de IR adaptadas para retrieval enterprise.

LLM-as-judge

Avaliações qualitativas usando LLM como juiz, calibrado contra human ratings.

Trace por query

Cada eval mostra qual chunk veio, de qual fonte, com qual score.

A/B testing nativo

Compare 2 versões em paralelo. Decida com base no golden set.

Eval contínuo

Rotação periódica do golden set sobre tráfego real, anomalia detectada.

Audit-ready

Reports exportáveis para reguladores. Trilha de decisões.

Onde Evals
destrava decisão técnica.

Ontologia v2

Mudança de modelo de dados

Time quer migrar Customer entity de v1 para v2. Eval mostra se accuracy cai ou sobe.

Evals rodou 1200 queries: accuracy +3%, latency +12ms. Aprovado.
Embedding model

Atualização do vetor

Trocar bge-large por text-embedding-3? Eval mede impacto antes do rollout.

Relevance subiu 8%, custo caiu 30%. Migração aprovada em uma semana.
Skill regression

Skill nova quebrou query antiga?

Eval re-roda perguntas existentes. Catch regression antes do merge.

Nova Skill renomeou campo. 23 queries antigas falharam. Bloqueado no PR.

Evals mede
tudo que sai da plataforma.

Memory Graph

Eval mede qualidade do retrieval do grafo: entidades, relações, timeline.

Conheça Memory Graph →

Knowledge

Eval mede relevância de chunks, drift de embedding, hit rate.

Conheça Knowledge →

Skills

Cada Skill tem seu próprio eval suite. Regression detection.

Conheça Skills →

O que não é medido
vira excusa.

Agende uma demo de 30 minutos. Mostramos Strattum rodando com dados parecidos com os seus, na arquitetura que sua empresa pode receber.