Mudança de modelo de dados
Time quer migrar Customer entity de v1 para v2. Eval mostra se accuracy cai ou sobe.
Evals avalia a qualidade do contexto que Strattum entrega para o agente — completude, precisão, relevância. Times de dados controlam o que podem controlar; o resto é com o LLM.
O retrieval trouxe TUDO que era relevante? Faltou contrato ativo, ticket recente, NPS — Strattum mede.
A informação retornada está correta e atualizada? Strattum checa cada chunk contra ground-truth ou regras.
O que voltou era relevante para a pergunta? Mede ruído no retrieval — chunks descartáveis caro pra LLM processar.
A/B teste: ontology v2 vs v3, embedding model A vs B, top_k 5 vs 10. Decisão data-driven.
Conjunto de perguntas + resposta esperada (ou regras de aprovação). Strattum cuida do resto.
Cada PR de ontologia/Skill/transform dispara Evals. Reports antes do merge.
Dashboards por dimensão. Regressão dispara alerta. Aprovação de PR baseada em score.
Métricas clássicas de IR adaptadas para retrieval enterprise.
Avaliações qualitativas usando LLM como juiz, calibrado contra human ratings.
Cada eval mostra qual chunk veio, de qual fonte, com qual score.
Compare 2 versões em paralelo. Decida com base no golden set.
Rotação periódica do golden set sobre tráfego real, anomalia detectada.
Reports exportáveis para reguladores. Trilha de decisões.
Time quer migrar Customer entity de v1 para v2. Eval mostra se accuracy cai ou sobe.
Trocar bge-large por text-embedding-3? Eval mede impacto antes do rollout.
Eval re-roda perguntas existentes. Catch regression antes do merge.
Eval mede qualidade do retrieval do grafo: entidades, relações, timeline.
Conheça Memory Graph →Agende uma demo de 30 minutos. Mostramos Strattum rodando com dados parecidos com os seus, na arquitetura que sua empresa pode receber.