Observabilidad y Evals: cómo detectar a tiempo que tu asistente se desvió

En entornos productivos, no basta con que un asistente funcione en desarrollo. Sin trazabilidad y mecanismos de evaluación continua, los errores se multiplican, el coste se dispara y la confianza del usuario se erosiona. Para que un sistema basado en LLMs como LangChain4j sea fiable, la observabilidad y las evaluaciones (evals) son componentes de primera clase.

1. Qué medir: más allá del prompt

Un sistema observable mide:

Inputs y outputs del LLM (texto, tamaño, tokenización).
Herramientas utilizadas (cuáles, cuántas veces, con qué inputs).
Latencias: por turno, por tool, por componente.
Tokens usados: por mensaje, por sesión, por tipo.

Cada turno debe generar una traza técnica completa.

2. Trazabilidad por turno y usuario

Toda interacción debe estar ligada a:

userId
conversationId
turnId

Esto permite reconstruir secuencias, detectar fallos y hacer debugging preciso. Además, se deben guardar:

Reason codes de decisiones.
Logs de tools llamadas y resultados.
Eventos de fallback o errores.

3. Evals: deterministas vs conversacionales

Deterministas: se validan salidas frente a una referencia esperada. Útil para tools, lógica y reglas de negocio.
Conversacionales: se evalúa calidad de respuesta mediante etiquetas humanas o modelos evaluadores. Miden relevancia, tono, cobertura.

Ambos tipos deben formar parte del pipeline de validación continua.

4. Umbrales, alertas y acción

No basta con observar: hay que actuar. Define:

KPIs críticos: como coste por turno, ratio de fallback, ratio de tool correcta.
Umbrales: valores aceptables por contexto o entorno.
Alertas: automáticas, con canales definidos.
Acciones: rollback, reinicio, fallback seguro.

5. Circuit breakers y degradación

Ante desviaciones críticas:

Aplica circuit breakers que desactiven rutas defectuosas.
Activa degradación controlada: respuestas básicas, solo flujo determinista, sin tools.

Esto protege la experiencia del usuario y evita errores repetidos.

Tabla de KPIs críticos

KPI	Definición	Umbral	Alerta	Acción sugerida
Tool success rate	% de tools llamadas con éxito	>90%	Slack/Email	Revisión de argumentos y schema
Fallback rate	% de turnos con fallback	<15%	Dashboard	Afinar clasificador de intención
Coste por turno	Tokens x precio	<0.05 €	Cloud logs	Limitar contexto
Tiempo medio por tool	ms promedio por ejecución	<1200 ms	Grafana	Revisión de tool lenta

Checklist operativo

Muestreo regular de sesiones (automatizado).
Redacción o anonimización de PII.
Panel de métricas accesible y actualizado.

Preguntas frecuentes

¿Cada cuánto correr los evals?
- Depende del volumen. Idealmente, en continuo para deterministas y cada pocos días para conversacionales.
¿Cómo etiquetar datos para evals?
- Puedes usar asistentes humanos, flujos internos de QA o modelos especializados. La clave es consistencia.

Conclusión

La calidad no es un accidente: se mide, se traza y se mejora. La observabilidad y los evals no son extras opcionales, sino pilares para que un asistente con LLMs sobreviva en producción. En Lean Mind trabajamos junto a nuestros clientes para instrumentar estos sistemas desde el primer día, garantizando estabilidad, trazabilidad y mejora continua.